? ? ? ? ? ? 文本挖掘作为数据挖掘的一个新主题,引起了人们极大兴趣。文本挖掘是在数据库知识发现基础上发展起来的。文本挖掘,又称为文本知识发现(Knowledge discovery from text)是由 usamaM.Feldman在1995年首次提出,是指从非结构化的文本文档中抽取用户感兴趣的、重要的模式或知识的过程,它可以看作是数据挖掘或数据库知识发现(KDD)的延伸。
?
文本挖掘的过程:文本模型表示->中文分词(英文不用分词)->文本特征提取->数据挖掘
?
A、文本表示模型,主要的有三个、布尔模型、概率模型
?
1、? 向量空间模型 优点:计算简便,效率高;不足:忽略位置信息与语法作用,忽略语义。
?
2、? 布尔模型? 可看成向量空间模型的一个特例,权重值为0或1
?
3、? 概率模型
?
B、中文文本词之间由于没有明显的界限,所以需要分词
?
1、? 有词典分词
?
优点:设计简单,易于实现;不足:对未登录词的切分存在困难;
?
包括逆向匹配、正向最大匹配、正向最小匹配、正向逐词遍历匹配。
?
2、? 无词典分词
?
优点:可以有效的且分出未登录词;
?
主要思想:紧密相连的几个字组成的词在上下文中出现频率比较高,当超过某一阀值,判定为一个词;
?
C、文本特征提取
?
1、文本特征重要性表示:
?
布尔权重
?
频度权重
?
Tf*idf权重
?
2、文本特征降维
?
特征选择:从原有的特证词中挑选最有效的一些特征构成新的特征变量
?
主要分为局部特征选择、全局特征选择
?
文本特征选择的评估方法:
文档频率、互信息、信息增益、交叉熵、卡方统计量
?
特征变换:讲高维特征矢量映射到低维空间
?
主要用到主成份分析、线性判别分析、潜在语义分析
?
D、文本分类方法
?
1、概率类方法
?
贝叶斯分类 优点:易于理解,计算简便,分类效果能满足要求;不足:关于词项独立性的假设好多时候是不成立的;
?
K近邻分类 基于实例分类器,分类结果十分理想;
?
Rocchio方法
?
2、线性分类器
?
批处理分类器、在线分类器
?
3、? 回归模型
?
线性最小拟合
?
支持向量机 优点:克服了过学习、冗余特征和样本分布因素的影响、具有很强的泛化能力;不足:对于大规模训练集,训练收敛速度比较慢,且计算开销比较大;
?
4、? 基于规则的分类方法
?
优点:规则有明确的含义,且容易理解,适用于二值权重的文本描述方法;
?
缺点:学习速度很慢,文本集规模大时,规则库会非常大,而且对数据非常敏感、容易发生过度拟合;
?
5、? 文本关联分析 将关联规则算法用于文本挖掘中
?
E、文本聚类技术
?
分裂法
?
凝聚法
?
一般来讲,文本分类需要解决五个问题,或者说有五个步骤:
?
(l)获取训练文本集
训练文本集选择是否合适对文本分类器的性能有较大影响。训练文本集应该能够广泛地代表分类系统所要处理的客观存在的各个文本类中的文本。一般而言,训练文本集应是公认的经人工分类的语料库。
(2)建立文本表示模型
即选用什么样的文本特征和用怎样的数学形式组织这些文本特征来表征文本。这是文本分类中的一个重要技术问题。目前的文本分类方法和系统大多以词或词组作为表征文本语义的语言要素,表示模型主要有布尔模型、向量空间模型和概率模型。
(3)文本特征选择
语言是一个开放的系统,作为语言的一种书面物化或者电子化的文本也是开放的。它的大小、结构、包含的语言元素和信息都是开放的,因此它的特征也是无限制的。文本分类系统应该选择尽可能少而准确且与文本主题概念密切相关的文本特
征进行文本分类。
(4)选择分类方法
也就是说用什么方法建立从文本特征到文本类别的映射关系,这是文本分类的核心问题。常用的方法有朴素贝叶斯、K近邻(k nearest Neighbor,kNN)、类中心向量、回归模型、最大嫡模型、支持向量机等。实际使用较多的是k一近邻、最大嫡模型和支持向量机,这几种方法分类效果不错,而且具有较强的稳定性。
(5)性能评估模型
即如何评估分类方法和系统的性能或者说分类结果。真正反映文本分类内在特征的性能评估模型可以作为改进和完善分类系统的目标函数。在文本分类中,使用什么评价参数取决于具体的分类问题。单标注分类问题(一个测试文本只属于一个
类)和多标注分类问题(一个测试文本可以属于多个类)所使用的评估参数是不一目前使用比较多的分类性能评估指标为查全率和查准率,这是来源于信息检索中的两个术语。有的还是用F-score=(2*查询率*查全率)/(查准率+查全率),即
查准率与查全率的调和平均值。
文本挖掘领域的重要问题:
文本分类、文本聚类、信息抽取、信息检索、短文本挖掘、情感挖掘
转自http://www.heneita.com/index.php/archives/146