1. 前言
有志者,事竟成,破釜沉舟,百二秦关终属楚;
苦心人,天不负,卧薪尝胆,三千越甲可吞吴。
2. 习题
2.1 习题1(文本分类)
下列哪个不属于常用的文本分类的特征选择算法?
A.卡方检验值
B.互信息
C.信息增益
D.主成分分析
正确答案:D
解析:
常采用特征选择方法。常见的六种特征选择方法:
1)DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2)MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
3)(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
4)CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
5)WLLR(Weighted Log Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性
而主成分分析是特征转换算法(特征抽取),而不是特征选择。
2.2 习题2(序列模式挖掘算法)
下面有关序列模式挖掘算法的描述,错误的是?
A.AprioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列
B.FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库
C.在时空的执行效率上,FreeSpan比PrefixSpan更优
D.和AprioriAll相比,GSP的执行效率比较高
正确答案:C
解析:
Apriori算法 :关联分析原始算法,用于从候选项集中发现频繁项集。两个步骤:进行自连接、进行剪枝。缺点:无时序先后性。
AprioriAll算法:AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,需要区分最后两个元素的前后。
AprioriSome算法:可以看做是AprioriAll算法的改进
AprioriAll算法和AprioriSome算法的比较:
(1)AprioriAll用 去计算出所有的候选Ck,而AprioriSome会直接用 去计算所有的候选 ,因为 包含 ,所以AprioriSome会产生比较多的候选。
(2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。
(3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。
(4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。
GPS算法:类Apriori算法。用于从候选项集中发现具有时序先后性的频繁项集。两个步骤:进行自连接、进行剪枝。缺点:每次计算支持度,都需要扫描全部数据集;对序列模式很长的情况,由于其对应的短的序列模式规模太大,算法很难处理。
SPADE算法:改进的GPS算法,规避多次对数据集D进行全表扫描的问题。与GSP算法大体相同,多了一个ID_LIST记录,使得每一次的ID_LIST根据上一次的ID_LIST得到(从而得到支持度)。而ID_LIST的规模是随着剪枝的不断进行而缩小的。所以也就解决了GSP算法多次扫描数据集D问题。
FreeSpan算法:即频繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想为:利用频繁项递归地将序列数据库投影到更小的投影数据库集中,在每个投影数据库中生成子序列片断。这一过程对数据和待检验的频繁模式集进行了分割,并且将每一次检验限制在与其相符合的更小的投影数据库中。
优点:减少产生候选序列所需的开销。缺点:可能会产生许多投影数据库,开销很大,会产生很多的
PrefixSpan 算法:从FreeSpan中推导演化而来的。收缩速度比FreeSpan还要更快些。
2.3 习题3(类域界面方程法)
类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?
A.伪逆法
B.感知器算法
C.基于二次准则的H-K算法
D.势函数法
正确答案:B
解析:
伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。
感知器算法:线性分类模型。
H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。
势函数法:势函数非线性。
2.4 习题4(分支定界法)
在()情况下,用分支定界法做特征选择计算量相对较少?
A.选用的可分性判据J具有可加性
B.选用的可分性判据J对特征数目单调不减
C.样本较多
D.
Cdn>>n,(n为原特征个数,d为要选出的特征个数)
正确答案:BD
解析:
选用的可分性判据J对特征数目单调不减:
定义一个满足单调性条件的评价准则函数,对两个特征子集S1和S2而言,如果S1是S2的子集,那么S1所对应的评价函数值必须要小于S2所对应的评价函数值,在定义了该评价函数的前提下,该算法对最终特征子集的选择过程可以用一棵树来描述,树根是所有特征的集合从树根可分性判据值和事先定义的最佳特征子集的特征数目,搜索满足要求的特征子集
但存在3个问题:
1于该算法无法对所有的特征依据其重要性进行排序!如何事先确定最优特征子集中特征的数目是一个很大的问题
2合乎问题要求的满足单调性的可分性判据难以设计
3当处理高维度多分类问题时!算法要运行多次!计算效率低下的问题将非常明显
2.5 习题5(概率密度函数)
已知两个一维模式类别的类概率密度函数为:

先验概率P(ω1)=0.6;P(ω2)=0.4,则样本{x1=1.35,x2=1.45,x3=1.55,x4=1.65}各属于哪一类别?
A.X4 ∈ w2
B.X3 ∈ w1
C.X2 ∈ w1
D.X1 ∈ w1
正确答案:ABCD
解析:
概率问题基本上都是贝叶斯和全概率互相扯蛋,,他们之间往往可以通过条件概率建立联系。
本题中,要判断 xi 属于w1,还是w2,就是判断 p(w1 | xi) 和 p(w2 | xi)的大小关系。即在xi已经发生的情况下,xi 属于哪个类别(w1 ,w2)的可能性更大。
p(w1|xi)=p(xiw1)p(xi)=p(xi|w1)?p(w1)p(xi)=0.6?(2?xi)p(xi)
// 因为xi都在 (1,2)范围
p(w2|xi)=p(xiw2)p(xi)=p(xi|w2)?p(w2)p(xi)=0.4?(xi?1)p(xi)
// 因为xi都在 (1,2)范围
上面两等式相减,得:
Δ=p(w1|xi)?p(w2|xi)=(1.6?xi)p(xi)
所以,在上述样本中,大于1.6的,属于w2,小于1.6的,属于w1。
看了很多公司的概率题基本上都是在贝叶斯和全概率上面扯,掌握这个套路就行。
3. 小结
这一章中,我们主要复习了文本分类、序列模式挖掘算法、类域界面方程法、分支定界法、概率密度函数等。