Java实现的最大匹配分词算法详解
本篇章节讲解Java实现的最大匹配分词算法。分享给大家供大家参考,具体如下: 全文检索有两个重要的过程: 1分词 2倒排索引 我们先看分词算法 目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,P(AB)表示AB相邻出现的概率,P(A)表示A在这篇文章中的频度,P(B)表示B在这篇文章中的频度。用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率。 另外的一个方向是使用词典分词。就是事先为程序准备一个词典,然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。 以 “我是一个坏人” 为例,并最大词长为3,词库包含有 我、是、一、个、一个、坏人、大坏人 正向的顺序为 我是一 结果 我、是、一个、坏人 反向算法 个坏人 结果 我、是、一个、坏人 java代码如下 package data; import java.util.Arrays; import java.util.HashSet; import java.util.Set; /** * 最大匹配分词算法 * * @author JYC506 * */ public class SplitString { private Set<String> set = new HashSet<String>(); private int positiveOver = 0; private int reverSEOver = 0; /** * 正向最大匹配 * * @param str 要分词的句子 * @param num 词的最大长度 * @return */ public String[] positiveSplit(String str,int maxSize) { int tem = 0; int length = str.length(); String[] ss = new String[length]; char[] cc = str.toCharArray(); for (int i = 0; i < length; i++) { positiveOver = 0; String sb = this.toStr(cc,i,maxSize); ss[tem++] = sb; i = i + positiveOver; } String[] ss2 = new String[tem]; System.arraycopy(ss,ss2,tem); return ss2; } /** * 添加词库 * * @param words */ public void addWord(String[] words) { for (String st : words) { this.set.add(st); } } /** * 逆向最大匹配 * * @param str * @param num * @return */ public String[] reverseSplit(String str,int num) { int tem = 0; int length = str.length(); String[] ss = new String[length]; char[] cc = str.toCharArray(); for (int i = str.length() - 1; i > -1; i--) { reverSEOver = 0; String sb = this.toStr2(cc,num); tem++; ss[--length] = sb; i = i - reverSEOver; } String[] ss2 = new String[tem]; System.arraycopy(ss,str.length() - tem,tem); return ss2; } private String toStr(char[] cs,int start,int num) { int num2 = num; out: for (int j = 0; j < num; j++) { StringBuffer sb = new StringBuffer(); for (int i = 0; i < num2; i++) { if (start + i < cs.length) { sb.append(cs[start + i]); } else { num2--; j--; continue out; } } if (set.contains(sb.toString())) { positiveOver = num2 - 1; return sb.toString(); } num2--; } return String.valueOf(cs[start]); } private String toStr2(char[] cs,int num) { int num2 = num; for (int j = 0; j < num; j++) { StringBuffer sb = new StringBuffer(); for (int i = 0; i < num2; i++) { int index = start - num2 + i + 1; if (index > -1) { sb.append(cs[index]); } else { num2--; } } if (set.contains(sb.toString())) { reverSEOver = num2 - 1; return sb.toString(); } num2--; } return String.valueOf(cs[start]); } public static void main(String[] args) { String[] words = new String[] { "我们","我们五人","五人一组","一组" }; SplitString ss = new SplitString(); /*添加词到词库*/ ss.addWord(words); String st = "我们五人一组"; System.out.println("编程小技巧测试结果:"); System.out.println("要分词的句子:" + st); /*使用两种方式分词,下面我指定最大词长度为4*/ String[] ss2 = ss.reverseSplit(st,4); String[] ss1 = ss.positiveSplit(st,4); System.out.println("正向最大匹配分词算法分词结果:" + Arrays.toString(ss1)); System.out.println("逆向最大匹配分词算法分词结果:" + Arrays.toString(ss2)); } } 更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总》 希望本文所述对大家java程序设计有所帮助。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |