加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

如何在mmseg3添加词库

发布时间:2020-12-15 18:20:59 所属栏目:安全 来源:网络整理
导读:? 一、了解几个文件 ll /usr/local/mmseg/etc/ mmseg.ini? uni.lib 编译后的词库,给sphinx 用的 unigram.txt 原词库给人看的, 在这里面人工添加自己的词库 二、添加词条,格式如下 vim?/usr/local/mmseg/etc/unigram.txt 邯郸王队 1? //[词条]t[词频率] x:
?

一、了解几个文件

ll /usr/local/mmseg/etc/
mmseg.ini?
uni.lib   编译后的词库,给sphinx 用的
unigram.txt   原词库给人看的, 在这里面人工添加自己的词库

二、添加词条,格式如下

vim?/usr/local/mmseg/etc/unigram.txt

邯郸王队  1?   //[词条]t[词频率]
x:1?   //占位项(x:1即可)
工信处  1
x:1
女干事  1
x:1

注意:这里一定要是t分隔,把词库文件下载下来,然后查看所有字符就知道了,直接vi的话不能copy,要手工输入Tab键

三、重新编译

编译词库:

/usr/local/mmseg/bin/mmseg -u unigram.txt         生成这个 unigram.txt.uni 文件,把这个文件重命名为uni.lib,给sphinx 用的即可
mv unigram.txt.uni  uni.lib
chmod +x /usr/local/mmseg/etc/uni.lib 
// 可以不重启,保险起见还是重启下吧
/usr/local/coreseek/bin/searchd --stop           关掉searchd 
/usr/local/coreseek/bin/searchd                  启动searchd
/usr/local/coreseek/bin/indexer --all --rotate   生成索引

检查是否生效
/usr/local/coreseek/bin/search 工信处女干事邯郸王队
words:
1. ‘工信处‘: 0 documents,0 hits
2. ‘女干事‘: 0 documents,0 hits
3. ‘邯郸王队‘: 0 documents,0 hits
说明词库生效了

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读