深蓝词库转换1.3版本发布——增强单词注音功能
“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。 目前支持的输入法有: PC端: *搜狗拼音 *QQ拼音 *QQ五笔(纯汉字) *谷歌拼音 *搜狗五笔 *紫光拼音 *拼音加加 手机端: *QQ手机拼音 *百度手机拼音? 由于工作和个人的原因,所以深蓝词库转换很久很久没有更新了,趁着这个国庆有时间,所以对该小程序做了下版本更新,主要更新的功能有: 1.增强了单词注音功能。 有些词库是只有汉字而完全没有拼音的词库,这种词库要转换成我们想要的词库,那么就会遇到一个多音字的问题,我以前的版本就是采用简单粗暴的办法来对付多音字,多音字直接使用一个默认注音,或者就干脆把所有多音字的拼音都显示出来,形成多个词条。 现在我对程序进行了改进,默认维护了一个多音字的词库,可以自动找到大部分多音字的正确读音。比如我们有以下这样一个词库需要转换: 音乐就是快乐 调和不能变调 我要骑我的坐骑 收藏的藏语书 刚正不阿的阿楠 子弹与弹簧 参与挖人参计划 三人行银行 曾经的曾国藩 使用1.3版的深蓝词库转换,将这个词库转换为搜狗拼音词库的界面如图所示: 从截图中可以看到,无论是“音乐”还是“快乐”,无论是“子弹”还是“弹簧”基本上都可以找到正确的读音。 2.外挂注音词库 能够实现上面正确注音是因为有一个默认的多音字注音词库,但是这个词库并不是很大很全,如果遇到一些没有维护在其中的多音字词,那么系统就会采用默认的拼音,那么就有可能是错误的。比如我们在维护一个关于各种参的词库,词库内容是: 人参 花旗参 党参 沙参 西洋参 高丽参 转换的结果如图所示: 我们可以发现,第二个词“花旗参”的注音错误了,因为系统自带注音库中没有找到这个词,所以采用了默认的注音“can”,对于这种发现的注音错误,我们可以自己维护一个注音库,命名为“pinyin.txt”,放在该转换程序的同一个目录下,然后从新运行该词库,系统将会使用这个注音库中的词。这个注音库的格式采用搜狗拼音输入法的txt词库导出格式,一个词一行。在pinyin.txt中输入“'hua'qi'shen 花旗参”并保存,重新运行该程序,可以得到我们想要的结果:
3.不显示转换后的结果,直接导出。 在进行大批量数据的词库转换时,有一个性能上的问题,就是将几十万或者几百万条词条显示在下面的文本框中会非常消耗资源,其实这个显示是没有必要的,我们可以直接导出转换后的词库到硬盘上即可,而减少显示这个环节。 在“高级设置”菜单中选中“不显示结果,直接导出”这个选项:
然后再选择词库,点击“转换”按钮,即可直接导出词库。如图所示: 我一直将这个项目开源,您对源代码感兴趣可以查看,地址为 另外,QQ分类词库(QPYD格式)我研究了一下,没有研究出来,不知道该怎么解析,希望有高手能够帮忙指点指点。如果能够把QQ分类词库给导出,那就更完美了。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 使用C#登录带验证码的网站
- asp.net-mvc – ASP.Net MVC异常记录与错误处理相结合
- ASP.NET MVC 3自定义身份验证/授权
- asp.net-core-signalr – 在ClientSide上获取SignalrR Conn
- 删除ASP.NET MVC 4路由到应用程序根目录中的尾随斜杠
- regex – RegularExpressionAttribute – 如何使它不区分大
- ASP.NET MVC中的经典ASP(C#)
- IE不保存asp.net身份验证令牌/ cookie
- ASP.NET Core:跟踪当前活动页面,或如何在视图中获取控制器
- asp.net – AjaxFileUpload回发false
- asp.net-mvc – 为什么我得到一个“无法更新Enti
- 使用ASP.Net MVC将图像上传到SQL Server 2005?
- asp.net-mvc – 将依赖项注入自定义ModelBinder
- asp.net – 存储CheckBoxList的DataValueField值
- asp.net – 如何使用窗口身份验证获取电子邮件地
- .net – MVC中的客户端证书颁发者(指纹)
- asp.net – MySQL ::连接器/净欧元符号
- asp-classic – VBScript似乎是来自嵌套作用域的
- 接受List的ASP.NET Web方法失败,“Web服务方法名
- asp.net – 类似于CMS的Web应用程序帮助框架?