导读
- 最近在做词向量相关工作,词向量的训练数据采用中文维基百科数据,训练之前,要对维基百科数据进行处理,这篇文章记录了一些处理过程及相关的脚本。
一 、维基百科
- 维基百科(Wikipedia),是一个基于维基技术的多语言百科全书协作计划,也是一部用不同语言写成的网络百科全书。维基百科是由吉米·威尔士与拉里·桑格两人合作创建的,于2001年1月13日在互联网上推出网站服务,并在2001年1月15日正式展开网络百科全书的项目。
二 、维基百科处理
1、环境配置
- (1)、编程语言采用 python3
- (2)、Gensim第三方库,Gensim是一个Python的工具包,其中有包含了中文维基百科数据处理的类,使用方便。
- Gensim : https://github.com/RaRe-Technologies/gensim
- 使用
pip install gensim
安装gensim。
- (3)、OpenCC第三方库,是中文字符转换,包括中文简体繁体相互转换等。
- OpenCC:https://github.com/BYVoid/OpenCC,OpenCC源码采用c++实现,如果会用c++的可以使用根据介绍,make编译源码。
- OpenCC也有python版本实现,可以通过pip安装(
pip install opencc-python
或者是pip install opencc-python-reimplemented
),速度要比c++版慢,但是使用方便,安装简单,推荐使用pip安装。
2、数据下载
3、数据抽取
4、中文繁体转简体
5、清洗语料
三 、数据处理脚本
- 最近在github上新开了一个Repository(corpus-process-script),在这个repo,将存放中英文数据处理脚本,语言不限,会有详细的README,希望对大家能有一些帮助。
References
[1] [繁体转简体,CentOS安装OpenCC,升级到gcc4.6](http://www.linuxdown.net/install/soft/2016/0122/4445.html)
[2] [OpenCC - 简体繁体转换](https://www.jianshu.com/p/834a02d085b6)
[3] [wiki语料处理](http://www.cnblogs.com/chenbjin/p/5635853.html)
[4] [中英文维基百科语料上的Word2Vec实验](http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C)
转载请注明出处