导入搜狗实验室新闻语料库
发布时间:2020-12-16 08:11:48 所属栏目:百科 来源:网络整理
导读:在搜狗实验室下载的新闻语料库中存储的 一条新闻的数据格式 是 doc url / url docno / docno contenttitle / contenttitle content / content / doc 多条新闻数据 就是多个doc的重复 doc url / url docno / docno contenttitle / contenttitle content / con
在搜狗实验室下载的新闻语料库中存储的一条新闻的数据格式是 <doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
多条新闻数据就是多个doc的重复 <doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
<doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
这种文本文件不是标准的xml文件,因为所有的doc节点都直接是最顶层,没有根节点。因此要添加根节点使该文本文件符合xml文件的规范。 但是用notepad++打开后,notepad++就无响应了,过了一会提示文件过大。 最后我想到可以windows的copy命令将文本文件与语料文件合并来在文件的头部和尾部添加文本。 通过合并文本在文本的前后添加字符
<docs>
</docs>
copy /b head.txt + ..news_sohusite_xml_full.xml + end.txt canbeimport.xml
此时生成的文本就一docs文根节点的标准xml文档了。可以用navcat (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |