用Python构建NLP Pipeline，从思路到具体代码！保证你能学会！

发布时间：2020-12-17 00:36:54 所属栏目：Python 来源：网络整理

导读：授人以鱼不如授人以渔，今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码，还一步步详细解析了实现原理和思路。正所谓有了思路，无论是做英语、汉语的语言处理，才算的上有了指导意义。 Adam Geitgey毕业于佐治亚理工学院，曾在

授人以鱼不如授人以渔，今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码，还一步步详细解析了实现原理和思路。正所谓有了思路，无论是做英语、汉语的语言处理，才算的上有了指导意义。

Adam Geitgey毕业于佐治亚理工学院，曾在团购网站Groupon担任软件工程师总监。目前是软件工程和机器学习顾问，课程作者，Linkedin Learning的合作讲师。

计算机是如何理解人类语言的?

让机器理解人类语言，是一件非常困难的事情。计算机的专长在处理结构化数据，但人类语言是非常复杂的，碎片化，松散，甚至不合逻辑、心口不一。

既然直男不能明白为什么女朋友会生气，那计算机当然无法理解A叫B为孙子的时候，是在喊亲戚、骂街，或只是朋友间的玩笑。

面对人类，计算机相当于是金刚陨石直男。

正是由于人工智能技术的发展，不断让我们相信，计算机总有一天可以听懂人类表达，甚至像真人一样和人沟通。那么，就让我们开始这算美好的教程吧。

进群：548377875? ?即可获取数十套PDF以及大量的学习教程哦！

创建一个NLP Pipeline

London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain,London has been a major settlement for two millennia. It was founded by the Romans,who named it Londinium.

伦敦，是英国的首都，人口居全国之首。位于大不列颠岛东南方泰晤士河流域，在此后两个世纪内为这一地区最重要的定居点之一。它于公元50年由罗马人建立，取名为伦蒂尼恩。

-- 维基百科

Step 1：断句（句子切分）

上面介绍伦敦的一段话，可以切分成3个句子：

伦敦是大不列颠的首都，人口居全国之首（London is the capital and most populous city of England and the United Kingdom）
位于泰晤士河流域（Standing on the River Thames in the south east of the island of Great Britain,London has been a major settlement for two millennia）
它于公元50年由罗马人建立，取名为伦蒂尼恩（It was founded by the Romans,who named it Londinium）

Step 2：分词

由于中文的分词逻辑和英文有所不同，所以这里就直接使用原文了。接下来我们一句一句的处理。首先第一句：

“London”,“is”,“ the”,“capital”,“and”,“most”,“populous”,“city”,“of”,“England”,“the”,“United”,“Kingdom”,“.”

英文的分词相对简单一些，两个空格之间可以看做一个词（word），标点符号也有含义，所以把标点符号也看做一个词。

Step 3：区分单词的角色

我们需要区分出一个词在句子中的角色，是名词？动词？还是介词。我们使用一个预先经过几百万英文句子训练、被调教好的词性标注（POS: Part Of Speech）分类模型：

这里有一点一定要记住：模型只是基于统计结果给词打上标签，它并不了解一个词的真实含义，这一点和人类对词语的理解方式是完全不同的。

处理结果：

可以看到。我们等到的信息中，名词有两个，分别是伦敦和首都。伦敦是个独特的名称，首都是个通用的称谓，因此我们就可以判断，这句话很可能是在围绕伦敦这个词说事儿。

Step 4：文本词形还原

很多基于字母拼写的语言，像英语、法语、德语等，都会有一些词形的变化，比如单复数变化、时态变化等。比如：

I had a pony（我有过一匹矮马）
I have two ponies （我有两匹矮马）

其实两个句子的关键点都是矮马pony。Ponies和pony、had和have只是同一个词的不同词形，计算机因为并不知道其中的含义，所以在它眼里都是完全不一样的东西，

让计算机明白这个道理的过程，就叫做词形还原。对之前有关伦敦介绍的第一句话进行词形还原后，得到下图

Step 5：识别停用词

停用词：在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

-- 维基百科

还是来看第一句话：