加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

在python中快速/优化N-gram实现

发布时间:2020-12-20 10:33:56 所属栏目:Python 来源:网络整理
导读:哪个ngram实现在 python中最快? 我试图描述nltk与vs scott的拉链(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/): from nltk.util import ngrams as nltkngramimport this,timedef zipngram(text,n=2): return zip(*[t
哪个ngram实现在 python中最快?

我试图描述nltk与vs scott的拉链(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):

from nltk.util import ngrams as nltkngram
import this,time

def zipngram(text,n=2):
  return zip(*[text.split()[i:] for i in range(n)])

text = this.s

start = time.time()
nltkngram(text.split(),n=2)
print time.time() - start

start = time.time()
zipngram(text,n=2)
print time.time() - start

[OUT]

0.000213146209717
6.50882720947e-05

有没有更快的实现在python中生成ngrams?

解决方法

一些尝试与一些分析.我认为使用发电机可以提高速度.但与原版的略微修改相比,这种改进并不明显.但如果您不需要同时使用完整列表,则生成器功能应该更快.

import timeit
from itertools import tee,izip,islice

def isplit(source,sep):
    sepsize = len(sep)
    start = 0
    while True:
        idx = source.find(sep,start)
        if idx == -1:
            yield source[start:]
            return
        yield source[start:idx]
        start = idx + sepsize

def pairwise(iterable,n=2):
    return izip(*(islice(it,pos,None) for pos,it in enumerate(tee(iterable,n))))

def zipngram(text,n=2):
    return zip(*[text.split()[i:] for i in range(n)])

def zipngram2(text,n=2):
    words = text.split()
    return pairwise(words,n)


def zipngram3(text,n=2):
    words = text.split()
    return zip(*[words[i:] for i in range(n)])

def zipngram4(text,n=2):
    words = isplit(text,' ')
    return pairwise(words,n)


s = "Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam,quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident,sunt in culpa qui officia deserunt mollit anim id est laborum."
s = s * 10 ** 3

res = []
for n in range(15):

    a = timeit.timeit('zipngram(s,n)','from __main__ import zipngram,s,n',number=100)
    b = timeit.timeit('list(zipngram2(s,n))','from __main__ import zipngram2,number=100)
    c = timeit.timeit('zipngram3(s,'from __main__ import zipngram3,number=100)
    d = timeit.timeit('list(zipngram4(s,'from __main__ import zipngram4,number=100)

    res.append((a,b,c,d))

a,d = zip(*res)

import matplotlib.pyplot as plt

plt.plot(a,label="zipngram")
plt.plot(b,label="zipngram2")
plt.plot(c,label="zipngram3")
plt.plot(d,label="zipngram4")
plt.legend(loc=0)
plt.show()

对于这个测试数据,zipngram2和zipngram3似乎是最快的.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读