加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

用正则表达式清除各类符号

发布时间:2020-12-14 01:53:50 所属栏目:百科 来源:网络整理
导读:一篇文章,先转为单词为元素的列表。 分解时遇到的第一个问题,就是如果去除各类标点符号。 import re line='asdf fjdk;;;; s afred,fjek.asdf,foo^ sdkk' re.split(r'[;^,.s]*',line) # 表示后面的字符串没有转义符。【这里面是要作为分隔的各类符号】,外

一篇文章,先转为单词为元素的列表。

分解时遇到的第一个问题,就是如果去除各类标点符号。

import re

line='asdf fjdk;;;; s afred,fjek.asdf,foo^ sdkk'

re.split(r'[;^,.s]*',line) # 表示后面的字符串没有转义符。【这里面是要作为分隔的各类符号】,外面的*表示重复也算。

运算结果,['asdf','fjdk','afred','fjek','asdf','foo','sdkk']

在得到分解LIST后,就可以进行单词分析了。要用到Counter工具。

words = [

'look','into','my','eyes','look',

'the','the','not','around',255);"> 'eyes',"don't",255);"> 'my',"you're",'under'

]

from collections import Counter

word_counts = Counter(words)

top_three = word_counts.most_common(3)

print(top_three)

# Outputs [('eyes',8),('the',5),('look',4)]

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读