python – 通过Pandas DataFrame搜索子字符串的最有效方法是什么
发布时间:2020-12-20 11:06:47 所属栏目:Python 来源:网络整理
导读:我有一个包含75k行文本的Pandas Dataframe(每行大约350个字符).我需要搜索该数据帧中45k子串列表的出现. 预期输出是authors_data dict,其中包含作者列表和出现次数.下面的代码假设我有一个dataframe [‘text’]列和一个名为authors_list的子字符串列表. auth
我有一个包含75k行文本的Pandas Dataframe(每行大约350个字符).我需要搜索该数据帧中45k子串列表的出现.
预期输出是authors_data dict,其中包含作者列表和出现次数.下面的代码假设我有一个dataframe [‘text’]列和一个名为authors_list的子字符串列表. authors_data = {} for author in authors_list: count = 0 for i,row in df.iterrows(): if author in row.text: count += 1 authors_data[author] = count print(author,authors_data[author]) 我做了一些初步测试,10位作者花了我大约50秒.完整的表格将花费我几天的时间来运行.所以我正在寻找更有效的方法来运行代码. df.iterrows()足够快吗?我应该研究一下特定的库吗? 让我知道! 解决方法
我试过这个,它正在做你想要的.你可以测试一下它是否更快.
for author in authors_list: authors_data[author] = df['AUTHORCOL'].map(lambda x: author in x).sum() (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |