php – 使用许多不同的查询搜索文档
我正在编写一个脚本,将新闻文章作为输入,并返回文章中提到的所有上市公司及其相应符号的列表.有大约6,500个独特的公司名称可以提及.
我的第一个想法是使用正则表达式从文章中删除可能是公司名称的所有名称.公司名称可能会有很大差异,但几乎所有名称中的每个单词都以大写字母开头,所以我认为这可能只会产生一些误报(可能是个人与公司共享名称的情况). 下一个问题是将可能的公司名称与所有公司和符号列表进行比较.我该如何存储清单?作为一个表格,每个条目都有公司和符号字段?看起来这是使用公司映射到符号的hashmap的理想位置.使用前面提到的映射序列化数组是否比mysql解决方案更快,并且只是在我的脚本开头查找文章中的名称时将其反序列化? 解决方法
有一个原因,我们使用#或@前缀作为标签或名称引用,它有助于创建模式匹配.如果你允许这种规模的“误报”,我想你会在脚下射击自己. 我会遵循标准的’股票行情’文章格式,包括公司名称或股票格式参考,如美国公司公司(ACCO),这将允许您只是寻找(*)参考. 除了坚持使用格式之外,您将很难获得快速,相关且准确的结果. 复杂的解决方案是服务器端处理误报,加载完整的名称列表和处理匹配,一些警报系统带有审查警报,但这只是一个很大的开销,当一个简单的格式调整可以很长的路要走) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |