帮助：从文本中提取数据元组…正则表达式或机器学习？

发布时间：2020-12-14 06:01:25 所属栏目：百科来源：网络整理

导读：我非常感谢您对以下问题的最佳方法的看法.我正在使用汽车分类列表示例,其性质类似于给出一个想法. 问题：从给定文本中提取数据元组. 以下是数据的一些特征. 文本中的词汇(单词)仅限于特定领域.让我们假设最多100-200个单词. 需要解析的文本是标题,如下面显示

我非常感谢您对以下问题的最佳方法的看法.我正在使用汽车分类列表示例,其性质类似于给出一个想法.

问题：从给定文本中提取数据元组.

以下是数据的一些特征.

>文本中的词汇(单词)仅限于特定领域.让我们假设最多100-200个单词.
>需要解析的文本是标题,如下面显示的汽车广告数据.所以每条记录对应一个元组(行).
>在某些情况下,某些属性可能会丢失.因此,例如,在原始数据行#5中,缺少年份.
>有些词汇在一起(双字母).喜欢“低里程”.
>可用的历史数据= 10,000条记录
>传入的新数据量= 1000-1500条记录/周

预期输出应采用(年,制,模型,特征)的形式.所以输出应该是这样的

1 – > (2009年,福特,Fusion,SE)
2 – > (1997年,金牛座,旅行车)
3 – > (2000,Mitsubishi,Mirage,DE)
4 – > (2007年,Expedition,EL Limited)
5 – > (,本田,雅阁,EX)
….
….

原始标题数据：

1 – > 2009 Ford Fusion SE – 7000美元
2 – > 1997年福特金牛座旅行车 – 800美元(圣何塞东)
3 – > ’00 Mitsubishi Mirage DE – $2499(saratoga)图片
4 – > 2007 Ford Expedition EL Limited – $7800(x)
5 – > Honda Accord ex low miles – $2800(都柏林/ enjoyon / livermore)图片
6 – > 2004 HONDA ODASSEY LX 68K MILES – $10800(danville / san ramon)
7 – > 93 LINCOLN MARK – $2000(奥克兰东部)照片
8 – > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### – $19700(san rafael)pic
9 – > 2004年奥迪A4 1.8T FWD – 8900美元(萨克拉门托)图片
10 – > ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### – $10575(san rafael)pic
11 – > 1990年丰田卡罗拉跑得好！省气！ 5SPEED清洁！ REG 2011 O.B.O – 1600美元(海沃德/卡斯特罗山谷)图片img
12 – > HONDA ACCORD EX 2000 – $4900(都柏林/ enjoyon / livermore)图片
13 – > 2009年雪佛兰Silverado LT船员驾驶室 – $23900(都柏林/ enjoyon / livermore)图片
14 – > 2010 Acura TSX – V6 – TECH – $29900(都柏林/ pleasanton / livermore)图片
15 – > 2003年日产Altima – 1830美元(SF)图片

可能的选择：

>机器学习文本分类器(朴素贝叶斯等)
>正则表达式

我想弄清楚的是,如果RegEx对于作业而言过于复杂而且Text分类器是否过度杀伤？

如果选择使用文本分类器,那么您认为最容易实现的是什么.

在此先感谢您的帮助.

解决方法

这是一个研究得很好的问题,叫做 information extraction.做你想做的事情并不简单,并且它并不像你说的那样简单(即机器学习不是一种矫枉过正).有几种技术,您应该阅读研究领域的概述.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!