我非常感谢您对以下问题的最佳方法的看法.我正在使用汽车分类列表示例,其性质类似于给出一个想法.
问题:从给定文本中提取数据元组.
以下是数据的一些特征.
>文本中的词汇(单词)仅限于特定领域.让我们假设最多100-200个单词.
>需要解析的文本是标题,如下面显示的汽车广告数据.所以每条记录对应一个元组(行).
>在某些情况下,某些属性可能会丢失.因此,例如,在原始数据行#5中,缺少年份.
>有些词汇在一起(双字母).喜欢“低里程”.
>可用的历史数据= 10,000条记录
>传入的新数据量= 1000-1500条记录/周
预期输出应采用(年,制,模型,特征)的形式.所以输出应该是这样的
1 – > (2009年,福特,Fusion,SE)
2 – > (1997年,金牛座,旅行车)
3 – > (2000,Mitsubishi,Mirage,DE)
4 – > (2007年,Expedition,EL Limited)
5 – > (,本田,雅阁,EX)
….
….
原始标题数据:
1 – > 2009 Ford Fusion SE – 7000美元
2 – > 1997年福特金牛座旅行车 – 800美元(圣何塞东)
3 – > ’00 Mitsubishi Mirage DE – $2499(saratoga)图片
4 – > 2007 Ford Expedition EL Limited – $7800(x)
5 – > Honda Accord ex low miles – $2800(都柏林/ enjoyon / livermore)图片
6 – > 2004 HONDA ODASSEY LX 68K MILES – $10800(danville / san ramon)
7 – > 93 LINCOLN MARK – $2000(奥克兰东部)照片
8 – > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### – $19700(san rafael)pic
9 – > 2004年奥迪A4 1.8T FWD – 8900美元(萨克拉门托)图片
10 – > ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### – $10575(san rafael)pic
11 – > 1990年丰田卡罗拉跑得好!省气! 5SPEED清洁! REG 2011 O.B.O – 1600美元(海沃德/卡斯特罗山谷)图片img
12 – > HONDA ACCORD EX 2000 – $4900(都柏林/ enjoyon / livermore)图片
13 – > 2009年雪佛兰Silverado LT船员驾驶室 – $23900(都柏林/ enjoyon / livermore)图片
14 – > 2010 Acura TSX – V6 – TECH – $29900(都柏林/ pleasanton / livermore)图片
15 – > 2003年日产Altima – 1830美元(SF)图片
可能的选择:
>机器学习文本分类器(朴素贝叶斯等)
>正则表达式
我想弄清楚的是,如果RegEx对于作业而言过于复杂而且Text分类器是否过度杀伤?
如果选择使用文本分类器,那么您认为最容易实现的是什么.
在此先感谢您的帮助.
这是一个研究得很好的问题,叫做
information extraction.做你想做的事情并不简单,并且它并不像你说的那样简单(即机器学习不是一种矫枉过正).有几种技术,您应该阅读研究领域的概述.