数据处理,不可不知的常用工具
? ? a).?CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。 缺点:不能免费处理图片,需要订购OCR服务。 ? ? b).?Tabula?是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。 ? ? a).?Cogniview和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。 缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。 https://github.com/gebelo/nicar2016/blob/master/refine.pdf 辅助数据资料: https://github.com/gebelo/nicar2016/blob/master/prof.csv via:djchina 作者:吴嘉川、刘佳昕
PS:亲爱滴小伙伴们,【淘数宝网】已上线,在学习之余,推广、投稿都能赚钱!还有海量资源共享,现在注册即获赠1年会员,点击下方阅读原文体验一下吧!!! (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |