加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

php – 如何从网页提取有意义和有用的内容?

发布时间:2020-12-13 13:15:22 所属栏目:PHP教程 来源:网络整理
导读:我想解析一个网页,并从中提取有意义的内容.有意义的是,我的意思是用户想要在该特定页面中看到的内容(数据不包括广告,横幅,评论等)我想确保当用户保存页面时,他想要的数据阅读被保存,没有别的. 简而言之,我需要构建一个像可读性一样工作的应用程序. (http://w
我想解析一个网页,并从中提取有意义的内容.有意义的是,我的意思是用户想要在该特定页面中看到的内容(数据不包括广告,横幅,评论等)我想确保当用户保存页面时,他想要的数据阅读被保存,没有别的.

简而言之,我需要构建一个像可读性一样工作的应用程序. (http://www.readability.com)我需要把这个有用的网页内容存储在一个单独的文件中.我真的不知道该怎么做.

我不想使用API??,需要我连接到互联网并从服务器获取数据,因为数据提取过程需要离线完成.

我可以想到两种方法:

>使用机器学习算法(如:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/)
>开发一个可以令人满意地从网页上清除所有杂乱的网页刮刀.

有现有的工具吗?我遇到了cookpipe图书馆(http://code.google.com/p/boilerpipe/),但没有使用它.有人用吗这是否会令人满意的结果?
有没有其他的工具,特别是用PHP或Python编写的这样的网页刮刮?

如果我需要建立自己的工具来做这件事,那么你们建议怎么做呢?

由于我需要在开始解析之前清理杂乱或不完整的HTML,所以我会使用像Tidy(http://www.w3.org/People/Raggett/tidy/)或Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/bs4/doc/)这样的工具来完成这项工作.

但是,我不知道如何在这一步之后提取内容.

PS.我是一个业余爱好,如果准备好使用开源工具,可以很容易的集成到我将用PHP或Python编写的代码中.
或者如果我必须编写自己的代码,我很乐意获得指导,谁做完了这样的工作之前!

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读