加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

如何从HTML中提取嵌套表?

发布时间:2020-12-14 23:13:47 所属栏目:资源 来源:网络整理
导读:我有一个HTML文件(以utf-8编码).我用codecs.open()打开它.文件架构是: 我只需要检索第一个表(丢弃一个表格).在第一个 之前省略所有输入并在相应的 之后.一些单元格还包含段落,粗体和脚本.每行主表只有一个嵌套表. 如何提取它以获取行列表,其中每个元素包含

我有一个HTML文件(以utf-8编码).我用codecs.open()打开它.文件架构是:

我只需要检索第一个表(丢弃一个表格).在第一个< table>之前省略所有输入并在相应的< / table>之后.一些单元格还包含段落,粗体和脚本.每行主表只有一个嵌套表.

如何提取它以获取行列表,其中每个元素包含普通(unicode字符串)单元格的数据和每个嵌套表格的行列表?嵌套不超过1级.

我尝试了HTMLParse,PyParse和re模块,但无法实现这一点.
我是Python的新手.

最佳答案
试试beautiful soup

原则上你需要使用一个真正的解析器(Beaut.Soup是),正则表达式无法处理嵌套元素,因为计算机科学原因(有限状态机无法解析无上下文语法,IIRC)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读