如何从HTML中提取嵌套表？

发布时间：2020-12-14 23:13:47 所属栏目：资源来源：网络整理

导读：我有一个HTML文件(以utf-8编码).我用codecs.open()打开它.文件架构是：我只需要检索第一个表(丢弃一个表格).在第一个之前省略所有输入并在相应的之后.一些单元格还包含段落,粗体和脚本.每行主表只有一个嵌套表. 如何提取它以获取行列表,其中每个元素包含

我有一个HTML文件(以utf-8编码).我用codecs.open()打开它.文件架构是：


我只需要检索第一个表(丢弃一个表格).在第一个< table>之前省略所有输入并在相应的< / table>之后.一些单元格还包含段落,粗体和脚本.每行主表只有一个嵌套表.
如何提取它以获取行列表,其中每个元素包含普通(unicode字符串)单元格的数据和每个嵌套表格的行列表？嵌套不超过1级.
我尝试了HTMLParse,PyParse和re模块,但无法实现这一点.
我是Python的新手.


最佳答案
试试beautiful soup
原则上你需要使用一个真正的解析器(Beaut.Soup是),正则表达式无法处理嵌套元素,因为计算机科学原因(有限状态机无法解析无上下文语法,IIRC)
                        （编辑：李大同）
【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!