加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – 如何以编程方式检查HTML文档

发布时间:2020-12-15 03:08:44 所属栏目:Java 来源:网络整理
导读:我有一个包含小型 HTML文档的数据库,我需要以编程方式将几个插入到带有iText的PDF文档或带有Aspose.Words的Word文档中.我需要保留HTML文档中的任何格式(在合理范围内,尊重 b标记是必须的,像 span style =“blah”这样的CSS是一个不错的选择). iText和Aspose
我有一个包含小型 HTML文档的数据库,我需要以编程方式将几个插入到带有iText的PDF文档或带有Aspose.Words的Word文档中.我需要保留HTML文档中的任何格式(在合理范围内,尊重< b>标记是必须的,像< span style =“blah”>这样的CSS是一个不错的选择).

iText和Aspose都可以(粗略地)工作:

Document document = new Document( Size.A4,Aspect.PORTRAIT );

document.setFont( "Helvetica",20,Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

因此(我认为)我需要某种HTML解析器,我可以检查字符串和样式以插入到我的文档中.

任何人都可以建议一个好的图书馆或明智的方法解决这个问题吗?平台是Java

解决方法

HTMLparser是一个很好的HTML解析器.

我用它来解析我的一个项目上的HTML.

你可以编写自己的过滤器来解析你想要的HTML,所以
&LT峰; br>标签应该不难解析出来

你可以在CssSelectorNodeFilter解析CSS

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读