加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

java – 如何将HTML转换为文本保持换行符

发布时间:2020-12-14 16:33:23 所属栏目:Java 来源:网络整理
导读:如何将 HTML转换为文本保持换行符(由br,p,div等元素生成)可能使用 NekoHTML或任何足够好的HTML解析器 例: 你好LT峰; br /世界 至: Hellon World 解决方法 这是我通过使用Jsoup迭代节点来输出文本(包括换行符)的函数. public static String htmlToText(Inp
如何将 HTML转换为文本保持换行符(由br,p,div等元素生成)可能使用 NekoHTML或任何足够好的HTML解析器

例:
你好&LT峰; br />世界
至:

Hellon  
World

解决方法

这是我通过使用Jsoup迭代节点来输出文本(包括换行符)的函数.
public static String htmlToText(InputStream html) throws IOException {
    Document document = Jsoup.parse(html,null,"");
    Element body = document.body();

    return buildStringFromNode(body).toString();
}

private static StringBuffer buildStringFromNode(Node node) {
    StringBuffer buffer = new StringBuffer();

    if (node instanceof TextNode) {
        TextNode textNode = (TextNode) node;
        buffer.append(textNode.text().trim());
    }

    for (Node childNode : node.childNodes()) {
        buffer.append(buildStringFromNode(childNode));
    }

    if (node instanceof Element) {
        Element element = (Element) node;
        String tagName = element.tagName();
        if ("p".equals(tagName) || "br".equals(tagName)) {
            buffer.append("n");
        }
    }

    return buffer;
}

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读