加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Java > 正文

JAVA过滤标签实现将html内容转换为文本的方法示例

发布时间:2020-12-14 19:45:47 所属栏目:Java 来源:网络整理
导读:本篇章节讲解JAVA过滤标签实现将html内容转换为文本的方法。供大家参考研究具体如下: /*** 把html内容转为文本* @param html 需要处理的html文本* @param filterTags 需要保留的html标签样式* @return*/public static String trimHtml2Txt(String

本篇章节讲解JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:

/**
* 把html内容转为文本
* @param html 需要处理的html文本
* @param filterTags 需要保留的html标签样式
* @return
*/
public static String trimHtml2Txt(String html,String[] filterTags){
    html = html.replaceAll("<head>[sS]*?</head>(?i)","");//去掉head
    html = html.replaceAll("<!--[sS]*?-->","");//去掉注释
    html = html.replaceAll("<![sS]*?>","");
    html = html.replaceAll("<style[^>]*>[sS]*?</style>(?i)","");//去掉样式
    html = html.replaceAll("<script[^>]*>[sS]*?</script>(?i)","");//去掉js
    html = html.replaceAll("<w:[^>]+>[sS]*?</w:[^>]+>(?i)","");//去掉word标签
    html = html.replaceAll("<xml>[sS]*?</xml>(?i)","");
    html = html.replaceAll("<html[^>]*>|<body[^>]*>|</html>|</body>(?i)","");
    html = html.replaceAll("rn|n|r"," ");//去掉换行
    html = html.replaceAll("<br[^>]*>(?i)","nr");
    List<String> tags = new ArrayList<String>();
    List<String> s_tags = new ArrayList<String>();
    List<String> halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});//
    if(filterTags != null && filterTags.length > 0){
      for (String tag : filterTags) {
        tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//开始标签
        if(!"img".equals(tag)) tags.add("</"+tag+">");//结束标签
        s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等
        if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");
      }
    }
    html = StringUtils.replaceEach(html,tags.toArray(new String[tags.size()]),s_tags.toArray(new String[s_tags.size()]));
    html = html.replaceAll("</p>(?i)","nr");
    html = html.replaceAll("<[^>]+>","");
    html = StringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()]));
    html = html.replaceAll(" "," ");
    return html.trim();
}

PS:这里再为大家推荐一款功能类似的在线工具供大家参考使用:

在线html/js/css代码过滤工具
http://tools.aspzz.cn/code/htmlfilter

另外,关于正则操作,这里再为大家推荐两款相关在线工具:

JavaScript正则表达式在线测试工具:
http://tools.aspzz.cn/regex/javascript

正则表达式在线生成工具:
http://tools.aspzz.cn/regex/create_reg

更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。

您可能感兴趣的文章:

  • Java实现从Html文本中提取纯文本的方法
  • java使用正则表达式过滤html标签
  • Java中正则表达式去除html标签
  • java过滤html标签获取纯文本信息的实例

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读