Java 去掉字符串中的html标签

Java 去掉字符串中的html标签,第1张

public static String takeOutHtmlTab(String htmlStr) {
    // 定义script的正则表达式,去除js可以防止注入
    String scriptRegex = "]*?>[\s\S]*?<\/script>";
    // 定义style的正则表达式,去除style样式,防止css代码过多时只截取到css样式代码
    String styleRegex = "]*?>[\s\S]*?<\/style>";
    // 定义HTML标签的正则表达式,去除标签,只提取文字内容
    String htmlRegex = "<[^>]+>";
    // 定义空格,回车,换行符,制表符
    String spaceRegex = "\s*|\t|\r|\n";
    // 过滤script标签
    htmlStr = htmlStr.replaceAll(scriptRegex, "");
    // 过滤style标签
    htmlStr = htmlStr.replaceAll(styleRegex, "");
    // 过滤html标签
    htmlStr = htmlStr.replaceAll(htmlRegex, "");
    // 过滤空格等
    htmlStr = htmlStr.replaceAll(spaceRegex, "");
    // 过滤 
    htmlStr = htmlStr.replace(" ", "");
    // 过滤 
    htmlStr = htmlStr.replace(" ", "");
    // 返回文本字符串
    htmlStr = htmlStr.trim();
    // 去除空格" "
    htmlStr = htmlStr.replaceAll(" ", "");
    return htmlStr;
  }

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/870569.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-13
下一篇2022-05-13

发表评论

登录后才能评论

评论列表(0条)

    保存