如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中

如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中,第1张

您好,您这样:提取链接的标签文本和url地址

将Html文件代码传入string参数s,代码如下:

private void Reg_A_Href(string s)

{

string str = s;

Regex re = new Regex(@"<a[^>]+href=\s(:'(<href>[^']+)'|""(<href>[^""]+)""|(<href>[^>\s]+))\s[^>]>(<text>)</a>", RegexOptionsIgnoreCase | RegexOptionsSingleline);

MatchCollection mc = reMatches(str);

ConsoleWriteLine(mcCount);

foreach (Match m in mc)

{

info_Add("[href] " + mGroups["href"]Value);

info_Add("[text] " + mGroups["text"]Value);

ConsoleWriteLine("{0}:{1}", mGroups["href"]Value, mGroups["text"]Value);

}

}

//我随便写了一个工具类,getRegexData就是那个方法,你可以根据你的需求稍加改动即可因为我使用的

//URL 而不是>

String projPath = SystemgetProperty("userdir"); 获取到工程项目的根目录。

例如 项目为Test,在D盘的Java目录下,projPath 就是 "D:\Java\Test"

然后再往后加你的项目文件夹下html文件的相对路径。

以上就是关于如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中全部的内容,包括:如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中、如何使用java的正则表达式提取html标签、java项目下读取html文件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/10144265.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存