如何用Java正则表达式提取html中所有的文本和超链接，然后分别存入txt文件和数据库中_框架

您好，您这样：提取链接的标签文本和url地址

将Html文件代码传入string参数s，代码如下：

private void Reg_A_Href(string s)

{

string str = s;

Regex re = new Regex(@"<a[^>]+href=\s(:'(<href>[^']+)'|""(<href>[^""]+)""|(<href>[^>\s]+))\s[^>]>(<text>)</a>", RegexOptionsIgnoreCase | RegexOptionsSingleline);

MatchCollection mc = reMatches(str);

ConsoleWriteLine(mcCount);

foreach (Match m in mc)

{

info_Add("[href] " + mGroups["href"]Value);

info_Add("[text] " + mGroups["text"]Value);

ConsoleWriteLine("{0}:{1}", mGroups["href"]Value, mGroups["text"]Value);

}

//我随便写了一个工具类，getRegexData就是那个方法，你可以根据你的需求稍加改动即可因为我使用的

//URL 而不是>

String projPath = SystemgetProperty("userdir"); 获取到工程项目的根目录。

例如项目为Test，在D盘的Java目录下，projPath 就是 "D:\Java\Test"

然后再往后加你的项目文件夹下html文件的相对路径。

以上就是关于如何用Java正则表达式提取html中所有的文本和超链接，然后分别存入txt文件和数据库中全部的内容，包括:如何用Java正则表达式提取html中所有的文本和超链接，然后分别存入txt文件和数据库中、如何使用java的正则表达式提取html标签、java项目下读取html文件等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/10144265.html

如何用Java正则表达式提取html中所有的文本和超链接，然后分别存入txt文件和数据库中

发表评论

评论列表（0条）