
您好,您这样:提取链接的标签文本和url地址
将Html文件代码传入string参数s,代码如下:
private void Reg_A_Href(string s)
{
string str = s;
Regex re = new Regex(@"<a[^>]+href=\s(:'(<href>[^']+)'|""(<href>[^""]+)""|(<href>[^>\s]+))\s[^>]>(<text>)</a>", RegexOptionsIgnoreCase | RegexOptionsSingleline);
MatchCollection mc = reMatches(str);
ConsoleWriteLine(mcCount);
foreach (Match m in mc)
{
info_Add("[href] " + mGroups["href"]Value);
info_Add("[text] " + mGroups["text"]Value);
ConsoleWriteLine("{0}:{1}", mGroups["href"]Value, mGroups["text"]Value);
}
}
//我随便写了一个工具类,getRegexData就是那个方法,你可以根据你的需求稍加改动即可因为我使用的
//URL 而不是>
String projPath = SystemgetProperty("userdir"); 获取到工程项目的根目录。
例如 项目为Test,在D盘的Java目录下,projPath 就是 "D:\Java\Test"
然后再往后加你的项目文件夹下html文件的相对路径。
以上就是关于如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中全部的内容,包括:如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中、如何使用java的正则表达式提取html标签、java项目下读取html文件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)