Java中如何用正则表达式解析页面,提取所有URL

Java中如何用正则表达式解析页面,提取所有URL,第1张

先用正则表达式把所有的url找出来string reg = @"(is)<a[^>]href=(['""])(<url>[^>'""\s]+)[^>]>";然后再替换掉你想要的

最简单的办法,写个爬虫,把百度首页设置为起点,然后执行以下步骤

1、建一个列表,把起始页URL添加进去

2、从列表中取出一个URL,并把页面抓下来

3、分析里面的<a>标签,把所有的href记下来

4、将同一个域的href记录下,比如baidu,并追加到列表中

5、重复第二步,直到列表中没有未访问过的URL为止

。。。

分析所有的href链接,然后找出所有的二级域名

ip的正则表达式网上很多,比如:((2[0-4]\d|25[0-5]|[01]\d\d)\){3}(2[0-4]\d|25[0-5]|[01]\d\d)

找文本中匹配的字符串好像Scanner有几个find方法,但是我看不懂文档中对他们的解释

过滤重复可以使用set来存储这些ip,一样的就不会被重复添加了

Pattern p=Patterncompile(regex,PatternDOTALL);

默认情况下,点并不能匹配换行,所以使用Patterncompile方法时,必须使用PatternDOTALL参数,让点匹配所有字符

一个问题问了N遍,虽然可以有很多答案,只要有一个答案就行了吧?

你这个是jsp代码吧,jsp上用javascript可以直接取,你要取的标签加个id=”自己设个id“

documentgetElementById("你自己设的id")href就是AAAAAAAA

documentgetElementById("你自己设的id")title就是BBBBBBB

documentgetElementById("你自己设的id")innerHtml就是XXXXXX

以上就是关于Java中如何用正则表达式解析页面,提取所有URL全部的内容,包括:Java中如何用正则表达式解析页面,提取所有URL、怎样用java编程得到二级域名、用java 正则表达式 提取IP地址等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9484827.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-28
下一篇2023-04-28

发表评论

登录后才能评论

评论列表(0条)

    保存