Java中如何用正则表达式解析页面,提取所有URL_框架

先用正则表达式把所有的url找出来string reg = @"(is)<a[^>]href=(['""])(<url>[^>'""\s]+)[^>]>";然后再替换掉你想要的

最简单的办法，写个爬虫，把百度首页设置为起点，然后执行以下步骤

1、建一个列表，把起始页URL添加进去

2、从列表中取出一个URL，并把页面抓下来

3、分析里面的<a>标签，把所有的href记下来

4、将同一个域的href记录下，比如baidu，并追加到列表中

5、重复第二步，直到列表中没有未访问过的URL为止

。。。

分析所有的href链接，然后找出所有的二级域名

ip的正则表达式网上很多，比如：((2[0-4]\d|25[0-5]|[01]\d\d)\){3}(2[0-4]\d|25[0-5]|[01]\d\d)

找文本中匹配的字符串好像Scanner有几个find方法，但是我看不懂文档中对他们的解释

过滤重复可以使用set来存储这些ip，一样的就不会被重复添加了

Pattern p=Patterncompile(regex,PatternDOTALL);

默认情况下,点并不能匹配换行，所以使用Patterncompile方法时，必须使用PatternDOTALL参数，让点匹配所有字符

一个问题问了N遍，虽然可以有很多答案，只要有一个答案就行了吧？

你这个是jsp代码吧，jsp上用javascript可以直接取，你要取的标签加个id=”自己设个id“

documentgetElementById("你自己设的id")href就是AAAAAAAA

documentgetElementById("你自己设的id")title就是BBBBBBB

documentgetElementById("你自己设的id")innerHtml就是XXXXXX

以上就是关于Java中如何用正则表达式解析页面,提取所有URL全部的内容，包括:Java中如何用正则表达式解析页面,提取所有URL、怎样用java编程得到二级域名、用java 正则表达式提取IP地址等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

Java中如何用正则表达式解析页面,提取所有URL