如何用Java写一个爬虫_框架

最近刚好在学这个，对于一些第三方工具类或者库，一定要看官方tutorial啊。

学会用chrome network 分析请求，或者fiddler抓包分析。

普通的网页直接用>

Document doc= Jsoupconnect("your_url")get(); //通过url获取html页面

Elements ListClass = docgetElementsByAttributeValue("class","your_class_name"); //通过class属性获取元素集合

for (Element element :ListClass) {

Elements divs = elementgetElementsByTag("div"); //获取div

for (Element div: divs) {

String divText = divtext()trim();

Systemoutprintln(divText);

}

docselect("meta[name=description]")，get(0)attr("content")

大致是这么写的，你可以研究一下JSOUP的选择器，

chenying99/archive/2013/01/04/2844615，html" target="_blank">>

要取得一个属性的值，可以使用Nodeattr(String key) 方法

对于一个元素中的文本，可以使用Elementtext()方法

对于要取得元素或属性中的HTML内容，可以使用Elementhtml(),或 NodeouterHtml()方法。

我不晓得你的指的是背景图还是只包含img标签内的，其实区别不大

1、首先一个urlConnection，链接到你想要的网址，得到response的inputStream，

2、把返回的response当做一个xml解析(推荐使用jsoup，更方便一些),得到所有的img标签，遍历标签的src,下载得到所有的，这边需要注意下有些网站可能会使用防盗链，低级的你完全可以用cookie糊弄过去，高级的就不太好搞了。需要你改一些request中的属性例如Referer之类的，再蛋疼的就需要拿到返回的二级制文件，然后本地重绘了。。。。

3、如果背景图什么的也要的话，拿到页面中的css文件，得到所有的链接，重复第二部的 *** 作。。。。

我们这款沙发是采用最高端的科技制造而成，d簧的d性抗压力都是最高标准。

而且海绵质量也特别过关，定制的时候都是高端产品，坐到沙发上的时候，d性很足，也不会她坐下去的时候舒适度真好，经过无数次实践验证过的，可以放心使用。

以上就是关于如何用Java写一个爬虫全部的内容，包括:如何用Java写一个爬虫、使用OkHttp进行重定向拦截处理、java 的jsoup怎么获取两个标签相同类名相同的标签里面的内容等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9295649.html

如何用Java写一个爬虫

发表评论

评论列表（0条）