
最近刚好在学这个,对于一些第三方工具类或者库,一定要看官方tutorial啊。
学会用chrome network 分析请求,或者fiddler抓包分析。
普通的网页直接用>
Document doc= Jsoupconnect("your_url")get(); //通过url获取html页面
Elements ListClass = docgetElementsByAttributeValue("class","your_class_name"); //通过class属性获取元素集合
for (Element element :ListClass) {
Elements divs = elementgetElementsByTag("div"); //获取div
for (Element div: divs) {
String divText = divtext()trim();
Systemoutprintln(divText);
}
}
docselect("meta[name=description]"),get(0)attr("content")
大致是这么写的,你可以研究一下JSOUP的选择器,
chenying99/archive/2013/01/04/2844615,html" target="_blank">>
要取得一个属性的值,可以使用Nodeattr(String key) 方法
对于一个元素中的文本,可以使用Elementtext()方法
对于要取得元素或属性中的HTML内容,可以使用Elementhtml(),或 NodeouterHtml()方法。
我不晓得你的指的是背景图还是只包含img标签内的,其实区别不大
1、首先 一个urlConnection,链接到你想要的网址,得到response的inputStream,
2、把返回的response当做一个xml解析(推荐使用jsoup,更方便一些),得到所有的img标签,遍历标签的src,下载得到所有的,这边需要注意下 有些网站可能会使用防盗链,低级的你完全可以用cookie糊弄过去,高级的就不太好搞了。需要你改一些request中的属性例如Referer之类的,再蛋疼的就需要拿到返回的二级制文件,然后本地重绘了。。。。
3、如果背景图什么的也要的话 ,拿到页面中的css文件,得到所有的链接,重复第二部的 *** 作。。。。
我们这款沙发是采用最高端的科技制造而成,d簧的d性抗压力都是最高标准。
而且海绵质量也特别过关,定制的时候都是高端产品,坐到沙发上的时候,d性很足,也不会她坐下去的时候舒适度真好,经过无数次实践验证过的,可以放心使用。
以上就是关于如何用Java写一个爬虫全部的内容,包括:如何用Java写一个爬虫、使用OkHttp进行重定向拦截处理、java 的jsoup怎么获取两个标签相同 类名相同的 标签里面的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)