如何用Java写一个爬虫_框架

最近刚好在学这个，对于一些第三方工具类或者库，一定要看官方tutorial啊。
学会用chrome network 分析请求，或者fiddler抓包分析。
普通的网页直接用httpclient封装的API就可以获取网页HTML了，然后 JSoup、正则提取内容。
若网站有反爬虫机制的，会需要构造User-Agent 伪装浏览器；若有需要登录的，会传入cookie进去。
有些网页可能是利用ajax技术的，可以尝试PhantomJS拿到渲染后的HTML(然后步骤同上); 或者直接chrome network分析请求的URL以及传参，然后直接拿到json。
关于验证码的没尝试过，是不是要用到第三方ocr工具识别验证码然后作为URL参数，希望做过的童鞋告知。

以上就是关于如何用Java写一个爬虫全部的内容，包括:如何用Java写一个爬虫、、等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9782004.html

如何用Java写一个爬虫

发表评论

评论列表（0条）