
最近刚好在学这个,对于一些第三方工具类或者库,一定要看官方tutorial啊。
学会用chrome network 分析请求,或者fiddler抓包分析。
普通的网页直接用httpclient封装的API就可以获取网页HTML了,然后 JSoup、正则 提取内容。
若网站有反爬虫机制的,会需要构造User-Agent 伪装浏览器; 若有需要登录的,会传入cookie进去。
有些网页可能是利用ajax技术的,可以尝试PhantomJS拿到渲染后的HTML(然后步骤同上); 或者直接chrome network分析请求的URL以及传参,然后直接拿到json。
关于验证码的没尝试过,是不是要用到第三方ocr工具识别验证码然后作为URL参数,希望做过的童鞋告知。
以上就是关于如何用Java写一个爬虫全部的内容,包括:如何用Java写一个爬虫、、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)