
使用jsoup解析到这个url就行,dom结构如下:
look-inside-cover类只有一个,所以直接找到这个img元素,获取src属性,就可以获取到路径。
代码实现如下:
Document doc = Jsoupconnect("");jsoup的jar包分享给你:
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。以下是一个使用java实现的简单爬虫核心代码:publicvoidcrawl()throwsThrowable{while(continueCrawling()){CrawlerUrlurl=getNextUrl();//获取待爬取队列中的下一个URLif(url!=null){printCrawlInfo();Stringcontent=getContent(url);//获取URL的文本信息//聚焦爬虫只爬取与主题内容相关的网页,这里采用正则匹配简单处理if(isContentRelevant(content,thisregexpSearchPattern)){saveContent(url,content);//保存网页至本地//获取网页内容中的链接,并放入待爬取队列中CollectionurlStrings=extractUrls(content,url);addUrlsToUrlQueue(url,urlStrings);}else{Systemoutprintln(url+"isnotrelevantignoring");}//延时防止被对方屏蔽Threadsleep(thisdelayBetweenUrls);}}closeOutputStream();}privateCrawlerUrlgetNextUrl()throwsThrowable{CrawlerUrlnextUrl=null;while((nextUrl==null)&&(!urlQueueisEmpty())){CrawlerUrlcrawlerUrl=thisurlQueueremove();//doWeHavePermissionToVisit:是否有权限访问该URL,友好的爬虫会根据网站提供的"Robottxt"中配置的规则进行爬取//isUrlAlreadyVisited:URL是否访问过,大型的搜索引擎往往采用BloomFilter进行排重,这里简单使用HashMap//isDepthAcceptable:是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱(自动生成一些无效链接使爬虫陷入死循环),采用深度限制加以避免if(doWeHavePermissionToVisit(crawlerUrl)&&(!isUrlAlreadyVisited(crawlerUrl))&&isDepthAcceptable(crawlerUrl)){nextUrl=crawlerUrl;//Systemoutprintln("Nexturltobevisitedis"+nextUrl);}}returnnextUrl;}privateStringgetContent(CrawlerUrlurl)throwsThrowable{//>
//读取网页上的内容方法---------------------20100125 public String getOneHtml(String htmlurl) throws IOException {
URL url;
String temp;
final StringBuffer sb = new StringBuffer();
try {
url = new URL(htmlurl);
// 读取网页全部内容
final BufferedReader in = new BufferedReader(new InputStreamReader(
urlopenStream(),"GBK"));
while ((temp = inreadLine()) != null) {
sbappend(temp);
}
inclose();
} catch (final MalformedURLException me) {
Systemoutprintln("你输入的URL格式有问题!请仔细输入");
megetMessage();
} catch (final IOException e) {
eprintStackTrace();
}
return sbtoString();
}上面这个方法是根据你传入的url爬取整个网页的内容,然后你写个正则表达式去匹配这个字符串的内容。
以上就是关于用Python爬虫可以爬过去的网站吗全部的内容,包括:用Python爬虫可以爬过去的网站吗、爬虫 打开网址、java爬虫读取某一张指定图片的url,求解答等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)