用Python爬虫可以爬过去的网站吗_框架

使用jsoup解析到这个url就行，dom结构如下:

look-inside-cover类只有一个，所以直接找到这个img元素，获取src属性，就可以获取到路径。

代码实现如下：

Document doc = Jsoupconnect("");

jsoup的jar包分享给你：

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。以下是一个使用java实现的简单爬虫核心代码：publicvoidcrawl()throwsThrowable{while(continueCrawling()){CrawlerUrlurl=getNextUrl();//获取待爬取队列中的下一个URLif(url!=null){printCrawlInfo();Stringcontent=getContent(url);//获取URL的文本信息//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理if(isContentRelevant(content,thisregexpSearchPattern)){saveContent(url,content);//保存网页至本地//获取网页内容中的链接，并放入待爬取队列中CollectionurlStrings=extractUrls(content,url);addUrlsToUrlQueue(url,urlStrings);}else{Systemoutprintln(url+"isnotrelevantignoring");}//延时防止被对方屏蔽Threadsleep(thisdelayBetweenUrls);}}closeOutputStream();}privateCrawlerUrlgetNextUrl()throwsThrowable{CrawlerUrlnextUrl=null;while((nextUrl==null)&&(!urlQueueisEmpty())){CrawlerUrlcrawlerUrl=thisurlQueueremove();//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robottxt"中配置的规则进行爬取//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免if(doWeHavePermissionToVisit(crawlerUrl)&&(!isUrlAlreadyVisited(crawlerUrl))&&isDepthAcceptable(crawlerUrl)){nextUrl=crawlerUrl;//Systemoutprintln("Nexturltobevisitedis"+nextUrl);}}returnnextUrl;}privateStringgetContent(CrawlerUrlurl)throwsThrowable{//>

//读取网页上的内容方法---------------------20100125 public String getOneHtml(String htmlurl) throws IOException {

URL url;

String temp;

final StringBuffer sb = new StringBuffer();

try {

url = new URL(htmlurl);

// 读取网页全部内容

final BufferedReader in = new BufferedReader(new InputStreamReader(

urlopenStream(),"GBK"));

while ((temp = inreadLine()) != null) {

sbappend(temp);

}

inclose();

} catch (final MalformedURLException me) {

Systemoutprintln("你输入的URL格式有问题！请仔细输入");

megetMessage();

} catch (final IOException e) {

eprintStackTrace();

}

return sbtoString();

}上面这个方法是根据你传入的url爬取整个网页的内容，然后你写个正则表达式去匹配这个字符串的内容。

以上就是关于用Python爬虫可以爬过去的网站吗全部的内容，包括:用Python爬虫可以爬过去的网站吗、爬虫打开网址、java爬虫读取某一张指定图片的url，求解答等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9621403.html

用Python爬虫可以爬过去的网站吗

发表评论

评论列表（0条）