用Python爬虫可以爬过去的网站吗

用Python爬虫可以爬过去的网站吗,第1张

使用jsoup解析到这个url就行,dom结构如下:

look-inside-cover类只有一个,所以直接找到这个img元素,获取src属性,就可以获取到路径。

代码实现如下:

Document doc = Jsoupconnect("");

jsoup的jar包分享给你:

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。以下是一个使用java实现的简单爬虫核心代码:publicvoidcrawl()throwsThrowable{while(continueCrawling()){CrawlerUrlurl=getNextUrl();//获取待爬取队列中的下一个URLif(url!=null){printCrawlInfo();Stringcontent=getContent(url);//获取URL的文本信息//聚焦爬虫只爬取与主题内容相关的网页,这里采用正则匹配简单处理if(isContentRelevant(content,thisregexpSearchPattern)){saveContent(url,content);//保存网页至本地//获取网页内容中的链接,并放入待爬取队列中CollectionurlStrings=extractUrls(content,url);addUrlsToUrlQueue(url,urlStrings);}else{Systemoutprintln(url+"isnotrelevantignoring");}//延时防止被对方屏蔽Threadsleep(thisdelayBetweenUrls);}}closeOutputStream();}privateCrawlerUrlgetNextUrl()throwsThrowable{CrawlerUrlnextUrl=null;while((nextUrl==null)&&(!urlQueueisEmpty())){CrawlerUrlcrawlerUrl=thisurlQueueremove();//doWeHavePermissionToVisit:是否有权限访问该URL,友好的爬虫会根据网站提供的"Robottxt"中配置的规则进行爬取//isUrlAlreadyVisited:URL是否访问过,大型的搜索引擎往往采用BloomFilter进行排重,这里简单使用HashMap//isDepthAcceptable:是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱(自动生成一些无效链接使爬虫陷入死循环),采用深度限制加以避免if(doWeHavePermissionToVisit(crawlerUrl)&&(!isUrlAlreadyVisited(crawlerUrl))&&isDepthAcceptable(crawlerUrl)){nextUrl=crawlerUrl;//Systemoutprintln("Nexturltobevisitedis"+nextUrl);}}returnnextUrl;}privateStringgetContent(CrawlerUrlurl)throwsThrowable{//>

//读取网页上的内容方法---------------------20100125 public String getOneHtml(String htmlurl) throws IOException {

URL url;

String temp;

final StringBuffer sb = new StringBuffer();

try {

url = new URL(htmlurl);

// 读取网页全部内容

final BufferedReader in = new BufferedReader(new InputStreamReader(

urlopenStream(),"GBK"));

while ((temp = inreadLine()) != null) {

sbappend(temp);

}

inclose();

} catch (final MalformedURLException me) {

Systemoutprintln("你输入的URL格式有问题!请仔细输入");

megetMessage();

} catch (final IOException e) {

eprintStackTrace();

}

return sbtoString();

}上面这个方法是根据你传入的url爬取整个网页的内容,然后你写个正则表达式去匹配这个字符串的内容。

以上就是关于用Python爬虫可以爬过去的网站吗全部的内容,包括:用Python爬虫可以爬过去的网站吗、爬虫 打开网址、java爬虫读取某一张指定图片的url,求解答等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9621403.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-30
下一篇2023-04-30

发表评论

登录后才能评论

评论列表(0条)

    保存