
自己写一下吧。
给你个思路:
1、首先分析网页、你要抓取的有用数据
</script><h2>热门专栏</h2><dl class="series">
<dt><a href="/column/details/hellopython3html"><img src=";
2、再使用 urllib或urllib2(推荐使用requests)模块,来获取网页原始数据。
3、处理数据。一般使用 re 正则模块
然后你可能会发现 不会requests模块,那就自己找教程学一下。正则也不怎么会,那就找教程学一下。
这个属于很基础的,都是一些静态的数据,而且只有一个页面。
使用 requests 获取数据之后,就成了字符串的处理。使用正则进行匹配。
这些基础的弄好了,就去看 Scrapy框架吧。
那里不会看哪里~~~~
我这里:
教程抓取网并提取网页中所需要的信息 之 Python版
有代码和注释。
不过,看这个之前,你最好参考:
整理关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
去了解网站抓取相关的逻辑,然后再参考:
教程手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程
去抓取你所要处理的网站的内在执行逻辑。
(此处不给贴地址,请自己用google搜索帖子标题,即可找到帖子地址)
page = urllib2urlopen(url)
contents = pageread()
#获得了整个网页的内容也就是源代码
print(contents)
以上就是关于python中抓取 这个网址http://blog.csdn.net/column.html先跳转博客专栏全部的内容,包括:python中抓取 这个网址http://blog.csdn.net/column.html先跳转博客专栏、用python怎么提取已经抓取的网页的主要内容、python如何提取网页信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)