如何写爬虫程序爬取豆瓣网或者新浪微博里的内容_软件运维

在面向对象的高级语言中，早已有人将http请求封装成了类库，你只需要调下接口，就能获得目标网页的源码。所以程序需要做的就是请求目标url，获取页面的源码，解析html。基本流程是：

获取目标页面源码，方法：调用对应的类库。

解析html文件，提取出自己想要的信息。方法：正则表达式或者解析html的库。

按照上述步骤，C++（Qt）涉及的类是：

WebView，它的内核其实就是webkit，所以它就是一个功能原始的浏览器，他内置能够返回页面源码的函数，接受一个url的string类型参数，返回一个QString对象。

WebView类有方法能够处理DOM。

C#（.net）涉及的类是：

WebClient，WebRequest，HttpWebRequest等类，第一个封装得比较高级，写法简单，后面两个封装得低级，写起来麻烦但是用起来灵活，HttpWebRequest是WebRequest的一个子类。

Html Agility Pack。

Python涉及的包是：

urllib，urllib2，前者仅可以接受URL，不能伪装Header，但是需要用它的一个函数对post数据进行编码。类似于浏览器的有Selenium。

BeautifulSoup。

上面三种相比，python写法最简单， *** 作也灵活，要获取源码只要写一句话就行。字符串处理python也毫不逊色于C#和C++。

完全掌握Python参加培训需要4-6个月左右，如果单纯的入门的话1-2个月左右就差不多了。

Python爬虫就是使用Pythoni程序开发的网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，主要用于搜索引擎，它将一个网站的所有内容与链接进行阅读，并建立相关的全文素引到数据库中，然后跳到另一个网站。

Python开发软件可根据其用途不同分为两种，一种是Python代码编辑器，一种是Python集成开发工具，两者的配合使用可以极大的提高Python开发人员的编程效率。

写爬虫也不需要什么具体的软件，主要是看你用什么语言用什么库罢了。用python实现爬虫应该是最简单的，有功能强大的urllib2,beautifulsoup，request等库，用起来很方便，网上找点教程就会了。写爬虫还可以试试 scrapy框架，可是省去好多细节，用起来很方便。如果用python等脚本来写的话需要一个解释器就够了。如果是用java等来写的话就会编译成一个exe可执行文件。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/11370384.html

如何写爬虫程序爬取豆瓣网或者新浪微博里的内容

发表评论

评论列表（0条）