如何使用nodejs做爬虫程序

如何使用nodejs做爬虫程序,第1张

NodeJS制作爬虫全过程:

1、建立项目craelr-demo

建立一个Express项目,然后将app.js的文件内容全部删除,因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接兄毁厅 npm install express来使用需要的Express功能。

2、目标网站分析

如图,这是CNode首页一部分div标签,就是通过这一系列的id、class来定位需要的信息。

3、使用superagent获取源数据

superagent就是ajax API来使用的Http库羡隐,它的使用方法与jQuery差不多,通过它发起get请求,在回调函数中输出结果。

代码如下:

var express = require('express')

var url = require('url')//解析 *** 作url

var superagent = require('superagent')//这三个外部依赖不要忘记npm install

var cheerio = require('cheerio')

var eventproxy = require('eventproxy')

var targetUrl = 'https://cnodejs.org/'

superagent.get(targetUrl)

    .end(function (err, res) {

        console.log(res)

    })

4、使用cheerio解析

cheerio充当服务器端的jQuery功能,先使用它的.load()来载入HTML,再通过CSS selector来筛选元素。

代码如下:

var $ = cheerio.load(res.text)

//通过CSS selector来筛选数据

$('#topic_list .topic_title').each(function (idx, element) {

    console.log(element)

})

5、使用eventproxy来并发抓取每个主题的内容

eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后,eventproxy接收到事件消息自动帮你调用处理函数。

代码如下:

//第一步:得到一个 eventproxy 的实例

var ep = new eventproxy()

//第二步:定义监听事件的回调函数。

//after方法为重复监听

//params: eventname(String) 事件名,times(Number) 监听次数, callback 回调函数

ep.after('topic_html', topicUrls.length, function(topics){

    // topics 是个数组,包含了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair

    //.map

    topics = topics.map(function(topicPair){

        //use cheerio

        var topicUrl = topicPair[0]

        var topicHtml = topicPair[1]

        var $ = cheerio.load(topicHtml)

        return ({

            title: $('.topic_full_title').text().trim(),

            href: topicUrl,

            comment1: $('.reply_content').eq(0).text().trim()

        })

    })

    //outcome

    console.log('outcome:')

    console.log(topics)

})

//第三步:确定放余基出事件消息的

topicUrls.forEach(function (topicUrl) {

    superagent.get(topicUrl)

        .end(function (err, res) {

            console.log('fetch ' + topicUrl + ' successful')

            ep.emit('topic_html', [topicUrl, res.text])

        })

})

6、爬取结果分析

       NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用,而且还有很多简单粗举氏暴的库可以即拿即用。

      首先,需要的库文件,

      1、superagent 是个轻量的的 http 方面哗团的库,就像jquery的post,和get一样,很简单。

      2、cheerio 是一个服务端 *** 作DOM的库,简直就是服务端的jquery。

     好的,我们需要抓取某个网站的题目。如下图。这正芦散个系统下,及时是游客状态也是可以查看题目的,只是答案我们看不到。会显示我没有登录。

现在我们有个需求,先抓取15页,根据URL的参数可以页数就是地址中 的P。并且要有本地cookie,获取cookie的方法,最简单的是,利用浏览器登录网站之后,在控制台直接打印document.cookie,得到之后,复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时,把cookie传进去。

好了,控制台已经不输出“未登录”,说明已经登录成功了。

不少人都看过马尔科姆・格拉德威尔的《异类》,书中最著名的是 「 1 万小时定律」 :要达到世界顶级水平,需要 1 万小时的刻意练习,一般最少要花上 10 年时间。

但问题在于,在这个时代,我们每个人都有太多想谨腊察学、需要学的技能:工作中需要学外语、学软件、学汇报;生活中需要学烹饪、学乐器、学健身,我们不可能每样都付出 1 万小时……

快速掌握一项技能,对现代祥茄人的生存和发展极其重要,乔希・考夫曼有一个经典的 Ted 演讲,他总结了一个快速学习的框架, 只需要 20 小时的练习(每天学习 90 分钟),就可以学会大多数技能,换句话就是通过 20 小时就可以入门了。

下面,我们帮你总结了一些非常实用和装逼的小技能,10 天左右就能学会。疫情期间宅在家中,不妨尝试一下~

爬虫其实就是对网络数据的批量采集,它可以做很多事,比如帮你在 12306 抢票、下载小说、图片、收集抖音上好看的小姐姐的视频……在大数据时代,爬虫早已不是程序员的专属技能,越来越多的职业都需要用到爬虫,比如产品经理、运营、市场人员,都经常需要使用到这个技能。

爬虫程序一般使用 Python 语言制作,有很多现成的 Python 框架,可以让你很方便地写出爬虫程序。除此之外,你还需要对网页结构有简单的了解。

推荐课程:

1. 高德 API + Python 爬虫解决租房问题

课程使用 Python 脚本爬取某租房网站的房源信息,利用高德的 js API 在地图上标出房源地点,划出距离工作地点1小时内可到达的范围。在项目实现的过程中熟悉了 requests 、BeautifulSoup、csv 等库的简单使用。

2. 使用 Python 批量爬取网站信息

本实验主要通过 Python 实现一个命令行参数控制的爬虫程序,可以批量爬取网站的 URLs、JS 文件及其中的端点、子域名和 DNS 有关的数据信息等,能够匹配自定义正则表达式的字符串,还支持将最终结果导出为 JSON 格式或 CSV 格式。

3. Python 二手房信息爬取与数据呈现

本课程以链家的二手房网站为目标,使用python爬取链家官网在售的二手房信息,并且使用matplotlib 绘图包对爬取的信息进行分析,绘制简单的图表。

4. Nodejs 完成网站信息爬虫

本课将通过 Node.js 实现一个简单的爬虫,来爬取豆瓣热评电影,主要有以下几个模块:实验简介,创建项目,HTTP 模块,编写爬虫程序,保存数据到本地。主要会用到的模块(包)有:http,fs,path,cheerio。http 模块用于创建 http 请求,fs 模块用于保存文件,path 模块用于解析路径,cheerio 包是服务器端的 jQuery 实现,这里用于解析 HTML。

爬虫需要用到 Python ,如果你还不会的话,那有必要先学习一下了。现在编程越来越火,程序员也成了高薪的代名词,不管写不写代码,学习一下编程也是有必要的。Python 是目前最火热的语言之一,上至老奶奶、下到小学生都在学习。

10 天时间虽然不能让你成为 Python 大神,但入门 Python、写一些小程序、小脚本却是绰绰有余的。年后再找工作,再也不用被 “掌握 Python 优先” 的职位拒之门外了!

推荐课程:

1. Python 新手入门课

极度舒适的新手入门课程,面向完全没有编程基础的同学。你将在一下午入门 Linux、Python 基础和Github 常用命令,为未来的编程大楼打下稳固的基础。

2. 楼 + 之 Python 基础

人人都学得会的 Python 入门课,从局液 0 到 1 掌握编程的概念,用 Python 创造你的第一个程序、 游戏 和网络爬虫。

3. Python3 简明教程

简明易懂的 Python3 课程,不仅适用于那些有其它语言基础的同学,对没有编程经验的同学也非常友好。本课程不仅讲解了 Python3 基础知识,还介绍了 PEP8、Virtualenv、测试、项目结构以及 Flask 相关内容。

4. 用 Python 实现各种常用算法

使用 Python 实现各种算法,主要知识点包括数据结构,哈希,数学算法,线性代数,搜索算法,排序算法,字符串。

过年期间,王者荣耀日流水过亿,又赚钱又好玩为什么不学?下面这些课程将教你快速一些小 游戏 ~

推荐课程:

1. 200 行 Python 代码实现 2048

本实验仅用200行的 python 代码完成2048小 游戏 的编写。通过本实验将学习 Python 基本知识,状态机的概念,以及编写 python 游戏 的步骤。为 Python 的进阶课程,需要用户具有 Python 的语法基础。

2. Python3 实现推理 游戏 Bagels

Bagels是可以和朋友一起玩的一个推理 游戏 。本实验将会一步步地用 Python3 实现这个 游戏 。本课程会用到一些 Python3 的新特性。

3. Python 实现康威生命 游戏

康威生命 游戏 是一个久负盛名的数学 游戏 ,有简单的规则和无穷无尽的组合。本课程将使用 pygame 模块来实现这样一个 游戏 ,让你在趣味 游戏 中提升对 Python 的理解,入门 pygame。

4. Python 实现推箱子 游戏

本课程通过一个简单的推箱子 游戏 ,来介绍 pygame 的一些相关内容,课程介绍中尽量避免专业词汇,从简单入手设计并开发一个推箱子 游戏 。

5. 基于 Pygame 开发贪吃蛇和俄罗斯方块

本课程基于Pygame开发贪吃蛇和俄罗斯方块,通过逐步学习Pygame基础知识,到从零开始实现 游戏 开发,课程难度由浅入深,内容通俗易懂,确保同学们能够很好的掌握和理解。

每个技术大牛都应该有自己的技术博客,如果是自己开发的,那更是加分无数。下面这些教程可以帮助你学习创建美观又实用的博客~

推荐课程:

1. Python3 基于 Flask 框架搭建个人博客

本课程中,我们将使用 Python 语言及 Flask 框架开发一个简单的博客系统。涉及 Flask Web 开发,使用 Peewee 构建数据模型,简单的 Jinja2 模板, Pygments 模块实现代码语法高亮,MarkDown 格式编写博客, Micawber 实现多媒体播放。

2. 使用 Github Pages 和 Hexo 搭建独立博客

本次课程我们将利用 github page 的特性来部署由 Hexo 框架渲染生成的静态博客。并且为博客添加插件以实现评论、七牛实现图床等功能。

3. Java 实现个人博客

利用 SSM 框架和简单的前端知识、Markdown 的富文本编辑器插件和第三方评论插件和 MySQL 数据库搭建一个简单但是功能完善的个人博客网站。

4. SpringBoot + Mybatis + Thymeleaf 搭建美观实用的个人博客

对于技术人员来说,拥有自己的个人博客应该是一件令人向往的事情,可以记录和分享自己的观点,独立开发以及独立维护一个博客网站,这种想法应该在很多人心中都有过,真的很酷,也因此我开发了 My Blog 博客系统,它是由 SpringBoot + Mybatis + Thymeleaf 等技术实现的 Java 博客系统,页面美观、功能齐全、部署简单及完善的代码,一定会给使用者无与伦比的体验。

没有一个春天不会到来。疫情总会散去,生活也还要继续。大家加油~

以上课程可以登陆实验楼官网获取。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/12313762.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-22
下一篇2023-05-22

发表评论

登录后才能评论

评论列表(0条)

    保存