node爬虫

初入前端,刚刚接触node,对于耳闻已久的node爬虫非常神往,所以有了这篇文章,项目代码在文章末尾

需求

抓取天涯论坛重庆地区板块的文章列表信息。

使用工具

  1. node.js
  2. superagent(客户端请求代理模块)
  3. cheerio(为服务器特别定制的,快速、灵活、实施的jQuery核心实现)

安装并使用cheerio,superagent模块

安装

npm install superagent cheerio --save

在项目中引入cheerio,superagent

const superagent = require('superagent')
const cheerio = require('cheerio')

指定需要抓取的域名

const mainUrl = 'http://bbs.tianya.cn'  //天涯论坛主域名
let url = '/list-45-1.shtml'    //重庆区域域名

请求数据

superagent.get(mainUrl + url).end(function (err, res) {// 抛错拦截if (err) {returnthrow Error(err)}console.log(res)}

分析页面结构

对页面内容进行分析,提取对我们需要的内容

以下图片是页面信息

  1. 我们需要的列表在class为mt5的div下。
  2. 整个网页有多个mt5,继续向下找。
  3. 每一栏信息在('.mt5 table tbody tr')下。
  4. 调用cheerio选取('.mt5 table tbody tr')

    let $ = cheerio.load(res.text)
    $('.mt5 table tbody tr').each((index, item)=>{
    //这里是每一项的信息
    })
  5. 找到了信息,下面对找到的信息进行解析

解析数据

找到需要解析的数据,对数据进行解析,保存我们需要的数据

        let $ = cheerio.load(res.text)let data = []   //存储抓去到的数据$('.mt5 table tbody tr').each((index, item) => {let _this = $(item)//根据页面判断是否是文章if ($(_this.children()[0]).hasClass('td-title')) {//对数据进行存储let objlet title = $(_this.find('.td-title')).find('span').next().text()// let text = $(_this.find('a')[0]).text()  //另一种选择器let type = $(_this.find('.td-title')).find('.face').attr('title')let goto = $(_this.find('.td-title')).find('span').next().attr('href')let author = $(_this.children()[1]).text()let point = $(_this.children()[2]).text()let time = $(_this.children()[3]).text()obj = {title: title,type: type,url: mainUrl + goto,author: author,point: point,time: time}if (obj.title != "") {//判断如果有内容,则推送到data中data.push(obj)}}})

存储数据到本地

此时需要把data中保存的数据存到想要保存的文件中需要用到node的fs模块

1.引入fs模块

const fs = require('fs')

2.存储数据到本地

在根目录下创建data文件夹

    fs.writeFile(__dirname + '/data/articleLists.json', JSON.stringify({status: 0,data: data}), function (err) {if (err) {console.log(err)} else {console.log("写入文章列表完成")}})

现在爬虫会把爬到的数据存储到本地了
ok,到这里我们的爬虫已经完成了,接下来我们需要对它进行优化

让爬虫更聪明

现在我们的爬虫只能爬取当前页的信息,我们来改一下,让它也能翻页

分析翻页按钮,天涯论坛的列表也的下一页按钮中有一个a标签,里边的url加上之前我们记录的mainUrl就是下一页的标签。所以,在爬虫爬取完本页的数据后,让爬虫向下一页的链接发一个新的请求就可以继续爬去了。

//单次读取后,找到下一页的链接,继续抓取下一页的数据let nextPage = $('.mt5').next().find('.short-pages-2 .links')nextPage.children().each((index, item) => {if ($(item).text() === '下一页') {let url = $(item).attr("href")getData(url)    //刚才我们请求数据的方法,命名为这个函数}})

现在,爬虫读取完当前页数据后就会继续爬取下一页的数据。

完成代码

最后我还增加了一个页码,每一页数据,单独进行记录。下面是完整的代码

const superagent = require('superagent')
const cheerio = require('cheerio')
const fs = require('fs')const mainUrl = 'http://bbs.tianya.cn'  //天涯论坛主域名
let url = '/list-45-1.shtml'    //重庆区域域名let index = 1   //记录页码数
//发送请求获取页面资源方法
let getData = (url) => {// 使用superagent请求页面数据superagent.get(mainUrl + url).end(function (err, res) {// 抛错拦截if (err) {returnthrow Error(err)}// 请求数据后使用cheerio解析数据let $ = cheerio.load(res.text)let data = []   //存储抓去到的数据$('.mt5 table tbody tr').each((index, item) => {let _this = $(item)//根据页面判断是否是文章if ($(_this.children()[0]).hasClass('td-title')) {//对数据进行存储let objlet title = $(_this.find('.td-title')).find('span').next().text()// let text = $(_this.find('a')[0]).text()  //另一种选择器let type = $(_this.find('.td-title')).find('.face').attr('title')let goto = $(_this.find('.td-title')).find('span').next().attr('href')let author = $(_this.children()[1]).text()let point = $(_this.children()[2]).text()let time = $(_this.children()[3]).text()obj = {title: title,type: type,url: mainUrl + goto,author: author,point: point,time: time}if (obj.title != "") {//判断如果有内容,则推送到data中data.push(obj)}}})if (data.length > 0) {  //判断data中是否有内容//使用fs模块对data中的数据进行储存,也可以使用数据库进行操作fs.writeFile(__dirname + '/data/articleLists' + index + '.json', JSON.stringify({status: 0,data: data}), function (err) {if (err) {console.log(err)} else {console.log("写入文章列表完成, 当前页码:", index)index++}})}//单次读取后,找到下一页的链接,继续抓取下一页的数据let nextPage = $('.mt5').next().find('.short-pages-2 .links')nextPage.children().each((index, item) => {if ($(item).text() === '下一页') {let url = $(item).attr("href")getData(url)}})})
}
//初次执行数据抓取
getData(url)

好了本次node爬虫快速入门文章到这里就结束了,但是这个爬虫还有很多地方需要完善,以后我会为大家带来更详细的爬虫教程

node爬虫快速入门相关推荐

  1. 54 Node.js快速入门

    技术交流QQ群:1027579432,欢迎你的加入! 欢迎关注我的微信公众号:CurryCoder的程序人生 1.Node开发概述 1.1 为什么要学习服务器端开发基础 能够与后端程序员更加紧密的配合 ...

  2. Python3网络爬虫快速入门实战解析(一小时入门 Python 3 网络爬虫)

    Python3网络爬虫快速入门实战解析(一小时入门 Python 3 网络爬虫) https://blog.csdn.net/u012662731/article/details/78537432 出 ...

  3. python3 爬虫实例_【实战练习】Python3网络爬虫快速入门实战解析(上)

    原标题:[实战练习]Python3网络爬虫快速入门实战解析(上) 摘要 使用python3学习网络爬虫,快速入门静态网站爬取和动态网站爬取 [ 前言 ] 强烈建议:请在电脑的陪同下,阅读本文.本文以实 ...

  4. Python教程:网络爬虫快速入门实战解析

    建议: 请在电脑的陪同下,阅读本文.本文以实战为主,阅读过程如稍有不适,还望多加练习. 网络爬虫简介 网络爬虫,也叫网络蜘蛛(Web Spider).它根据网页地址(URL)爬取网页内容,而网页地址( ...

  5. Python3网络爬虫快速入门实战解析

    Python3网络爬虫快速入门实战解析 标签: python网络爬虫 2017-09-28 14:48 6266人阅读 评论(34) 收藏 举报 分类: Python(26) 作者同类文章X 版权声明 ...

  6. Python3 网络爬虫快速入门实战解析

    点击上方"Python高校",关注 文末干货立马到手 作者:Jack Cui http://cuijiahua.com/blog/2017/10/spider_tutorial_1 ...

  7. 『Python开发实战菜鸟教程』实战篇:爬虫快速入门——统计分析CSDN与博客园博客阅读数据

    文章目录 0x01:引子 首先介绍一下网络爬虫是什么,可以用来做什么? 这里简单探讨一下网络爬虫的合法性 正式进入爬虫实战前,需要我们了解下网页结构 HTML CSS JScript 写一个简单的 H ...

  8. beautifulsoup网页爬虫解析_Python3 网络爬虫快速入门实战解析

    点击上方"Python高校",关注 文末干货立马到手 作者:Jack Cui http://cuijiahua.com/blog/2017/10/spider_tutorial_1 ...

  9. 【Python】Python爬虫快速入门,BeautifulSoup基本使用及实践

    来源:Python数据之道 作者:Peter 整理:阳哥 爬虫,是学习Python的一个有用的分支,互联网时代,信息浩瀚如海,如果能够便捷的获取有用的信息,我们便有可能领先一步,而爬虫正是这样的一个工 ...

最新文章

  1. Linux编译lclntsh,Linux下编译C/C++时,出现/usr/bin/ld: cannot find -l*** 错误的处理
  2. win7系统服务器环境配置,windows7系统安装与配置Tomcat服务器环境
  3. 带有Spring Security的OAuth 2.0快速指南
  4. UE4 多人联机显示每个人的playid
  5. windows10上安装mysql
  6. MySQL中GTID的几个限制和解决方案(r13笔记第21天)
  7. linux精简版远程登录,Linux下如何定制SSH来简化远程访问
  8. python中4j什么意思_Python学习:4.数据类型以及运算符详解
  9. linux下i2c驱动笔记
  10. 使用Async方法 Using Async Methods 精通ASP-NET-MVC-5-弗瑞曼 Listing 4-32.
  11. 利用excel快速制作标准正态分布表
  12. 语音合成IC与语音IC的两三事
  13. 微信支付-支付结果通知接收
  14. 交换机配置第七讲(不同vlan相互通信2)
  15. 百度人脸识别实现方法
  16. 对自己大学的期望与目标
  17. python生成10个随机密码_python生成随机密码
  18. mysql查询一个字段最大值_查询表中某一个字段的数字最大值的记录
  19. MySQL六十六问,两万字+五十图详解含(答案解析)
  20. 交通中心助力打造城市交通大脑深圳样板 ⑩

热门文章

  1. win10 下 via hd audio驱动 没有声音
  2. redis 注册服务 报错1067
  3. VirtualBox 上的windows XP启动时蓝屏
  4. js 获取url 参数
  5. 成功解决Exception unhandled RuntimeError run loop already started File: F:\Program Files\Python\Python
  6. manjaro-xfce的安装
  7. 天线基础知识(一)天线分类
  8. 任务管理器不能使用解决方法
  9. Youtube API数据类型
  10. 蜂鸟金融终端:零滞后技术指标