Node.js爬虫一站到底系列先导篇

前言：
在web编程课上，老师布置了爬虫任务，而没有任何经验和相关方面知识的小白简直一头雾水，不知道该如何下手。一开始抱着一本厚厚的犀牛书啃了好几天，本以为对Javascipt语法有一定了解后便可以自己写出爬虫代码来了，结果事实证明，看了好多天后，依然无从下手。后来从爬虫教程看起，什么不懂，就去学习什么，一路摸索，跌跌撞撞，逐渐走上了正轨。
当把全项目完成后也算是明白了老师的良苦用心，通过这次经历，对web的学习不再只是听老师讲，也不再只是跟老师做。这门课似乎成为了我收获最大的课程，因为它不仅扩充了我的知识，更多的是提升了我的自学能力和实践动手能力。每次进步一点点带给我慢慢累积的幸福成就感。
依据个人经验，我总结出了该系列博文，为什么叫“一站到底”呢？因为它不仅是记录了自己的心路历程，也希望帮助同样有爬虫需求的小白，能少走一些弯路，只要按顺序看完本系列博文，就可以开始着手自己的项目。

（一）项目总目标

核心需求：

选取3-5个代表性的新闻网站（本项目选取代表性新闻网站——南方网、新浪网，以及垂直领域权威性的网站——经济领域的东方财富）；
针对不同网站的新闻页面进行分析，爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息；
将爬取出来的信息存储在数据库中；
建立网站对爬取内容的分项全文搜索；
给出所查关键词的时间热度分析；

技术要求：

必须采用Node.js实现网络爬虫；
必须采用Node.js实现查询网站后段，HTML+JS实现前端（尽量不要使用任何前后端框架）。

（二）博文指南

准备篇：

Node.js爬虫一站到底系列一准备篇：开门见山——爬虫本质
Node.js爬虫一站到底系列二准备篇：根深蒂固——web网页
Node.js爬虫一站到底系列三准备篇：秣马厉兵——Node.js特点

实战篇：

Node.js爬虫一站到底系列四实战篇：小试牛刀——爬虫初体验
Node.js爬虫一站到底系列五实战篇：大显身手——万能爬虫
Node.js爬虫一站到底系列六实战篇：初出茅庐——进入Mysql

扩展篇：

Node.js爬虫一站到底系列七扩展篇：登堂入室——爬虫扩展
Node.js爬虫一站到底系列八扩展篇：过关斩将——自我尝试

Node.js爬虫一站到底系列先导篇相关推荐

如何用 Node.js 爬虫？
本文来自作者小北在 GitChat 上分享「Node.js 爬虫从 0 到 1」,「阅读原文」查看交流实录「文末高能」编辑 | 家辉写在前面我们经常会听说爬虫这个词语,但是却从来没有见过这 ...
Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
node.js 爬虫入门总结
node.js爬虫前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 php , python 等.当然这是在 nodejs 前了,nodejs 的出现,使得 Javascript ...
Node.js摸石头系列目录
1.Node.js 的安装和控制台命令--Node.js摸石头系列之一 2.架一个HTTP服务--Node.js摸石头系列之二 3.完成HelloWorld--Node.js摸石头系列之三 4.完成静 ...
完成静态服务器——Node.js摸石头系列之四
系列目录:Node.js摸石头系列目录一.一个错误引发的摸索上回我们在获取 request 对象的 headers 属性的 'user-agent' 属性时,我使用了 request.heade ...
java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息
[Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...
node.js 爬虫实现爬取网页图片并保存到本地
node.js 爬虫实现爬取网页图片并保存到本地没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...