前言:
在web编程课上,老师布置了爬虫任务,而没有任何经验和相关方面知识的小白简直一头雾水,不知道该如何下手。一开始抱着一本厚厚的犀牛书啃了好几天,本以为对Javascipt语法有一定了解后便可以自己写出爬虫代码来了,结果事实证明,看了好多天后,依然无从下手。后来从爬虫教程看起,什么不懂,就去学习什么,一路摸索,跌跌撞撞,逐渐走上了正轨。
当把全项目完成后也算是明白了老师的良苦用心,通过这次经历,对web的学习不再只是听老师讲,也不再只是跟老师做。这门课似乎成为了我收获最大的课程,因为它不仅扩充了我的知识,更多的是提升了我的自学能力和实践动手能力。每次进步一点点带给我慢慢累积的幸福成就感。
依据个人经验,我总结出了该系列博文,为什么叫“一站到底”呢?因为它不仅是记录了自己的心路历程,也希望帮助同样有爬虫需求的小白,能少走一些弯路,只要按顺序看完本系列博文,就可以开始着手自己的项目。

(一)项目总目标
核心需求:
  1. 选取3-5个代表性的新闻网站(本项目选取代表性新闻网站——南方网、新浪网,以及垂直领域权威性的网站——经济领域的东方财富);
  2. 针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息;
  3. 将爬取出来的信息存储在数据库中;
  4. 建立网站对爬取内容的分项全文搜索;
  5. 给出所查关键词的时间热度分析;
技术要求:
  1. 必须采用Node.js实现网络爬虫;
  2. 必须采用Node.js实现查询网站后段,HTML+JS实现前端(尽量不要使用任何前后端框架)。
(二)博文指南
准备篇:
  1. Node.js爬虫一站到底系列一准备篇:开门见山——爬虫本质

  2. Node.js爬虫一站到底系列二准备篇:根深蒂固——web网页

  3. Node.js爬虫一站到底系列三准备篇:秣马厉兵——Node.js特点

实战篇:
  1. Node.js爬虫一站到底系列四实战篇:小试牛刀——爬虫初体验

  2. Node.js爬虫一站到底系列五实战篇:大显身手——万能爬虫

  3. Node.js爬虫一站到底系列六实战篇:初出茅庐——进入Mysql

扩展篇:
  1. Node.js爬虫一站到底系列七扩展篇:登堂入室——爬虫扩展

  2. Node.js爬虫一站到底系列八扩展篇:过关斩将——自我尝试

Node.js爬虫一站到底系列先导篇相关推荐

  1. 如何用 Node.js 爬虫?

    本文来自作者 小北 在 GitChat 上分享「Node.js 爬虫从 0 到 1」,「阅读原文」查看交流实录 「文末高能」 编辑 | 家辉 写在前面 我们经常会听说爬虫这个词语,但是却从来没有见过这 ...

  2. Node.js aitaotu图片批量下载Node.js爬虫1.00版

    即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...

  3. Node.js umei图片批量下载Node.js爬虫1.00

    这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...

  4. node.js 爬虫入门总结

    node.js爬虫 前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 php , python 等.当然这是在 nodejs 前了,nodejs 的出现,使得 Javascript ...

  5. Node.js摸石头系列目录

    1.Node.js 的安装和控制台命令--Node.js摸石头系列之一 2.架一个HTTP服务--Node.js摸石头系列之二 3.完成HelloWorld--Node.js摸石头系列之三 4.完成静 ...

  6. 完成静态服务器——Node.js摸石头系列之四

    系列目录:Node.js摸石头系列目录 一.一个错误引发的摸索 上回我们在获取 request 对象的 headers 属性的 'user-agent'  属性时,我使用了 request.heade ...

  7. java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息

    [Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...

  8. node.js 爬虫 实现爬取网页图片并保存到本地

    node.js 爬虫 实现爬取网页图片并保存到本地 没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...

  9. Node.js 爬虫爬取电影信息

    Node.js 爬虫爬取电影信息 本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...

最新文章

  1. 实战 | 深度学习轻松学:如何用可视化界面来部署深度学习模型 转载 2017年12月27日 00:00:00 109 翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 DeepCogn
  2. boost::locale::generator用法的测试程序
  3. dell驱动安装工具_技术丨如何快速安装显卡驱动
  4. 附5、MDT 2013 Update 1批量部署-更新版无法修改共享文件夹参数的解决办法
  5. linux awk入门,awk入门应用
  6. 从深圳到南阳-13天单骑3000里回家记
  7. Golang原生sql操作Mysql数据库增删改查
  8. 使用SpringBoot+JPA报错Incorrect syntax near 'hibernate_sequence'
  9. 第四季-专题12-按键驱动程序设计
  10. Java并发包提供了哪些并发工具类?
  11. wordpress电商独立站模板
  12. arm neon介绍
  13. Pytorch 节省内存、显存的一些技巧
  14. 呼叫系统的技术实现原理和运作流程
  15. 成交量占比过半 优信拍继续领跑二手车电商B端市场
  16. 【图像去噪】基于matlab自适应中值滤波图像去噪【含Matlab 1156期】
  17. 索氏提取器使用注意_索氏提取器的使用方法
  18. 【TensorFlow基础函数】tf.concat的用法
  19. 《石头迷阵》游戏业务数据设计、游戏功能制作、游戏界面绘制
  20. 科技向善,一念天堂。

热门文章

  1. JavaScript 常用运算符
  2. eclipse修改SVN账号密码
  3. css3 勾 叉,勾模拟手机菜单 三横杠,左右
  4. MongoDB详解(三)——MongoDB集群
  5. “敢死队总舵主”出狱!被誉为中国巴菲特,10万本金曾搏得200亿身家!
  6. 关于THINKPAD X1 Carbon(6th) 卡顿问题
  7. unity 添加人物控制器行走动画
  8. 视频防盗链的几种方法
  9. win10控制面板快捷键_Win10开启最强隐藏模式,电脑性能直线飙升
  10. Xstart Insatll And Usage