【Mac】从0开始用node.js制作爬取结果的查询网站

- 实验要求
- 实验结果展示
简单了解实验项目所需知识
- 1 爬虫原理
- 2 JavaScript语法
- 3 网络元素的提取
- 4 正则表达式
- 5 其他有关MySQL数据库
- 6 前端方面
- 7 后端方面
完整爬取一个网站的过程
- 项目示例1
- 项目二示例
- 示例3 构建网站查询
自己爬取过程中出现的问题（崩溃）
- 在MAC上安装MySQL的问题
- Mac上无法直接安装express脚手架
附爬取各个网页的源代码
- 新浪新闻网
- 东方财富源码
- 中国证券网源码
总结心得

实验要求

新闻爬虫及爬取结果的查询网站

核心需求：
1、选取3-5个代表性的新闻网站（比如新浪新闻、网易新闻等，或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等，或者体育领域的腾讯体育、虎扑体育等等）建立爬虫，针对不同网站的新闻页面进行分析，爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息，存储在数据库中。
2、建立网站提供对爬取内容的分项全文搜索，给出所查关键词的时间热度分析。

技术要求：
1、必须采用Node.JS实现网络爬虫
2、必须采用Node.JS实现查询网站后端，HTML+JS实现前端（尽量不要使用任何前后端框架）

刚接触半年编程的小白在第一节课看到实验要求时是心态崩溃的，还好经过一段时间的学习与不断摸索，有了一些浅显的理解，希望可以帮助到大家。
PS：发现用Mac完成一些操作与Windows不同，有一些天坑。希望此篇可以帮助大家避坑。

实验结果展示

1.中国新闻网试运行

2.自己爬虫——新浪新闻网

3.爬取东方财富网
4.爬取中国证券网（这里出现了一些问题待解决）(MYSQL出现问题待解决，现只能暂时存在本地)

简单了解实验项目所需知识

开始爬虫之前（心理建设无数次之后）
通过仔细、认真、完整地研究了一遍老师的PPT，了解到从0入手node.js爬虫大概需要以下知识。

1 爬虫原理

1 、首先我们选定网站查看源代码，获取我们想要的子网页的URL

通过request请求，cheerio解析，each遍历
（cheerio模块囊括了对html页面的解析，分块，提取等多个功能，是实现爬虫功能最主要的工具。）
（为了实现爬虫功能，通常要在代码头部用require函数引入request、cheerio、iconv-lite和fs四个模块，其中fs是node.js内置的，其他三个需要安装）

2 、搜索出我们子网页页面中我们需要的信息：标题、正文关键字等

搜索后，写入代码，爬虫功能通过request请求，cheerio解析实现

3 、将这些我们需要的信息保存下来，通过各种形式访问到这种信息

建立fetch(文件对象)，输入文件信息，fs /mysql模块写入（即本地保存或数据库保存）

2 JavaScript语法

主要介绍一些基本语法(由于js要用JavaScript编写，需要理解一些基本语法，其他更多的语法就不多谢啦，要看专门的介绍

【Mac】从0开始用node.js制作爬取结果的查询网站相关推荐

python爬取大众点评数据_利用Node.js制作爬取大众点评的爬虫
前言 Node.js天生支持并发,但是对于习惯了顺序编程的人,一开始会对Node.js不适应,比如,变量作用域是函数块式的(与C.Java不一样):for循环体({})内引用i的值实际上是循环结束之后 ...
java爬虫拉勾网_[Java教程]node.js爬虫爬取拉勾网职位信息
[Java教程]node.js爬虫爬取拉勾网职位信息 0 2017-03-14 00:00:21 简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳 ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...
node.js爬虫爬取电影天堂，实现电视剧批量下载。
2019独角兽企业重金招聘Python工程师标准>>> ###一.项目描述引言:在电影天堂下电视剧的下伙伴有木有发现,它没有提供批量下载功能,美剧英剧还好,10集左右,我就多点 ...
Node.js + puppeteer爬取推特ChineseVirus評論(1)
說到網絡爬蟲,大家第一時間想到的可能是python,但其實Node.js也十分適合用來爬蟲.爬蟲通常涉及大量請求,像推特這種由js/ajax动态生成的網頁更是必須等待數據加載完成才能進行爬取.Node ...
node爬取app数据_使用node.js如何爬取网站数据
数据库又不会弄,只能扒扒别人的数据了. 搭建环境: (1).创建一个文件夹,进入并初始化一个package.json文件. npm init -y (2).安装相关依赖: npm install -- ...
node爬虫_爬取斗图啦网站上的表情包
最近在学习node.js,做点不是人的事情:爬取网站上的表情包实现步骤: 1.分析网站的结构: 斗图啦这个网站是服务器渲染的,直接打开网站就可以获取到完整的html信息. 我们可以看到下面两张图就是 ...
VUE3.0 一.安装node.js、vue3.0脚手架
VUE3.0 一.安装node.js.vue3.0脚手架 1.安装nodejs 首先去官网下载nodejs 查看npm和node版本,出现版本号即安装成功. npm -v # 6.13.4node - ...
node 爬虫实战 - 爬取拉勾网职位数据
node 爬虫实战 - 爬取拉勾网职位数据,主要想把数据用于大数据学习,到时候大数据分析可以自己分析一下职位的情况,和比较一些我现在的职位在深圳乃至全国的开发人员水平. 涉及到的技术栈:node.j ...

【Mac】从0开始用node.js制作爬取结果的查询网站

【Mac】从0开始用node.js制作爬取结果的查询网站

实验要求

实验结果展示

简单了解实验项目所需知识

1 爬虫原理

2 JavaScript语法

【Mac】从0开始用node.js制作爬取结果的查询网站相关推荐

最新文章

热门文章