node.js 之爬虫
1. cheerio 与 request
- request:模拟客户端行为,对页面进行请求
- cheerio:对服务器端返回的页面进行解析;
var cheerio = require('cheerio');
var request = require('request');var startUrl = 'http://www.baidu.com'
request(startUrl, function(err, response) {if (err) {console.log(err);}var $ = cheerio.load(response.body);var title = $('title').text();console.log(title);
}
2. 认识 cheerio
获取 element 位置
- 通过 class 属性进行匹配:
var $=cheerio.load('<div class="container"></div>'); $('.container')
- 取其链接:
<a class="downbtn" href="http://mov.bn.netease.com/mobilev/2013/1/F/G/S8KTEF7FG.mp4" id="M8KTEKR84" target="_blank"></a>
$('a.downbtn').attr('href')
- 某一页面下的全部可链接:
var url = var $ = cheerio.load(data);$("a.downbtn").each(function(i, e) {console.log($(e).attr("href"));});console.log("done");} else {console.log("error");}
node.js 之爬虫相关推荐
- Node.js期中爬虫实验项目
Node.js期中爬虫实验项目 期中作业要求 基础概念引入 前期准备工作 安装node.js 安装数据库 安装Navicat Premium 15 正则表达式学习网站 课堂示例演示 示例一(显示在终端 ...
- node.js简单爬虫
这里假设你已经安装好node.js和npm,如果没有安装,请参阅其他教程安装. 配置 首先是来配置package.json文件,这里使用express,request和cheerio. package ...
- 使用Node.js制作爬虫教程
应邀写一点使用Node.js爬点资料的实例,对于大家建站爬一些初始资料或者做分析研究的小伙伴们应该有些帮助. 目标分析 目标地址:http://wcatproject.com/charSearch/ ...
- 利用node.js写爬虫 爬取某相亲网站全部交友信息
点击查看爬取世纪佳缘相亲交友信息 利用node.js,写了一个爬虫js.1个小时左右的时间,便爬取了2000多条交友信息,包括网名,年龄,图片,学历,工资等.当然,爬取的速度和网速有很大的关系,也和你 ...
- [Node.js] 模块化 -- 爬虫
使用第三方模块 1.新建一个文件夹,文件夹的名字非中文,名字也不要和模块名字一样. 2.进到文件夹里面去,命令运行:npm init -y这个命令可以理解成是初始化 3.下载模块, 去npm官网搜索模 ...
- 【Node.js】爬虫--抓取新闻标题、图片、文字描述,支持QQ、iFeng
Sodino 文章目录 1. app.js 2. img-spider.js 3. img.gallery.js 4. ifengImgs.js 5. ifengPictures.js 6. qqIm ...
- 从零开始的Node.js新闻爬虫实验项目(四)东方财富网、网易新闻、Pixiv的爬取思路
这是计划的第3步 有了前篇雪球网新闻的爬取代码,可以同样的爬取其他各类网站 1)东方财富网 1.一级页面 在这里,选择信息较为集中,内容丰富的"右边部分"开始分析. 观察到每一条消 ...
- node.js爬虫中关村在线电瓶车信息
背景 最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧. (以后完整代码请前往 www.yubo ...
- Node.js -- 目录
[Node.js] node.js入门 [Node.js] ES6新语法 [ES6] 细化ES6 [Node.js] node.js模块化 [Node.js] 模块化 – fs文件读取模块 [Node ...
最新文章
- php sql count函数,SQL COUNT() 函数
- 4G EPS 中的消息类型
- python【Matlibplot绘图库】基本使用(真の能看懂~!)
- C语言程序练习-L1-032 Left-pad (20分)
- uniapp 判断页面是否是横竖屏,解决微信小程序video组件全屏播放视频遮盖自定义播放控件问题
- oracle mssql 实例,oracle,mysql,SqlServer三种数据库的分页查询的实例
- postgres大版本升级
- XAF-BI.Dashboard模块概述 web/win
- 索尼申请“Pregius S”商标 或用于CMOS图像传感器
- dxf转g代码_恶意代码分析系列几种常用技术(2)
- 【计算机网络】Internet原理与技术3 — 端口及套接字、用户数据报协议UDP、传输控制协议TCP
- 设置Image控件加载图片完毕后的效果.
- Linux 脚本删除大于指定大小的文件
- 微信小游戏代码包侵权(最新)
- 漫画|前端江湖恩仇录始末
- 库克将为斯坦福大学2019年毕业典礼致辞:6月16日举行
- 深度学习AI美颜系列---人脸数据增强
- 19 款国产手机无一幸免:15 分钟破解人脸识别,打印眼镜让刷脸形同虚设
- 上溯造型、下溯造型的理解
- 106个汉语多音字一句话总结!
热门文章
- php路径详解,详解与PHP路径相关的dirname,realpath,__FILE__函数
- matlab中求方差的,matlab中求方差为什么除以n-1?
- linux删除第二列为空_Linux系列第二谈(开机关机、Linux中的文件、目录管理、基本属性)...
- 括号表示法字符串构造二叉树_一篇文章学会二叉树和二叉查找树
- Pytorch——批标准化(层归一化)
- 将Numpy数组保存为图像
- mysql查球队胜场和败场sql_NBA球队_nba有哪些球队_NBA史上实力最弱的球队是哪个?用Python+SQL我们找到了答案...
- ktor HTTP API 练习
- leecode第六十二题(不同路径)
- Windbg分析高内存占用问题