websect爬取小米官网数据
webesct
- 首先要下载webesct
nom i websect
- 老规矩,还是爬取小米官网的数据QAQ,现在要爬取的是这个:
const $ = require("websect")
const fs = require("fs")
// const cheerio = require("cheerio")$.get("https://www.mi.com").then(data=>{var old = Date.now()var arrs = []$(data).find("ul.children-list.clearfix li a").each(el=>{var href = el.hrefvar src = $(el).find("img").attr("data-src")var title = $(el).find("div.title").text()var price = $(el).find("p").text()arrs.push({href,src,title,price})})// 打印数据console.log(arrs)// 测试用时console.log(Date.now() - old)
})
[{href: '//item.mi.com/10000198.html',src: 'https://cdn.cnbj1.fds.api.mi-img.com/mi-mall/be92bc4baa572bf467fc9e881fd4be2a.png',title: '小米CC9 Pro',price: '2799元起'},{href: 'https://www.mi.com/mi9pro/',src: 'https://cdn.cnbj1.fds.api.mi-img.com/mi-mall/41c566d825a3ae3b5751a78d4c7cffdb.png',title: '小米9 Pro 5G',price: '3699元起'},{href: 'https://www.mi.com/mi9/',src: 'https://cdn.cnbj0.fds.api.mi-img.com/b2c-mimall-media/2c9307e9690dfbca39d8de770a7a8664.png',title: '小米9',price: '2699元'},// **************** 中间还有很多数据,这里省略 ***************{href: 'https://www.mi.com/aispeaker-touch/',src: 'https://cdn.cnbj0.fds.api.mi-img.com/b2c-mimall-media/f6e585a4bf5c0f744ca60f19ecd6fadf.jpg',title: '小米小爱触屏音箱',price: '249元'},{href: 'https://www.mi.com/aispeaker-control/',src: 'https://cdn.cnbj0.fds.api.mi-img.com/b2c-mimall-media/df136199221a23299bc5348f37230a86.jpg',title: '小爱万能遥控版',price: '149元'},{href: 'https://www.mi.com/p/3469.html?client_id=180100041086&masid=17409.0245',src: 'https://cdn.cnbj1.fds.api.mi-img.com/mi-mall/ff1254137246a22ad9eba80bd1c454c5.jpg',title: '查看全部<br>智能硬件',price: undefined}
]
13 // 这里是爬取数据包括打印数据 总共 13ms
- 如果不打印数据,那么是这样:
sataniyadeMBP:ajax sataniya$ node demo
9
sataniyadeMBP:ajax sataniya$ node demo
9
sataniyadeMBP:ajax sataniya$ node demo
8
sataniyadeMBP:ajax sataniya$ node demo
8
sataniyadeMBP:ajax sataniya$ node demo
8 //可以看见如果不打印数据的话,那么基本上爬取数据只需要8ms,这个速度是很惊人的!!
sataniyadeMBP:ajax sataniya$
- 现在换成 cheerio 来进行爬取相同的数据:
const ajax = require("ajax-insect")
const fs = require("fs")
const cheerio = require("cheerio")ajax.get("https://www.mi.com").then(data=>{var old = Date.now()var arrs = []var $ = cheerio.load(data.toString())$("ul.children-list.clearfix li a").each((index,el)=>{var href = $(el).attr("href")var src = $(el).find("img").attr("data-src")var title = $(el).find("div.title").text()var price = $(el).find("p").text()arrs.push({href,src,title,price})})console.log(arrs)console.log(Date.now() - old)
})
{href: '//item.mi.com/10000198.html',src: 'https://cdn.cnbj1.fds.api.mi-img.com/mi-mall/be92bc4baa572bf467fc9e881fd4be2a.png',title: '小米CC9 Pro',price: '2799元起'},{href: 'https://www.mi.com/mi9pro/',src: 'https://cdn.cnbj1.fds.api.mi-img.com/mi-mall/41c566d825a3ae3b5751a78d4c7cffdb.png',title: '小米9 Pro 5G',price: '3699元起'},{href: 'https://www.mi.com/mi9/',src: 'https://cdn.cnbj0.fds.api.mi-img.com/b2c-mimall-media/2c9307e9690dfbca39d8de770a7a8664.png',title: '小米9',price: '2699元'},// **************** 中间还有很多数据,这里省略 ***************{href: 'https://www.mi.com/aispeaker-touch/',src: 'https://cdn.cnbj0.fds.api.mi-img.com/b2c-mimall-media/f6e585a4bf5c0f744ca60f19ecd6fadf.jpg',title: '小米小爱触屏音箱',price: '249元'},{href: 'https://www.mi.com/aispeaker-control/',src: 'https://cdn.cnbj0.fds.api.mi-img.com/b2c-mimall-media/df136199221a23299bc5348f37230a86.jpg',title: '小爱万能遥控版',price: '149元'},{href: 'https://www.mi.com/p/3469.html?client_id=180100041086&masid=17409.0245',src: 'https://cdn.cnbj1.fds.api.mi-img.com/mi-mall/ff1254137246a22ad9eba80bd1c454c5.jpg',title: '查看全部智能硬件',price: ''}
]
89 // 这里是爬取数据和打印数据,总共用时 89ms
- 如果不包括打印数据的话:
sataniyadeMBP:ajax sataniya$ node demo
90
sataniyadeMBP:ajax sataniya$ node demo
83
sataniyadeMBP:ajax sataniya$ node demo
79
sataniyadeMBP:ajax sataniya$ node demo
82
sataniyadeMBP:ajax sataniya$ node demo
82
sataniyadeMBP:ajax sataniya$ node demo
80
sataniyadeMBP:ajax sataniya$ node demo
86
sataniyadeMBP:ajax sataniya$ node demo
83 // 仅仅是爬取数据的话,那么 cheerio 用时 83ms
sataniyadeMBP:ajax sataniya$
- 可以看见 在爬取相同数据的时候,websect用时8ms,但是 cheerio用时83ms,展现了websect超快的爬取数据性能
websect爬取小米官网数据相关推荐
- 爬虫实战(二)—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解
概述 可关注微信订阅号 loak 查看实际效果. 代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider ,包括了项目的所有代码. 本文 ...
- 用python输出所有的玫瑰花数_用Python爬取WordPress官网所有插件
转自丘壑博客,转载注明出处 前言 只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...
- python爬取千图网_python爬取lol官网英雄图片代码
python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...
- Python3爬取国家统计局官网2019年全国所有城市(2020年更新)
Python3爬取国家统计局官网2019年全国所有城市(2020年更新) 一级城市爬取 一级城市爬取 由于最近需要用到所有城市的数据,故从统计局爬取19年的一级城市数据 import random i ...
- 如何用Python爬取LOL官网全英雄皮肤
今天小编带你爬取LOL官网全英雄皮肤的图片 不要失望,也不要难过 接下咱们来讲讲怎么爬取LOL官网 本次案例使用到的模块 import requests import re import json 安 ...
- python爬虫入门练习,使用正则表达式和requests爬取LOL官网皮肤
刚刚python入门,学会了requests模块爬取简单网页,然后写了个爬取LOL官网皮肤的爬虫,代码奉上 #获取json文件 #获取英雄ID列表 #拼接URL #下载皮肤 #导入re request ...
- python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址
python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载 由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...
- 使用Python爬取分析政府采购网数据
好久没写博客了,一直觉得之前写的都没啥技术性,这次分享个最近觉得很值得记录的一次操作吧~. Leader临时分配给我个任务,要我爬取下政府采购网近一个月公开招标中二三甲医院的数据,这一 ...
- 【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...
最新文章
- mysql忘记root密码解决办法
- 代换-置换网络(SP网络)
- jquery中的 jquery.contains(a,b)
- 【MySQL】数据库基本操作、表的操作
- Pycharm安装python包的四种常用方式
- c语言unit id是什么,小程序再升级之什么是UnitionID
- 使用scrapy爬取豆瓣上面《战狼2》影评
- 修复iPhone系统白苹果问题
- jdbc mysql 5.05_JDBC 连接 MySQL 时碰到的小坑
- 初入python世界——python基础语法
- 力扣解法汇总589- N 叉树的前序遍历
- cocostudio 1.6
- Ubuntu16.04安装联想LJ2600D打印机驱动程序
- scala学习笔记:各种奇怪的写法
- 通过 Flowable-UI 来体验一把 Flowable 流程引擎
- lepus监控oracle数据库_Lepus(天兔)数据库监控系统之web控制台介绍
- 汽车软件通信中间件SOME/IP简述
- 2022-04-30 Unity核心2——Sprite
- IEEE论文检测的字体未嵌入问题
- 开发利器 Emeditor