前嗅教你大数据:批量采集/下载网页中的图片数据
l 采集网站
【场景描述】采集revisionvillage网页中所有真题图片的数据。
【源网站介绍】revisionvillage,国外知名IB真题网站,每道题都有视频讲解的IB数学刷题网站。
【使用工具】前嗅ForeSpider数据采集系统,免费下载:
ForeSpider免费版本下载地址
【入口网址】https://www.revisionvillage.com/ib-math-analysis-and-approaches-hl/questionbank/number-and-algebra/sequences-and-series/
【采集内容】
采集页面中的真题图片数据。
【采集效果】如下图所示:
l 配置步骤
1. 新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
2.寻找图片链接
在浏览器中打开该页面,点击F12,选择指针后,点击页面中的图片位置,在源码中找到图片链接,如下图所示:
图片链接如下图所示:
将图片链接复制,在浏览器中打开,即为该图片页面:
3. 查找图片链接位置/规律
观察源码发现,每一个真题在源码中对应一个class,如下图所示:红框内表示真题1所对应的源码,绿框内为所有真题的源码,是从class为【et_builder_inner_content et_pb_gutters3】的子节点的下一个节点的下一个节点开始。
第一真题所对应源码打开以后,如下图所示,观察发现:图片链接的位置在该节点的子节点的下一个节点的子节点的子节点的子节点的子节点的href值。
4.数据抽取
①打开模板,新建一个数据抽取,如下图所示:
②新建数据表,具体如下图所示:
③关联数据表
④打开脚本窗口,新建数据抽取脚本。
⑤根据图片链接规律,编写脚本如下所示:
脚本文本如下所示:
var a = DOM.FindClass("et_builder_inner_content et_pb_gutters3","div");//定义a为class为【et_builder_inner_content et_pb_gutters3】的节点
var b = a.child.next.next.next;//定义b为a节点的子节点的下一个节点的下一个节点的下一个节点,即真题一所对应的源码中的位置节点
for(i=1;i<=32;i++){//写一个for循环,来获取每一个图片
record re;//返回数据固定搭配
re.id = i;//范围主键为i
var c=b.child.next.child.child.child.href;//定义c为b节点的子节点的下一个节点的子节点的子节点的子节点的href属性值,即获取到图片链接值
var doc = EXTRACT.OpenDoc(CHANN,c, "");//打开图片链接
var p=doc.GetDom().GetSource(c);//定义p为图片链接打开页面中的源码,即图片
re.pic=p;//返回p
Re.ex=“.png”;//返回后缀为.png
EXTRACT.CloseDoc(doc);//固定搭配,关闭图片链接
RESULT.AddRec(re,this.schemaid);//固定搭配,返回一个数据
b=b.next;//b为b的下一个节点,即下一个图片所对应源码的位置节点
}
⑥采集预览
发现图片都采集出来了,说明配置成功。
l 采集步骤
模板配置完成,采集预览没有问题后,可以进行数据采集。
1.建立数据表单
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【ID】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。
2.开始采集
选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。
3.导出数据
采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。
4.导出的文件打开如下图所示
本教程仅供教学使用,严禁用于商业用途!
l 前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!
前嗅教你大数据:批量采集/下载网页中的图片数据相关推荐
- spi的dma方式前四个字节_前嗅教你大数据:常见几种编码介绍
为什么要编码? 大家可以先思考个问题: 计算机是如何表示我们人类能够理解的符号的,也就是我们人类使用的语言. 人类的语言有太多了,因而表示这些语言的符号太多. 我们无法用计算机中一个基本的存储单元-- ...
- 教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇
文章目录 1:网络爬虫介绍 2:HttpClients类介绍 2.1 HttpGet参数问题 2.2 HttpPost参数问题 2.3 连接池技术问题 3:Jsoup介绍 4:动手实践如何抓取网页上数 ...
- python提取网页中表格数据_Python2 BeautifulSoup 提取网页中的表格数据及连接
网址:http://quote.eastmoney.com/ce- 要做的是提取网页中的表格数据(如:板块名称,及相应链接下的所有个股,依然是个表格) 暂时只写了这些代码: import urllib ...
- 前嗅教你大数据:采集东方财富网数据
l 采集场景 [场景描述]采集东方财富网行情中心沪深京A股数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSpider免费版本下载地址 l采集网站 [入口网址] htt ...
- 前嗅教你大数据:采集孔夫子旧书网
l 采集网站 [场景描述]采集孔夫子旧书网数据. [源网站介绍]孔夫子旧书网是国内专业的古旧书交易平台,汇集全国各地13000家网上书店,50000家书摊,展示多达9000万种书籍:大量极具收藏价值的 ...
- 前嗅教你大数据:采集带有翻页结构的网页数据
置顶 "前嗅大数据" 和数据大牛一起成长,做牛气哄哄的大数据人 [场景描述]采集带有翻页的网页中的数据. [使用工具]前嗅ForeSpider数据采集系统,免费下载: ForeSp ...
- python 批量下载网页图片_Python 实现简单的爬虫功能 -----批量下载网页中的图片...
我使用的是macPro , mac 自带了python2.7 , 我自己下载了pytho3.6根据操作进行安装后,终端默认的还是 python 2.7, 需要修改为 Python3.6 进入 ~/.b ...
- python爬虫抓取图片-怎么用爬虫批量抓取网页中的图片?
这个也有点简单了吧,之前观点网爬知乎的代码,直接给你上了: def download_img(url,classify): try: extention=get_extension(url) if(e ...
- 快客原创 火车头数据采集视频教程——第1讲 ecshop zencart shopex lightinthebox 网店数据批量采集教程
(欢迎广大网友交流 qq:158393237 旺旺: q459255119) ecshop zencart shopex lightinthebox 网店数据批量采集教程 点击打开链接 快客原创视频 ...
最新文章
- 怎么逐步突破,成为Python高手?
- 怎么把项目推到gitlab上_Gitlab利用Webhook+jenkins实现自动构建与部署
- 《Docker技术入门与实战》——2.3 本书环境介绍
- 用shell或者python写出各种图形
- Android窗口管理服务WindowManagerService显示Activity组件的启动窗口(Starting Window)的过程分析...
- Android APK 签名问题
- yum install php-pecl-mongo,pecl安装php mongodb扩展
- 微信小程序获取用户头像昵称手机号最新版
- 项目变更管理:变更流程
- Windows Server 2008 R2 官方简体中文免费企业版/标准版/数据中心版下载
- 大学计算机实验教程实验4,计算机组成原理实验报告(四个实验 图)
- sox处理mp3_sox 转码 amr转MP3
- 国内外已知SAR卫星相关信息整理(持续更新-2022.9.6)
- 综合案例-快报模块列表制作
- 编写程序 , 求 e 的值
- pytorch-lightning踩坑记录
- 我认识的几个哈工大本科生毕业后出路
- 《Spring视频教程》(p14~p16)
- 计算机专业就业正规军干不过游击队?
- 谷粒商城-07-p102-p138