QueryList异步抓取网页数据
环境要求:
php7及以上
phantomjs引擎 下载地址
QueryList4.0
核心思想:
根据抓取对象网页的布局,编写相应的规则,规则语法参考jquery即可。
抓取示例:
京东商城产品列表
抓取规则:
//京东商城采集规则配置
$rules = array('product_list' => array('url' => 'https://list.jd.com/list.html?cat=670,671,672','range' => '.gl-item .j-sku-item','rules' => array('link' => array('.p-img a','href'),'image' => array('.p-img a img','src'),'lazyImage' => array('.p-img a img','data-lazy-img'),'name' => array('.p-name a em','text'),'price' => array('.p-price .J_price:eq(0) i','text')),'desc' => '产品列表')
);
return $rules;
抓取结果:
一点资讯
抓取规则:
//一点资讯网站采集规则配置
$rules = array('video' => array('url' => 'http://www.yidianzixun.com/channel/u13746','range' => '.style-content-middle','rules' => array('link' => array('','href'),'image' => array('.doc-image-small-wrapper .doc-image-box img','src'),'duration' => array('.doc-image-small-wrapper .doc-image-box .video-time','text'),'title' => array('.doc-content .doc-content-inline .doc-title','text')),'desc' => '视频列表'),'amuse' => array('url' => 'http://www.yidianzixun.com/channel/s10671','range' => '.style-content-middle','rules' => array('link' => array('','href'),'image' => array('.doc-image-small-wrapper .doc-image-box img','src'),'duration' => array('.doc-image-small-wrapper .doc-image-box .video-time','text'),'title' => array('.doc-content .doc-content-inline .doc-title','text')),'desc' => '搞笑列表'),
);
return $rules;
抓取结果:
图片抓取
抓取规则:
//图片网站采集规则配置
$rules = array(//昵图网'www.nipic.com' => array('index' => array(array('url' => 'http://www.nipic.com/','range' => '','rules' => array('link' => array('.newIndex-hotpic','href'),'image' => array('.newIndex-hotpic img','src'),'title' => array('.newIndex-hotpic .newIndex-textItem','text'),),'desc' => '首页热门专题'),array('url' => 'http://www.nipic.com/','range' => '','rules' => array('link' => array('.right-choicePic','href'),'image' => array('.right-choicePic img','src'),'title' => array('.right-choicePic .newIndex-textItem','text'),),'desc' => '首页精选推荐')))
);
return $rules;
抓取结果:
QueryList异步抓取网页数据相关推荐
- php用QueryList异步爬取网页数据
环境要求 PHP >= 7.0 如果你的PHP版本还停留在PHP5,或者不会使用Composer,你可以选择使用QueryList3,QueryList3支持php5.3以及手动安装. Quer ...
- 抓取网页数据并解析Android
抓取网页数据并解析 标签: 网页抓取jsoupAndroid 2016-03-02 13:54 1262人阅读 评论(1) 收藏 举报 分类: Android开发(原创)(7) 版权声明:本文为博 ...
- cookie追加数据_集算器 SPL 抓取网页数据
[摘要] 集算器 SPL 支持抓取网页数据,根据抓取定义规则,可将网页数据下载到在本地进行统计分析.具体定义规则要求.使用详细情况,请前往乾学院:集算器 SPL 抓取网页数据! 网站上的数据源是我们进 ...
- python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
- web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上 如果你在使用 web s ...
- php如何抓取网页内容,php如何抓取网页数据?
php抓取网页数据header("Content-type: text/html; charset=utf-8"); //$url = "https://www.cnbl ...
- 【.NET】使用HtmlAgilityPack抓取网页数据
原文:[.NET]使用HtmlAgilityPack抓取网页数据 刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问 ...
- python 抓取网页数据
python 抓取网页数据 此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用. 在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦.有的网页涉及个人隐私或其他敏 ...
- excel数据自动录入网页_Excel自动抓取网页数据,数据抓取一键搞定
网站上的数据源是我们进行统计分析的重要信息源.我们在生活中常常听到一个词叫"爬虫",能够快速抓取网页上的数据,这对于数据分析相关工作来说极其重要,也是必备的技能之一.但是爬虫大多需 ...
最新文章
- HTML 表单(form) 使用详解
- 5中打开safari_iOS13版Safari浏览器新功能上线:可调节上传照片大小
- 记录爬取信用中国,里面的行政许可内容,行政处罚,守信激励的内容,并以excel形式显示
- 关联挖掘算法Apriori和FP-Tree学习
- 2018年智能音箱对比
- Python中键映射多个值的方法:defaultdict
- 渗透测试入门21之Metasploit渗透测试常用流程
- 组件中使用_尚德高效组件全线投入壳牌首个光伏项目中使用
- vsftp如何确定地址_VSFTP配置参数详解
- 高电压与绝缘技术方向,代做EMTP,ATP输电线路防雷仿真
- Android 友盟分享自定义面板使用
- php redis令牌桶,php 基于redis使用令牌桶算法实现流量控制
- 后台经验分享:如何做权限管理系统设计?
- 远程打印服务器配置,打印服务器的配置与管理(1) 网络打印机的安装与部署...
- linux捕获鼠标点击事件文件,Linux捕捉鼠标事件和键盘事件的方法
- 2021年11月23日对自己的一次鼓励
- 联想小新 win10电脑系统安装教程
- 浅析互联网金融对传统金融的影响
- PowerJob 的自实现高可用方案,妙妙妙!
- 微信|QQ扫码登录网页版二维码失效问题解决方案 网站无法访问PC网页版如何解决 安卓软件历史版本下载 FV fooview悬浮球帮助教程