QueryList异步抓取网页数据

环境要求：

php7及以上

phantomjs引擎下载地址

QueryList4.0

核心思想：

根据抓取对象网页的布局，编写相应的规则，规则语法参考jquery即可。

抓取示例：

京东商城产品列表

抓取规则：

//京东商城采集规则配置
$rules = array('product_list' => array('url' => 'https://list.jd.com/list.html?cat=670,671,672','range' => '.gl-item .j-sku-item','rules' => array('link' => array('.p-img a','href'),'image' => array('.p-img a img','src'),'lazyImage' => array('.p-img a img','data-lazy-img'),'name' => array('.p-name a em','text'),'price' => array('.p-price .J_price:eq(0) i','text')),'desc' => '产品列表')
);
return $rules;

抓取结果：

一点资讯

抓取规则：

//一点资讯网站采集规则配置
$rules = array('video' => array('url' => 'http://www.yidianzixun.com/channel/u13746','range' => '.style-content-middle','rules' => array('link' => array('','href'),'image' => array('.doc-image-small-wrapper .doc-image-box img','src'),'duration' => array('.doc-image-small-wrapper .doc-image-box .video-time','text'),'title' => array('.doc-content .doc-content-inline .doc-title','text')),'desc' => '视频列表'),'amuse' => array('url' => 'http://www.yidianzixun.com/channel/s10671','range' => '.style-content-middle','rules' => array('link' => array('','href'),'image' => array('.doc-image-small-wrapper .doc-image-box img','src'),'duration' => array('.doc-image-small-wrapper .doc-image-box .video-time','text'),'title' => array('.doc-content .doc-content-inline .doc-title','text')),'desc' => '搞笑列表'),
);
return $rules;

抓取结果：

图片抓取

抓取规则：

//图片网站采集规则配置
$rules = array(//昵图网'www.nipic.com' => array('index' => array(array('url' => 'http://www.nipic.com/','range' => '','rules' => array('link' => array('.newIndex-hotpic','href'),'image' => array('.newIndex-hotpic img','src'),'title' => array('.newIndex-hotpic .newIndex-textItem','text'),),'desc' => '首页热门专题'),array('url' => 'http://www.nipic.com/','range' => '','rules' => array('link' => array('.right-choicePic','href'),'image' => array('.right-choicePic img','src'),'title' => array('.right-choicePic .newIndex-textItem','text'),),'desc' => '首页精选推荐')))
);
return $rules;

抓取结果：

QueryList异步抓取网页数据相关推荐

php用QueryList异步爬取网页数据
环境要求 PHP >= 7.0 如果你的PHP版本还停留在PHP5,或者不会使用Composer,你可以选择使用QueryList3,QueryList3支持php5.3以及手动安装. Quer ...
抓取网页数据并解析Android
抓取网页数据并解析标签: 网页抓取jsoupAndroid 2016-03-02 13:54 1262人阅读评论(1) 收藏举报分类: Android开发(原创)(7) 版权声明:本文为博 ...
cookie追加数据_集算器 SPL 抓取网页数据
[摘要] 集算器 SPL 支持抓取网页数据,根据抓取定义规则,可将网页数据下载到在本地进行统计分析.具体定义规则要求.使用详细情况,请前往乾学院:集算器 SPL 抓取网页数据! 网站上的数据源是我们进 ...
python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据？
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web s ...
php如何抓取网页内容,php如何抓取网页数据？
php抓取网页数据header("Content-type: text/html; charset=utf-8"); //$url = "https://www.cnbl ...
【.NET】使用HtmlAgilityPack抓取网页数据
原文:[.NET]使用HtmlAgilityPack抓取网页数据刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问 ...
python 抓取网页数据
python 抓取网页数据此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用. 在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦.有的网页涉及个人隐私或其他敏 ...
excel数据自动录入网页_Excel自动抓取网页数据，数据抓取一键搞定
网站上的数据源是我们进行统计分析的重要信息源.我们在生活中常常听到一个词叫"爬虫",能够快速抓取网页上的数据,这对于数据分析相关工作来说极其重要,也是必备的技能之一.但是爬虫大多需 ...

QueryList异步抓取网页数据

QueryList异步抓取网页数据相关推荐

最新文章

热门文章