php通过simple_html_dom实现抓取网页内容,获取核心网页数据,将网页数据写入本地 xxx.json 文件

其代码实现逻辑:

1. 引入simple_html_dom.php文件

require_once 'simple_html_dom-master/simple_html_dom.php';

2. 获取远程或者本地html文件

$html = file_get_html('./imooc.html');

3. 创建要获取数据的数组$cases =  Array();

$arrImg = Array();

4. 获取当前网页所有案例图片、标题、观看人数、等级、价格foreach($html->find('.shizhan-course-wrap') as $element)

{

$arrImg['img']  =  "http:".$element->find('.shizhan-course-img',0)->src;

$arrImg['intro']  =  $element->find('.shizan-name',0)->plaintext;

$arrImg['degree']  =  $element->find('.grade',0)->plaintext;

$arrImg['views']  =  $element->find('.shizhan-info>span',1)->plaintext;

$arrImg['desc']  =  $element->find('p.shizan-desc',0)->plaintext;

$arrImg['price']  =  $element->find('div.course-card-price',0)->plaintext;

$arrImg['link']  =  "http://coding.imooc.com".$element->find('a',0)->href;

$cases[] = $arrImg;

}

5. 生成json格式,写入本地文件imooc.json$json = json_encode($cases);

file_put_contents('imooc.json', $json);

6. 通过其他html页面ajax调用本地json文件~function(){

function ajax(url,fn){

var xhr = new XMLHttpRequest();

xhr.open('get',url,true);

xhr.send();

xhr.onload = function(ev){

fn(ev);

}

}

ajax('./imooc.json',function(ev){

var data = JSON.parse(ev.currentTarget.response);

console.log(data);

})

}();

7. 打印台输出内容:

8. 至于其获取元素相关的语法操作类似于jquery获取元素操作,请阅读在线网页文档:

http://simplehtmldom.sourceforge.net/manual.htm

9. 其simple_dom_html类库下载地址:

链接:https://pan.baidu.com/s/1o8mlw98 密码:im5q

php 获得其他网页数据,php抓取网页内容,获取网页数据相关推荐

  1. php 抓取动态网页_PHP-php如何抓取动态页面的数据

    解决方案:直接抓取 http://jipiao.kuxun.cn/beijing-shanghai.html?2012-07-21#page_loc 的内容然后进行 html 分析即可.比如使用方式, ...

  2. PHP抓取网页内容获得网页源代码

    1. file_get_contents获取 [php] view plain copy $url="http://www.baidu.com/"; $fh= file_get_c ...

  3. php抓取新浪微博数据抓取,php获取新浪微博数据API实例

    php获取新浪微博数据API实例 发布于 2014-11-29 12:36:06 | 118 次阅读 | 评论: 0 | 来源: 网友投递 PHP开源脚本语言PHP(外文名: Hypertext Pr ...

  4. java抓取网页代码_java 抓取网页内容实现代码

    复制代码 代码如下: package test; import java.io.BufferedReader; import java.io.IOException; import java.io.I ...

  5. ASP.NET 抓取网页内容

    (转)ASP.NET 抓取网页内容 ASP.NET 抓取网页内容-文字 ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest. ...

  6. ajax获取网页新闻,基于Ajax的新闻网页动态数据的抓取方法及系统

    主权项: 1.基于Ajax的新闻网页动态数据的抓取方法,其特征是,包括如下步骤:步骤(101):建立新闻网页爬取内容数据库,设置新闻网页爬取内容数据库的编码方式:获得待抓取新闻网页的新闻列表页面的UR ...

  7. java抓取网页数据_简易数据分析 10 | Web Scraper 翻页——抓取滚动加载类型网页...

    [这是简易数据分析系列的第 10 篇文章] 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到 ...

  8. php抓取网页内容,获取网页数据

    php通过simple_html_dom实现抓取网页内容,获取核心网页数据,将网页数据写入本地 xxx.json 文件 其代码实现逻辑: 1. 引入simple_html_dom.php文件 requ ...

  9. python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...

最新文章

  1. c语言作业 统计成绩,C语言作业 输入多名学生3门课程成绩,并统计成绩的平均分和总分,并根据总分输出名次。...
  2. Linux的归档及压缩,Linux的cron时间计划任务, NTP网络时间协议 , 查看网络连接...
  3. MPB:北林张静等-丛枝菌根真菌(AMF)孢子、菌丝密度及侵染率定量测定方法
  4. 性能测试知多少--系统计数器与硬件分析
  5. linux 文件大小_整理 | Linux下列出目录内容命令
  6. leetcode881. 救生艇(贪心算法加双指针)
  7. uni-app更新某个组件版本;uni-app更新插件版本;uni-app更新uni_modules插件;uni-app小程序更新某一个组件的版本库
  8. angularJS的$http.post请求,.net后台接收不到参数值的解决方案
  9. java集群插件_别说,Cerebro还真好用!老板再也不用担心ES集群了
  10. 信息学奥赛一本通(2064:【例2.1】交换值)
  11. 计算机与打印机整体方案,打印机的一些使用方案
  12. 东大OJ-1051-旅行家的预算
  13. Nagios_快速配置
  14. 21天实战人工智能系列:人工智能产品经理最佳实践(3)
  15. 美图为什么布局AR增强现实?
  16. linux/centos shell脚本中非交互式修改密码
  17. ECRS分析原则(转载)
  18. 硬件电路设计基础知识
  19. PHP集成环境:这些年我用过的那些PHP环境
  20. root 红米note5_小米 红米NOTE5_刷机助手root-Android手机一键ROOT工具 - 线刷宝官网...

热门文章

  1. 已解决Auto-GPT本地部署正确设置谷歌Google浏览器配置
  2. macbook pro快捷键
  3. 数据结构与基础算法-环形队列
  4. sleep()与wait()区别
  5. 《底层逻辑》第1章-是非对错的底层逻辑
  6. 定位导航算法高级框架设计
  7. 双11营业额实时数据_【好消息!】淘宝客也有自己的双11实时大屏啦
  8. android pc 操作系统,Bliss OS 12:可在PC上运行最新的Android 10移动操作系统
  9. LBS.token,开启奢侈品溯源的新篇章
  10. 陕西理工大学计算机类专业怎么样,陕西理工大学怎么样 评价排名好不好(10条)...