phpQuery

使用phpQuery 可以对HTML 页面进行类似于JQuery 一样的操作。目的是进行HTML 数据的抓取,以及对HTML 文件内容的补充等操作,完全就类似于jQuery 一样的操作。

<?php
require_once "../phpQuery/phpQuery.php";$url = "http://kuailiyu.cyzone.cn/";
$html = file_get_contents($url);
phpQuery::newDocumentHtml($html);$items = pq("div.content-item.clearfix div.item-info.fr");
$ret = [];
foreach ($items as $item) {$item = pq($item);     $obja = $item->find("h2.item-tit a"); $objdig = $item->find("p.item-intro");$title = pq($obja)->text();$url = pq($obja)->attr('href'); $digest = pq($objdig)->text();  $ret[] = ['title' => $title, 'url' => $url, 'digest' => $digest];
}print_r($ret);

在使用中需要注意的是,通过 pq() 方法获取的才是 phpQuery 对象,在这种情况才能够得到 text(), attr() 之类的方法。如果只是一些 DocumentElement,那么久需要使用 pq() 进行对象转换,然后再使用。

使用phpQuery 抓取HTML 页面内容相关推荐

  1. php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...

    在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二.第三层次深度页面内容. 这里是一个测试例子的实现,仅供参考. /* 匹配给定页面链接 return:array match[link, ...

  2. #.NET分别以GET和POST方式抓取远程页面

    代码 引入命名空间 using System.IO; using System.Net; using System.Text; using System.Text.RegularExpressions ...

  3. python自动抓取聊天群内容_python微信聊天机器人改进版,定时或触发抓取天气预报、励志语录等,向好友推送...

    最近想着做一个微信机器人,主要想要实现能够每天定时推送天气预报或励志语录,励志语录要每天有自动更新,定时或当有好友回复时,能够随机推送不同的内容.于是开始了分析思路.博主是采用了多线程群发,因为微信对 ...

  4. 用C#抓取AJAX页面的内容

    用C#抓取AJAX页面的内容[转] 现在的网页有相当一部分是采用了AJAX技术,不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执行 ...

  5. PHP抓取某页面指定内容

    PHP抓取某页面指定内容 初学php研究了好几个小时最后问了同事,得以解决:下面我就以我网站的一个详情页为例子,给大家分享一下: 直接贴代码,注释写的很清楚了 <?php//添加编码格式,防止乱 ...

  6. php爬虫爬取百度的内容,爬虫(一)抓取百度页面的内容

    最近在实习,导师又没得项目让我一起做东西,就自己坐在一边瞎鼓捣东西 那闲着也是闲着,想来写写爬虫 爬虫百度百科上的定义如下 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页 ...

  7. PHPcurl抓取AJAX异步内容(转载)

    PHPcurl抓取AJAX异步内容 其实抓ajax异步内容的页面和抓普通的页面区别不大.ajax只不过是做了一次异步的http请求,只要使用firebug类似的工具,找到请求的后端服务url和传值的参 ...

  8. Python爬虫:抓取多级页面数据

    前面讲解的爬虫案例都是单级页面数据抓取,但有些时候,只抓取一个单级页面是无法完成数据提取的.本节讲解如何使用爬虫抓取多级页面的数据. 在爬虫的过程中,多级页面抓取是经常遇见的.下面以抓取二级页面为例, ...

  9. python 抓取天涯帖子内容并保存

    python 抓取天涯帖子内容并保存 作者:大捷龙 csdn : http://blog.csdn.net/koanzhongxue ** 分析:天涯的帖子下载可以分为以下几个步骤 手动传入一个帖子首 ...

  10. php抓取微信聊天记录内容,如何用 php 抓取微信文章正文?

    我是一个新手,想使用php抓取微信页面的正文和标题,标题直接用正则表达式| (.*?)|i就抓取到了,但是正文我想的是|>(.*?) 这是一般的微信文章内容链接 下面是这链接的页面代码 Livi ...

最新文章

  1. ×××视频下载:皮皮影视客户端功能使用
  2. 震惊,竟然有人用Taro来。。。
  3. shell脚本练习,创建数据文件注册用户并将用户信息存入文件内,用于模拟登录时使用...
  4. 偈颂一首《静心莲》【心静如止水,雷打无波澜。佛前忏一刹,万千罪消融。】
  5. 缠绕多年的PCIE通道数问题终于完全明白了,欢迎指正
  6. 回车(CR)与换行(LF), '\r'和'\n'的区别
  7. 虚拟机Ubuntu蓝屏闪屏解决方法
  8. 2021-02-28 配置Jetty+GeoServer-2.18.2允许CORS跨域访问 - 草稿
  9. Java基础知识强化之IO流笔记19:FileOutputStream的三个write方法
  10. WebGL白模做专题图注意事项
  11. android 大众点评,Android 大众点评的接入
  12. Publish报文及其响应分析
  13. 【打表枚举+二分】喜爱
  14. 为什么推广ipv6?以及网站ipv6如何改造?
  15. android html5播放器,用 HTML5 播放器在 iOS 或 Android 等移动设备上播放视频
  16. 从数据仓库到大数据,数据平台这25年是怎样进化的?[转]
  17. 苹果手机怎么用计算机打出字,iPhone输入法忽然打不出中文怎么办?收下这份指南日常打字如飞!...
  18. 原生js实现快速排序
  19. SQL基础查询笔记【动力节点的视频】
  20. 阿里云 MSE 支持 Go 语言流量防护

热门文章

  1. report machine实现报表分栏
  2. 地图制作:Google Earth Pro的下载及功能介绍(详细介绍)(上)
  3. Delphi FastReport组件下载,包含多个版本,自己选择
  4. WPF随笔(十)--使用AvalonDock实现可停靠式布局
  5. Wifi 破解原理及教程
  6. pandaboard 安装_pandaboard---文件系统的建立(4)
  7. 第一阶段✦第二章☞信息系统集成及服务管理
  8. 利用电力声类比与有限元仿真方法分析亥姆霍兹共振器
  9. 收藏一些名人的博客,有空多看看
  10. java 读取文件内容 方法