可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧.

例1:simple_html_dom.php采集PHP官网首页新闻发布时间/标题/内容

<?php

require dirname(__FILE__).'/simple_html_dom.php';

$html = file_get_html('http://cn2.php.net');

$news = array();

foreach($html->find('article.newsentry') as $article) {

$item['time'] = trim($article->find('time', 0)->plaintext);

$item['title'] = trim($article->find('h2.newstitle', 0)->plaintext);

$item['content'] = trim($article->find('div.newscontent', 0)->plaintext);

$news[] = $item;

}

var_export($news);

例2:curl_multi并行发起多个请求

接口1: php -S 127.0.0.1:8080 -t /home/eechen/www

接口2: php -S 127.0.0.2:8080 -t /home/eechen/www

/home/eechen/www/index.php:

header('Content-Type: application/json; charset=utf-8');

echo json_encode(array('SERVER_NAME' => $_SERVER['SERVER_NAME']));

//串行访问需要sum(2,1)秒,并行访问需要max(2,1)秒.

($_SERVER['SERVER_NAME'] == '127.0.0.1') ? sleep(2) : sleep(1);

<?php

$url[] = 'http://127.0.0.1:8080';

$url[] = 'http://127.0.0.2:8080';

$mh = curl_multi_init();

foreach($url as $k => $v) {

$ch[$k] = curl_init($v);

curl_setopt($ch[$k], CURLOPT_HEADER, 0); //不输出头

curl_setopt($ch[$k], CURLOPT_RETURNTRANSFER, 1); //exec返回结果而不是输出,用于赋值

curl_multi_add_handle($mh, $ch[$k]); //决定exec输出顺序

}

$running = null;

$starttime = microtime(true);

do { //执行批处理句柄

curl_multi_exec($mh, $running); //CURLOPT_RETURNTRANSFER如果为0,这里会直接输出获取到的内容.如果为1,后面可以用curl_multi_getcontent获取内容.

curl_multi_select($mh); //阻塞直到cURL批处理连接中有活动连接,不加这个会导致CPU负载超过90%.

} while ($running > 0);

echo microtime(true) - $starttime." "; //耗时约2秒

foreach($ch as $v) {

$json[] = curl_multi_getcontent($v);

curl_multi_remove_handle($mh, $v);

}

curl_multi_close($mh);

var_export($json);

例3:PHP使用多线程异步获取资源

<?php

class Request extends Thread {

public $url;

public $data;

public function __construct($url) {

$this->url = $url;

}

public function run() {

// 线程处理一个耗时5秒的任务

for($i=0;$i<5;$i++) {

echo '线程: '.date('H:i:s')." ";

sleep(1);

}

$response = file_get_contents($this->url);

if ($response) {

$this->data = array($response);

}

echo "线程: 任务完成 ";

}

}

$request = new Request('hello.html');

// 运行线程:start()方法会触发run()运行

if ($request->start()) {

// 主进程处理一个耗时10秒的任务,此时线程已经工作

for($i=0;$i<10;$i++) {

echo '进程: '.date('H:i:s')." ";

sleep(1);

}

// 同步线程并输出线程返回的数据

$request->join();

echo '线程返回数据: '.$request->data[0];

}

/*

如果顺序执行,合计时间将是15秒,借助线程,则只需10秒.

生成文件: echo 'Hello' > hello.html

运行计时: time php req.php

查看线程: ps -efL|head -n1 && ps -efL|grep php

*/

php和python写爬虫-为什么写爬虫都喜欢用python?相关推荐

  1. 为什么多迪技术人员都喜欢用python写爬虫?

    有更加成熟的一种爬虫脚本语言,而非框架.是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言.很多同学学php的,但是也自学过python,对php了解还是比较深的,为什么多迪技术人员都喜 ...

  2. 为什么都喜欢用Python?Python/PHP/Java全面对比

    选择要学习的技术和选择要上的大学一样重要,如果选错了,你将来不仅得不到自己喜欢的高薪工作,反而会弄得一堆麻烦.如果你打开了这篇文章,说明你已经考虑选择Python开发作为你以后的职业了.在这篇文章里, ...

  3. 小学生学python到底能干什么-颤抖 | 小学生都开始学Python了,十年后你还有工作么?...

    原标题:颤抖 | 小学生都开始学Python了,十年后你还有工作么? 今 日 摘 要 AI火爆全球,Python技能需求达到174%!小学生已经开始学Python,还成为高考必备项目,十年后你还有工作 ...

  4. c语言爬虫和python爬虫_为什么写爬虫都喜欢用python?

    可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_ ...

  5. 帮我写一个批量取消抖音喜欢的Python代码

    我可以提供一段Python代码,用于批量取消抖音喜欢:import requests# 设置抖音 App 的 cookie cookies = {'cookie': 'your_cookie'}# 设 ...

  6. python docx 复制_99%的人都不知道的Python整理文件方法,效率提升100倍

    现在人们经常要去下载或者接收一些文件. 比如说同事传来的文档,自己建立的文件,想看的电影等等,那大家都会怎么处理这些文件呢? 科研工作者.学生们可能需要阅读大量的文献,我们也需要阅读很多的电子书等等, ...

  7. python那么多库怎么学_为什么大家都在学习python?原因在这里

    原标题:为什么大家都在学习python?原因在这里 为什么大家都在学习python? python真的是天生丽质难自弃呀,难怪大家都在学python,这就跟所有姑娘都在追求高富帅,所有男生都在渴望白富 ...

  8. AI领域都在用Python即将被淘汰?网友预测未来的编程语言不会是TA

    网友时隔一年再次发文狂怼Python!人民群众都喜欢的Python为何在未来一定会被淘汰? >>>> 近日,关于一篇关于Python的讨论又重出江湖. 哦,不是这个. 这篇「为 ...

  9. 小学python都学哪些内容_python是什么?连小学生都开始学Python,你还等什么?

    python是什么?别说你不知道了,连小学生都开始学Python了,你还等什么? 最近,据称教育部考试中心发布了"关于全国计算机等级(NCRE)体系调整"的通知,决定自2018年3 ...

最新文章

  1. 提高IIS网站服务器的效率的八种方法 (转载)
  2. bootstrap datepicker Uncaught TypeError: Cannot call method 'split' of undefined问题
  3. 使用bert或者xlnet做预测类的事情
  4. lua 使用 spine 的一些问题
  5. 【c++】0.C++笔记
  6. visual studio 2015安装 无法启动程序,因为计算机丢失D3DCOMPILER_47.dll 的解决方法
  7. SqlHelper操纵数据库工具类
  8. curl只能抓取页面的部分内容的原因
  9. 腾讯云区块链产品负责人邵兵:产业区块链刚刚起步,做好基础设施才有可能进入2.0阶段
  10. 特征提取方法: one-hot 和 TF-IDF
  11. python np数组中括号里面‘:n‘与‘n:‘什么意思
  12. Java自学指南一、找一个开始并能坚持下去的理由
  13. 简约大气毕业论文答辩PPT模板
  14. lm75b 读取温度 c语言,STC单片机读取LM75A温度的代码,以及ADC读取电压。给大家分享一下把...
  15. 第三部分 数据结构 -- 第二章 队列-1362:家庭问题(family)
  16. 利用VMM建立基于事务的层次化验证平台
  17. Probability and Hypothesis Testing
  18. pc调试微信h5页面提示Pending authentication:please accept debugging session on the device的解决方法
  19. etcd学习和实战:3、go使用etcd实现服务发现和管理
  20. 简单三步 用Yolov5快速训练自己的数据集

热门文章

  1. cdn大全 jquery/jqueryUI/Dojo/MooTools/Prototype
  2. ie支持css3圆角实现的俩种方式
  3. WEB打印大全(转)
  4. python 之模块引入
  5. 1.2.2 OSI参考模型 下
  6. Educational Codeforces Round 44 (Rated for Div. 2)
  7. Jzoj3625 旅行(travel)
  8. 20155213 2016-2017-2 《Java程序设计》第七周学习总结
  9. android发送短信
  10. android EditText监听事件及参数详解