最近在实习,导师又没得项目让我一起做东西,就自己坐在一边瞎鼓捣东西

那闲着也是闲着,想来写写爬虫

爬虫百度百科上的定义如下

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

也就是从网页抓取自己想要的数据,得到的数据可以进行更深一步的处理。

因为实习是PHP,那就用PHP来写吧,环境是Win10+php7.1+nginx

首先要开curl扩展,在php.ini中将extension=php_curl.dll前面的分号去了,然后重启下php和nginx

然后就开始写一个最简单的爬虫了,把百度首页的内容抓取到本地来

//初始话curl句柄

$ch = curl_init();

//要抓取的网页

$url = "https://www.baidu.com";

//设置访问的URL,curl_setopt就是设置连接参数

curl_setopt($ch, CURLOPT_URL, $url);

//不需要报文头

curl_setopt($ch, CURLOPT_HEADER, FALSE);

//跳过https验证,访问https网站必须加上这两句

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

//返回响应信息而不是直接输出,默认将抓取的页面直接输出的

curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

//开始执行

if (!$output = curl_exec($ch)) {

echo "Curl Error:". curl_error($ch);

}

//执行结束后必须将句柄关闭

curl_close($ch);

//保存页面信息

$html = fopen('D:/baidu_data.html', 'w');

fwrite($html, $output);

fclose($html);

echo '保存成功';

好啦现在已经会抓页面了,接下来来处理一下数据

php爬虫爬取百度的内容,爬虫(一)抓取百度页面的内容相关推荐

  1. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  2. 百度爬虫:如何提高百度蜘蛛对网站的抓取量

    百度爬虫跟百度蜘蛛其实是一回事,百度蜘蛛在抓取网页信息后,会通过临时数据库进行处理,处理后的内容会被分门别类的收到索引库,等用户搜索相关关键词的时候才会在搜索结果页展现出来. 如何提高百度蜘蛛对网站的 ...

  3. 百度爬虫:百度蜘蛛都有哪些抓取规律和习惯

    百度蜘蛛不同于普通的蜘蛛,它是在互联网中对网页.图片.文字等内容进行抓取,抓取之后还会对其分类和整理,而且只有被百度蜘蛛抓取的内容才有几率在百度搜索结果页展现出来. 百度蜘蛛都有哪些抓取规律和习惯 1 ...

  4. Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据

    随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...

  5. python爬虫成长之路(一):抓取证券之星的股票数据

    python爬虫成长之路(一):抓取证券之星的股票数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇 ...

  6. 网曝百度不顾robots协议擅自抓取微信内容

    搜狗合作了知乎和微信,乐视贾老板倾家荡产维护版权,大家都在努力创造独家资源,看到微信独家数据,百度这是眼红得坐不住了.        据@郭昂9爆料:百度不顾robots协议擅自抓取微信内容和应用,原 ...

  7. Python爬虫之XPath基础教程:用代码抓取网页数据

    Python爬虫之XPath基础教程:用代码抓取网页数据 在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...

  8. [Python爬虫] 之三十:Selenium +phantomjs 利用 pyquery抓取栏目

    一.介绍 本例子用Selenium +phantomjs爬取栏目(http://tv.cctv.com/lm/)的信息 二.网站信息 三.数据抓取 首先抓取所有要抓取网页链接,共39页,保存到数据库里 ...

  9. python爬网站数据实例-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  10. selenium python文档_selenium+python实现百度文库word文档抓取

    更新这个代码最近又改了一点,另外和其他一些小程序一起放在了一个jupyter notebook里,现在挂在github上面.github现在对jupyter notebook的支持非常的好,甚至可以直 ...

最新文章

  1. 调试笔记--keil 断点调试小技巧
  2. Chrome常用快捷键整理汇总
  3. 文件服务器冷热数据划分,游戏服务器冷热数据分离方案
  4. 探索 .NET Core 依赖注入的 IServiceProvider
  5. 操作系统hpf算法事例_操作系统中常见算法汇总
  6. 修改附图中文字的办法
  7. DPDK 绑定网卡之后的解绑
  8. java 链表算法_数据结构算法Java版(一) 链表
  9. 实例 20 重定向输出流实现程序日志
  10. 12.11scrum report (第十次)
  11. android自动登录_游戏社区App (三):客户端与服务端的加密处理 和 登录
  12. SecoClient 接收返回码超时
  13. rust服务器消失了_【Rust日报】 20190619:Facebook的数字货币项目Libra由Rust实现
  14. 最强升级系统的锚点连接
  15. 《算法导论》:跳跃表(Skip List)
  16. SuperSU下载 | SuperSU Download
  17. CS5216DP转HDMI1080P方案|CS5216:DP++to HDMI(1080P)
  18. 飞腾发布高可扩展芯片腾云S2500 开启多路服务新时代
  19. 修改Mysql密码(简单粗暴)
  20. IDA静态动态逆向分析基础

热门文章

  1. linux系统查看机器硬件信息,linux系统查看硬件信息的方法
  2. win10服务器系统如何设置开机自启动,win10怎么设置开机启动项_win10设置开机启动项的方法...
  3. 2006-10-06 引钗头凤两首送高旭明
  4. centos7 arm内核配置yum源
  5. nfo一般是系统信息文件
  6. WPF 控件专题 Border控件详解
  7. 大学计算机课程实验,大学计算机基础实验课程介绍
  8. 太赞了!别再说 不能用Python开发美观的GUI程序了!
  9. AD21.2新手快速上手(快捷键总结)线宽,覆铜minimu SolderMasksliver,silk to solder mask clearance,silk to sill clearan设置
  10. EasyTips v0.02 Beta发布了