php爬虫爬取百度的内容,爬虫（一）抓取百度页面的内容

最近在实习，导师又没得项目让我一起做东西，就自己坐在一边瞎鼓捣东西

那闲着也是闲着，想来写写爬虫

爬虫百度百科上的定义如下

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

也就是从网页抓取自己想要的数据，得到的数据可以进行更深一步的处理。

因为实习是PHP，那就用PHP来写吧，环境是Win10+php7.1+nginx

首先要开curl扩展，在php.ini中将extension=php_curl.dll前面的分号去了，然后重启下php和nginx

然后就开始写一个最简单的爬虫了，把百度首页的内容抓取到本地来

//初始话curl句柄

$ch = curl_init();

//要抓取的网页

$url = "https://www.baidu.com";

//设置访问的URL,curl_setopt就是设置连接参数

curl_setopt($ch, CURLOPT_URL, $url);

//不需要报文头

curl_setopt($ch, CURLOPT_HEADER, FALSE);

//跳过https验证，访问https网站必须加上这两句

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

//返回响应信息而不是直接输出，默认将抓取的页面直接输出的

curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

//开始执行

if (!$output = curl_exec($ch)) {

echo "Curl Error:". curl_error($ch);

}

//执行结束后必须将句柄关闭

curl_close($ch);

//保存页面信息

$html = fopen('D:/baidu_data.html', 'w');

fwrite($html, $output);

fclose($html);

echo '保存成功';

好啦现在已经会抓页面了，接下来来处理一下数据

php爬虫爬取百度的内容,爬虫（一）抓取百度页面的内容相关推荐

python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据？（一）网页抓取
如何用Python爬数据?(一)网页抓取你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求我在公众号后台,经常可以收到 ...
百度爬虫：如何提高百度蜘蛛对网站的抓取量
百度爬虫跟百度蜘蛛其实是一回事,百度蜘蛛在抓取网页信息后,会通过临时数据库进行处理,处理后的内容会被分门别类的收到索引库,等用户搜索相关关键词的时候才会在搜索结果页展现出来. 如何提高百度蜘蛛对网站的 ...
百度爬虫：百度蜘蛛都有哪些抓取规律和习惯
百度蜘蛛不同于普通的蜘蛛,它是在互联网中对网页.图片.文字等内容进行抓取,抓取之后还会对其分类和整理,而且只有被百度蜘蛛抓取的内容才有几率在百度搜索结果页展现出来. 百度蜘蛛都有哪些抓取规律和习惯 1 ...
Python爬虫采集抓取：Python3.x+Fiddler 采集抓取 APP 数据
随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
python爬虫成长之路(一):抓取证券之星的股票数据获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇 ...
网曝百度不顾robots协议擅自抓取微信内容
搜狗合作了知乎和微信,乐视贾老板倾家荡产维护版权,大家都在努力创造独家资源,看到微信独家数据,百度这是眼红得坐不住了. 据@郭昂9爆料:百度不顾robots协议擅自抓取微信内容和应用,原 ...
Python爬虫之XPath基础教程：用代码抓取网页数据
Python爬虫之XPath基础教程:用代码抓取网页数据在网络时代,网页数据是获取信息和进行分析的最重要的来源之一.Python的爬虫技术让我们可以轻松抓取网页数据,并进行数据处理.XPath是一种 ...
[Python爬虫] 之三十：Selenium +phantomjs 利用 pyquery抓取栏目
一.介绍本例子用Selenium +phantomjs爬取栏目(http://tv.cctv.com/lm/)的信息二.网站信息三.数据抓取首先抓取所有要抓取网页链接,共39页,保存到数据库里 ...
python爬网站数据实例-如何用Python爬数据？（一）网页抓取
如何用Python爬数据?(一)网页抓取你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求我在公众号后台,经常可以收到 ...
selenium python文档_selenium+python实现百度文库word文档抓取
更新这个代码最近又改了一点,另外和其他一些小程序一起放在了一个jupyter notebook里,现在挂在github上面.github现在对jupyter notebook的支持非常的好,甚至可以直 ...

php爬虫爬取百度的内容,爬虫（一）抓取百度页面的内容

php爬虫爬取百度的内容,爬虫（一）抓取百度页面的内容相关推荐

最新文章

热门文章