随着物质的提高,旅游渐渐成为人们的焦点,火热的国庆刚刚过去,乘着这股余热,我想很多人都想知道,大家一般会去哪里玩呢,于是我花了10分钟写了一个采集马蜂窝游记的小程序,当然速度能有这么快,完全依赖于PHP著名爬虫框架phpspider。

国际惯例,我们先来看看代码怎么写,算作抛砖引玉吧 ^_^

马蜂窝不同于常规网站,因为并发量高并且某些数据需要实时,比如观看人数,点赞人数,所以网站多处使用了Ajax,而Ajax对于普通采集者来说,是个比较大的问题。

观察了一下马蜂窝网站,最终确定了采集路线:

获取热门城市 -> 获取城市下的游记列表 -> 获取游记内容 -> 提取游记内容的游记标题、城市、出发时间等,接下来我们用三个步骤来实现它。。。

1、获取热门城市

http://www.mafengwo.cn/mdd/citylist/21536.html

首先我们要采集下这些热门城市

当我们点击页数的时候,发现他的数据是Ajax加载的,末页是297,而且使用的是POST方法

提交的参数如下:

很明显这个page就是页数了,这里就有个问题,phpspider框架是有 URL 去重机制的,POST的话URL只有一个,但是query_string是不影响POST数据的,我们可以在后面加上 ?page=1|2|3…,所以我们代码可以这么写:

设置列表页规则:'list_url_regexes' => array(

"http://www.mafengwo.cn/mdd/base/list/pagedata_citylist?page=d+",

)

在入口回调函数入口所有城市列表:$spider->on_scan_page = function($page, $content, $phpspider)

{

// 上面Ajax分页的末页是297页

for ($i = 0; $i $url,

'method' => 'post',

'fields' => array(

'mddid'=>21536,

'page'=>$i,

)

);

// 热点城市列表页URL入队列

$phpspider->add_url($url, $options);

}

};

2、获取热门城市下的游记列表

点击进入一个城市后,我们可以看到他下面的游记列表

当然和上面一样,也是Ajax加载的,我们可以打开chrome的开发者工具,点击Network,然后随意点击一个分页得到Ajax的URL:

和城市列表一样,也是POST,参数如下:

很明显page就是页数了,当然我们直接通过POST方式访问Ajax地址:

http://www.mafengwo.cn/gonglve/ajax.php?act=get_t…

是直接报错的,他需要来路,综合以上,我们代码可以这么来写:

首先我们要在 on_start 回调函数里面加上来路URL$spider->on_start = function($phpspider)

{

$phpspider->add_header('Referer','http://www.mafengwo.cn/mdd/citylist/21536.html');

};

和上面获取城市列表一样,设置列表匹配规则:'list_url_regexes' => array(

"http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid=d+",

)

然后在 on_list_page 回调里面判断如果是第一页就获取总页数,然后循环入队列:preg_match('#共(.*?)页#', $data_page, $out);

for ($i = 0; $i < $out[1]; $i++)

{

$v = $page['request']['fields']['mddid'];

$url = "http://www.mafengwo.cn/gonglve/ajax.php?act=get_travellist&mddid={$v}&page={$i}";

$options = array(

'url_type' => $url,

'method' => 'post',

'fields' => array(

'mddid'=>$v,

'pageid'=>'mdd_index',

'sort'=>1,

'cost'=>0,

'days'=>0,

'month'=>0,

'tagid'=>0,

'page'=>$i,

)

);

// 游记列表页URL入队列

$phpspider->add_url($url, $options);

}

通过上面两个步骤,我们就把所有热门城市下的游记列表都放入到了队列,接下来我们进行第三步,从这些列表里面获取内容页URL,然后提取内容。

3、获取热门城市下的游记列表

在 on_list_page 方法里面会得到列表页的内容,从这些内容里面我们可以提取内容页的URL// 获取内容页

preg_match_all('##', $html, $out);

if (!empty($out[1]))

{

foreach ($out[1] as $v)

{

$url = "http://www.mafengwo.cn/i/{$v}.html";

// 内容页URL入队列

$phpspider->add_url($url);

}

}

下来我们来配置field提取内容页字段'fields' => array(

// 标题

array(

'name' => "name",

'selector' => "//h1[contains(@class,'headtext')]",

'required' => true,

),

// 分类

array(

'name' => "city",

'selector' => "//div[contains(@class,'relation_mdd')]//a",

'required' => true,

),

// 出发时间

array(

'name' => "date",

'selector' => "//li[contains(@class,'time')]",

'required' => true,

),

)

设计一张数据表:

当然我们还可以获取游记的浏览量、收藏、分享、置顶、游玩金额等等,太多了,方法类似。

到此程序就设计完了,总共不到200行的代码,得益于phpspider自带了多进程采集功能,数据很快就采集完成,总共7W多点。

得到这些数据以后,我们能干什么呢?!

Top10 旅游城市分别是

可以看得出,云南是一个好地方,也是博主日夜思念的地方啊。。。

五一和国庆期间旅游城市占比

可以看得出,五一的时候大家喜欢去西藏玩,国庆却更青睐青岛,好吧,这两个地方博主都没去过,表示好受伤~_~!

接下来我们来看看这一年来北京和杭州的旅游旺季

可以看出七八月份去北京的人会比较多,这个时候北京是最爽的,不热也不冷,博主就曾经有有一年8月份去的北京,舒服死了^_^

我们再来看看杭州

看得出3月底到4月中旬是杭州适合游玩的季节啊,那时候春暖花开,天气也不错,听说太子湾公园每年那时候都会有樱花和郁金花展,非常美,艾玛旅游病又犯了~_~!

好吧文章到此就结束了,其实还想分析更多,比如采集热门路线啊,热门景点啊,热门图集啊,还有旅游路线的价位啊,最终形成一个旅游的APP,如果你们有好的想法,也可以来告诉我,我把他采集下来,供大家参考 ^_^

旅游景点人流量代码php,用 PHP 爬虫做旅游数据分析相关推荐

  1. 暑假到了,是一个旅游旺季,用 PHP 爬虫做旅游数据分析,让我们更好的外出旅行吧!

    用 PHP 爬虫做旅游数据分析 声明: 采集程序只做技术研究使用,切不可做出格的事以免惹来麻烦 首先感谢广大网友的支持,现将源代码公开,地址如下: https://github.com/owner88 ...

  2. 圣基茨旅游景点大盘点,当地人才知道的旅游胜地!

    圣基茨旅游景点大盘点,当地人才知道的旅游胜地!在硫磺山要塞(BrimstoneHillFortress)上探索精心保存的世界遗产,迷人的历史建筑和繁华的首都巴斯特(Basseterre)中的古老教堂以 ...

  3. 爬虫 php网页数据分析,用 PHP 爬虫做旅游数据分析

    声明: 采集程序只做技术研究使用,切不可做出格的事以免惹来麻烦 首先感谢广大网友的支持,现将源代码公开,地址如下: https://github.com/owner888/phpspider gith ...

  4. 爬虫数据+php,用 PHP 爬虫做旅游数据分析

    (点击上方公号,可快速关注) 作者:伯乐在线专栏作者 - 杨泽涛 网址:http://blog.jobbole.com/106623/ 声明: 采集程序只做技术研究使用,切不可做出格的事以免惹来麻烦 ...

  5. 杨柳青旅游景点_西青区杨柳青镇精心打造“全域旅游”5A级旅游景区

    "全域旅游"是西青区杨柳青镇打造区域发展的目标.杨柳青镇通过对区域内旅游资源.相关产业.生态环境.公共服务.体制机制.政策法规.文明素质等进行全方位.系统化的优化提升,努力打造5A ...

  6. python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...

    爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...

  7. 基于PYTHON django四川旅游景点推荐系统

    摘 要 基于四川旅游景点推荐系统的设计与实现是一个专为四川旅游景点为用户打造的旅游网站.该课题基于网站比较流行的Python 语言系统架构,B/S三层结构模式,通过Maven项目管理工具进行Jar包版 ...

  8. hadoop 红色旅游景点分析系统-计算机毕设 附源码91858

    hadoop 红色旅游景点分析系统 目  录 摘要 1 1 绪论 1 1.1研究背景 1 1.2研究内容 2 1.3Hadoop优点 3 1.4 Hadoop框架介绍 3 1.5论文结构与章节安排 4 ...

  9. 基于Python的旅游景点的数据采集与分析的研究

    在旅游景点不断扩张,本基于Python的旅游景点的数据采集与分析系统按照软件开发方法进行研究,对系统先进行需求分析,确定系统必须做什么,进而进行系统设计,设计出满足需求的新系统,最后才是系统功能实现以 ...

最新文章

  1. cookies java,java 中 Cookie的用法
  2. iOS9 HTTP 不能正常使用的解决办法
  3. Java登陆页面经常出现的问题,问一下关于登陆页面的有关问题
  4. COMMUNITY SERVER 的架构分析
  5. 业务逻辑中的测试总结(二)----业务与数据库交互需求的测试分解
  6. html5 子标题栏,HTML5 建构主义标题栏页面模板
  7. java gsoap_gsoap c与java web之间传输字符串中文乱码问题 | 学步园
  8. apicloud入门学习笔记1:简单介绍
  9. 编程基础C——常量,变量,运算符个人总结
  10. C++ 析构函数不要抛出异常
  11. Ubuntu安装php
  12. pycharm导出依赖包_使用pycharm导出虚拟环境依赖包
  13. 笔记本电脑进水怎么办?
  14. Bio.Entrez下载PubMed中的文献
  15. 二维码扫码登陆过程分析
  16. linux中断子系统(基于imx6ul arm32分析)
  17. threejs学习笔记:实现导入的动画gltf模型播放动画
  18. Python - 随机生成英文字母
  19. Hat trick [又名帽子戏法]
  20. c语言镶嵌循环,讲解C++的do while循环和循环语句的嵌套使用方法

热门文章

  1. php项目怎么分配,php项目目录的合理划分和Pipeline 组件的使用场景
  2. python提供的三种基本数据类型是()_python基础之基本数据类型
  3. 我的react+material-ui之路
  4. 阿里云API网关(18)请求报文和响应报文
  5. 1. 安装docker
  6. oracle 常用知识点整理
  7. [Windows Server 2012] 安装PHP+MySQL方法
  8. 使用.net FtpWebRequest 实现FTP常用功能 上传 下载 获取文件列表 移动 切换目录 改名 ....
  9. php获取网页内容方法总结
  10. 一种推理优化新思路,对特征图进行[随机采样-插值]