受一个跨专业在努力学习Python的好朋友所托,算一个约稿。

我之前发朋友圈(大概)说我认为爬虫是最没技术含量的东西...包括现在也这么觉得,因为这个东西对程序员来说可能是最简单的东西了...但架不住它实在挺有趣的,因为它带来的是短时间内能看到的最大可视化可利用的成果,可以极大增加你学习路线上的乐趣。

虽然我说没技术含量,我的意思不是说大家不要去学这个东西,而是说,身为程序员(划重点)不要把这个看成是什么很厉害的东西,它只是一个辅助工具,真正的难点是对你爬取的数据的后续处理...

我前段时间看到一篇文章,是通过Python把微博上薛之谦和李雨桐微博底下的评论全部扒了下来,然后通过jieba分词,最后生成词云来看广大网民在想些什么,最后是脑残粉依旧无脑支持,路人怕反转等实锤...不过说实话这场战斗我真的看吐了,我不想看每天刷刷微博虎扑都强行给你往眼睛里灌……

说了这么多废话,总是意思就是我自己打自己脸了,爬虫虽然没技术含量,但真的有点好玩儿...接下来进入正题说说怎么用Python去爬百度地图的东西。

简单来说,对于一个动态页面,浏览器获取数据无非是通过GET或POST两种方式,然后用参数告诉它我想要什么。

那么怎么去获取这些参数呢?以百度地图为例。

最粗暴的方法就是,进入map.baidu.com,摁下F12,然后切换到Network下,随便搜一点东西,就会看到有源源不断的东西流进来。

注意到,上方URL后面跟着的是 ?newmap=1&s=con%26wd%3D

字样,我们通过排序方式找到和这个字样相同的文件,通常选择第一个,当然其他的也可以看看有没有我们想要的参数。

然后看到这里就是我们想要的参数啦:

参数意义是不明的,得自己去试,最后我用了这么几个参数,发现应该是可以用的:

以字典的形式存储在Python文件里,这里要注意的是城市代码,这个要通过百度官方提供的文档去获取,靠猜是猜不到的。

接下来就是一些很常规的步骤,用正则表达式去匹配我们想要的结果,这里我对参数的设置是看看有一个城市的必胜客数量,地址和联系方式:

最后通过改变字典对应键的值来更改希望搜索的城市:

整个爬虫就完成了,总结一下就是先获得参数,然后通过代码模拟浏览器提交给服务器,最后得到服务器返回的结果,所以要获得结果并不难,如何去处理这些结果然后提取你想要的东西才是关键。

python爬虫百度地图_Python抓取百度地图的数据相关推荐

  1. python类百度百科_Python抓取百度百科数据

    抓取策略 确定目标:确定抓取哪个网站的哪些页面的哪部分数据.本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介. 分析目标:分析要抓取的url的格式,限定抓取范围.分析要抓 ...

  2. python爬去百度音乐_Python抓取百度音乐。

    今天挑战下百度音乐抓取,先用Chrome分析下请求的链接. 最关键的就是这个链接 http://play.baidu.com/data/music/songlink 请求这个带上songid就能返回给 ...

  3. python足球大数据分析_Python 抓取欧洲足球联赛数据进行大数据分析

    摘要: 背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展 ...

  4. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

    大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表 ...

  5. Python爬虫包 BeautifulSoup 递归抓取实例详解

    Python爬虫包 BeautifulSoup 递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到另 ...

  6. Python爬虫之gif图片抓取

    Python爬虫之gif图片抓取 标签:图片爬虫 这几天,对于怎么去爬取图片很感兴趣,就研究了一下,图片爬虫可以说是有简单,更有复杂的,今天,我做了一个比较简单的gif的图片爬虫,仅仅学习一下怎么进行 ...

  7. Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接

    Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接 1. 前言 2. 实现过程 3. 运行结果 1. 前言 文章内容可能存在版权问题,为此,小编不提供相关实现代码,只是从js逆向说一说到 ...

  8. 小猪的Python学习之旅 —— 20.抓取Gank.io所有数据存储到MySQL中

    小猪的Python学习之旅 -- 20.抓取Gank.io所有数据存储到MySQL中 标签:Python 一句话概括本文: 内容较多,建议先mark后看,讲解了一波MySQL安装,基本操作,语法速成, ...

  9. python爬取百度域名注册_python爬取百度域名_python爬取百度搜索結果url匯總

    寫了兩篇之后,我覺得關於爬蟲,重點還是分析過程 分析些什么呢: 1)首先明確自己要爬取的目標 比如這次我們需要爬取的是使用百度搜索之后所有出來的url結果 2)分析手動進行的獲取目標的過程,以便以程序 ...

  10. python——爬虫实现网页信息抓取

    首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 de ...

最新文章

  1. 计算机的英语怎么写的英语怎么写,计算机英语怎么写
  2. 圣诞日记2010-12-25:认清形势,看清方向,正确选择,努力拼搏(更新 )
  3. winfrom保存图片,将文件夹中图片放入listview,与撤回操作
  4. 组策略中Run logon scripts synchronously和Run startup scripts asynchronously的区别
  5. Mysql身份认证漏洞及利用(CVE-2012-2122)
  6. 一些dos下简单命令
  7. Redis 集群中的纪元(epoch)
  8. 计算机word降序排列怎么做,怎么降序排列word
  9. python中numpy.minimum函数
  10. 布加迪奇龙Blender雕刻、shading,并导入Three.js ,3DWEB模型【Three.js+Blender建模+web前端+可视化】
  11. 合唱队形java_动态规划练习题-合唱队形
  12. ORAN C平面 Section Extension 7
  13. Colab运行沐神《动手学深度学习》:ImportError: cannot import name ‘_check_savefig_extra_args‘ from ‘matplotlib.back
  14. [深度分析]我对区块链的认识--概述(一)
  15. 倍福触摸屏维修倍福工控机维修CP3916-0010详解
  16. 遭七旬叔公欺负长达八年 17岁女孩怀孕5个月
  17. (转)War3 World Editor 菜单详解
  18. 【转】编程思维轻松培养一个有条理,思路清晰的孩子
  19. 系统规划与管理师笔记——信息系统综合知识
  20. IBM3650M4实体机安装ESXI7.0

热门文章

  1. 无纸化会议系统连接服务器失败,无纸化会议系统使用注意事项及注册/更新流程...
  2. 无纸化办公模式如何取代传统办公模式
  3. 2021年道路运输企业安全生产管理人员考试内容及道路运输企业安全生产管理人员题库
  4. 各版本的QT源码下载地址
  5. 单网卡实现 双IP 双网段(内外网)同时运行
  6. 手机群控还有这种事半功倍的操作?快来看强大的Rest API脚本功能
  7. 家长进课堂 计算机ppt,小学生家长进课堂ppt
  8. 解决谷歌浏览器添加插件时显示程序包无效:CRX_HEADER_INVALID
  9. 支持向量机SVM和最小二乘支持向量机LSSVM
  10. 人脸识别测试点整理思维导图方式