本文以大众点评网为例,获取页面的餐馆信息,以达到练习使用python的目的。

1.抓取大众点评网中关村附近的餐馆有哪些

import urllib.request
import redef fetchFood(url):# 模拟使用浏览器浏览大众点评的方式浏览大众点评headers = {'User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}opener = urllib.request.build_opener()opener.addheaders = [headers]data = opener.open(url).read()data = data.decode('utf')print('================================抓取的页面数据=======================================')print(data)     # 打印抓取的页面print('================================获取的餐馆信息====================================')foodNameSet = set(re.compile(r'<img title="(.*?)"', re.DOTALL).findall(data))number = 0for i in foodNameSet:number = number + 1print("第%d个餐馆: %s" % (number, i))foodUrl = "http://www.dianping.com/search/category/2/10/r1488"
fetchFood(foodUrl)

输出结果:

"D:\Program Files\python\python.exe" D:/zhangzh/program/MyGitHub/python3-webapp-demo/www/dzdp.py
================================抓取的页面数据=======================================
<!DOCTYPE html><html>
<head>
<meta charset="UTF-8"/>
<meta http-equiv="X-UA-Compatible" content="IE=edge"/>
<script>(function(n){var e;e="//catdot.dianping.com/broker-service/api/js",n.οnerrοr=function(n,o,r){var i=encodeURIComponent,t=+new Date();(new Image).src=e+"?error="+i(n)+"&file="+i(o)+"&line="+i(r)+"×tamp="+t}})(window);</script>
<title>北京中关村美食-大众点评网</title>......此处省略<li class="" ><div class="pic" ><a target="_blank" href="/shop/33562041" rel="nofollow" title=""  ><img title="渝是乎(中关村店)" alt="渝是乎(中关村店)" data-src="http://p0.meituan.net/ugcpic/023ff4be1a239be5b7f13ac328bc6c5d%40249w_249h_0e_1l%7Cwatermark%3D1%26%26r%3D1%26p%3D9%26x%3D2%26y%3D2%26relative%3D1%26o%3D20"/></a></div><div class="txt"><div class="tit"><a οnclick="document.hippo.ext({cl_i:10,query_id:'4ab097b5-d3b6-441b-a684-8b58c0704567'}).mv('cl_to_s',33562041);
" data-hippo-type="shop" title="渝是乎(中关村店)" target="_blank" href="/shop/33562041"  ><h4>渝是乎(中关村店)</h4></a><div class="promo-icon"><a rel="nofollow" target="_blank" href="/shop/33562041#waimai"
class="iout" title="本店支持在线下单,足不出户,外送到家!" ></a></div><a target="_blank" href="/search/branch/2/0_33562041/g0"module="list-branch" class="shop-branch">分店</a></div><div class="comment"><span class="sml-rank-stars sml-str50" title="五星商户"></span><a href="/shop/33562041#comment" class="review-num" target="_blank" module="list-readreview" rel="nofollow"><b>1536</b>条点评</a><em class="sep">|</em><a href="/shop/33562041" class="mean-price" target="_blank" >人均<b>¥42</b></span></a></div><div class="tag-addr"><a href = "/search/category/2/10/g102" ><span class="tag">川菜</span></a><em class="sep">|</em><a href = "/search/category/2/0/r1488" ><span class="tag">中关村</span></a><span class="addr">榆树林1号</span></div><span class="comment-list"><span >口味<b>9.1</b></span><span >环境<b>8.7</b></span><span >服务<b>8.3</b></span></span></div><div class="svr-info">......此处省略</script>
</body></html>================================获取的餐馆信息====================================
第1个餐馆: 重八牛府(之初入江湖店)
第2个餐馆: 纽约客美式餐厅(新中关店)
第3个餐馆: Chatuchak加都加曼谷潮流甜品
第4个餐馆: 新净雅烹小鲜
第5个餐馆: 那家小馆(中关村店)
第6个餐馆: 谷得一
第7个餐馆: 唐廊.朴禅(当代商城店)
第8个餐馆: 小福楼餐厅
第9个餐馆: 食宝街
第10个餐馆: 渝是乎(中关村店)
第11个餐馆: 品咖啡
第12个餐馆: 小吊梨汤(融科店)
第13个餐馆: 鱼八斗老麻水煮鱼(酸菜鱼)
第14个餐馆: 鳗鳗的爱(新中关购物中心店)
第15个餐馆: 速度牛排Process finished with exit code 0

2. 抓取中关村附近的餐馆的评价信息

Python网络爬虫之抓取订餐信息相关推荐

  1. 40行代码教你利用Python网络爬虫批量抓取小视频

    1. 前言 还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉! 2. 整理思 ...

  2. python爬取小视频-40行代码教你利用Python网络爬虫批量抓取小视频

    /1 前言/ 还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉! /2 整理 ...

  3. Python网络爬虫:抓取书籍排行榜 并生成HTML网页

    Hello,大家好,我是wangzirui32,我们来学习如何抓取书籍排行榜,并生成HTML网页,开始学习吧! 文章目录 1. 分析HTML 2. 爬虫程序 3. 生成HTML网页 3.1 rende ...

  4. 基于Java的网络爬虫实现抓取网络小说(一)

    基于Java的网络爬虫实现抓取网络小说(一) 今天开始写点东西,一方面加深印象一方面再学习. 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用 ...

  5. Python网络爬虫:爬取并下载个性化签名图片 附GUI窗体版

    Hello,大家好,我是wangzirui32,最近我开了个新的系列,是"Python网络爬虫"分类,还请大家多多支持! 今天,我们来学习如何爬取并下载个性化签名图片,开始学习吧! ...

  6. (插播)网络爬虫,抓取你想要得东西。

    project在以下 近期,有个朋友说.想在一些页面上获取一些关键性得信息.比方,电话.地址等等.一个个页面去找 又非常麻烦. 这时候,想起了 何不去用"爬虫"去抓取一些想要得东西 ...

  7. python数据抓取技术与实战训练_师傅带徒弟学Python:项目实战1:网络爬虫与抓取股票数据...

    本视频基于**Python 3.X版本 本视频课程是第四篇第一个实战项目,内容包括网络爬虫技术.使用urllib爬取数据.使用Selenium爬取数据.使用正则表达式.使用BeautifulSoup库 ...

  8. Python网络爬虫:爬取CSDN热搜数据 并保存到本地文件中

    hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN热搜数据,并保存到Excel表格中. 开始学习吧! 学习目录 1. 数据包抓取 2. 编写代码 1. 数据包抓取 打开CS ...

  9. Python网络爬虫:爬取豆瓣上《小王子》书评

    本文为南大<用Python玩转数据>学习笔记 用到的库或模块: 1.Requests第三方库 用于中小型网络爬虫的信息抓取. 基本方法: requests.get() 请求获取指定YRL位 ...

最新文章

  1. 浅谈Socket编程
  2. RDLC 2010设计器的数据源无法找到静态类作为数据源
  3. java实现mysql的主从切换(第二部分)
  4. element selection选中变颜色_Excel | 聚光灯效果(阅读模式)——改变当前行和列的颜色...
  5. 内核编程小结(引用)
  6. phpstudy2018选择php7,phpstudy(小皮面板)和phpstudy2018 配置php的区别
  7. 父窗体与子窗体之间的调用-使用模态窗体之间传递多个值
  8. SQL Server列转行
  9. php相亲段子,个个都是老司机!NPC段子手们经典语录
  10. Java基础知识(二) 面向对象的技术
  11. springboot 动态数据源问题
  12. python多窗口显示内容_如何在一个窗口中显示多个页面?
  13. C的编译链接及Makefile学习
  14. windows搭建redis java简易访问客户端
  15. 【web服务】nginx为什么这么受企业欢迎?看完这边文章你就懂了
  16. java md5 加密工具类_JavaMD5加密工具类
  17. 华为运营商级路由器配置示例 | 配置HVPLS组网的VPLS PW Redundancy示例
  18. iOS点击空白处和和return键,回收键盘,隐藏键盘
  19. 李佳琦月赚80万:这个时代,你再努力也拼不过这种人
  20. 1394接口_台式机1394视频采集卡推荐

热门文章

  1. 5.RabbitMQ的端口号是什么?RabbitMQ的架构是什么样的?嘻哈的简写笔记——RabbitMQ
  2. codewarrior烧写实现不擦除Dflash数据区域随笔
  3. win10文件后缀名怎么显示_【w010】如何隐藏或显示win10系统中3D文件夹
  4. android games 1,Beginning Android Games
  5. java.sql.SQLException: Cannot set createTime: incompatible types
  6. QtzCreator 编译时报警告:skipping incompatible kernel32.dll when searching for -lkernel32
  7. P3715 [BJOI2017]魔法咒语
  8. 掌控项目节奏,做到了如指掌
  9. 上采样和下采样_首次采样带回 嫦娥五号为什么是中国航天史上最复杂任务?...
  10. Pycharm使用Conda环境在Avilable Packages界面不显示可安装包