环境与上一篇一样windows,editplus,python-2.7.6(且我前面文章有介绍过配置过程)

另外介绍一个抓包工具fiddler,超级好用的,特别是在以后你需要爬一些很复杂网站时。(不要它是英文就接受不了,上手很快的)

以前都是用beautifulsoup,现在想从头尝试用urllib2.

urllib2是python提供的抓取网页的组件。

1.最简单例子:

import urllib2
response = urllib2.urlopen("http://www.baidu.com/")
html = response.read()
print html

输出就是百度首页的编码。

2.下面是一个需要发送数据的爬虫简单例子。发送方式时get。(其实我自己也不知道为什么,在浏览器的网站栏里,网站的url中的中文是正常显示的,但是我把url拷到editplus里之后就变了,好吧,拷到其他地方也是这样。。。不知道是为什么,开始还担心请求会不成功的,后来还是有数据的。看来是我的web开发学的不到位,如果有知道原因的,请留言告诉我一声,虽然这件事和这个例子没什么关系。。。)

#coding=utf-8
import urllib
import urllib2#http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C?searchfrom=around&arounddep=%E6%AD%A6%E6%B1%89&tf=Ihot_01
data = {}
data['searchfrom'] = 'around'
data['arounddep'] = '%E6%AD%A6%E6%B1%89'
data['tf'] = 'Ihot_01'value = urllib.urlencode(data)
print value
url = 'http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C' + '?' + valueresponse = urllib2.urlopen(url)
print response.read()

3.也是需要发送数据的爬虫例子。这个是post方式的。

import urllib
import urllib2#http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C?searchfrom=around&arounddep=%E6%AD%A6%E6%B1%89&tf=Ihot_01
data = {}
data['searchfrom'] = 'around'
data['arounddep'] = '%E6%AD%A6%E6%B1%89'
data['tf'] = 'Ihot_01'value = urllib.urlencode(data)
print valueurl = 'http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C'
response = urllib2.urlopen(url,value)
print response.read()

貌似两个也没大差哈~

python简单爬虫例子(一)相关推荐

  1. python简单爬虫

    python简单爬虫某网站简历模板 from lxml import etree import requestsdef main():url = "https://sc.chinaz.com ...

  2. python简单爬虫 指定汉字的笔画动图下载

    python简单爬虫 指定汉字的笔画动图下载 分析过程 打开网址首页http://www.hanzi5.com 选择一个字,比如"虐" 查看该汉字动图地址 右键该汉字动图,选择在新 ...

  3. Python 简单爬虫下载小说txt

    Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...

  4. Python简单爬虫第六蛋!(完结撒花)

    第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也 ...

  5. python网页爬虫例子_Python网络爬虫 - 一个简单的爬虫例子

    下面我们创建一个真正的爬虫例子 爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request importurlopenfro ...

  6. python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫

    掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...

  7. python简单爬虫课题_VS2019python爬虫入门

    VS2019新建python项目 在vs2019中添加python编译环境 创建python控制台应用程序项目 配置python环境 安装requests第三方库 管理程序包,执行安装requests ...

  8. 可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫

    Python网络爬虫 语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果 简单py爬虫,修改入口及解析器改变规则 新增存入数据库操作 需要插件(MySql) 补充:(折 ...

  9. Python简单爬虫入门-爬取链家租房网上的租房信息

    .又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...

最新文章

  1. AD恢复(3)使用AD回收站
  2. STM32F030控制蜂鸣器定时响和控制LED亮
  3. 高数第七章知识点框架
  4. D455 如何同时传输视频深度流和惯性单元IMU流?(双管道方法与调用回调方法)
  5. oracle 并行执行 杀掉会话,oracle – 为什么即使我禁用并行DML和并行DDL也会创建并行会话...
  6. idea中leetcode提示未登录_IntelliJ IDEA中LeetCode插件配置问题代码解析
  7. sql语句 取搜索列表的前几条
  8. ThreadPool中变量ctl的分析
  9. Vegas哪个版本最好用?
  10. MySQL 定时备份数据库(非常全),值得收藏!
  11. 计算机考试专业知识题库,专业知识:计算机考试题库练习题
  12. JavaAwt子部件定位设置大小,setBounds(x, y, w, h);setLocation(x, y); setSize(w, h); 一开始不起作用,加个延时起作用了
  13. 100个python算法超详细讲解:委派任务
  14. cin/cou效率太慢?试一下 ios::sync_with_stdio(false);
  15. CH32V103C8T6入门指导
  16. ffmpeg学习 pcm文件转wav文件
  17. 安全进化的终极猜想— 以“AI之盾”对抗“AI之矛”
  18. 弘辽科技:618年中大决战,拖词拖价法快速玩转淘宝直通车
  19. Django账号登陆之退出登录(logout()方法介绍、logout()方法使用)
  20. jmap命令(Java Memory Map)

热门文章

  1. 复合类型与with关键字
  2. 云原生k8s之CA证书创建和使用
  3. Unity 2D 游戏开发解决方案大全
  4. 【转载】不管嫁给谁,都得过这三道关
  5. java日期或时间加减(获取前几天或后几天)
  6. Win10系统基于WSL2安装Docker问题小结
  7. 章节三:RASA Domain介绍
  8. 原型模式(Prototype Pattern)
  9. 2021年R1快开门式压力容器操作找解析及R1快开门式压力容器操作考试试题
  10. 早期版本的traps.c