声明:我这里是学习 唐松老师的《Python网络爬虫从入门到实践》的学习笔记 只是记录我自己学习的过程  详细内容请购买老师正版图书


import requestsr = requests.get('http://www.santostang.com/')
print ("文本状态码:",r.encoding);
print("响应状态码:",r.status_code);
print("字符串响应体:",r.text);
#print("字节响应体:",r.content);
#print("json解码器:",r.json());
#传递URL参数
import requests
key_dic = {'key1':'value1','key2':'value2'}
r = requests.get('http://httpbin.org/get',params=key_dic)
print("URL 编码",r.url)
print("响应体:\n",r.text)



#定制请求头
import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36','Host': 'www.santosang.com'
}
r = requests.get("http://www.santosang.com/", headers = headers)
print("响应状态码:",r.status_code)



#发送POST请求
import requests
key_dic = {"key1":'value1','key2':'value2'}
r = requests.post("http://httpbin.org/post",data=key_dic)
print(r.text)



#设置超时
import requests
link = "http://www.santostang.com/"
r = requests.get(link,timeout=20)
#豆瓣Top250
import requests
from bs4 import BeautifulSoupdef get_movie():movie_list = []headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36','Host': 'movie.douban.com'}for i in range(0,10):link = 'https://movie.douban.com/top250?start='+str(i*25)r = requests.get(link,headers=headers,timeout=10)print(str(i+1)+"页的响应状态码",r.status_code)soup = BeautifulSoup(r.text,"lxml")div_list = soup.find_all('div',class_='hd')for each in div_list:movie = each.a.span.text.strip()movie_list.append(movie)return movie_listif __name__ == "__main__":a = get_movie()print(a)

爬虫学习笔记--爬取静态网页相关推荐

  1. 利用img请求一个html页面,爬虫学习笔记——爬取单个网页里的所有图片(入门)...

    最近闲着,想学一下爬虫 (^-^)V --[手动比耶]先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多电 ...

  2. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  3. python爬取斗鱼鱼吧_[Python爬虫]使用Python爬取静态网页-斗鱼直播

    作者:宅必备 Python爱好者社区--专栏作者 一个会写Python的Oracle DBA 个人公众号:宅必备 公众号:Python爱好者社区 作者其他文章: 好久没更新Python相关的内容了,这 ...

  4. Python爬虫练习笔记——爬取单个网页里的所有图片(入门)

    最近闲着,想学一下爬虫 (^-^)V --[手动比耶] 先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多 ...

  5. Python数据爬虫学习笔记:爬取豆瓣阅读的出版社名称数据

    环境准备: 1.python 3.0+ 2.豆瓣出版社网址 https://read.douban.com/provider/all 1.打开浏览器,输入网址,右击网页,查看网页源码 2.看上图我们发 ...

  6. Python爬虫练习笔记——爬取一本小说并保存为txt文件

    最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...

  7. 一步一步学习专栏:Python爬取静态网页(猫眼top100),实力好文

    一步一步学习专栏:静态网页爬取 阿巴阿巴阿巴 大家好,我是猕猴tou儿,我又回来了,这篇帖子将以猫眼电影榜单top100榜为例讲解爬取静态网址的基本思路与爬取方法. 环境 这也是我们的第一步: imp ...

  8. Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子

    最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...

  9. python爬取网页停止_Python爬虫之爬取静态网页

    所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息.所以,想要学习python爬虫,需要具备一些http的 ...

最新文章

  1. Nature:植物叶际微生物组稳态维持机制
  2. ML之Clustering之K-means:K-means算法简介、应用、经典案例之详细攻略
  3. Angular2 RC6 Route学习
  4. 量子计算机算象棋,量子计算机,只需要几个量子,就足以解决国际象棋中n皇后问题!...
  5. python算法与数据结构-希尔排序算法
  6. 怎样让外界无法改变自定义view的尺寸大小
  7. GET和POST两种基本请求方法的区别(转载)
  8. jvm虚拟机内存结构_JVM体系结构101:了解您的虚拟机
  9. android组建之间通信_Android各组件/控件间通信利器之EventBus
  10. Fiddler抓取APP数据包实践教程
  11. exchange实现外部邮件收发的两种方法
  12. DB2 SQLCODE: -407, SQLSTATE: 23502
  13. codevs1380 没有上司的舞会
  14. Qt qtextstream读取文件
  15. 【Docker】01 Docker概述
  16. 测试电动车速度的软件,应用测试:最高速度达11MB/S
  17. 常用数学符号的英文读法
  18. Shell脚本之正则表达式详解
  19. win7家庭版计算机添加用户,win7家庭版怎样设置来宾用户权限
  20. mysql bd2_mysqldbd

热门文章

  1. linux下如何启动ice服务器,linux: ICE搭建
  2. C语言让程序自己获得管理员权限
  3. 翻译质量评估的标准与方法
  4. 记一次SPA项目打包优化的过程
  5. 编写软件时如何偷工减料
  6. [洛谷P3975][TJOI2015]弦论
  7. 后端开发面试自我介绍_java开发面试评语
  8. 利用aether api实现从指定maven仓库下载jar包
  9. Self-augmented Unpaired Image Dehazing via Density and Depth Decomposition程序运行记录
  10. 网站URL网址末尾是否应该使用反斜杠