爬虫学习笔记--爬取静态网页

声明：我这里是学习唐松老师的《Python网络爬虫从入门到实践》的学习笔记只是记录我自己学习的过程详细内容请购买老师正版图书

import requestsr = requests.get('http://www.santostang.com/')
print ("文本状态码：",r.encoding);
print("响应状态码：",r.status_code);
print("字符串响应体：",r.text);
#print("字节响应体：",r.content);
#print("json解码器：",r.json());

#传递URL参数
import requests
key_dic = {'key1':'value1','key2':'value2'}
r = requests.get('http://httpbin.org/get',params=key_dic)
print("URL 编码",r.url)
print("响应体：\n",r.text)

#定制请求头
import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36','Host': 'www.santosang.com'
}
r = requests.get("http://www.santosang.com/", headers = headers)
print("响应状态码：",r.status_code)

#发送POST请求
import requests
key_dic = {"key1":'value1','key2':'value2'}
r = requests.post("http://httpbin.org/post",data=key_dic)
print(r.text)

#设置超时
import requests
link = "http://www.santostang.com/"
r = requests.get(link,timeout=20)

#豆瓣Top250
import requests
from bs4 import BeautifulSoupdef get_movie():movie_list = []headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36','Host': 'movie.douban.com'}for i in range(0,10):link = 'https://movie.douban.com/top250?start='+str(i*25)r = requests.get(link,headers=headers,timeout=10)print(str(i+1)+"页的响应状态码",r.status_code)soup = BeautifulSoup(r.text,"lxml")div_list = soup.find_all('div',class_='hd')for each in div_list:movie = each.a.span.text.strip()movie_list.append(movie)return movie_listif __name__ == "__main__":a = get_movie()print(a)

爬虫学习笔记--爬取静态网页相关推荐

利用img请求一个html页面,爬虫学习笔记——爬取单个网页里的所有图片（入门）...
最近闲着,想学一下爬虫 (^-^)V --[手动比耶]先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多电 ...
Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
python爬取斗鱼鱼吧_[Python爬虫]使用Python爬取静态网页-斗鱼直播
作者:宅必备 Python爱好者社区--专栏作者一个会写Python的Oracle DBA 个人公众号:宅必备公众号:Python爱好者社区作者其他文章: 好久没更新Python相关的内容了,这 ...
Python爬虫练习笔记——爬取单个网页里的所有图片（入门）
最近闲着,想学一下爬虫 (^-^)V --[手动比耶] 先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多 ...
Python数据爬虫学习笔记:爬取豆瓣阅读的出版社名称数据
环境准备: 1.python 3.0+ 2.豆瓣出版社网址 https://read.douban.com/provider/all 1.打开浏览器,输入网址,右击网页,查看网页源码 2.看上图我们发 ...
Python爬虫练习笔记——爬取一本小说并保存为txt文件
最近竟然开始磕起了黄晓明和尹正的CP!!! 但是万恶的爱某艺不好好更新剧集,居然搞起了超前点映- WTF???有什么是我这个贫穷而又尊贵的VIP用户不能看的吗??? 于是我决定开始看小说了!找个网站把 ...
一步一步学习专栏：Python爬取静态网页（猫眼top100），实力好文
一步一步学习专栏:静态网页爬取阿巴阿巴阿巴大家好,我是猕猴tou儿,我又回来了,这篇帖子将以猫眼电影榜单top100榜为例讲解爬取静态网址的基本思路与爬取方法. 环境这也是我们的第一步: imp ...
Python爬虫爬取静态网页实例一：爬取内涵段子吧上的段子
最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...
python爬取网页停止_Python爬虫之爬取静态网页
所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息.所以,想要学习python爬虫,需要具备一些http的 ...

爬虫学习笔记--爬取静态网页

爬虫学习笔记--爬取静态网页相关推荐

最新文章

热门文章