实例1：京东商品页面的爬取
实例2：亚马逊商品页面的爬取
实例3：百度搜索关键字提交
实例4：IP地址归属地的自动查询

实例1：京东商品页面的爬取

实例1：京东商品页面的爬取
https://item.jd.com/2967929.html

import requestsurl = "https://item.jd.com/2967929.html"
try:r = requests.get(url)print(r.status_code)    # 200print(r.encoding)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[:1000])
except:print("爬取失败")

实例2：亚马逊商品页面的爬取

实例2：亚马逊商品页面的爬取
https://www.amazon.cn/gp/product/B01M8L5Z3Y

该网站通过对来源审查做了限制，因此需要修改头部信息，伪装成浏览器对网站进行数据的爬取。

import requestsurl = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"try:r = requests.get(url)print(r.status_code)    # 503 说明访问失败print(r.encoding)       # ISO-8859-1r.encoding = r.apparent_encoding    # 修改编码print(r.status_code)    # 503 说明访问失败# 可能是通过来源审查对网络爬虫采取了限制print(r.request.headers)    # 查看 'User-Agent': 'python-requests/2.22.0'# 更改头部信息，伪装成浏览器，修改User-Agentkv = {"user-agent" : "Mozilla/5.0"}r = requests.get(url, headers = kv)   # 关键字实参print(r.status_code)    # 再次查看状态码，发现已经成功 200print(r.text[:1000])except:print("爬取失败")

实例3：百度搜索关键字提交

百度的关键词接口： http://www.baidu.com/s?wd=keyword

import requeststry:kv = {"wd": "Python"}r = requests.get("http://www.baidu.com/s", params=kv)   # url中的参数print(r.request.url)r.raise_for_status()print(len(r.text))
except:print("爬取失败")

实例4：IP地址归属地的自动查询

iP138网站查询IP地址归属地http://m.ip138.com/ip.asp?ip=ipaddress

import requestsurl = "http://m.ip138.com/ip.asp?ip="   # iP138网站请求数据的前半部分
idAddr = "211.70.176.3"     # 需要查询的IP地址
try:r = requests.get(url+idAddr)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[-1000:])
except:print("爬取失败")

转载于:https://www.cnblogs.com/XuChengNotes/p/11336117.html

03 Python爬虫之Requests网络爬取实战相关推荐

数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化
此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...
python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
python爬虫实例之小说爬取器
今天和大家分享一个爬取盗版小说的实例. 如今的网络小说可谓是百家齐放各领风骚,玄幻科幻穿越修仙都市- 各种套路看得我是心潮澎湃,笔者曾经也蛮喜欢看小说的,以前经常是拿着一台诺基亚看到深夜,第二天带着黑 ...
python爬虫豆瓣影评的爬取cookies实现自动登录账号
python爬虫豆瓣影评的爬取cookies实现自动登录账号频繁的登录网页会让豆瓣锁定你的账号-- 网页请求使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
Python 爬虫中国行政区划信息爬取（初学者）
Python 爬虫中国行政区划信息爬取 (初学者) 背景环境准备代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...
python爬虫学习之定向爬取淘宝商品价格
python爬虫学习之定向爬取淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...
python爬虫实例之——多线程爬取小说
之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...
python爬虫（一）爬取豆瓣电影排名前50名电影的信息
python爬虫(一)爬取豆瓣电影排名前50名电影的信息在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...

03 Python爬虫之Requests网络爬取实战

实例1：京东商品页面的爬取

实例2：亚马逊商品页面的爬取

实例3：百度搜索关键字提交

实例4：IP地址归属地的自动查询

03 Python爬虫之Requests网络爬取实战相关推荐

最新文章

热门文章