03 Python爬虫之Requests网络爬取实战
目录
- 实例1:京东商品页面的爬取
- 实例2:亚马逊商品页面的爬取
- 实例3:百度搜索关键字提交
- 实例4:IP地址归属地的自动查询
实例1:京东商品页面的爬取
实例1:京东商品页面的爬取
https://item.jd.com/2967929.html
import requestsurl = "https://item.jd.com/2967929.html"
try:r = requests.get(url)print(r.status_code) # 200print(r.encoding)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[:1000])
except:print("爬取失败")
实例2:亚马逊商品页面的爬取
实例2:亚马逊商品页面的爬取
https://www.amazon.cn/gp/product/B01M8L5Z3Y
该网站通过对来源审查做了限制,因此需要修改头部信息,伪装成浏览器对网站进行数据的爬取。
import requestsurl = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"try:r = requests.get(url)print(r.status_code) # 503 说明访问失败print(r.encoding) # ISO-8859-1r.encoding = r.apparent_encoding # 修改编码print(r.status_code) # 503 说明访问失败# 可能是通过来源审查对网络爬虫采取了限制print(r.request.headers) # 查看 'User-Agent': 'python-requests/2.22.0'# 更改头部信息,伪装成浏览器,修改User-Agentkv = {"user-agent" : "Mozilla/5.0"}r = requests.get(url, headers = kv) # 关键字实参print(r.status_code) # 再次查看状态码,发现已经成功 200print(r.text[:1000])except:print("爬取失败")
实例3:百度搜索关键字提交
百度的关键词接口: http://www.baidu.com/s?wd=keyword
import requeststry:kv = {"wd": "Python"}r = requests.get("http://www.baidu.com/s", params=kv) # url中的参数print(r.request.url)r.raise_for_status()print(len(r.text))
except:print("爬取失败")
实例4:IP地址归属地的自动查询
iP138网站 查询IP地址归属地http://m.ip138.com/ip.asp?ip=ipaddress
import requestsurl = "http://m.ip138.com/ip.asp?ip=" # iP138网站请求数据的前半部分
idAddr = "211.70.176.3" # 需要查询的IP地址
try:r = requests.get(url+idAddr)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[-1000:])
except:print("爬取失败")
转载于:https://www.cnblogs.com/XuChengNotes/p/11336117.html
03 Python爬虫之Requests网络爬取实战相关推荐
- 数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化
此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
- python爬虫实例之小说爬取器
今天和大家分享一个爬取盗版小说的实例. 如今的网络小说可谓是百家齐放各领风骚,玄幻科幻穿越修仙都市- 各种套路看得我是心潮澎湃,笔者曾经也蛮喜欢看小说的,以前经常是拿着一台诺基亚看到深夜,第二天带着黑 ...
- python爬虫 豆瓣影评的爬取cookies实现自动登录账号
python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
- Python 爬虫 中国行政区划信息爬取 (初学者)
Python 爬虫 中国行政区划信息爬取 (初学者) 背景 环境准备 代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...
- python爬虫学习 之 定向爬取 淘宝商品价格
python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
- Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...
- python爬虫实例之——多线程爬取小说
之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...
- python爬虫(一)爬取豆瓣电影排名前50名电影的信息
python爬虫(一)爬取豆瓣电影排名前50名电影的信息 在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...
最新文章
- 我把 Spring Boot 的 banner 换成了美女,老板说工作不饱和,建议安排加班
- jquery-autoComplete 插件使用
- FastDFS分布式文件系统的安装及配置
- CentOs上搭建git服务器
- Python爬虫beautifulsoup4常用的解析方法总结
- 全面解析虚拟内存概念
- UIKIT_EXTERN和define定义常量
- AI基础:特征工程-数字特征处理
- 串口服务器的通讯模式
- 微课|玩转Python轻松过二级:第3章课后习题解答2
- 连接树莓派后斐讯k2路由cpu占用100%
- 苹果电脑mp3转gif_用苹果电脑做gif动图的方法终于找到了...
- 烟花绽放c语言程序设计摘要,描写烟花绽放的优美句子
- ceph osd为down的情况
- 【USACO 2020 January Silver】Loan Repayment
- office中计算机剪贴画,Office 2010的剪贴画
- Js日期yyyy-MM-dd与yyyy/MM/dd的区别
- [转贴]金庸的九家著名公司
- cmd命令行切换目录
- 2017年第一次专题研讨会论坛成果:自行车和城市可持续发展国际案例
热门文章
- int与string互转
- [SmartFoxServer入门]服务器安装
- 利用jquery 控制select 实例代码
- 一图讲解一条sql语句的一生——《收获,不止Oracle》的读书笔记01
- java语言的命题原则_重庆自考《Java语言程序设计(一)》课程全国统一命题考试说明...
- IT报表开发者必看:别加班了,真正解放双手的低代码开发神器来了
- 这4个免费办公神器有多良心?用后就离不开,可惜一般人都不知道
- 从入门到退坑,详解数分行业的3个岗位,起薪高达40W的是哪个?
- python字符串format格式化二
- centos安装软件后没有快捷键,创建桌面快捷键的方式【pycharm的快捷键】