Python学习笔记:通过Headers字段模拟浏览器访问亚马逊界面爬取
学习笔记:哔哩哔哩 Python 爬虫视频教程全集(62P)| 6 小时从入门到精通
0. 学习视频地址
- https://www.bilibili.com/video/BV1pt41137qK?p=15
1. 示例代码
大部分情况下,如果不修改Headers字段,则一般浏览器的robots协议会直接把python访问的行为拒绝(返回非200的status code),故我们可以根据Headers字段模拟浏览器访问亚马逊界面爬取.
if __name__ == '__main__':agent = {'User-Agent':'Mozilla/5.0'}# 通过Headers字段模拟浏览器访问kv = {'headers':agent}r = requests.request('GET','https://www.amazon.cn/dp/B09C8VKG4Y/?_encoding=UTF8&pd_rd_w=zToxc&pf_rd_p=b2c3fdd4-a66d-4966-afad-3e4771df6879&pf_rd_r=QSAV56W094T9YZ88BXWV&pd_rd_r=811e4077-5d96-4f9f-94e5-a8b31b9a3970&pd_rd_wg=V3NAZ&ref_=pd_gw_unk', **kv)try:r.raise_for_status()r.encoding = r.apparent_encodingprint(r.status_code, r.text[0:2000])except:# 爬取失败:status_code 503,表示亚马逊的robots,禁止'User-Agent': 'python-requests/2.25.1'进行访问print("爬取失败:status_code", r.status_code, r.request.headers)
2.运行结果
这里发现status_code为200了,比之前的status_code 503好多了。对应爬取网页非200其实都是表示爬取失败
C:\Users\珞落\AppData\Local\Programs\Python\Python39\python.exe D:/PythonProject/main.py
200 <!DOCTYPE html>
<!--[if lt IE 7]> <html lang="zh-CN" class="a-no-js a-lt-ie9 a-lt-ie8 a-lt-ie7"> <![endif]-->
<!--[if IE 7]> <html lang="zh-CN" class="a-no-js a-lt-ie9 a-lt-ie8"> <![endif]-->
<!--[if IE 8]> <html lang="zh-CN" class="a-no-js a-lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="a-no-js" lang="zh-CN"><!--<![endif]--><head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<meta charset="utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
<title dir="ltr">Amazon.cn</title>
<meta name="viewport" content="width=device-width">
<link rel="stylesheet" href="https://images-na.ssl-images-amazon.com/images/G/01/AUIClients/AmazonUI-3c913031596ca78a3768f4e934b1cc02ce238101.secure.min._V1_.css">
<script>if (true === true) {var ue_t0 = (+ new Date()),ue_csm = window,ue = { t0: ue_t0, d: function() { return (+new Date() - ue_t0); } },ue_furl = "fls-cn.amazon.cn",ue_mid = "AAHKV2X7AFYLW",ue_sid = (document.cookie.match(/session-id=([0-9-]+)/) || [])[1],ue_sn = "opfcaptcha.amazon.cn",ue_id = 'A8AX1VD8FQY8GRKVJ9C8';
}
</script>
</head>
<body><!--To discuss automated access to Amazon data please contact api-services-support@amazon.com.For information about migrating to our APIs refer to our Marketplace APIs at https://developer.amazonservices.com.cn/index.html/ref=rm_c_sv, or our Product Advertising API at https://associates.amazon.cn/gp/advertising/api/detail/main.html/ref=rm_c_ac for advertising use cases.
--><!--
Correios.DoNotSend
--><div class="a-container a-padding-double-large" style="min-width:350px;padding:44px 0 !important"><div class="a-row a-spacing-double-large" style="width: 350px; margin: 0 auto"><div class="a-row a-spacing-medium a-text-center"><i class="a-icon a-logo"></i></div><div class="a-box a-alert a-alert-info a-spacing-base"><div class="a-box-inner">Process finished with exit code 0
Python学习笔记:通过Headers字段模拟浏览器访问亚马逊界面爬取相关推荐
- python爬虫如何爬亚马逊_Python爬取当当、京东、亚马逊图书信息代码实例
注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...
- python如何设置画布开始位置_如何设置亚马逊站内广告?亚马逊自动广告手动广告都在什么位置?...
我做跨境电商也有六年的时间了,在电商这个行业也有自己的一些经验.经验也许没有其他大卖家丰富,但会将我知道的都进行分享.如果有不懂得亚马逊问题可以+我(V:772024802).我这里给大家安排一堂直播 ...
- 小虎电商浏览器:亚马逊监控中心插件和Keepa哪个好
亚马逊监控中心主要业务是亚马逊商品监控,而Keepa插件是一款亚马逊历史价格和排名追踪插件,那么,亚马逊监控中心插件和Keepa哪个好呢?一起来看看吧. 编辑搜图 请点击输入图片描述(最多18字) ...
- 小虎电商浏览器:亚马逊如何查看产品排名?排名如何提升?
针对电商而言店铺的销量排名是非常重要的,许多的初学者商家入驻平台之后,总会把这一部分给忽略掉,那么现在在亚马逊平台,店铺与店铺之间竞争也是比较激烈的,那么亚马逊如何查看产品排名?排名如何提升? 亚马逊 ...
- python 压测工具_流量压测工具 | 亚马逊AWS官方博客
(可用于测试AWS ELB.EC2.Auto Scaling.HA) 一群勤劳的小蜜蜂 很多时候我们需要进行负载均衡.Web服务器的并发式压力测试,但像Siege, JMeter等工具都是从一个源IP ...
- java亚马逊模拟登录_java – 亚马逊MWS入门
我最近调查了亚马逊MWS,并希望为它开发.我有一个卖家帐户并下载了给定的 java文件.我包含了所有.jars并打开了ListOrderItemsSample.java.在那里我设置了sellerId ...
- 亚马逊测评浏览器,亚马逊测评风控核心知识点
由于2020年下半年的亚马逊风控突然严格起来,导致很多做亚马逊测评的工作室全部倒闭,很多人转行,或者做起了相关跨境电商的讲师.那么亚马逊测评到底要注意些什么呢? 首先你要确定亚马逊风控的九要素 一.帐 ...
- 618购物节,我用python逛淘宝、亚马逊,摸鱼被领导发现了
事情是这样的 下午两点,闷热的会议室 空调稳稳的坐在那里 好像睡着了 领导的嘴在幻灯片刺眼亮光的映照下 非常斗志昂扬的一张一合 我敏锐的察觉到领导突然扬起的声调 若有所思的对着他深深的点了点头 然后, ...
- 亚马逊测评系统软件搭建教程:luminati+候鸟防关联浏览器环境
这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一 ...
最新文章
- css y轴溢出滚动条,x轴溢出显示
- Entity Framework Core 2.0 新特性
- Python 捕获异常
- android自动登录实现框架,Android如何设计并且实现一个注入框架
- centos 搭建Jenkins
- 如何应对数据匮乏,试试冷启动阶段开发的风险评分
- apple watch 微信连接不上手机
- 分段衰减衰减系数_深度学习中的固定学习率衰减策略总结
- java爆炸图片切换,JavaScript实现爆炸碎片的 图片切换 效果
- java excel 合并单元格
- E4A(易安卓)学习——第一个APP
- linux服务器使用certbot免费安装ssl证书
- 정부와동포 사고 전화해야
- MATLAB算法实战应用案例精讲-【语音识别】语音合成(附python代码实现)
- 港台明星们的生日大曝光
- VS2017搭建linux开发环境
- 解决:Godaddy域名解析很慢,网站经常打不开或者解析失败
- realpath和access函数浅谈
- python参数化建模加工图_基于Python的ABAQUS层压板参数化建模
- PCA和SVD傻傻分不清楚?