学习笔记:哔哩哔哩 Python 爬虫视频教程全集(62P)| 6 小时从入门到精通

0. 学习视频地址

  • https://www.bilibili.com/video/BV1pt41137qK?p=15

1. 示例代码

大部分情况下,如果不修改Headers字段,则一般浏览器的robots协议会直接把python访问的行为拒绝(返回非200的status code),故我们可以根据Headers字段模拟浏览器访问亚马逊界面爬取.

if __name__ == '__main__':agent = {'User-Agent':'Mozilla/5.0'}# 通过Headers字段模拟浏览器访问kv = {'headers':agent}r = requests.request('GET','https://www.amazon.cn/dp/B09C8VKG4Y/?_encoding=UTF8&pd_rd_w=zToxc&pf_rd_p=b2c3fdd4-a66d-4966-afad-3e4771df6879&pf_rd_r=QSAV56W094T9YZ88BXWV&pd_rd_r=811e4077-5d96-4f9f-94e5-a8b31b9a3970&pd_rd_wg=V3NAZ&ref_=pd_gw_unk', **kv)try:r.raise_for_status()r.encoding = r.apparent_encodingprint(r.status_code, r.text[0:2000])except:# 爬取失败:status_code 503,表示亚马逊的robots,禁止'User-Agent': 'python-requests/2.25.1'进行访问print("爬取失败:status_code", r.status_code, r.request.headers)

2.运行结果

这里发现status_code为200了,比之前的status_code 503好多了。对应爬取网页非200其实都是表示爬取失败

C:\Users\珞落\AppData\Local\Programs\Python\Python39\python.exe D:/PythonProject/main.py
200 <!DOCTYPE html>
<!--[if lt IE 7]> <html lang="zh-CN" class="a-no-js a-lt-ie9 a-lt-ie8 a-lt-ie7"> <![endif]-->
<!--[if IE 7]>    <html lang="zh-CN" class="a-no-js a-lt-ie9 a-lt-ie8"> <![endif]-->
<!--[if IE 8]>    <html lang="zh-CN" class="a-no-js a-lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="a-no-js" lang="zh-CN"><!--<![endif]--><head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<meta charset="utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
<title dir="ltr">Amazon.cn</title>
<meta name="viewport" content="width=device-width">
<link rel="stylesheet" href="https://images-na.ssl-images-amazon.com/images/G/01/AUIClients/AmazonUI-3c913031596ca78a3768f4e934b1cc02ce238101.secure.min._V1_.css">
<script>if (true === true) {var ue_t0 = (+ new Date()),ue_csm = window,ue = { t0: ue_t0, d: function() { return (+new Date() - ue_t0); } },ue_furl = "fls-cn.amazon.cn",ue_mid = "AAHKV2X7AFYLW",ue_sid = (document.cookie.match(/session-id=([0-9-]+)/) || [])[1],ue_sn = "opfcaptcha.amazon.cn",ue_id = 'A8AX1VD8FQY8GRKVJ9C8';
}
</script>
</head>
<body><!--To discuss automated access to Amazon data please contact api-services-support@amazon.com.For information about migrating to our APIs refer to our Marketplace APIs at https://developer.amazonservices.com.cn/index.html/ref=rm_c_sv, or our Product Advertising API at https://associates.amazon.cn/gp/advertising/api/detail/main.html/ref=rm_c_ac for advertising use cases.
--><!--
Correios.DoNotSend
--><div class="a-container a-padding-double-large" style="min-width:350px;padding:44px 0 !important"><div class="a-row a-spacing-double-large" style="width: 350px; margin: 0 auto"><div class="a-row a-spacing-medium a-text-center"><i class="a-icon a-logo"></i></div><div class="a-box a-alert a-alert-info a-spacing-base"><div class="a-box-inner">Process finished with exit code 0

Python学习笔记:通过Headers字段模拟浏览器访问亚马逊界面爬取相关推荐

  1. python爬虫如何爬亚马逊_Python爬取当当、京东、亚马逊图书信息代码实例

    注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...

  2. python如何设置画布开始位置_如何设置亚马逊站内广告?亚马逊自动广告手动广告都在什么位置?...

    我做跨境电商也有六年的时间了,在电商这个行业也有自己的一些经验.经验也许没有其他大卖家丰富,但会将我知道的都进行分享.如果有不懂得亚马逊问题可以+我(V:772024802).我这里给大家安排一堂直播 ...

  3. 小虎电商浏览器:亚马逊监控中心插件和Keepa哪个好

    ​亚马逊监控中心主要业务是亚马逊商品监控,而Keepa插件是一款亚马逊历史价格和排名追踪插件,那么,亚马逊监控中心插件和Keepa哪个好呢?一起来看看吧. 编辑搜图 请点击输入图片描述(最多18字) ...

  4. 小虎电商浏览器:亚马逊如何查看产品排名?排名如何提升?

    针对电商而言店铺的销量排名是非常重要的,许多的初学者商家入驻平台之后,总会把这一部分给忽略掉,那么现在在亚马逊平台,店铺与店铺之间竞争也是比较激烈的,那么亚马逊如何查看产品排名?排名如何提升? 亚马逊 ...

  5. python 压测工具_流量压测工具 | 亚马逊AWS官方博客

    (可用于测试AWS ELB.EC2.Auto Scaling.HA) 一群勤劳的小蜜蜂 很多时候我们需要进行负载均衡.Web服务器的并发式压力测试,但像Siege, JMeter等工具都是从一个源IP ...

  6. java亚马逊模拟登录_java – 亚马逊MWS入门

    我最近调查了亚马逊MWS,并希望为它开发.我有一个卖家帐户并下载了给定的 java文件.我包含了所有.jars并打开了ListOrderItemsSample.java.在那里我设置了sellerId ...

  7. 亚马逊测评浏览器,亚马逊测评风控核心知识点

    由于2020年下半年的亚马逊风控突然严格起来,导致很多做亚马逊测评的工作室全部倒闭,很多人转行,或者做起了相关跨境电商的讲师.那么亚马逊测评到底要注意些什么呢? 首先你要确定亚马逊风控的九要素 一.帐 ...

  8. ​618购物节,我用python逛淘宝、亚马逊,摸鱼被领导发现了

    事情是这样的 下午两点,闷热的会议室 空调稳稳的坐在那里 好像睡着了 领导的嘴在幻灯片刺眼亮光的映照下 非常斗志昂扬的一张一合 我敏锐的察觉到领导突然扬起的声调 若有所思的对着他深深的点了点头 然后, ...

  9. 亚马逊测评系统软件搭建教程:luminati+候鸟防关联浏览器环境

    这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一 ...

最新文章

  1. css y轴溢出滚动条,x轴溢出显示
  2. Entity Framework Core 2.0 新特性
  3. Python 捕获异常
  4. android自动登录实现框架,Android如何设计并且实现一个注入框架
  5. centos 搭建Jenkins
  6. 如何应对数据匮乏,试试冷启动阶段开发的风险评分
  7. apple watch 微信连接不上手机
  8. 分段衰减衰减系数_深度学习中的固定学习率衰减策略总结
  9. java爆炸图片切换,JavaScript实现爆炸碎片的 图片切换 效果
  10. java excel 合并单元格
  11. E4A(易安卓)学习——第一个APP
  12. linux服务器使用certbot免费安装ssl证书
  13. 정부와동포 사고 전화해야
  14. MATLAB算法实战应用案例精讲-【语音识别】语音合成(附python代码实现)
  15. 港台明星们的生日大曝光
  16. VS2017搭建linux开发环境
  17. 解决:Godaddy域名解析很慢,网站经常打不开或者解析失败
  18. realpath和access函数浅谈
  19. python参数化建模加工图_基于Python的ABAQUS层压板参数化建模
  20. PCA和SVD傻傻分不清楚?

热门文章

  1. ARM Linux Qt 5.x.x 无标题栏
  2. 小丸子学Hadoop系列之——部署Hbase集群
  3. 小丸子学MongoDB系列之——部署MongoDB副本集
  4. IM开发宝典:史上最全,微信各种功能参数和逻辑规则资料汇总
  5. 阿里和唯品会java开发手册通读链接
  6. database-oracle
  7. 极客日报:贾跃亭回应是否有回国打算:那必须的;顺丰将拿出 2 亿元给快递员加薪;OpenAI 宣布解散机器人团队
  8. HTML文字动画,缓慢浮入
  9. git切换master项目,新建分支new branch
  10. 分析加工贸易企业三帐难以平衡的根本原因