目录

  • 实例1:京东商品页面的爬取
  • 实例2:亚马逊商品页面的爬取
  • 实例3:百度搜索关键字提交
  • 实例4:IP地址归属地的自动查询

实例1:京东商品页面的爬取

实例1:京东商品页面的爬取
https://item.jd.com/2967929.html

import requestsurl = "https://item.jd.com/2967929.html"
try:r = requests.get(url)print(r.status_code)    # 200print(r.encoding)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[:1000])
except:print("爬取失败")

实例2:亚马逊商品页面的爬取

实例2:亚马逊商品页面的爬取
https://www.amazon.cn/gp/product/B01M8L5Z3Y

该网站通过对来源审查做了限制,因此需要修改头部信息,伪装成浏览器对网站进行数据的爬取。

import requestsurl = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"try:r = requests.get(url)print(r.status_code)    # 503 说明访问失败print(r.encoding)       # ISO-8859-1r.encoding = r.apparent_encoding    # 修改编码print(r.status_code)    # 503 说明访问失败# 可能是通过来源审查对网络爬虫采取了限制print(r.request.headers)    # 查看 'User-Agent': 'python-requests/2.22.0'# 更改头部信息,伪装成浏览器,修改User-Agentkv = {"user-agent" : "Mozilla/5.0"}r = requests.get(url, headers = kv)   # 关键字实参print(r.status_code)    # 再次查看状态码,发现已经成功 200print(r.text[:1000])except:print("爬取失败")

实例3:百度搜索关键字提交

百度的关键词接口: http://www.baidu.com/s?wd=keyword

import requeststry:kv = {"wd": "Python"}r = requests.get("http://www.baidu.com/s", params=kv)   # url中的参数print(r.request.url)r.raise_for_status()print(len(r.text))
except:print("爬取失败")

实例4:IP地址归属地的自动查询

iP138网站 查询IP地址归属地http://m.ip138.com/ip.asp?ip=ipaddress

import requestsurl = "http://m.ip138.com/ip.asp?ip="   # iP138网站请求数据的前半部分
idAddr = "211.70.176.3"     # 需要查询的IP地址
try:r = requests.get(url+idAddr)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[-1000:])
except:print("爬取失败")

转载于:https://www.cnblogs.com/XuChengNotes/p/11336117.html

03 Python爬虫之Requests网络爬取实战相关推荐

  1. 数据采集与存储案例——基于Python爬虫框架Scrapy的爬取网络数据与MySQL数据持久化

    此案例需要预先安装pymsql python3.7.4 scrapy2.7.1 一.安装scrapy框架 1.使用pip命令安装scrapy pip install scrapy 在这里下载太慢可以使 ...

  2. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  3. python爬虫实例之小说爬取器

    今天和大家分享一个爬取盗版小说的实例. 如今的网络小说可谓是百家齐放各领风骚,玄幻科幻穿越修仙都市- 各种套路看得我是心潮澎湃,笔者曾经也蛮喜欢看小说的,以前经常是拿着一台诺基亚看到深夜,第二天带着黑 ...

  4. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

  5. Python 爬虫 中国行政区划信息爬取 (初学者)

    Python 爬虫 中国行政区划信息爬取 (初学者) 背景 环境准备 代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...

  6. python爬虫学习 之 定向爬取 淘宝商品价格

    python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...

  7. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

  8. python爬虫实例之——多线程爬取小说

    之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...

  9. python爬虫(一)爬取豆瓣电影排名前50名电影的信息

    python爬虫(一)爬取豆瓣电影排名前50名电影的信息 在Python爬虫中,我们可以使用beautifulsoup对网页进行解析. 我们可以使用它来爬取豆瓣电影排名前50名的电影的详细信息,例如排 ...

最新文章

  1. 我把 Spring Boot 的 banner 换成了美女,老板说工作不饱和,建议安排加班
  2. jquery-autoComplete 插件使用
  3. FastDFS分布式文件系统的安装及配置
  4. CentOs上搭建git服务器
  5. Python爬虫beautifulsoup4常用的解析方法总结
  6. 全面解析虚拟内存概念
  7. UIKIT_EXTERN和define定义常量
  8. AI基础:特征工程-数字特征处理
  9. 串口服务器的通讯模式
  10. 微课|玩转Python轻松过二级:第3章课后习题解答2
  11. 连接树莓派后斐讯k2路由cpu占用100%
  12. 苹果电脑mp3转gif_用苹果电脑做gif动图的方法终于找到了...
  13. 烟花绽放c语言程序设计摘要,描写烟花绽放的优美句子
  14. ceph osd为down的情况
  15. 【USACO 2020 January Silver】Loan Repayment
  16. office中计算机剪贴画,Office 2010的剪贴画
  17. Js日期yyyy-MM-dd与yyyy/MM/dd的区别
  18. [转贴]金庸的九家著名公司
  19. cmd命令行切换目录
  20. 2017年第一次专题研讨会论坛成果:自行车和城市可持续发展国际案例

热门文章

  1. int与string互转
  2. [SmartFoxServer入门]服务器安装
  3. 利用jquery 控制select 实例代码
  4. 一图讲解一条sql语句的一生——《收获,不止Oracle》的读书笔记01
  5. java语言的命题原则_重庆自考《Java语言程序设计(一)》课程全国统一命题考试说明...
  6. IT报表开发者必看:别加班了,真正解放双手的低代码开发神器来了
  7. 这4个免费办公神器有多良心?用后就离不开,可惜一般人都不知道
  8. 从入门到退坑,详解数分行业的3个岗位,起薪高达40W的是哪个?
  9. python字符串format格式化二
  10. centos安装软件后没有快捷键,创建桌面快捷键的方式【pycharm的快捷键】