Python第四天——requests实战

1. 获取百度网页并打印


1)模仿:获取淘宝网页并打印

import requests
url=('http://www.taobao.com')
r=requests.get(url)
r.encoding=r.apparent_encoding
print(r.text)

2、获取图片地址

1)错误


下载下来的图片为空

2)正确的
换个浏览器图片网址
[https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fhbimg.b0.upaiyun.com%2F67cab747d32fac3de0a3edd18229ca3407c2e7a051fa0-Luaxcp_fw658&refer=http%3A%2F%2Fhbimg.b0.upaiyun.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1639793718&t=58d26307736eba1374b0981847ace984]
然后成功显示美女图片

然后我发现了图片地址的问题,1)之所以错误是我的图片地址不对,添加的是网页链接不是图片地址的链接,重新添加图片链接也成功了

3、获取视频


与获取图片方法一样,把图片地址换成视频地址(不能是网页视频地址),输出的图片格式换成视频格式即可。

4、搜狗关键词搜索爬取

1)错误

csdn查找方法:

2)之正确

import requests
#指定url
url='https://www.sogou.com/web'
kw=input('ernter a word:')
header={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0.1; Moto G (4)) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Mobile Safari/537.36'}
param={'query':kw
}
#发起请求,做好伪装
response=requests.get(url=url,params=param,headers=header)
#获取相应数据
content=response.text
fileName=kw+'.html'
#将数据保存在本地
with open(fileName,'w',encoding='utf-8') as fp:fp.write(content)
print(fileName,'爬取完成!')

虽然没完全显示,但确实有

5、爬取百度翻译

找到接口:

获取百度翻译接口数据及请求方式:

1)问题:


参考:

https://www.fujieace.com/python/indexerror-list-index-out.html

可能是超出范围?
试着换了一个字的,成功了…


去掉注释的打印语句,输入“你好”成功了


输入“您好”,有错误提示

import json
import requests
url='https://fanyi.baidu.com/sug'
word=input('请输入想要翻译的词语或者句子:')
data={'kw':word
}
headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0.1; Moto G (4)) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Mobile Safari/537.36'
}
reponse=requests.post(url=url,data=data,headers=headers)
dic_obj=reponse.json()
print(dic_obj)
filename=word+'.json'
with open(filename,'w',encoding='utf-8')as fp:json.dump(dic_obj,fp=fp,ensure_ascii=False)
j=dic_obj['data'][1]['v']
print(j)

6、爬取豆瓣电影榜单


换了导入的顺序和reponse(虽然我觉得没有影响…)


链接内容为空,怪不得什么都没有

换成豆瓣官网:

https://movie.douban.com/chart

出现错误

查找问题:

https://www.cnblogs.com/loveprogramme/p/9379532.html
https://chuanchuan.blog.csdn.net/article/details/120928999

这些没成功

换请求的url
成功了

7、jk爬取


源代码:(from 川川)

import requests
import re
import urllib.request
import time
import os
header={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
url='https://cn.bing.com/images/async?q=jk%E5%88%B6%E6%9C%8D%E5%A5%B3%E7%94%9F%E5%A4%B4%E5%83%8F&first=118&count=35&relp=35&cw=1177&ch=705&tsc=ImageBasicHover&datsrc=I&layout=RowBased&mmasync=1&SFX=4'
request=requests.get(url=url,headers=header)
c=request.text
pattern=re.compile(r'<div class="imgpt".*?<div class="img_cont hoff">.*?src="(.*?)".*?</div>',re.S
)
items = re.findall(pattern, c)
# print(items)
os.makedirs('photo',exist_ok=True)
for a in items:print(a)
for a in items:print("下载图片:"+a)b=a.split('/')[-1]urllib.request.urlretrieve(a,'photo/'+str(int(time.time()))+'.jpg')print(a+'.jpg')time.sleep(2)

Python第四天——requests实战相关推荐

  1. 爬虫学习打卡第四天——requests实战

    目录 一.获取百度网页并打印 二.获取美女图片并下载到本地 三.获取美女视频并下载到本地 四.百度关键词搜索爬取 五.爬取百度翻译 一.获取百度网页并打印 代码如下: import requests ...

  2. python爬虫从入门到实战笔记——第四章Scrapy框架

    推荐阅读: python爬虫从入门到实战笔记--第一章爬虫原理和数据爬取 python爬虫从入门到实战笔记--第二章非结构化数据和结构化数据的提取 python爬虫从入门到实战笔记--第三章动态HTM ...

  3. Python大数据处理库 PySpark实战 总结四

    Python大数据处理库 PySpark实战四 ETL 实战 实验数据来源 数据加载 观察资料 选择.筛选与聚合 机器学习实战 实验数据来源 数据加载 统计描述 清洗与变形 Pipeline 逻辑回归 ...

  4. 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫

    笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...

  5. 教你使用Python爬虫获取电子书资源实战!喜欢学习的小伙伴过来看啦!

    最近在学习Python,相对java来说python简单易学.语法简单,工具丰富,开箱即用,适用面广做全栈开发那是极好的,对于小型应用的开发,虽然运行效率慢点,但开发效率极高.大大提高了咱们的生产力. ...

  6. Python爬虫网络请求 requests(get、post)

    Python网络请求模块 urllib Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块 第一个模块 request,它是最基本的 H ...

  7. python爬取小说章节信息用pygame进行数据显示_爬虫不过如此(python的Re 、Requests、BeautifulSoup 详细篇)...

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...

  8. python从入门到项目实战李兴华网盘_贺胜军Python轻松入门到项目实战【经典完整版】...

    贺胜军Python轻松入门到项目实战课程目录 01_Python基本概述 01_计算机组成_操作系统.avi 02_计算机的进制.avi 03_数据存储单位1.avi 04_编码和解码.avi 05_ ...

  9. python爬虫requests-Python爬虫---requests库快速上手

    一.requests库简介 requests是Python的一个HTTP相关的库 requests安装: pip install requests 二.GET请求 import requests #首 ...

  10. Python 小白从零开始 PyQt5 项目实战(8)汇总篇(完整例程)

    本系列面向 Python 小白,从零开始实战解说应用 QtDesigner 进行 PyQt5 的项目实战.不跳过一个细节,不漏掉一行代码,不省略一个例图. 本系列从软件安装.环境配置开始,介绍了基本应 ...

最新文章

  1. 百度黄埔学院计划第四期来了!
  2. 机器学习里如何确定K-Means算法的K值?
  3. python嵌套列表元素和_Python嵌套列表内部比较和编辑
  4. cocos2d JS 中的数组拼接与排序
  5. 修改linevent的4096限制----更多evbuffer操作函数
  6. Hello, Dart!
  7. PACPerformance
  8. 三星java游戏下载_轻松游戏 三星Z500安装java游戏详细教程
  9. 一步步教你批量压缩打包文件夹
  10. 仿生眼部植入物使英国盲人患者能够检测视觉信号
  11. 【翻译】配置RSVP-signaled LSP
  12. 戴尔(Dell)笔记本电脑开机后插上耳机没反应怎么办
  13. 移除map中的键值对
  14. 研究生哪些行为可以在导师那超加分?
  15. eclipse突然打不开,双击没反应
  16. kali linux u盘 live,Kali Linux Live U盘安装过程
  17. 2022柏林葡萄酒大奖赛 | 瑞格尔侯爵佳酿斩获两枚金奖
  18. 通过自定义android键盘实现车牌号输入法
  19. Echarts的init方法
  20. 如何撰写《软件需求规格说明书》

热门文章

  1. python开三次方_用python计算三次方根
  2. 配置java comp路径_java:comp/env/jdbc/ 的两种配置方法
  3. SQL SERVER之填充因子
  4. linux系统中的临时文件
  5. 求助:如何实现EA自动判断趋势,寻找高低点,并获取高低点K线价格数据,然后根据价格画出支撑阻力区域.
  6. 用html与js实现简单日历,纯JS实现简单的日历
  7. ffmpeg 为取经而来_孙悟空很早之前就死了,取经的其实是六耳猕猴,这说法是真的吗?...
  8. 如何看待2022年秋招后开端岗一片红海?
  9. 紫罗兰永恒花园rust简谱_Sincerely钢琴谱_TRUE_紫罗兰永恒花园OP
  10. 图计算论文笔记--SPARC: Self-Paced Network Representation for Few-Shot Rare Category Characterization