使用python抓取酷我网站MV的名称,图片,视频链接

requests请求网站
lxml.etree抓取数据
urllib.request保存图片

运行如下:

将抓取到的图片保存在文件夹内,使用urllib.requests中的函数可以直接将图片下载到本地。

具体代码如下:

# _*_ coding:utf _*_
# 邮箱:3195841740@qq.com
# 人员:21292
# 日期:2020/3/10 23:00
# 工具:PyCharmimport requests
from lxml import etree
from urllib import request
import osheaders = {'Host': 'www.kugou.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Accept-Encoding': 'gzip, deflate, br',
'Connection': 'keep-alive',
'Cookie': 'kg_mid=a5ae4275d38393f9fb6f5c031da0a51e; ACK_SERVER_10015=%7B%22list%22%3A%5B%5B%22bjlogin-user.kugou.com%22%5D%5D%7D; kg_dfid=0P4ztr37JKMB0ag23v2z3qO6; kg_dfid_collect=d41d8cd98f00b204e9800998ecf8427e; PHPSESSID=2k3tbchb3a03p42kn5970dc820; kg_mid_temp=a5ae4275d38393f9fb6f5c031da0a51e; ACK_SERVER_10016=%7B%22list%22%3A%5B%5B%22bjreg-user.kugou.com%22%5D%5D%7D; ACK_SERVER_10017=%7B%22list%22%3A%5B%5B%22bjverifycode.service.kugou.com%22%5D%5D%7D',
'Upgrade-Insecure-Requests': '1',
'Pragma': 'no-cache',
'Cache-Control': 'no-cache',
'TE': 'Trailers'}
kuwo = []
def get_name_url(url):response = requests.get(url,headers = headers)text = response.content.decode('utf-8')html = etree.HTML(text)movie_names = html.xpath('//div[@class = "mvlist"]/ul/li/span/text()')movie_urls = html.xpath('//div[@class = "mvlist"]/ul/li/a/@href')movie_imgs = html.xpath('//div[@class = "mvlist"]/ul/li/a/img/@_src')for each in range(len(movie_names)):movies = {}movie_url = 'https://www.kugou.com'+ movie_urls[each]movies['网址'] = movie_urlmovie_name = movie_names[each]movies['名称'] = movie_namemovie_img = movie_imgs[each]movies['海报'] = movie_imgkuwo.append(movies)print(movie_name,':',movie_url,'图片地址:',movie_img)try:file_name = os.getcwd() + "\\酷我海报\\" + movie_name + ".png"request.urlretrieve(movie_img, file_name)except:print('我没有找到图片')def start_spider():for page in range(1,101,1):url = 'https://www.kugou.com/mvweb/html/index_9_'+str(page)+'.html'get_name_url(url)if __name__ == '__main__':os.mkdir("酷我海报")start_spider()

使用相同的方法进行电影爬虫

豆瓣电影爬虫:https://blog.csdn.net/DHKSHFJ/article/details/104739831
电影天堂爬虫:https://blog.csdn.net/DHKSHFJ/article/details/104740106
CSDN论坛爬虫:https://blog.csdn.net/DHKSHFJ/article/details/104785147

python抓取酷我MV相关推荐

  1. python代码案例详解-我用Python抓取了7000 多本电子书案例详解

    安装 安装很简单,只要执行: pip install requests-html 就可以了. 分析页面结构 通过浏览器审查元素可以发现这个电子书网站是用 WordPress 搭建的,首页列表元素很简单 ...

  2. python抓取头条文章

    python抓取头条美文并存储到mongodb # Author:song from multiprocessing import Pool from urllib.parse import urle ...

  3. 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...

    微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...

  4. python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

  5. blob的真实地址怎么获得_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  6. python 抓取的网页默认是bytes的,要转码

    python 抓取的网页默认是bytes的,要转码. 查看网页源码可以看到,我本次抓取的网页的编码方式是utf-8的. req = urllib.request.Request(url=myurl,h ...

  7. python 抓取网页链接_从Python中的网页抓取链接

    python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...

  8. python抓取网站乱码_如何使用Python抓取网站

    python抓取网站乱码 by Devanshu Jain 由Devanshu Jain It is that time of the year when the air is filled with ...

  9. python抓取gb2312/gbk编码网页乱码问题

    做了个网络爬虫抓取网页,但如果网页是gbk/gb2312编码,则会出现乱码问题,如下: 取得文字后,直接打印,输出结果str如下:¹óÖÝÈËÊ¿¼ÊÔÐÅÏ¢Íø_¹óÖÝÈËÊ¿¼ÊÔÍø_¹ ...

最新文章

  1. 【机器学习】如何简单形象又有趣地讲解神经网络是什么?
  2. 都在关心AI的应用,这些技术难点怎么很少提?
  3. 牛客 - 牛牛的最大兴趣组(思维+数论)
  4. vue中实现美团双级联动菜单
  5. python写接口测试代码_python写运单接口测试(增改查)完整代码
  6. ruby中正则表达式最小匹配与最大匹配
  7. java rsa padding_rsa加密--选择padding模式需要注意的问题。。。
  8. 阿里云成为云原生计算基金会金牌会员
  9. JSON 在线格式化工具感觉挺好用的
  10. Stata连享会:分享一大堆资料
  11. D-Feet的复杂类型使用攻略(DBUS)
  12. 怀孕计算机在线,【孕期天数计算器在线计算_孕期天数计算器在线计算专题】- 天鹅到家...
  13. 用几何画板怎么作函数图像
  14. 计算机常见故障 英语词汇,计算机常用英语词汇大全剖析.doc
  15. 离散数学·通路与回路、图的连通性、连通度
  16. 网吧服务器点歌系统,网吧点歌系统(网吧点歌曲软件)
  17. 数据库mysql学习第一天
  18. 你会想谈一场诗书传情,相知相敬的爱情吗?
  19. mysql求回购率_回购利率计算方法
  20. STM32+LD-1501舵机控制and MG996R舵机

热门文章

  1. DQ坐标轴锁相环(pll)
  2. JAVAWEB(三)Java与数据库(JUnit、JUL、Maven、图书管理系统)
  3. 开发者的如何优雅的使用OSX
  4. 如何把pdf转成excel
  5. Failed to initiate the GitHub login process. Please try again(1.1.25.1678)
  6. ldaptemplate 分页_长图片如何分页打印?3秒搞定|360浏览器|chrome浏览器
  7. Java并发编程-Volatile和Syncronized关键字
  8. Axure RP Extension for Chrome的安装
  9. Docker中ubuntu镜像安装ps显示进程
  10. 部分适配尼康Z卡口 三阳推出五款大光圈镜头