'''爬虫爬酷6网视频练习version:01author:jasnDate:2020-02-18
'''import requests
import refilepath = r'C:\Users\Administrator\Desktop\Day\Jasn--70--Days\爬虫\Day 01\res\酷6视频' # 视频保存地址
i = 0  # 计数器# 发送请求,获取相应内容
def get_page(index_url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}request = requests.get(index_url, headers=headers)if request.status_code == 200:return request.text# 解析视频列表页面数据,拿到视频内页url
def get_content(res):detail_urls = re.findall('class="video-image-warp".*?href="(.*?)">', res)for url in detail_urls:if url.startswith('/video'):url = r'https://www.ku6.com' + urlyield url# 解析视频内页数据,获取视频下载url
def parse_videos(detail_url):l = re.findall('type: "video/mp4", src: "(.*?)"', detail_url)if l:new_videos = l[0]yield new_videos# 下载视频保存到本地
def get_videos(url, i):try:print('下载视频链接:%s' % url)request = requests.get(url)if request.status_code == 200:print('开始下载')name = 'ku6_'+str(i)with open(r'%s/%s.mp4' % (filepath, name), 'wb')as f:f.write(request.content)print('下载 %s.mp4 成功' % name)except Exception:print('链接超时!')if __name__ == '__main__':res = get_page('https://www.ku6.com/index')videos_url = get_content(res)for video_url in videos_url:detail_url = get_page(video_url)movie_url = parse_videos(detail_url)for url in movie_url:i = i+1get_videos(url, i)

See you next time!

python爬虫入门练习——爬酷6网视频相关推荐

  1. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  2. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

  3. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  4. python爬虫入门(一)爬取钓鱼吧

    python爬虫入门(一)爬取钓鱼吧 # Date : 2022/1/1 17:11 ''' 需求:1.输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&p ...

  5. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  6. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  7. python 爬虫入门--文字爬取

    python 爬虫入门–文字爬取 对于爬虫,相信大家都不陌生,但是如何入门,大家还是停留在了解认知阶段吗?那可以试试下边的方法,一起来试一下. 首先我们试试爬取网页中的***文本信息*** 使用的是我 ...

  8. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  9. Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

最新文章

  1. 自定义控件-侧边菜单SlidingMenu(滑动菜单)
  2. 优酷复制的html代码怎么用,关于网页上增加视频功能的代码
  3. 用matlab画大数据曲线_基于MATLAB的大数据分析
  4. web打印控件Lodop轻松输出清晰的图表和条码
  5. python shell的交互模式和文本编辑模式
  6. JDK8新特性(二)之接口新增的两个方法
  7. 任正非为什么向两千多年前的李冰父子学习?
  8. hp440g5拆机_HP 惠普 ProBook 440 G5 评测 | ZMMOO
  9. 注意!JWT不是万能的,入坑需谨慎!
  10. Mac上QQ音乐无损保存音频方法
  11. Flash网站的优缺点
  12. 航芯技术分享 | BMS专题之BMS基础功能模块概述
  13. 厦门大学353卫生综合考研参考书目
  14. android 禁止媒体扫描,Android通过.nomedia文件禁止多媒体库扫描指定文件夹下的多媒体文件...
  15. 亚甲基蓝在胃肠道恶性肿瘤淋巴结检获中应用价值的Meta分析
  16. mysql 平方函数_mysql函数
  17. python数据分析(分析文本数据和社交媒体)
  18. ios应用程序加载分析(二)
  19. 学习自旋电子学的笔记01:微磁模拟软件OOMMF的教程(中文版)17-17.3章
  20. u盘启动识别不到服务器硬盘,u盘启动读不了硬盘,教您U盘装系统找不到硬盘解决方法...

热门文章

  1. python kwant计算简单方格体系透射率
  2. 鼠年春节,用 GPT-2 自动写对联和对对联
  3. Stochastic average gradient(SAG) 算法
  4. Python-OpenCV图像处理教程
  5. stata F值缺失_Stata:刀切法-去一法-Jackknife 简介
  6. 删除右键菜单-美图看看美图秀秀的选项
  7. 跑路的互联网金融公司那么多 众筹光伏电站这件事靠谱吗?
  8. 业余草微信公众号Markdown编辑器, 适合代码排版
  9. 好书推荐-- C大学教程,国外计算机科学教材系列
  10. golang 采集图片