python爬取慕课视频-python爬虫:爬取网站视频
新建一个py文件,代码如下:
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib,re,requests
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
url_name = [] #url name
def get():
#获取源码
hd = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
url = 'http://www.budejie.com/video/'
html = requests.get(url,headers=hd).text
url_content = re.compile(r'(
.*?)',re.S) #编译
url_contents = re.findall(url_content,html) #匹配
for i in url_contents:
#匹配视频
url_reg = r'data-mp4="(.*?)"' #视频地址
url_items = re.findall(url_reg,i)
#print url_items
if url_items: #判断视频是否存在
name_reg = re.compile(r'(.*?)',re.S)
name_items = re.findall(name_reg,i)
#print name_items[0]
for i,k in zip(name_items,url_items):
url_name.append([i,k])
print i,k
for i in url_name: #i[1]=url i[0]=name
urllib.urlretrieve(i[1],'video\%s.mp4' % (i[0].decode('utf-8')))
if __name__ == "__main__":
get()
在 py 文件下新建一个 video 文件夹,执行后结果如下:
在 video 文件夹可以看到下载好的视频
注意报错:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)
解决:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
python爬取慕课视频-python爬虫:爬取网站视频相关推荐
- python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析
先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...
- python爬虫反爬机制_浅谈爬虫及绕过网站反爬取机制之Python深度应用
我们中公优就业的老师希望能给那些面临困境的朋友们带来一点帮助!(相关阅读推荐:Python学习就看这里!) 爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具.爬虫的最基本就 ...
- python爬取学校新闻_python爬虫爬取新闻的简单实现
我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序.使用python爬虫可以将一个网站的所有内容与链接进行阅读.例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取 ...
- python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬取豆瓣短评_爬虫-爬取豆瓣短评
爬虫-爬取豆瓣短评 啥是爬虫? 按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? 可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...
- python爬取微博文本_Python爬虫爬取新浪微博内容示例【基于代理IP】
本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参考,具体如下: 用Python编写爬虫,爬取微博大V的微博内容,本文以女神的微博为例(爬新浪m站:https://m.weibo.cn ...
- python爬取率_Python实现爬虫爬取NBA数据功能示例
本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据 ...
- python爬取数据步骤_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
- python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转载)...
完整代码 实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...
- python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
最新文章
- 用数据可视化解读:为何2亿国人爱钓鱼
- 哈夫曼编码 译码java_基于Java的哈夫曼编码译码系统_报告毕业论文
- unity3d 截屏
- c++远征之继承篇——继承方式
- get请求和post请求乱码问题
- 小米集团国际总部落地深圳;国美电器创始人黄光裕出狱;TiKV 4.0 发布 | 极客头条...
- Linux 文件夹和文件大小排序
- python爬虫线上编辑_Python 爬虫入门《中》
- 乐高spike python_SPIKE Prime科创套装 篇四:乐高教育SPIKE Prime入门编程和搭建活动教学...
- c#打包安装程序[VS2010]
- Qt 5 编译 glm
- 编写站点robots文件
- 目前从事工作的想法和建议
- 华为鸿蒙harmonyos-面向全场,华为鸿蒙 OS 下月发布?别做梦了……
- Sign in With Apple (苹果授权登录)
- java Excel 从第三行开始读取怎么设置
- 电子邮件营销实例---粽子
- 推荐下 刘慈欣的《科学中的故事资源》
- 如果有人告诉你卫星手机会取代基站,那么他非蠢即坏
- EventBus介绍