Python 爬取中国大学 MOOC 课程
MOOC 课程存在有效期,设定的学期结束即无法观看。
Course Crawler 这个爬虫工具的出现,则提供了极大的便利。
准备
第一步:安装 Python 3 环境
进入 Python 3 官网(https://www.python.org/downloads/),选择合适的版本下载安装即可。
第二步:通过 pip 安装程序要用到的3个运行库: requests
, BeautifulSoup4
, lxml
打开 Python 的安装目录,进入到 Scripts 目录(我这里是 C:\Users\Kiwiape\AppData\Local\Programs\Python\Python37-32\Scripts
),按住 Shift 同时鼠标右键单击资源管理器的空白区域,选择“在此处打开命令窗口”(最新版本 Win10 已使用 PowerShell 替换命令行)。
在打开的命令行窗口中输入 pip install requestsBeautifulSoup4lxml
并回车。如下图,运行结束且无错误提示即安装成功。
第三步:从 Github 下载最新的 Course Crawler 程序包,并解压。
到此为止,运行环境和软件均已准备完成。
使用
解析课程资源
如下图所示,打开你需要下载的课程详情页(并非课程学习页),复制课程网址。
在解压出来的程序包文件夹内,用同样的方式打开命令行,并输入 python mooc.py<url>
即可下载课程到当前文件夹,其中这里的 <url>
就是上面我们复制的课程网址。
回车后,程序随即开始解析课程资源。
等待解析完成后,我们可以在程序目录下发现以刚才课程命名的文件夹。文件夹内通常会有 Files, PDFs, Texts 三个子文件夹,和 Outline.txt, Rename.bat, Videos.txt 三个文件(具体视课程内容而定)。
其中 Files, PDFs, Texts 分别为老师上传的附件、课件、富文本,爬虫已经替你下载好了。而 Outline.txt 和 Rename.bat 分别是课程资源的结构和重命名程序,这两个我们不要动,之后会用到。
下载和整理课程视频
打开 Videos.txt 可以发现里面都是视频的下载地址,我们需要将它们复制到下载工具中进行下载。我这里所使用的的是 IDM 这款多线程下载器,你也可以使用迅雷等其他工具。
看到乱码的视频文件名,我想你应该能够猜到刚才两个文件的作用了吧!没错,等到视频都下载完成后,我们把所有乱码的 mp4 文件移动到刚才的课程目录,然后双击打开 Rename.bat ,稍等命令行闪过几秒,就可以看到,原来乱码的视频都变成了标准的小课程名。
Python 爬取中国大学 MOOC 课程相关推荐
- Python爬取中国大学MOOC课程信息
问题:获取中国大学MOOC平台的课程信息,包括开课学校.课程类别(标签).课程名称.课程评分.评价人数和已参加课程人数. 思路: 1.进入中国大学MOOC首页,点击"学校",进入学 ...
- python大学课程-Python 爬取中国大学 MOOC 课程
中国大学 MOOC 是网易旗下一款慕课视频教育网站.实话说,这是网易几款教育类产品中,我最喜欢的一个.自己也使用了一年多,观看视频都是需要联网的,但部分 MOOC 课程存在有效期,设定的学期结束即无法 ...
- 使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接
目的:使用selenium + chrome爬取中国大学Mooc网计算机学科的所有的课程链接列表 思路:找到每个分页的节点属性为class="m-course-list" 的div ...
- python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...
- 批量爬取中国大学MOOC网站的媒体资源
质量声明:原创文章,内容质量问题请评论吐槽.如对您产生干扰,可私信删除. 主要参考:https://github.com/Dayunxi/getMOOCmedia 三点说明: 感谢 中国大学MOOC ...
- python爬取中国大学(高校)基本信息
Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息 简单的一个小爬虫,获取中国高校基本信息 一.输出到excel表格结果 二.代码 // An highlighted ...
- 【史上最骚爬虫|疯狂爬取中国大学mooc】太燃了,爬虫vs慕课反爬世纪大战|No.1
爬取中国大学全网mooc:NO.1 作者:夜斗小神社 IDEA工具:PyCharm 抓包工具:Fiddler 时间:2021/5/2 小夜斗与爬虫已经很久没交流过辽,想着能重新把爬虫捡起来,这次就试一 ...
- Python爬取中国大学排名,并且保存到excel中
前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...
- 史上最细,Charles抓包工具的基本配置、查找接口的方法、爬取中国大学Mooc整门课程
今天给大家分享Charles这个软件,讲解基本配置和接口查询操作,最后用一个中国大学mooc的示例来展示Charles在Windows端的用法.内容丰富,技术要点详细,站里面搜索中国大学MOOC爬虫的 ...
最新文章
- java和python哪个好学-Java VS Python 应该先学哪个?
- Python语言学习之文件夹那些事:python和文件夹的使用方法之详细攻略
- 接地脚是什么意思_史上最全的接地系统详解,值得收藏
- UVa 1636 决斗
- ASP.NET Core 介绍
- Gcc 完全参考手册,参数说明,操作指南-Gcc Complete referene
- python2添加pip,无法在python2.6中使用PIP更新/添加任何包
- 斐波那契数列的量化分析
- [html]window.open 使用示例
- 拓端tecdat|R语言主题模型LDA评估公司面临的风险领域与可视化
- ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or
- 记Python的一些用法
- Blender mmd 导出FBX模型 和 烘焙动画
- OSChina 周六乱弹 ——我的闺蜜是总统
- 百度统计接口调用——登录接口
- 最受欢迎的海外服务器,优缺点都给你整理好了
- Mansory之一 :mas_equalTo和equalTo区别与使用
- 格子殁——个人简介【只是简介】
- firstElementChild与firstChild区别
- 微软裁员人工智能伦理和社会团队