MOOC 课程存在有效期,设定的学期结束即无法观看。

Course Crawler 这个爬虫工具的出现,则提供了极大的便利。

准备

第一步:安装 Python 3 环境

进入 Python 3 官网(https://www.python.org/downloads/),选择合适的版本下载安装即可。

第二步:通过 pip 安装程序要用到的3个运行库: requestsBeautifulSoup4lxml

打开 Python 的安装目录,进入到 Scripts 目录(我这里是 C:\Users\Kiwiape\AppData\Local\Programs\Python\Python37-32\Scripts),按住 Shift 同时鼠标右键单击资源管理器的空白区域,选择“在此处打开命令窗口”(最新版本 Win10 已使用 PowerShell 替换命令行)。

在打开的命令行窗口中输入 pip install requestsBeautifulSoup4lxml 并回车。如下图,运行结束且无错误提示即安装成功。

第三步:从 Github 下载最新的 Course Crawler 程序包,并解压。

到此为止,运行环境和软件均已准备完成。

使用

解析课程资源

如下图所示,打开你需要下载的课程详情页(并非课程学习页),复制课程网址。

在解压出来的程序包文件夹内,用同样的方式打开命令行,并输入 python mooc.py<url> 即可下载课程到当前文件夹,其中这里的 <url> 就是上面我们复制的课程网址。

回车后,程序随即开始解析课程资源。

等待解析完成后,我们可以在程序目录下发现以刚才课程命名的文件夹。文件夹内通常会有 Files, PDFs, Texts 三个子文件夹,和 Outline.txt, Rename.bat, Videos.txt 三个文件(具体视课程内容而定)。

其中 Files, PDFs, Texts 分别为老师上传的附件、课件、富文本,爬虫已经替你下载好了。而 Outline.txt 和 Rename.bat 分别是课程资源的结构和重命名程序,这两个我们不要动,之后会用到。

下载和整理课程视频

打开 Videos.txt 可以发现里面都是视频的下载地址,我们需要将它们复制到下载工具中进行下载。我这里所使用的的是 IDM 这款多线程下载器,你也可以使用迅雷等其他工具。

看到乱码的视频文件名,我想你应该能够猜到刚才两个文件的作用了吧!没错,等到视频都下载完成后,我们把所有乱码的 mp4 文件移动到刚才的课程目录,然后双击打开 Rename.bat ,稍等命令行闪过几秒,就可以看到,原来乱码的视频都变成了标准的小课程名。

Python 爬取中国大学 MOOC 课程相关推荐

  1. Python爬取中国大学MOOC课程信息

    问题:获取中国大学MOOC平台的课程信息,包括开课学校.课程类别(标签).课程名称.课程评分.评价人数和已参加课程人数. 思路: 1.进入中国大学MOOC首页,点击"学校",进入学 ...

  2. python大学课程-Python 爬取中国大学 MOOC 课程

    中国大学 MOOC 是网易旗下一款慕课视频教育网站.实话说,这是网易几款教育类产品中,我最喜欢的一个.自己也使用了一年多,观看视频都是需要联网的,但部分 MOOC 课程存在有效期,设定的学期结束即无法 ...

  3. 使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接

    目的:使用selenium + chrome爬取中国大学Mooc网计算机学科的所有的课程链接列表 思路:找到每个分页的节点属性为class="m-course-list" 的div ...

  4. python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名

    国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...

  5. 批量爬取中国大学MOOC网站的媒体资源

    质量声明:原创文章,内容质量问题请评论吐槽.如对您产生干扰,可私信删除. 主要参考:https://github.com/Dayunxi/getMOOCmedia 三点说明: 感谢 中国大学MOOC ...

  6. python爬取中国大学(高校)基本信息

    Python爬取中国大学(高校)基本信息 python爬取中国大学(高校)基本信息 简单的一个小爬虫,获取中国高校基本信息 一.输出到excel表格结果 二.代码 // An highlighted ...

  7. 【史上最骚爬虫|疯狂爬取中国大学mooc】太燃了,爬虫vs慕课反爬世纪大战|No.1

    爬取中国大学全网mooc:NO.1 作者:夜斗小神社 IDEA工具:PyCharm 抓包工具:Fiddler 时间:2021/5/2 小夜斗与爬虫已经很久没交流过辽,想着能重新把爬虫捡起来,这次就试一 ...

  8. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

  9. 史上最细,Charles抓包工具的基本配置、查找接口的方法、爬取中国大学Mooc整门课程

    今天给大家分享Charles这个软件,讲解基本配置和接口查询操作,最后用一个中国大学mooc的示例来展示Charles在Windows端的用法.内容丰富,技术要点详细,站里面搜索中国大学MOOC爬虫的 ...

最新文章

  1. java和python哪个好学-Java VS Python 应该先学哪个?
  2. Python语言学习之文件夹那些事:python和文件夹的使用方法之详细攻略
  3. 接地脚是什么意思_史上最全的接地系统详解,值得收藏
  4. UVa 1636 决斗
  5. ASP.NET Core 介绍
  6. Gcc 完全参考手册,参数说明,操作指南-Gcc Complete referene
  7. python2添加pip,无法在python2.6中使用PIP更新/添加任何包
  8. 斐波那契数列的量化分析
  9. [html]window.open 使用示例
  10. 拓端tecdat|R语言主题模型LDA评估公司面临的风险领域与可视化
  11. ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or
  12. 记Python的一些用法
  13. Blender mmd 导出FBX模型 和 烘焙动画
  14. OSChina 周六乱弹 ——我的闺蜜是总统
  15. 百度统计接口调用——登录接口
  16. 最受欢迎的海外服务器,优缺点都给你整理好了
  17. Mansory之一 :mas_equalTo和equalTo区别与使用
  18. 格子殁——个人简介【只是简介】
  19. firstElementChild与firstChild区别
  20. 微软裁员人工智能伦理和社会团队

热门文章

  1. 【热文】 为什么程序员痴迷于猫?
  2. 搜狗输入法输入上下标
  3. 三星获欧洲专利居业内之首 中兴首次进入前十
  4. spring 常见面试题
  5. 09、查询详细信息和删除记录
  6. 当php懈垢windows通用上传缺陷
  7. 赵运泓:12:4下周黄金行情走势分析
  8. 读书笔记--PRML(1)
  9. 攻防世界——如来十三掌 give_you_flag
  10. 无源定位入门(一)TDOA(3)CRLB