作者简介Introduction

傅兴:R语言中文社区专栏作者

个人公众号:Rapp

在学习英语的过程中,相信很多人都有和我一样的感受:虽然花了很多时间和金钱,但是总觉得收效甚微,ROI(Return on Investment)很低。

我觉得学好英语和学好R语言有很多共同之处:
1. 要找到适合自己当前水平的学习资料(过于简单是浪费时间,难度过大容易丧失信心)
2. 广泛涉猎各种领域,用英语/R来解决工作和生活中的实际问题
3. 坚持不懈地努力

根据以上几点,我在挑选英语学习资料的时候,设置了3个标准:
1. 难度适中(客观地看待自己的英语水平)
2. 题材广泛,趣味性强(开阔眼界,积累与老外聊(ba)天(gua)时的谈资)
3. 短小精炼(可以利用5-10分钟的时间碎片来学习,容易坚持下去)

最终,我选择的是来自 BBC Learning English 的 6-Minite English
http://www.bbc.co.uk/learningenglish/english/features/6-minute-english

这个栏目每周都有更新,而且每一期的文档(pdf)和语音(mp3)文件都可以免费下载。我们今天的目标就是用R来自动获取从2014年到2017年的所有pdf和mp3文件。

在动手写爬虫之前,我们需要浏览页面,确定需要获取的内容,并制订爬取策略。

6-Minute English的主页上有2014到2017年每一期(episode)的链接:

点击图片下方绿色的标题可以进入这一期的页面:

我们需要获取的目标链接就是页面右上方的 Download PDF/Audio

我们的爬取策略如下:
1. 下载并解析6-Minute English的主页,找出所有episode的链接和时间信息
2. 根据用户指定的起止日期,筛选出部分episode
3. 依次下载并解析每个episode的页面,找到pdf和mp3文件的链接
4. 下载pdf和mp3文件(首先判断pdf和mp3文件是否已经下载,避免重复下载)

具体代码和注释如下:

程序的输出:

提醒大家注意的是,在比较日期大小的时候一定要从字符型(character)转化成日期型(Date)。

今天的R爬虫就介绍到这里,大家学完了R爬虫,可别忘记学英语哦。如果不付诸行动,再好的学习资料也无济于事!

往期回顾

【R图秀-1】12306列车数据可视化

【R图秀-2】社交网络数据可视化(一)

【R图秀-3】——“全球和平指数”可视化

【R图秀-4】情人节快乐!

【R图秀-5】将薪比薪

【R图秀-6】地震来了

【R图秀-7】中美俄军事实力对比

大家都在看

2017年R语言发展报告(国内)

精心整理 | R语言中文社区历史文章合集(作者篇)

精心整理 | R语言中文社区历史文章整理(类型篇)

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战  
回复 Python       1小时破冰入门

回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

【R爬虫-1】BBC Learning English相关推荐

  1. Catch Up 朋友小聚 - 地道英语 - BBC Learning English BBC英语教学 - 爱思英语网

    Catch Up 朋友小聚 - 地道英语 - BBC Learning English BBC英语教学 - 爱思英语网 Catch Up 朋友小聚 - 地道英语 - BBC Learning Engl ...

  2. how to learning english

    how to learning english 1.我们的大脑 ◎锻炼可以修复大脑,但错过了黄金时期,需要更长时间来修复. ◎右脑-创新,唱反调 左脑-守旧顽固 2.睡眠 ◎睡眠不足上考场会导致思维混 ...

  3. 【入门-R爬虫抓取数据】文本挖掘之数据爬虫

    今天主要介绍一下,文本挖掘的数据获取方式,上一篇很多人在问数据如何获取,今天给大家介绍下数据获取的方式,主要利用爬虫抓取数据.基于,之前对python爬虫没接触过,尝试过用R爬虫,今天就来介绍下,如何 ...

  4. 同花顺股票分数可视化 | R爬虫可视化第3季

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 本文作者:天善智能社区专家徐麟 天善智能社区地址:https://www.hel ...

  5. 77 R实现及相关文本挖掘 English participle

    R实现及相关文本挖掘 English participle 1 案例背景 2 准备数据 3 建立训练数据和测试数据 4 生成词云图表 5 选取频繁词为特征 6 贝叶斯建模 1 案例背景 目前朴素贝叶斯 ...

  6. R爬虫可视化第四季-近三十年6000部国产电视剧告诉了我们些什么

    前言: 距离上次发公众号有将近一个月的时间,在此十分感谢大家对于本公众号的大(mei)力(you)支(qu)持(guan).在这里要感谢鹅厂给了本公众号原创声明功能邀请,从本期开始大家可以直接在文章下 ...

  7. 近三十年6000部国产电视剧告诉了我们些什么 | R爬虫可视化第四季

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 本文作者:天善智能社区专家徐麟 天善智能社区地址:https://www.hel ...

  8. learning English

    这些网站是从新东方尹圆圆老师的博客上找来的,希望大家好好利用: 1. http://www.texun.cn/addrso/index.htm 特训网:English Learning Website ...

  9. r语言 index_基于R语言绘制BBC风格图表

    作者:吴健 中国科学院大学 R语言.统计学爱好者,尤其擅长R语言和Arcgis在生态领域的应用分享 个人公众号:统计与编程语言 近日在google上浏览一篇文章<BBC Visual and D ...

  10. 链家租房市场分析(R爬虫、数据可视化)

    链家租房市场数据分析 文章目录 链家租房市场数据分析 前言 待解决的问题 链家网数据爬取 租房数据整理 租金.面积.户型的数据可视化 结论 前言 近年来,持续高昂的房价将很多想要安身立命的人挡在了买房 ...

最新文章

  1. 如何给iOS应用添加原生的二维码扫描功能
  2. c 实现 php 数组,C语言实现数组功能
  3. es6 语法 (Promise)
  4. 记TX实习生笔试归来
  5. OSPF-LSA数据包头
  6. 剑指offer七:斐波那契数列
  7. LeetCode题组:第322题-零钱兑换
  8. 画瀑布图_常见的招财风水画之含义
  9. [记录] --- linux上项目
  10. django 1.8 官方文档翻译:13-1-3 密码管理
  11. linux crontab 详解
  12. 常用的正则表达式大全(数字、字符、固定格式)
  13. 企业教育中的人工智能市场现状研究分析预测报告-
  14. java动态添加成员变量,java如何访问成员变量
  15. python数据分析与挖掘实战(2)帕累托法则菜品盈利分析与相关性分析
  16. 网页显示不全的原因css,css 页面显示不全怎么办
  17. 了解第四次工业革命带来的“机遇与挑战”
  18. TCP FIN_WAIT1状态的实验和验收
  19. Allegro PCB 图纸大小及坐标原点位置
  20. 理解Segment Routing和SDWAN

热门文章

  1. 美团一面:如何优化慢SQL?
  2. 工地小哥逆袭转行程序员的真实故事
  3. 这个春天有点冷,2019年互联网公司裁员清单大全(更新)
  4. 这就是为什么IT人没有女朋友的原因!!
  5. 推荐一款优雅的 Android 学习 App
  6. element-ui组件dialog遇到form
  7. 《算法图解》第四章课后作业
  8. 电子书下载:MySQL5权威指南(第3版)
  9. 【转】Postman 使用方法详解
  10. linux安装mvn及nexus远程仓库