R语言爬虫系列(1)XML抓取表格数据
使用XML抓取表格数据
install.packages("XML")
trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.4/XML_3.98-1.19.zip'
Content type 'application/zip' length 4324690 bytes (4.1 MB)
downloaded 4.1 MB
package ‘XML’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in
C:\Users\L2M201N003\AppData\Local\Temp\Rtmpi0lYxz\downloaded_packages
library(XML)
Warning message:
程辑包‘XML’是用R版本3.4.4 来建造的
url <- 'http://www.stat-nba.com/team/GSW.html'
dt1 <- readHTMLTable(url,header = T)
names(dt1[[1]]) <- rvest::repair_encoding(names(dt1[[1]]))
head(dt1[[1]])
1 斯蒂芬-库里 62 62 34.3 46.9% 9.3 19.9 43.1% 5.1 11.9 91.2% 4.0 4.4 5.4 0.7 4.7
2 凯文-杜兰特 71 71 35.2 51.6% 9.5 18.4 35.1% 1.8 5.1 88.5% 6.1 6.8 6.5 0.5 6.1
3 克莱-汤普森 71 71 34.4 46.9% 8.6 18.4 40.1% 3.1 7.8 81.8% 1.8 2.2 4.0 0.5 3.5
4 德马库斯-考辛斯 24 24 26.0 48.4% 5.8 12.0 25.7% 0.8 2.9 76.1% 3.6 4.7 8.0 1.4 6.6
5 德雷蒙德-格林 59 59 31.4 43.5% 2.7 6.3 27.4% 0.7 2.5 67.9% 1.0 1.4 7.3 0.9 6.4
6 约纳斯-杰雷布科 66 6 16.9 46.3% 2.2 4.8 36.3% 0.9 2.5 81.3% 0.9 1.1 4.1 1.0 3.1
助攻 抢断 盖帽 失误 犯规 得分
1 5.3 1.3 0.4 2.9 2.5 27.8
2 5.7 0.8 1.1 3.0 2.0 26.8
3 2.4 1.1 0.6 1.5 2.1 22.1
4 3.7 1.3 1.5 2.4 3.7 15.9
5 6.9 1.4 1.0 2.6 3.2 7.1
6 1.3 0.3 0.2 0.6 1.8 6.3
#练习 爬取达拉斯独行侠队数据
> url="http://www.stat-nba.com/team/DAL.html"
> dt2 <- readHTMLTable(url,header = T)
> names(dt2[[1]]) <- rvest::repair_encoding(names(dt2[[1]]))
Best guess: UTF-8 (100% confident)
> head(dt2[[1]])
球员 出场 首发 时间 投篮 命中 出手 三分 命中 出手 罚球 命中 出手 篮板 前场 后场
1 卢卡-东契奇 70 70 32.3 42.5% 7.0 16.4 32.7% 2.3 7.2 70.9% 4.8 6.8 7.6 1.1 6.5
2 哈里森-巴恩斯 49 49 32.2 40.4% 5.9 14.6 38.9% 2.5 6.3 83.3% 3.4 4.0 4.2 0.7 3.5
3 蒂姆-哈达威二世 19 17 29.3 40.4% 5.7 14.1 32.1% 2.4 7.4 76.7% 1.7 2.3 3.2 0.4 2.8
4 韦斯利-马修斯 44 44 29.8 41.4% 4.4 10.7 38.0% 2.3 6.0 79.1% 2.0 2.5 2.3 0.5 1.9
5 小丹尼斯-史密斯 32 32 28.4 44.0% 4.9 11.2 34.4% 1.3 3.9 69.5% 1.8 2.6 3.0 0.6 2.5
6 德安德鲁-乔丹 50 50 31.1 64.4% 4.2 6.5 0.0 0.0 68.2% 2.7 4.0 13.7 3.2 10.5
助攻 抢断 盖帽 失误 犯规 得分
1 5.9 1.1 0.3 3.4 1.9 21.1
2 1.3 0.7 0.2 1.4 1.6 17.7
3 1.9 0.6 0.1 1.3 1.8 15.5
4 2.3 0.8 0.3 1.3 2.3 13.1
5 4.3 1.3 0.3 3.1 2.6 12.9
6 2.0 0.7 1.1 2.2 2.5 11.0
R语言爬虫系列(1)XML抓取表格数据相关推荐
- 手把手教你使用R语言爬虫在气象网站抓取气象数据并分析绘制热力日历图(1)
我们做临床研究常见的烦恼为没有好的数据,目前气象网站上有很多关于气象因素和空气质量数据,但是没有系统的整理和格式等问题,我们使用起来非常不方便,而且很费时间,我们可以使用R语言爬虫工具对网站上的数据进 ...
- iOS开发——网络使用技术OC篇网络爬虫-使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
- RSelenium/Rwebdriver/rdom包抓取表格数据
安装RSelenium/Rwebdriver/rdom包 install.packages("RSelenium") # 直接从CRAN下载RSelenium包 install.p ...
- 最简单的爬虫,用pandas爬取表格数据
最简单的爬虫:用Pandas爬取表格数据 大家好,我是小五
- 网络爬虫系列之网页抓取
(你的世界是个什么样的世界?你说,我们倾听!) ----------------- 网页抓取 我们在抓取网页时需要安装requests包,具体安装过程如下: pip install request ...
- 手机应用url抓取_Python爬虫入门,快速抓取大规模数据(第六部分)
在前面的章节中,我们以尽量少的代码演示了爬虫的基本原理.如果只是需要抓取一些简单的数据,那么我们修改一下前面的代码就可以完成任务了.但是当我们需要完成一些复杂的大型抓取任务时,我们就需要考虑更多东西, ...
- vs2015编写python爬虫_使用Python抓取网页数据(一)
iOS python 爬虫 LoL 学习iOS开发有一段时间了,最近想做一个自己的App玩玩,自己比较喜欢玩LOL,所以想试着做一个LOL资料库的App,那么问题来了,这么多英雄,物品等数据怎么获取呢 ...
- python抓取表格数据_Python如何实现从PDF文件中爬取表格数据(代码示例)
本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文将展示一个稍微不一样点的爬虫. 以往我们的 ...
- R语言:使用rvest包抓取新浪财经A股交易数据
R语言网络爬虫工具中比较常用的包有RCurl.XML.rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法. 首先介绍一下我们要抓取的对象,我们以"中信证券( ...
最新文章
- Spring源码分析【8】-分布式环境SpringSecurity保持用户会话
- 图解Oracle RMAN备份入门
- Linux curl命令参数详解--转载
- 前端学习(731):函数的使用
- linux内核打印前有buildroot,buildroot-linux内核
- 神经网络优化中的病态问题
- Pod install 慢, pod update 慢, Cocoapods setup下载缓慢,手动解决方案
- matlab三维热传导计算,matlab练习程序(差分法解二维热传导方程)
- Unity3D--用2D图片实现3D轮转图
- c语言stone题目,The bridge is made stone.A.byB.fromC.ofD.up 题目和参考答案——青夏教育精英家教网——...
- 2021-08-02彻底解决Typora+PicGo-Core+SMMS图床的问题
- 那些让面试官直呼内行的Java知识点(一)
- 看了这一篇你还不理解什么是闭包——我直播吃翔!
- folder.htt等文件的问题
- 常用软件的历史版本资源下载汇总(持续更新)
- 爱心存储:从入门到精通
- 软件项目计划管理:三级计划管理体系
- 深度学习在人脸识别中的应用 —— 优图祖母模型的「进化」
- 通过yum获取rpm离线安装包
- pwn学习——ret2libc1
热门文章
- Maven学习总结(35)——Maven项目错误 JAX-RS (REST Web Services) 2.0 can not be installed问题...
- mysql ha_err_key_not_found_mysql主从同步报错:Error_code: 1032; handler error HA_ERR_KEY_NOT_FOUND...
- eplan步进电机_干货丨三张接线图搞定步进电机接线问题!
- 播客“日谈公园”完成数百万天使轮融资,来自头头是道基金
- css3 object-fit详解
- Linux常用命令4(grep、df、du、awk、su、ll)
- 《深入解析sas:数据处理、分析优化与商业应用》一3.5 SAS常用函数
- 国内三大PT(Private Tracker)站分析
- 对于asp.net服务器推送和客户端拉拽技术知识讲述
- javascript中对象的运用