使用XML抓取表格数据

install.packages("XML")

trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.4/XML_3.98-1.19.zip'
Content type 'application/zip' length 4324690 bytes (4.1 MB)
downloaded 4.1 MB
package ‘XML’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in
      C:\Users\L2M201N003\AppData\Local\Temp\Rtmpi0lYxz\downloaded_packages
 library(XML)
Warning message:
程辑包‘XML’是用R版本3.4.4 来建造的 
 url <- 'http://www.stat-nba.com/team/GSW.html'
 dt1 <- readHTMLTable(url,header = T)
 names(dt1[[1]]) <- rvest::repair_encoding(names(dt1[[1]]))
head(dt1[[1]])
1      斯蒂芬-库里   62   62 34.3 46.9%  9.3 19.9 43.1%  5.1 11.9 91.2%  4.0  4.4  5.4  0.7  4.7
2      凯文-杜兰特   71   71 35.2 51.6%  9.5 18.4 35.1%  1.8  5.1 88.5%  6.1  6.8  6.5  0.5  6.1
3      克莱-汤普森   71   71 34.4 46.9%  8.6 18.4 40.1%  3.1  7.8 81.8%  1.8  2.2  4.0  0.5  3.5
4  德马库斯-考辛斯   24   24 26.0 48.4%  5.8 12.0 25.7%  0.8  2.9 76.1%  3.6  4.7  8.0  1.4  6.6
5    德雷蒙德-格林   59   59 31.4 43.5%  2.7  6.3 27.4%  0.7  2.5 67.9%  1.0  1.4  7.3  0.9  6.4
6  约纳斯-杰雷布科   66    6 16.9 46.3%  2.2  4.8 36.3%  0.9  2.5 81.3%  0.9  1.1  4.1  1.0  3.1
  助攻 抢断 盖帽 失误 犯规 得分
1  5.3  1.3  0.4  2.9  2.5 27.8
2  5.7  0.8  1.1  3.0  2.0 26.8
3  2.4  1.1  0.6  1.5  2.1 22.1
4  3.7  1.3  1.5  2.4  3.7 15.9
5  6.9  1.4  1.0  2.6  3.2  7.1
6  1.3  0.3  0.2  0.6  1.8  6.3
#练习 爬取达拉斯独行侠队数据
> url="http://www.stat-nba.com/team/DAL.html"
> dt2 <- readHTMLTable(url,header = T)
> names(dt2[[1]]) <- rvest::repair_encoding(names(dt2[[1]]))
Best guess: UTF-8 (100% confident)
> head(dt2[[1]])
              球员 出场 首发 时间  投篮 命中 出手  三分 命中 出手  罚球 命中 出手 篮板 前场 后场
1      卢卡-东契奇   70   70 32.3 42.5%  7.0 16.4 32.7%  2.3  7.2 70.9%  4.8  6.8  7.6  1.1  6.5
2    哈里森-巴恩斯   49   49 32.2 40.4%  5.9 14.6 38.9%  2.5  6.3 83.3%  3.4  4.0  4.2  0.7  3.5
3  蒂姆-哈达威二世   19   17 29.3 40.4%  5.7 14.1 32.1%  2.4  7.4 76.7%  1.7  2.3  3.2  0.4  2.8
4    韦斯利-马修斯   44   44 29.8 41.4%  4.4 10.7 38.0%  2.3  6.0 79.1%  2.0  2.5  2.3  0.5  1.9
5  小丹尼斯-史密斯   32   32 28.4 44.0%  4.9 11.2 34.4%  1.3  3.9 69.5%  1.8  2.6  3.0  0.6  2.5
6    德安德鲁-乔丹   50   50 31.1 64.4%  4.2  6.5        0.0  0.0 68.2%  2.7  4.0 13.7  3.2 10.5
  助攻 抢断 盖帽 失误 犯规 得分
1  5.9  1.1  0.3  3.4  1.9 21.1
2  1.3  0.7  0.2  1.4  1.6 17.7
3  1.9  0.6  0.1  1.3  1.8 15.5
4  2.3  0.8  0.3  1.3  2.3 13.1
5  4.3  1.3  0.3  3.1  2.6 12.9
6  2.0  0.7  1.1  2.2  2.5 11.0

R语言爬虫系列(1)XML抓取表格数据相关推荐

  1. 手把手教你使用R语言爬虫在气象网站抓取气象数据并分析绘制热力日历图(1)

    我们做临床研究常见的烦恼为没有好的数据,目前气象网站上有很多关于气象因素和空气质量数据,但是没有系统的整理和格式等问题,我们使用起来非常不方便,而且很费时间,我们可以使用R语言爬虫工具对网站上的数据进 ...

  2. iOS开发——网络使用技术OC篇网络爬虫-使用正则表达式抓取网络数据

    网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...

  3. RSelenium/Rwebdriver/rdom包抓取表格数据

    安装RSelenium/Rwebdriver/rdom包 install.packages("RSelenium") # 直接从CRAN下载RSelenium包 install.p ...

  4. 最简单的爬虫,用pandas爬取表格数据

    最简单的爬虫:用Pandas爬取表格数据 大家好,我是小五

  5. 网络爬虫系列之网页抓取

    ​ (你的世界是个什么样的世界?你说,我们倾听!) ----------------- 网页抓取 我们在抓取网页时需要安装requests包,具体安装过程如下: pip install request ...

  6. 手机应用url抓取_Python爬虫入门,快速抓取大规模数据(第六部分)

    在前面的章节中,我们以尽量少的代码演示了爬虫的基本原理.如果只是需要抓取一些简单的数据,那么我们修改一下前面的代码就可以完成任务了.但是当我们需要完成一些复杂的大型抓取任务时,我们就需要考虑更多东西, ...

  7. vs2015编写python爬虫_使用Python抓取网页数据(一)

    iOS python 爬虫 LoL 学习iOS开发有一段时间了,最近想做一个自己的App玩玩,自己比较喜欢玩LOL,所以想试着做一个LOL资料库的App,那么问题来了,这么多英雄,物品等数据怎么获取呢 ...

  8. python抓取表格数据_Python如何实现从PDF文件中爬取表格数据(代码示例)

    本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文将展示一个稍微不一样点的爬虫. 以往我们的 ...

  9. R语言:使用rvest包抓取新浪财经A股交易数据

    R语言网络爬虫工具中比较常用的包有RCurl.XML.rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法. 首先介绍一下我们要抓取的对象,我们以"中信证券( ...

最新文章

  1. Spring源码分析【8】-分布式环境SpringSecurity保持用户会话
  2. 图解Oracle RMAN备份入门
  3. Linux curl命令参数详解--转载
  4. 前端学习(731):函数的使用
  5. linux内核打印前有buildroot,buildroot-linux内核
  6. 神经网络优化中的病态问题
  7. Pod install 慢, pod update 慢, Cocoapods setup下载缓慢,手动解决方案
  8. matlab三维热传导计算,matlab练习程序(差分法解二维热传导方程)
  9. Unity3D--用2D图片实现3D轮转图
  10. c语言stone题目,The bridge is made stone.A.byB.fromC.ofD.up 题目和参考答案——青夏教育精英家教网——...
  11. 2021-08-02彻底解决Typora+PicGo-Core+SMMS图床的问题
  12. 那些让面试官直呼内行的Java知识点(一)
  13. 看了这一篇你还不理解什么是闭包——我直播吃翔!
  14. folder.htt等文件的问题
  15. 常用软件的历史版本资源下载汇总(持续更新)
  16. 爱心存储:从入门到精通
  17. 软件项目计划管理:三级计划管理体系
  18. 深度学习在人脸识别中的应用 —— 优图祖母模型的「进化」
  19. 通过yum获取rpm离线安装包
  20. pwn学习——ret2libc1

热门文章

  1. Maven学习总结(35)——Maven项目错误 JAX-RS (REST Web Services) 2.0 can not be installed问题...
  2. mysql ha_err_key_not_found_mysql主从同步报错:Error_code: 1032; handler error HA_ERR_KEY_NOT_FOUND...
  3. eplan步进电机_干货丨三张接线图搞定步进电机接线问题!
  4. 播客“日谈公园”完成数百万天使轮融资,来自头头是道基金
  5. css3 object-fit详解
  6. Linux常用命令4(grep、df、du、awk、su、ll)
  7. 《深入解析sas:数据处理、分析优化与商业应用》一3.5 SAS常用函数
  8. 国内三大PT(Private Tracker)站分析
  9. 对于asp.net服务器推送和客户端拉拽技术知识讲述
  10. javascript中对象的运用