R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。

先上此次爬虫的源代码:

library(xml2)
library(rvest)
library(stringr)
library(dplyr)
i <- 1:100
house_inf <- data.frame()#此处新建house_inf数据框很重要,如若不建立此数据框以下代码则只会爬取1页的信息
for (i in 1:100){webpage <- read_html(str_c("https://nj.lianjia.com/ershoufang/pg",i),encoding="UTF-8")#链家的编码格式为"UTF-8",如若爬取其他网站,可能有所变更house_name_html <- html_nodes(webpage,".houseInfo a")#爬取房屋名称house_name <- html_text(house_name_html)#将房屋数据转化为文本price_html <- html_nodes(webpage,".unitPrice span")price <- html_text(price_html)house_basic_html <- html_nodes(webpage,".houseInfo")house_basic <- html_text(house_basic_html)house_basic <- str_replace_all(house_basic," ","")#消除房屋基础信息中的空格total_price_html <- html_nodes(webpage,".totalPrice span")total_price <- html_text(total_price_html)total_price <- as.numeric(total_price)#将总价转化为数字house <- data.frame(house_name,price,total_price,position,house_basic)house_inf <- rbind(house_inf,house)#将每页爬取的house数据框进行合并,从而进行累积
}
write.csv(house_inf,file="nanjinershoufang.csv")

个人写爬虫代码的一个心得就是先爬取1页的信息,将每个字段的信息处理好,然后再进行推广。比如爬取房屋基础信息时,通过head(house_basic)可以发现房屋信息中有空格存在,应该进行消除:

爬取的初始信息如下:

鉴于目前我处理字段的能力还不熟练,故而转用Excel进行了进一步的数据处理,结果如下:

之后,利用Tableau软件进行了简单的可视化呈现,仪表板截图如下:

以上就是此次爬虫的始终,如有不当或改进之处,还请各位看官不吝赐教。

链接:源代码 密码:oqh4

链接:tableau文件 密码:s97k

R言rvest包爬取南京二手房信息相关推荐

  1. 别再说难了,年轻小伙教你如何爬取“新一线城市”二手房信息

    别再说难了,年轻小伙教你如何爬取"新一线城市"二手房信息 主页面信息爬取 主页面分析 主页面url获取 获取页面数据 页面数据解析及保存 详情页 url 数据 详情页信息爬取 详情 ...

  2. R语言RSelenium包爬取动态网页数据前期准备(环境配置)-连载NO.01

    生而为人,学无止境. 作为爬虫爱好者,最开始的时候多少都会遇到爬取的时候返回各种bug,抓头挠耳吧: R语言爬虫的包基础的就是rvest和RCurl,解析的就是xml包,当然你还得有html.css. ...

  3. scrapy 爬取麦田二手房信息

    用scrapy写了个爬虫,爬取麦田北京二手房信息,一共爬取了11718条,也遇到了一些问题 页数限制 比如访问北京市二手房只显示100页的数据,后面的数据访问不到,只能通过每个地区来爬取.在前端发现地 ...

  4. R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据

    接上一篇用R语言爬取中国天气网单个城市的7天实时天气预报数据,这篇文章综合一下,使用R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据,这里的步数跨度可能有点长,但思路确实是3 ...

  5. R语言:使用rvest包抓取新浪财经A股交易数据

    R语言网络爬虫工具中比较常用的包有RCurl.XML.rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法. 首先介绍一下我们要抓取的对象,我们以"中信证券( ...

  6. python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...

    前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...

  7. 【包】R语言rvest包简介

    以下翻译自:rvest包github项目主页 R语言rvest包简介 rvest包可以帮助我们从网页上抓取信息,它通常与magrittr包配合使用,便于进行常见的网络抓取任务.revest包的开发主要 ...

  8. Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)

    来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...

  9. python xpath循环_Python爬虫 爬取北京二手房数据

    点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...

最新文章

  1. 用C语言写一个选择题程序,C语言程序设计选择题:1,设char*strp4-={aa 爱问知识人...
  2. Ubuntu:成功解决ubuntu使用su切换root出现Authentication failure用户时认证失败
  3. 区块链预言机(5)预言机原理
  4. php正则去掉width=,关于php使用正则去除宽高样式的方法
  5. 中断描述符表描述符:任务门,中断门,陷阱门(调用门)
  6. (C语言)人名排序,字符串排序
  7. Android 仿美团网,大众点评购买框悬浮效果之修改版
  8. zabbix agent安装_zabbix agent的安装与配置
  9. dp HDU - 5074
  10. 2012年波兰乌克兰欧洲杯完全赛程(06.09-07.02)
  11. SQL Server 数据库增删改查
  12. 阄阄乐-IOS抓阄抽签工具
  13. GD32F4xx控制DGUS触控按键
  14. 简单的云平台基础环境的构建(一)
  15. HuTool工具生成带图片二维码
  16. 如何将英文文献完整翻译?公式都可以快速完整插入,比淘宝上的机翻要强一百倍!
  17. 美式期权二叉树matlab代码,美式期权二叉树定价,美式看涨期权二叉树可以提前执行吗...
  18. MAC 硬盘安装助手 安装mac 镜像
  19. 高德地图自定义图标的点标记Marker--初体验(二)
  20. 华为不断传出好消息,芯片研发投入几十亿

热门文章

  1. Java加密算法—对称加密(DES、AES)
  2. macOS 提示“***.app打不开”解决办法
  3. SQL Server 2005 安装
  4. 八选一多路选择器(case语句)
  5. 有一天,我们能这样相爱吗?
  6. 云安全高等教育改革示范教材
  7. STCubeMX翻译
  8. 若人工智能研发是登山,我们都经历了什么
  9. 操作系统之死锁的避免-银行家算法详解
  10. 公安视图库1400的协议