R言rvest包爬取南京二手房信息
R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。
先上此次爬虫的源代码:
library(xml2)
library(rvest)
library(stringr)
library(dplyr)
i <- 1:100
house_inf <- data.frame()#此处新建house_inf数据框很重要,如若不建立此数据框以下代码则只会爬取1页的信息
for (i in 1:100){webpage <- read_html(str_c("https://nj.lianjia.com/ershoufang/pg",i),encoding="UTF-8")#链家的编码格式为"UTF-8",如若爬取其他网站,可能有所变更house_name_html <- html_nodes(webpage,".houseInfo a")#爬取房屋名称house_name <- html_text(house_name_html)#将房屋数据转化为文本price_html <- html_nodes(webpage,".unitPrice span")price <- html_text(price_html)house_basic_html <- html_nodes(webpage,".houseInfo")house_basic <- html_text(house_basic_html)house_basic <- str_replace_all(house_basic," ","")#消除房屋基础信息中的空格total_price_html <- html_nodes(webpage,".totalPrice span")total_price <- html_text(total_price_html)total_price <- as.numeric(total_price)#将总价转化为数字house <- data.frame(house_name,price,total_price,position,house_basic)house_inf <- rbind(house_inf,house)#将每页爬取的house数据框进行合并,从而进行累积
}
write.csv(house_inf,file="nanjinershoufang.csv")
个人写爬虫代码的一个心得就是先爬取1页的信息,将每个字段的信息处理好,然后再进行推广。比如爬取房屋基础信息时,通过head(house_basic)可以发现房屋信息中有空格存在,应该进行消除:
爬取的初始信息如下:
鉴于目前我处理字段的能力还不熟练,故而转用Excel进行了进一步的数据处理,结果如下:
之后,利用Tableau软件进行了简单的可视化呈现,仪表板截图如下:
以上就是此次爬虫的始终,如有不当或改进之处,还请各位看官不吝赐教。
链接:源代码 密码:oqh4
链接:tableau文件 密码:s97k
R言rvest包爬取南京二手房信息相关推荐
- 别再说难了,年轻小伙教你如何爬取“新一线城市”二手房信息
别再说难了,年轻小伙教你如何爬取"新一线城市"二手房信息 主页面信息爬取 主页面分析 主页面url获取 获取页面数据 页面数据解析及保存 详情页 url 数据 详情页信息爬取 详情 ...
- R语言RSelenium包爬取动态网页数据前期准备(环境配置)-连载NO.01
生而为人,学无止境. 作为爬虫爱好者,最开始的时候多少都会遇到爬取的时候返回各种bug,抓头挠耳吧: R语言爬虫的包基础的就是rvest和RCurl,解析的就是xml包,当然你还得有html.css. ...
- scrapy 爬取麦田二手房信息
用scrapy写了个爬虫,爬取麦田北京二手房信息,一共爬取了11718条,也遇到了一些问题 页数限制 比如访问北京市二手房只显示100页的数据,后面的数据访问不到,只能通过每个地区来爬取.在前端发现地 ...
- R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据
接上一篇用R语言爬取中国天气网单个城市的7天实时天气预报数据,这篇文章综合一下,使用R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据,这里的步数跨度可能有点长,但思路确实是3 ...
- R语言:使用rvest包抓取新浪财经A股交易数据
R语言网络爬虫工具中比较常用的包有RCurl.XML.rvest等,本文以新浪财经频道A股交易数据的抓取为例简单总结一下rvest包的用法. 首先介绍一下我们要抓取的对象,我们以"中信证券( ...
- python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...
前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...
- 【包】R语言rvest包简介
以下翻译自:rvest包github项目主页 R语言rvest包简介 rvest包可以帮助我们从网页上抓取信息,它通常与magrittr包配合使用,便于进行常见的网络抓取任务.revest包的开发主要 ...
- Python 爬取北京二手房数据,分析北漂族买得起房吗?(附完整源码)
来源:CSDN 本文约3500字,建议阅读9分钟. 本文根据Python爬取了赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考. 房价高是 ...
- python xpath循环_Python爬虫 爬取北京二手房数据
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
最新文章
- 用C语言写一个选择题程序,C语言程序设计选择题:1,设char*strp4-={aa 爱问知识人...
- Ubuntu:成功解决ubuntu使用su切换root出现Authentication failure用户时认证失败
- 区块链预言机(5)预言机原理
- php正则去掉width=,关于php使用正则去除宽高样式的方法
- 中断描述符表描述符:任务门,中断门,陷阱门(调用门)
- (C语言)人名排序,字符串排序
- Android 仿美团网,大众点评购买框悬浮效果之修改版
- zabbix agent安装_zabbix agent的安装与配置
- dp HDU - 5074
- 2012年波兰乌克兰欧洲杯完全赛程(06.09-07.02)
- SQL Server 数据库增删改查
- 阄阄乐-IOS抓阄抽签工具
- GD32F4xx控制DGUS触控按键
- 简单的云平台基础环境的构建(一)
- HuTool工具生成带图片二维码
- 如何将英文文献完整翻译?公式都可以快速完整插入,比淘宝上的机翻要强一百倍!
- 美式期权二叉树matlab代码,美式期权二叉树定价,美式看涨期权二叉树可以提前执行吗...
- MAC 硬盘安装助手 安装mac 镜像
- 高德地图自定义图标的点标记Marker--初体验(二)
- 华为不断传出好消息,芯片研发投入几十亿