【入门-R爬虫抓取数据】文本挖掘之数据爬虫

今天主要介绍一下，文本挖掘的数据获取方式，上一篇很多人在问数据如何获取，今天给大家介绍下数据获取的方式，主要利用爬虫抓取数据。基于，之前对python爬虫没接触过，尝试过用R爬虫，今天就来介绍下，如何用R爬取股吧的评论数据，关于R爬虫网上也有很多参考资料，在参考了网上大神的思路方法后，自己尝试了对股吧数据进行爬取，结果爬取下来的数据还是比较规范，能够满足我的分析需求的。

R进行爬虫，经常用的包有RCurl和rvest两个包，这里我主要介绍rvest包爬虫，大致的思路其实是一样的，爬虫之前需要对网页有个基本的了解，会查看网页相应的审核元素，找到相应的节点所在的位置，找到节点的类型class，这些了解了，后面爬虫就会得心应手很多。不多说了，先上代码吧。

library(rvest)
library(xml2)
library(sqldf)
library(gsubfn)
library(proto)
library(RSQLite)
library(DBI)
library(data.table)
library(stringr)

extradata<-function(i,non_pn_url){
     url<-paste0(non_pn_url,i)##先给一个没有页码的网页#
     web<-html(url)#通过html解析网页##
     title<-web %>% html_nodes("div.articleh span.l3 a")%>%html_text()%>% .[c(seq(1,86,1))] %>% as.character()##找到评论数据对应的节点类型，匹配获取节点##
     paperlink<-gsub("\\?source\\=search","",web %>% html_nodes("div.articleh") %>% html_attr("href"))%>% .[c(seq(2,20,2))]##获取网页跳转连接##
     paperlink<-paste0("http://www.eastmoney.com/",paperlink) %>% as.character()###输入无页码链接 ##
     author<-web %>% html_nodes("div.articleh span.l4") %>% html_text()##匹配获取作者的class节点
     posttime<-web %>% html_nodes("div.articleh span.l6") %>% html_text()
     update_time<-web %>% html_nodes("div.articleh span.l5") %>% html_text()
     count_of_comment<-web %>% html_nodes("div.articleh span.l2") %>% html_text()
     count_of_read<-web %>% html_nodes("div.articleh span.l1") %>% html_text()
     data.frame(title,author,posttime,update_time,count_of_comment,count_of_read)##构造一个数据框##
}
finaldata<-data.frame()
url<-'http://guba.eastmoney.com/list,002373.html?from=BaiduAladdin'##获取有页码的第一页的链接
for(i in 1:25){
    extradata(i,url)
    finaldata<-rbind(finaldata,extradata(i,url))
}##这里是抓取了25页的数据#
finaldata1<-as.data.frame(finaldata)
names(finaldata)
dim(finaldata1)
head(finaldata)

最后来看看爬虫抓取的数据效果

爬虫内容今天就介绍到这里，后续有新的发现在跟进，希望小伙伴们多提提意见，这里也感谢参考的牛人大神们的分享。

文章改编自《文本挖掘之数据爬虫》

原文链接：http://quant.jd.com/community/subjectDetails/175

欢迎加入京东金融量化官方交流群：456448095，有任何问题和建议均可讨论交流。

【入门-R爬虫抓取数据】文本挖掘之数据爬虫相关推荐

用爬虫抓取动态加载数据丨Python爬虫实战系列(6)
提示:最新Python爬虫资料/代码练习>>戳我直达前言抓取动态加载数据话不多说,开练! 爬虫抓取动态加载数据确定网站类型首先要明确网站的类型,即是动态还是静态.检查方法:右键查 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储（转）
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储！...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储（转载）...
完整代码实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...
MySQL 怎么插入10天前的日期_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储！...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python爬虫抓取动态网页数据_python网络爬虫抓取ajax动态网页数据：以抓取KFC门店地址为例...
一,尝试用BeautifulSoup抓取先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx 可以看到门店列表如下图: 打 ...
R语言抓取暴风魔镜评论数据并绘制各省市购买量热力图
本博文地图绘制部分来源于开源中国openthings博主的博客最终效果图: 第一部分为暴风魔镜评论数据的抓取打开京东暴风魔镜的页面,可以看到是下面这个样子的: 我们要对评论进行抓取,一般电商的评论 ...
使用R语言抓取A股股价数据
不出所料使用R抓取A股的股价又是一个非常轻松的事.上午刚刚说到咱们可以轻松拿到各证券的研报信息,那么咱们如果想分析一下,研报对于股价的影响,应该如何做呢? 一.还是安装包 install.packag ...

【入门-R爬虫抓取数据】文本挖掘之数据爬虫

【入门-R爬虫抓取数据】文本挖掘之数据爬虫相关推荐

最新文章

热门文章