今天主要介绍一下,文本挖掘的数据获取方式,上一篇很多人在问数据如何获取,今天给大家介绍下数据获取的方式,主要利用爬虫抓取数据。基于,之前对python爬虫没接触过,尝试过用R爬虫,今天就来介绍下,如何用R爬取股吧的评论数据,关于R爬虫网上也有很多参考资料,在参考了网上大神的思路方法后,自己尝试了对股吧数据进行爬取,结果爬取下来的数据还是比较规范,能够满足我的分析需求的。

R进行爬虫,经常用的包有RCurl和rvest两个包,这里我主要介绍rvest包爬虫,大致的思路其实是一样的,爬虫之前需要对网页有个基本的了解,会查看网页相应的审核元素,找到相应的节点所在的位置,找到节点的类型class,这些了解了,后面爬虫就会得心应手很多。不多说了,先上代码吧。

library(rvest)
library(xml2)
library(sqldf)
library(gsubfn)
library(proto)
library(RSQLite)
library(DBI)
library(data.table)
library(stringr)

extradata<-function(i,non_pn_url){
     url<-paste0(non_pn_url,i)##先给一个没有页码的网页#
     web<-html(url)#通过html解析网页##
     title<-web %>% html_nodes("div.articleh span.l3 a")%>%html_text()%>% .[c(seq(1,86,1))] %>% as.character()##找到评论数据对应的节点类型,匹配获取节点##
     paperlink<-gsub("\\?source\\=search","",web %>% html_nodes("div.articleh") %>% html_attr("href"))%>% .[c(seq(2,20,2))]##获取网页跳转连接##
     paperlink<-paste0("http://www.eastmoney.com/",paperlink) %>% as.character()###输入无页码链接 ##
     author<-web %>% html_nodes("div.articleh span.l4") %>% html_text()##匹配获取作者的class节点
     posttime<-web %>% html_nodes("div.articleh span.l6") %>% html_text()
     update_time<-web %>% html_nodes("div.articleh span.l5") %>% html_text()
     count_of_comment<-web %>% html_nodes("div.articleh span.l2") %>% html_text()
     count_of_read<-web %>% html_nodes("div.articleh span.l1") %>% html_text()
     data.frame(title,author,posttime,update_time,count_of_comment,count_of_read)##构造一个数据框##
}
finaldata<-data.frame()
url<-'http://guba.eastmoney.com/list,002373.html?from=BaiduAladdin'##获取有页码的第一页的链接
for(i in 1:25){
    extradata(i,url)
    finaldata<-rbind(finaldata,extradata(i,url))
}##这里是抓取了25页的数据#
finaldata1<-as.data.frame(finaldata)
names(finaldata)
dim(finaldata1)
head(finaldata)

最后来看看爬虫抓取的数据效果

爬虫内容今天就介绍到这里,后续有新的发现在跟进 ,希望小伙伴们多提提意见,这里也感谢参考的牛人大神们的分享。

文章改编自《文本挖掘之数据爬虫》

原文链接:http://quant.jd.com/community/subjectDetails/175

欢迎加入京东金融量化官方交流群:456448095,有任何问题和建议均可讨论交流。

【入门-R爬虫抓取数据】文本挖掘之数据爬虫相关推荐

  1. 用爬虫抓取动态加载数据丨Python爬虫实战系列(6)

    提示:最新Python爬虫资料/代码练习>>戳我直达 前言 抓取动态加载数据 话不多说,开练! 爬虫抓取动态加载数据 确定网站类型 首先要明确网站的类型,即是动态还是静态.检查方法:右键查 ...

  2. Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转)

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  3. python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  4. python爬虫实现股票数据存储_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储!...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  5. python爬虫爬取股票软件数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储(转载)...

    完整代码 实际上,整个事情完成了两个相对独立的过程:1.爬虫获取网页股票数据并保存到本地文件:2.将本地文件数据储存到MySQL数据库.并没有直接的考虑把从网页上抓取到的数据实时(或者通过一个临时文件 ...

  6. MySQL 怎么插入10天前的日期_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储!...

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  7. Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. python爬虫抓取动态网页数据_python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例...

    一,尝试用BeautifulSoup抓取 先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx 可以看到门店列表如下图: 打 ...

  9. R语言抓取暴风魔镜评论数据并绘制各省市购买量热力图

    本博文地图绘制部分来源于开源中国openthings博主的博客 最终效果图: 第一部分为暴风魔镜评论数据的抓取 打开京东暴风魔镜的页面,可以看到是下面这个样子的: 我们要对评论进行抓取,一般电商的评论 ...

  10. 使用R语言抓取A股股价数据

    不出所料使用R抓取A股的股价又是一个非常轻松的事.上午刚刚说到咱们可以轻松拿到各证券的研报信息,那么咱们如果想分析一下,研报对于股价的影响,应该如何做呢? 一.还是安装包 install.packag ...

最新文章

  1. HDFS_API基本应用
  2. Java入门算法(排序篇)丨蓄力计划
  3. 基于springboot多模块项目使用maven命令打成war包放到服务器上运行的问题
  4. 优秀的硕博士们,他们的朋友圈都有什么特点?
  5. 多媒体技术基础第四版林福宗pdf_意大利留学|没有绘画基础,还能考研艺术类专业吗?...
  6. vue(el-button的五种类型,三种css格式)
  7. zabbix内网安装部署_zabbix2.4.8升级3.0.31操作部署记录
  8. java 创建servlet出错_java-创建applicationContext.xml时出错:在Servlet...
  9. iOS核心动画CALayer和UIView
  10. flutter 路由
  11. firewalld系列一:自定义zone与ipset
  12. 传统蓝牙HCI搜索流程介绍(bluetooth inquiry)
  13. 2020届实习招商银行信用卡笔试题(IT算法方向)python版(同2019春招笔试题)
  14. Android TextView设置跑马灯效果
  15. git via xkcd
  16. cesium获取当前层级
  17. 养蛙火爆,大数据解读《旅行青蛙》崛起之谜
  18. x265各个preset对比
  19. 如何为自己的 CSDN博客设置自定义域名?
  20. svn项目迁移后服务器up报错:E155036 的处理方法

热门文章

  1. 大学英语六级考试2022年6月真题|9:00
  2. axure动态面板滑动效果
  3. USB供电不足的解决办法
  4. c# 解压zip 进度_C#解压zip文件
  5. CSS 自学笔记(三)
  6. 自学自动化遇到的问题
  7. 可视化 | Python分析中秋月饼,这几种口味才是yyds
  8. 计算机操作系统引论(操作系统)
  9. c语言字母翻译,C语言实现翻译功能
  10. [从头读历史] 第259节 左传 [BC722至BC718]