在这个notebook中,我们将使用jiebaR来分析一篇描述比特币暴跌的文章

  • 文章来源:财富网
  • 文章链接:http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm
# 查看文章内容:
file.show('./data//Bitcoin.txt',encoding = 'UTF-8')

安装jiebaR

install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')

先来尝试分析一下短句子

library(jiebaR)     # 载入包
分词器 = worker()   # 创建分词器
# 利用分词器进行分词
segment("在这个notebook中,我们将使用jiebaR来分析一片描述比特币暴跌的文章", 分词器)
  1. '在'
  2. '这个'
  3. 'notebook'
  4. '中'
  5. '我们'
  6. '将'
  7. '使用'
  8. 'jiebaR'
  9. '来'
  10. '分析'
  11. '一片'
  12. '描述'
  13. '比特'
  14. '币'
  15. '暴跌'
  16. '的'
  17. '文章'
# 添加新词到已存在的分词器中,比特币不能分开,它时一个词。第三个参数 "n" 代表新词的词性标记
new_user_word(分词器, "比特币", "n")

TRUE

# 用添加新词“比特币”的分词器再次进行分词
segment("在这个notebook中,我们将使用jiebaR来分析一片描述比特币暴跌的文章", 分词器)
  1. '在'
  2. '这个'
  3. 'notebook'
  4. '中'
  5. '我们'
  6. '将'
  7. '使用'
  8. 'jiebaR'
  9. '来'
  10. '分析'
  11. '一片'
  12. '描述'
  13. '比特币'
  14. '暴跌'
  15. '的'
  16. '文章'

对文章进行分词

# 读取文本,按照行读取
texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE)
# 查看文章内容
texts
  1. '对于比特币投资者来说,总有一些时候是特别考验你的灵魂的。'
  2. ''
  3. '在美国推出比特币期货后,比特币的币值在去年12月一度涨至近2万美元,此后便一路暴跌,币值被拦腰砍掉一半以上,截止至上周五已跌至7614美元。不过据比特币网站coinmarketcap.com称,截止到上周六纽约当地时间下午2时58分,比特币的币值又回升了7.5个百分点,回升至9290.15美元。'
  4. ''
  5. '在此轮暴跌中,损失最惨重的,当然是那些在比特币币值最高位处接盘的人。此前不久,杰米·迪蒙和鲁里埃尔·鲁比尼等比特币怀疑论者就曾指出,比特币是史上最大的资产泡沫之一,且已显现出贬值的迹象。“接盘侠”们的恐慌性出售,也与早期比
# 整篇文章一起分词,将按行分词的条件设置为FALSE
分词器$bylines = FALSE
# 开始分词
分词结果 = segment(texts, 分词器)
# 查看分词结果,查看前100个
head(分词结果,100)
  1. '对于'
  2. '比特币'
  3. '投资者'
  4. '来说'
  5. '总有'
  6. '一些'
  7. '时候'
  8. '是'
  9. '特别'
  10. '考验'
  11. '你'
  12. '的'
  13. '灵魂'
  14. '的'
  15. '在'
  16. '美国'
  17. '推出'
  18. '比特币'
  19. '期货'
  20. '后'
  21. '比特币'
  22. '的'
  23. '币值'
  24. '在'
  25. '去年'
  26. '12'
  27. '月'
  28. '一度'
  29. '涨至'
  30. '近'
  31. '2'
  32. '万美元'
  33. '此后'
  34. '便'
  35. '一路'
  36. '暴跌'
  37. '币值'
  38. '被'
  39. '拦腰'
  40. '砍掉'
  41. '一半'
  42. '以上'
  43. '截止'
  44. '至'
  45. '上周五'
  46. '已跌'
  47. '至'
# 分词结构数据类型
class(分词结果)

‘character’

# 进行词频统计,并查看排序结果
require(dplyr)
freq(分词结果) %>% arrange(desc(freq)) %>% head()
char freq
49
比特币 36
10
9
美元 9
8

发现有很多“的”,“是”,“了”之类的词,这些词是停止词。可以在统计词频是去除它们。

添加停止词

# 添加目录data下的停止词文件,注意指定编码方式
分词器  = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8')
# 注意此处新建了一个worker,所以需要重新添加用户自定义单词
new_user_word(分词器, "比特币", "n")

TRUE

# 开始分词
去除停止词分词结果 = segment(texts, 分词器)
freq(去除停止词分词结果) %>% arrange(desc(freq)) %>% head()
char freq
比特币 36
美元 9
投资者 7
币值 6
投资 4
表示 4

保存词频统计结果

# 将分词结果保存
fred_df <- freq(去除停止词分词结果)
# 查看词频统计结果数据类型
class(fred_df)

‘data.frame’

# 将结果写到数据文件中
write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')

注意不要再jupyter里面执行如下语句

# 由于jupyter不支持输出这种内容丰富的图像,在Rstudio里面执行如下语句
require(wordcloud2)
wordcloud2(fred_df,size = 1, fontFamily = "微软雅黑",color = "random-light",backgroundColor = "grey")

用jiebaR分析比特币的文章相关推荐

  1. 「每周CV论文推荐」 初学深度学习人脸属性分析必读的文章

    人脸属性分析在社交娱乐,人机交互等领域有重要的作用,本次我们介绍初学人脸属性分析需要读的文章,包括年龄,表情等. 作者&编辑 | 言有三 1 IMDB-WIKI 人脸年龄的估计包括真实年龄和表 ...

  2. 【每周CV论文推荐】 初学深度学习人脸属性分析必读的文章

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 人脸属性分析在社交娱乐,人机交互等领域有重要 ...

  3. 迄今看到的较为客观的一篇分析编程语言的文章

    迄今看到的较为客观的一篇分析编程语言的文章,链接奉上: 时至今日,为何C语言在软件开发领域的地位仍无法撼动

  4. Python分析那些“标题党”文章

    来源 | 月小水长(ID:inspurer)月小水长 写作缘由 这是很久前一个好友给我的一个小任务:给出某平台历史文章数据,分析出哪些文章有"标题党"的嫌疑,哪些文章标题妙笔生花且 ...

  5. 源码分析Dubbo系列文章

       本系列文章主要针对Dubbo2.6.2(dubbox2.8.4)版本,从源码的角度分析Dubbo内部的实现细节,加深对Dubbo的各配置参数底层实现原理的理解,更好的指导Dubbo实践,其目录如 ...

  6. Hive分析窗口函数系列文章

    分析窗口函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越 ...

  7. pandas plot label_Python+Pandas | 分析比特币与股票市场的关系

    - 点击上方"中国统计网"订阅我吧!- 我们通过使用Python和Pandas技术进行分析,我们将能够在本文中回答该问题.首先,我们将使用免费的API检索过去几年的比特币和股票价格 ...

  8. 情感分析(判断文章正负向)

    首先对单条微博进行文本预处理,并以标点符号为分割标志,将单条微博分割为n个句子,提取每个句子中的情感词.以下两步的处理均以分句为处理单位. 第二步在情感词表中寻找情感词,以每个情感词为基准,向前依次寻 ...

  9. 【SemiDrive源码分析】系列文章链接汇总(全)

    注意:兄弟们,因为要换工作了,本专栏暂时先不更新了,如果后续工作也涉及芯驰平台的话,那我还会继续更新下去. 有好工作机会的兄弟,也可以私信介绍给我,可以聊聊 谢谢!!! 注意:兄弟们,因为一些其他原因 ...

最新文章

  1. Access应用日志一
  2. Btree(B-树)---C++
  3. Linux 打开/关闭CPU命令
  4. 荒唐!获得杰青的北大教授,竟被本科生质疑硕士毕业双非高校也能任教?
  5. MyBatis 实际使用案例-核心配置解读
  6. some understanding of《Inferring Decision Trees Using the Minimum Description Length Principle*》
  7. IBASE logical view和physical view
  8. 3.3 修改“时间”维度
  9. PHP问题 —— The use statement with non-compound name
  10. 关于IDEA中有关springboot快启动报错问题
  11. 视频转gif怎样操作?如何快速在线生成gif动图?
  12. java kernel32.dll,关于kernel32.sys病毒的问题
  13. ue4序列帧ui_UE4动画序列帧通知机制(二)
  14. echarts地图展示
  15. IP地址被屏蔽怎么解决
  16. paypal如何获取API签名
  17. 如何使用计算机远程关闭手机软件,如何用手机远程控制电脑关机
  18. Python -- 堆数据结构 heapq - I love this game! - 博客频道 - CSDN.NET
  19. 在IDEA开发一个自动输入法切换插件
  20. 请你详细说说类加载流程,类加载机制及自定义类加载器

热门文章

  1. mysql oneproxy_利用oneproxy实现mysql读写分离搭建笔记
  2. catia齿轮宏程序_Catia宏程序
  3. 用C语言编写贪吃蛇项目描述,刚学C语言,想写一个贪吃蛇的代码
  4. bs4是python自带的吗_Python bs4,检查类是否有值
  5. 能源36号文解读_中国能源报
  6. python函数中可变参数的传递方式是_详解Python函数可变参数定义及其参数传递方式...
  7. 7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法
  8. Fiddler学习之——对Android应用进行抓包
  9. 7个优秀的javascript资源
  10. WinForm 窗体之间交互的一些方法-兼托管事件