用jiebaR分析比特币的文章
在这个notebook中,我们将使用jiebaR来分析一篇描述比特币暴跌的文章
- 文章来源:财富网
- 文章链接:http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm
# 查看文章内容:
file.show('./data//Bitcoin.txt',encoding = 'UTF-8')
安装jiebaR
install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')
先来尝试分析一下短句子
library(jiebaR) # 载入包
分词器 = worker() # 创建分词器
# 利用分词器进行分词
segment("在这个notebook中,我们将使用jiebaR来分析一片描述比特币暴跌的文章", 分词器)
- '在'
- '这个'
- 'notebook'
- '中'
- '我们'
- '将'
- '使用'
- 'jiebaR'
- '来'
- '分析'
- '一片'
- '描述'
- '比特'
- '币'
- '暴跌'
- '的'
- '文章'
# 添加新词到已存在的分词器中,比特币不能分开,它时一个词。第三个参数 "n" 代表新词的词性标记
new_user_word(分词器, "比特币", "n")
TRUE
# 用添加新词“比特币”的分词器再次进行分词
segment("在这个notebook中,我们将使用jiebaR来分析一片描述比特币暴跌的文章", 分词器)
- '在'
- '这个'
- 'notebook'
- '中'
- '我们'
- '将'
- '使用'
- 'jiebaR'
- '来'
- '分析'
- '一片'
- '描述'
- '比特币'
- '暴跌'
- '的'
- '文章'
对文章进行分词
# 读取文本,按照行读取
texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE)
# 查看文章内容
texts
- '对于比特币投资者来说,总有一些时候是特别考验你的灵魂的。'
- ''
- '在美国推出比特币期货后,比特币的币值在去年12月一度涨至近2万美元,此后便一路暴跌,币值被拦腰砍掉一半以上,截止至上周五已跌至7614美元。不过据比特币网站coinmarketcap.com称,截止到上周六纽约当地时间下午2时58分,比特币的币值又回升了7.5个百分点,回升至9290.15美元。'
- ''
- '在此轮暴跌中,损失最惨重的,当然是那些在比特币币值最高位处接盘的人。此前不久,杰米·迪蒙和鲁里埃尔·鲁比尼等比特币怀疑论者就曾指出,比特币是史上最大的资产泡沫之一,且已显现出贬值的迹象。“接盘侠”们的恐慌性出售,也与早期比
# 整篇文章一起分词,将按行分词的条件设置为FALSE
分词器$bylines = FALSE
# 开始分词
分词结果 = segment(texts, 分词器)
# 查看分词结果,查看前100个
head(分词结果,100)
- '对于'
- '比特币'
- '投资者'
- '来说'
- '总有'
- '一些'
- '时候'
- '是'
- '特别'
- '考验'
- '你'
- '的'
- '灵魂'
- '的'
- '在'
- '美国'
- '推出'
- '比特币'
- '期货'
- '后'
- '比特币'
- '的'
- '币值'
- '在'
- '去年'
- '12'
- '月'
- '一度'
- '涨至'
- '近'
- '2'
- '万美元'
- '此后'
- '便'
- '一路'
- '暴跌'
- '币值'
- '被'
- '拦腰'
- '砍掉'
- '一半'
- '以上'
- '截止'
- '至'
- '上周五'
- '已跌'
- '至'
# 分词结构数据类型
class(分词结果)
‘character’
# 进行词频统计,并查看排序结果
require(dplyr)
freq(分词结果) %>% arrange(desc(freq)) %>% head()
char | freq |
---|---|
的 | 49 |
比特币 | 36 |
在 | 10 |
是 | 9 |
美元 | 9 |
了 | 8 |
发现有很多“的”,“是”,“了”之类的词,这些词是停止词。可以在统计词频是去除它们。
添加停止词
# 添加目录data下的停止词文件,注意指定编码方式
分词器 = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8')
# 注意此处新建了一个worker,所以需要重新添加用户自定义单词
new_user_word(分词器, "比特币", "n")
TRUE
# 开始分词
去除停止词分词结果 = segment(texts, 分词器)
freq(去除停止词分词结果) %>% arrange(desc(freq)) %>% head()
char | freq |
---|---|
比特币 | 36 |
美元 | 9 |
投资者 | 7 |
币值 | 6 |
投资 | 4 |
表示 | 4 |
保存词频统计结果
# 将分词结果保存
fred_df <- freq(去除停止词分词结果)
# 查看词频统计结果数据类型
class(fred_df)
‘data.frame’
# 将结果写到数据文件中
write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')
注意不要再jupyter里面执行如下语句
# 由于jupyter不支持输出这种内容丰富的图像,在Rstudio里面执行如下语句
require(wordcloud2)
wordcloud2(fred_df,size = 1, fontFamily = "微软雅黑",color = "random-light",backgroundColor = "grey")
用jiebaR分析比特币的文章相关推荐
- 「每周CV论文推荐」 初学深度学习人脸属性分析必读的文章
人脸属性分析在社交娱乐,人机交互等领域有重要的作用,本次我们介绍初学人脸属性分析需要读的文章,包括年龄,表情等. 作者&编辑 | 言有三 1 IMDB-WIKI 人脸年龄的估计包括真实年龄和表 ...
- 【每周CV论文推荐】 初学深度学习人脸属性分析必读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 人脸属性分析在社交娱乐,人机交互等领域有重要 ...
- 迄今看到的较为客观的一篇分析编程语言的文章
迄今看到的较为客观的一篇分析编程语言的文章,链接奉上: 时至今日,为何C语言在软件开发领域的地位仍无法撼动
- Python分析那些“标题党”文章
来源 | 月小水长(ID:inspurer)月小水长 写作缘由 这是很久前一个好友给我的一个小任务:给出某平台历史文章数据,分析出哪些文章有"标题党"的嫌疑,哪些文章标题妙笔生花且 ...
- 源码分析Dubbo系列文章
本系列文章主要针对Dubbo2.6.2(dubbox2.8.4)版本,从源码的角度分析Dubbo内部的实现细节,加深对Dubbo的各配置参数底层实现原理的理解,更好的指导Dubbo实践,其目录如 ...
- Hive分析窗口函数系列文章
分析窗口函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越 ...
- pandas plot label_Python+Pandas | 分析比特币与股票市场的关系
- 点击上方"中国统计网"订阅我吧!- 我们通过使用Python和Pandas技术进行分析,我们将能够在本文中回答该问题.首先,我们将使用免费的API检索过去几年的比特币和股票价格 ...
- 情感分析(判断文章正负向)
首先对单条微博进行文本预处理,并以标点符号为分割标志,将单条微博分割为n个句子,提取每个句子中的情感词.以下两步的处理均以分句为处理单位. 第二步在情感词表中寻找情感词,以每个情感词为基准,向前依次寻 ...
- 【SemiDrive源码分析】系列文章链接汇总(全)
注意:兄弟们,因为要换工作了,本专栏暂时先不更新了,如果后续工作也涉及芯驰平台的话,那我还会继续更新下去. 有好工作机会的兄弟,也可以私信介绍给我,可以聊聊 谢谢!!! 注意:兄弟们,因为一些其他原因 ...
最新文章
- Access应用日志一
- Btree(B-树)---C++
- Linux 打开/关闭CPU命令
- 荒唐!获得杰青的北大教授,竟被本科生质疑硕士毕业双非高校也能任教?
- MyBatis 实际使用案例-核心配置解读
- some understanding of《Inferring Decision Trees Using the Minimum Description Length Principle*》
- IBASE logical view和physical view
- 3.3 修改“时间”维度
- PHP问题 —— The use statement with non-compound name
- 关于IDEA中有关springboot快启动报错问题
- 视频转gif怎样操作?如何快速在线生成gif动图?
- java kernel32.dll,关于kernel32.sys病毒的问题
- ue4序列帧ui_UE4动画序列帧通知机制(二)
- echarts地图展示
- IP地址被屏蔽怎么解决
- paypal如何获取API签名
- 如何使用计算机远程关闭手机软件,如何用手机远程控制电脑关机
- Python -- 堆数据结构 heapq - I love this game! - 博客频道 - CSDN.NET
- 在IDEA开发一个自动输入法切换插件
- 请你详细说说类加载流程,类加载机制及自定义类加载器
热门文章
- mysql oneproxy_利用oneproxy实现mysql读写分离搭建笔记
- catia齿轮宏程序_Catia宏程序
- 用C语言编写贪吃蛇项目描述,刚学C语言,想写一个贪吃蛇的代码
- bs4是python自带的吗_Python bs4,检查类是否有值
- 能源36号文解读_中国能源报
- python函数中可变参数的传递方式是_详解Python函数可变参数定义及其参数传递方式...
- 7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法
- Fiddler学习之——对Android应用进行抓包
- 7个优秀的javascript资源
- WinForm 窗体之间交互的一些方法-兼托管事件