2021暑期 | 结构模型、Stata实证前沿、Python数据挖掘暑假工作坊

可以使用cnsenti库中的自定义方法,计算年报或财经类社交媒体的文本情绪。

姚加权,冯绪,王赞钧,纪荣嵘,张维. 语调、情绪及市场影响:基于金融情绪词典. 管理科学学报,2021. 24(5), 26-46.

该论文开发了中文的金融情感词典,已有的中文金融情感词典有以下不足:

  • 大多采用形容情绪词,对于金融场景适用性差

  • 将LM英文词典本土化,制作中文金融情绪词典

  • 词典构建方法多为人工

该论文开发中文情绪词典,从年报和社交媒体两个数据源出发,借助数据挖掘和深度学习算法,构建了正式用语 和 非正式用于两大类情感词典。

标注思路

一般构建词典要么用多个词典融合,要么人工标准训练。该论文采用了一定的技巧,不需要人工标注即可实现近乎人工标注的效果。

正式词典标注思路

正式用语情感词典,通过年报公布后3个交易日累积正负收益率为标准,将年报标记为正负面情绪两类。

非正式词典标注思路

使用所有中国上市公司在雪球论坛和东方财富股吧内相关帖子,共8130万条。

在网络股票论坛,用户发表自己的意见时,经常带有表情符号,从而使得帖子带有明显的情绪指标。这种含有特殊指标的帖子,省去了人工标注文本情绪的工作。

具体构建词典的步骤,大家可以阅读论文原文。论文已经公开了中文情感词典,我已将其整理为4个txt文件

  • formal_pos.txt  正式用语正面情绪词典

  • formal_neg.txt  正式用语负面情绪词典

  • unformal_pos.txt  非正式用语正面情绪词典

  • unformal_neg.txt  非正式用语负面情绪词典

中文金融词典使用方法

cnsenti实现了自定义词典功能,导入不同的txt词典文件,即可实现不同方面的情绪词统计。

年报正式用语词典

  • dict/formal_pos.txt   正式用语正面情绪词典

  • dict/formal_neg.txt    正式用语负面情绪词典

from cnsenti import Sentimentsenti = Sentiment(pos='dict/formal_pos.txt',  #正面词典txt文件相对路径neg='dict/formal_neg.txt',  #负面词典txt文件相对路径merge=False,             #是否将cnsenti自带词典和用户导入的自定义词典融合encoding='utf-8')      #两txt均为utf-8编码test_text = '这家公司是行业的引领者,是中流砥柱。今年的业绩非常好。'
result = senti.sentiment_count(test_text)print('sentiment_count',result)

Run

sentiment_count {'words': 16, 'sentences': 2, 'pos': 3, 'neg': 0}

财经社交媒体非正式用语词典

  • dict/unformal_pos.txt   非正式用语正面情绪词典

  • dict/unformal_neg.txt    非正式用语负面情绪词典

from cnsenti import Sentimentsenti = Sentiment(pos='dict/unformal_pos.txt',  #正面词典txt文件相对路径neg='dict/unformal_neg.txt',  #负面词典txt文件相对路径merge=False,             #融合cnsenti自带词典和用户导入的自定义词典encoding='utf-8')      #两txt均为utf-8编码test_text = '这个股票前期走势承压,现在阴跌,散户只能割肉离场,这股票真垃圾'
result = senti.sentiment_count(test_text)print('sentiment_count',result)

Run

sentiment_count {'words': 18, 'sentences': 1, 'pos': 0, 'neg': 2}

说明

读者如需使用本项目词典,请引用如下参考文献:

姚加权,冯绪,王赞钧,纪荣嵘,张维. 语调、情绪及市场影响:基于金融情绪词典. 管理科学学报,2021. 24(5), 26-46.

词典链接:https://pan.baidu.com/s/1RjFJzehEHGyCLbC7GtCYWQ  密码:esdp

另外,Python暑期工作坊现在正在报名,内容涵盖Python语法、数据采集(网络爬虫)、文本数据清洗(文本分析)、机器学习等。20号开始直播。感兴趣的可以关注

2021暑期 | 结构模型、Stata实证前沿、Python数据挖掘暑假工作坊

腾讯课堂 | Python网络爬虫与文本分析

近期文章

腾讯课堂 | Python网络爬虫与文本分析B站视频 | Python自动化办公
语法最简单的微博通用爬虫weibo_crawler发布一个智能解析算法库hiResearch 定义自己的科研首页大邓github汇总, 觉得有用记得star
whatlies包 | 简单玩转词向量可视化multistop ~ 多语言停用词库
Jaal 库 轻松绘制动态社交网络关系图
SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站
爬虫实战 | 采集&可视化知乎问题的回答
Clumper | dplyr式的Python数据操作包Clumper库 | 常用的数据操作函数Clumper库 | Groupby具体案例用法Clumper库 | 其他数据分析plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
读完本文你就了解什么是文本分析文本分析在经管领域中的应用概述
综述:文本分析在市场营销研究中的应用plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G

中文金融情感词典发布啦 | 附代码相关推荐

  1. CnOpenData公共数据专区上新 | 中文金融情感词典

    中文金融情感词典 一.数据简介   姜富伟教授及其研究团队于2021年第4期<经济学(季刊)>发表了<媒体文本情绪与股票回报预测>,并在文中介绍了一项极富创造力的金融学科研究成 ...

  2. Python基于机器学习的文本情感分析详细步骤[附代码和文字解释]

    最近在研究情感分析,感谢CSDN上很多博主的文章,让我受益匪浅.因此在跑出准确率高达88%的分类结果后,写下自己的代码和总结,希望对大家有所帮助~ 目录 一.文本数据预处理 1.读取json并转化为列 ...

  3. 简单实用的基于python的OCR中文字符识别——基于windows平台(附代码)

    1. 基本环境 操作系统:win7 64位系统 python版本:3.6 2.安装配套环境 (1)首先安装OCR字符识别库Tesseract    下载网址:https://digi.bib.uni- ...

  4. 微博指定日期舆情数据爬虫获取—基于中文金融词典(python)

    最近在做一个微博舆情与金融市场分析的课题,需要爬取微博的舆情数据.因此需要根据关键词爬取指定日期的微博.现在代码写完了,实测还行,sleep设置得比较久,但爬取的数据很完整.硕士三年在CSDN学到了很 ...

  5. python情感词典计算得分_用python进行金融市场文本数据的情感计算!

    之前我依据一篇论文中的中文金融情感词典CFSD(chinese financial sentiment dictionary), 中文金融领域情感词典构建 ,整理成csv文件的情感词典.现在我们找点财 ...

  6. 实体词典 情感词典_基于词典的文本情感分析(附代码)

    一.引言 目前中文文本情感分析主要分为三个类型,第一个是由情感词典和句法结构来做的.第二个是根据机器学习来做的(Bayes.SVM等).第三个是用深度学习的方法来做的(例如LSTM.CNN.LSTM+ ...

  7. 一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述

    <繁凡的深度学习笔记>第 15 章 元学习详解 (上)万字中文综述(DL笔记整理系列) 3043331995@qq.com https://fanfansann.blog.csdn.net ...

  8. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  9. 情感分析基于词典(算例代码)

    基于词典的情感分析 情感分析是指挖掘文本表达的观点,识别主体对某客体的评价是褒还是贬,褒贬根据进态度行倾向性研究.文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析.基于机器学习进 ...

  10. NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...

最新文章

  1. confirm自定义按钮文字_公众号涨粉神器——自定义菜单,互动运营更灵活!
  2. 最后 24 小时,赶紧来领取这 50 本送书福利吧!
  3. Linux基础-1.0共享文件夹创建
  4. Juqery让世界更美好--超级简单实用的(上、下)自动翻的最佳效果,有图为证!...
  5. 音视频技术开发周刊 | 160
  6. Unity3D手机斗地主游戏开发实战(02)_叫地主功能实现
  7. 数据结构与算法?看这篇就够了!!!
  8. found linux系统wget出现not_Java 9 AOT 试用:仅支持 64 位 Linux和java.base 模块编译
  9. Xposed拦截抽象方法
  10. linux检测扩容卡,TF内存卡是不是扩容卡准确质量检测
  11. 【图像分割】基于snake模型实现图像分割含Matlab源码
  12. 【笔记】《离散数学》第十章 递推方程与生成函数
  13. 残差网络resnet网络原理详解
  14. 高通平台DDR3初始化
  15. 国际商务英语学习[十三]
  16. 【模拟IC】时钟馈通效应减小及仿真验证
  17. flask中的可拨插视图
  18. 如何购买云服务器----以华为云服务器为例
  19. 我看好金融IT业的几个理由
  20. eWebEditor在线编辑器

热门文章

  1. bim 骗局_建筑设计BIM工程师是个好职业吗?
  2. Lambda表达式只是一颗语法糖?
  3. python读取csv内容变为nan,python – 获取pandas.read_csv以空字符串而不是nan读取空值...
  4. SpringCloud项目接入Nacos服务治理
  5. Java代码优化的35个细节,你用了吗?
  6. 关于Session、Cookie、Token你知道多少?
  7. 设备唯一标志的解决方案
  8. STM32F103ZET6 PWM输出
  9. Linux 设备树的解释 - DTB文件格式【转】
  10. coding.net及git的使用方式