金融数据分析之PDF年报中词频率统计
目录
一、前言
二、词频统计概述
三、词频率统计技术路线
四、具体实现
>>>环境搭建
>>>代码实现
五、分词测试结果
六、致谢
一、前言
近年来,大数据金融越来越火热,其金融数据的分析也变成非常重要的一部分。金融数据分析中,年报的数据分析参考意义不菲。年报数据可以做以下分析:
(1)、统计年度财务数据,横向与纵向分析公司的的经营情况
(2)、统计大量上市公司的财务数据,分析行业在历史各个年代的起伏兴衰
(3)、统计年报中表述的措辞,分析公司乃至行业的未来发展方向和趋势
(4)、统计年报数据,探索财务报表和会计政策、市场监管政策之间的关系作用......
二、词频统计概述
词频率统计主要是统计一篇文章中某些关键词出现的次数即频率,包括:
(1)、统计同一公司不同年份的关键词频率统计
(2)、统计同一年份不同公司的关键词频率统计
(3)、分行业统计对比关键词频率
这些统计方法还有很多,通过统计词频为金融数据的进一步分析做好数据准备。做统计我们都会遇到一个棘手的问题,即那么多的数据,人工整理的话那要整理到天荒地老了。感谢伟大的计算机发明者,也感谢伟大的计算机语言开发者,为我们解决这个问题,节省数据分析的时间。
三、词频率统计技术路线
一般而言,python在大数据分析中运用比较广泛,也提供很多功能包,python统计词频率主要用到的包:
(1)、os >>>python自带包,用于文件路径处理
(2)、pdfplumber >>>pdf文件处理包,用于转.PDF文件为.TXT文件格式
(3)、openpyxl >>>excel文件处理包,用于输出数据整理
(4)、re >>>正则表达式处理包,用于一些过滤处理
(5)、jieba >>>分词包,用于分词处理,为统计关键词准备
那么我们统计词频率的技术路线就明了了:
【第一步:pdfplumber包转PDF为TXT文件】
【第二步:读取TXT文件并用jieba分词处理】
【第三步:对分词完成的字符统计关键词】
【第四步:利用openpyxl包输出整理统计结果】
四、具体实现
>>>环境搭建
1、windows下安装python开发环境
a、下载安装文件
win64位:https://www.python.org/ftp/python/3.8.10/python-3.8.10-amd64.exe
win32位: https://www.python.org/ftp/python/3.8.10/python-3.8.10.exe
b、然后双击安装包,选择默认路径安装即可,如果C盘太满了,可以选择其他路径,不过需要将安转路径添加到系统Path变量,可参考这里,非计算机专业建议采用默认安装方式
2、pip安装依赖包
a、pip更新
python -m pip install --upgrade pip
b、安装pdfplumber包
pip install pdfplumber
c、安装openpyxl依赖包
pip install openpyxl
d、安装jieba分词依赖包
pip install jieba
>>>代码实现
a、PDF转TXT
with open(txt_path, "w") as txt_file:with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:text_tmp=page.extract_words(x_tolerance=5)if text_tmp is None:continuetxt_file.write(text_tmp)txt_file.close()
b、jieba分词
with open(txt_file, "r") as f:txt = f.read()f.close()words = jieba.lcut(str(txt)) # 使用精确模式对文本进行分词
c、统计分词
for word in words:counts[word]=counts.get(word, 0) + 1 ##字典dict
d、输出结果
list_result=[] ##统计结果输出
for ret in keywords_list: ##关键词列表list_result.append(counts_ret[ret])
ws=key_wb['key_out'] ##Sheet
ws.append(list_result) ##写入excel
key_wb.save(excel_file) ##保存excel
五、分词测试结果
1、PDF文件一批如下
2、转成TXT文件如下
3、分词命令行输出结果如下
4、分词excel输出
效果还不错,接下来可以开始自己对数据的统计分析了。写成一个工具整理出来词频统计工具
六、致谢
感谢技术
感谢伙伴们的支持和博客伙伴们的分享
感谢伙伴的阅读关注
欢迎伙伴们留言交流
金融数据分析之PDF年报中词频率统计相关推荐
- 金融数据分析之公司年报会计师事务所信息批量提取
金融数据分析之PDF年报中词频率统计 阅读本文之前可以看浏览一下上面这篇文章,对大数据分析和年报处理有一个大概的了解. 目录 一.前言 二.需求分析 三.数据特征分析 四.代码实现 五.提取结果示列 ...
- 炼数成金R七种武器之金融数据分析quantmod
更多资源进群: 377215114 炼数成金<数据分析,展现与R语言>课程上线已经有18个月,至今已经培训了近千名学员,对在中国推动开源数据分析软件起到了重要作用.应广大受众的要求,我们在 ...
- 金融数据分析之pdfplumber提取年报PDF关键数据(其他PDF数据通用)
目录 一.前言 二.难点 三.提取难点解决思路 四.源代码 一.前言 小编最近遇到需求了: <1>从PDF提取出关键数据: <2>将关键数据整理到对应的Excel文件: < ...
- 中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析
用 Python 数据分析方法进行汉字声调频率统计分析 木合塔尔·沙地克 ; 布合力齐姑丽·瓦斯力 [期刊名称] <电脑知识与技术> [年 ( 卷 ), 期] 2017(013)035 [ ...
- 按15分钟取数据_【数量技术宅|金融数据分析系列分享】套利策略的价差序列计算,恐怕没有你想的那么简单...
更多精彩内容,欢迎关注公众号:数量技术宅 #价差计算的"误区" 我们在测试两个或多个金融资产相互运算产生的策略信号时,免不了需要涉及将不同的价格时间序列,按照时间轴进行对齐,套利策 ...
- 【数量技术宅|金融数据分析系列分享】套利策略的价差序列计算,恐怕没有你想的那么简单
数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学,点击下方链接报名: 量化投资速成营(入门课程) Python股票量化投资 Python期货量化投资 Python数 ...
- 金融风控-- >客户流失预警模型-- >金融数据分析
从这篇博文开始,我将介绍机器学习,深度学习在金融风控这个行业上的应用.其实机器学习,深度学习在一些相关场景上的应用,其解决方法都是大同小异,差不多都是固定的解决套路,但是需要结合这个场景这个行业领域的 ...
- 【数量技术宅|金融数据分析系列分享】为什么中证500(IC)是最适合长期做多的指数
数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学,点击下方链接报名: 量化投资速成营(入门课程) Python股票量化投资 Python期货量化投资 Python数 ...
- 港中文计算机金融,香港中文大学金融数据分析和风险管理科学硕士专业
香港中文大学金融数据分析和风险管理科学硕士专业来自于理学院下的统计学科融合了数学,统计,精算科学,金融,计算机和工程领域的学科知识,跨学科知识的关联性关系将金融数据分析风险管理与更多传统统计学科区分开 ...
最新文章
- Unity3d连接SQL Server数据库出现SocketException: 使用了与请求的协议不兼容的地址错误...
- 液晶字体数字一到九_睡前必听3分钟系列十一:光传输设备和同步数字体系的特点...
- PB的setfilter()和modify()一些不为人知的技巧
- OI常用的常数优化小技巧
- Java线程详解(15)-阻塞队列和阻塞栈
- Redis持久化的几种方式——RDB深入解析
- 警惕 十种短命的生活方式
- ceph操作相关命令整合
- 从java的NIO版hello world看java源码,我们能看到什么?
- VS2015中搭建lua环境
- JAVA安装详细教程
- 2017GAITC丨朱小燕:人机对话能直接能减少90%人工,极大提升效率
- 有没有一款手机桌面便签软件?真正好用的便签软件推荐
- HZOI20190819模拟26题解
- mfc , 超简单实现动态背景,
- python 主力资金_真正的主力进场加仓指标源码
- 我开始搞研发管理和项目管理了,发现最难管理的还是人
- 网络广播mms直播地址
- 小米 ios消息推送服务器吗,iOS15推送之后,小米MIUI13新消息来了
- 计算机键盘上怎么锁屏,锁屏快捷键,教您电脑锁屏键怎么用