1. 缘起

投资了一点美股,总要参考个股资料的(虽然巴菲特老人家觉得分析技术资料没有用),发现一个一个查找,效率太低了。于是想起来用Python写个爬虫程序。话说,不偷懒的码农不是好的码农。发些一般股票app上没有PEG指标(参考股神彼得林奇相关资料)!但是Nasdaq官网上有。

举个栗子:阿里巴巴PEG如下

PEG的值竟然是图片形式的!所以任务就是下载一堆图片,然后识别图片上文字(OCR),马上着手行动。

依赖的库:pip install pytesseract

2. 读取文本

自选股列表:

读取文本代码:

3. 下载PEG图片

4. 裁剪图像,获取ROI区域

用到OpenCV  Python版本

效果如下:

5. 分割数字

直接用tesseract识别,出现 Empty page的错误,猜想tesseract不能处理噪声或者干扰图像,

所以需要对图像进行预处理,而且要把数字图像分割出来。

用到cv2.SimpleBlobDetector_create()

效果如下:

6. 用tesseract OCR识别数字

用到下列命令tesseract filename -psm 7 stdout digits

digits表示只识别数字

7. 最终结果如下:

启动代码python3 mystock.py

基本上满足需求,不算完美,0.99 识别为0.55,识别率不算太高,后续加入训练数据,应该可以提升识别率。一件看似简单的事情,做到极致还是不容易的。

8. 完整代码见GitHub

美股数据获取 python_python3+tesseract获取美股PEG图像上的数据相关推荐

  1. 1秒破解iPhone 13 Pro:可任意获取并删除设备上的数据

    整理 | 祝涛 出品 | CSDN(ID:CSDNnews) 据报道,在第四届"天府杯"国际网络安全大赛上,奇安盘古旗下盘古实验室的白帽黑客slipper完成了iPhone 13 ...

  2. python获取交易软件数据_几行Python代码,轻松获取美股阿里巴巴的交易数据

    原创: 野马 菜鸟学Python 学Python可以干很多事情,比如爬虫,数据分析,机器学习,但是有一个非常小众的分支,不仅结合了两大高薪行业,而且还薪水非常诱人,就是量化金融岗位.目前Python已 ...

  3. 几行Python代码,轻松获取美股阿里巴巴的交易数据

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 野马 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自 ...

  4. 使用python获取美股行情数据

    使用python获取美股GME一月数据,包括开盘价.收盘价.最高价.最低价.成交量等 工具包:pandas_datareader 环境安装 pip install pandas_datareader ...

  5. 分享股票level2行情接口获取美股列表信息的代码

    主题:股票level2行情接口获取美股列表信息的代码 描述:获取美股列表信息 限量:单次最大6000,可分页提取 输入参数 名称 类型 必选 描述 示例 ts_code str N 股票代码 AAPL ...

  6. QXRService:基于高通QXRService获取SLAM Camera图像

    上一篇博文讲解了基于Snapdragon XR OpenXR SDK v1.x系列SDK怎么进行QXRService实战开发,以及通过QXRService相关API如何获取到头显位姿和IMU数据. 这 ...

  7. 美股日志|三大股票指数升金价重上1800

    财经365(www.caijing365.com)7月8日讯:7月7日(星期三)市况 美股日志|三大股票指数升金价重上1800 一.来看下美股最新行情 l道琼斯指数收市报34,681.79点,升104 ...

  8. matlab获取目录中图像名称及路径的递归实现

    一个matlab获取目录中图像名称及路径的递归实现~ matlab源文件 getImageList.m [c-sharp] view plaincopyprint? function [ imageL ...

  9. 【汇总】 美股开户方法 、 美股开户攻略 、 美股开户流程 、 美股教程

     美股开户]   这些都是关于美股开户的高质量的帖子.初学者可以把每一个都详细的看看. 1:雪球小秘书sherry介绍的美股开户方法          [ 2013-05-24 发布 ]     ...

最新文章

  1. Javascript_初学第1天
  2. Windows内核实验004 API调用
  3. Linux系统调用相关概念
  4. 51CTO交流摘录(1):SOC的定义、适用性和组成
  5. jieba分词并做分析
  6. 高德 省市区 mysql_amap-district-data
  7. wechat.php+获取昵称,微信后台代码,获取用户昵称
  8. 结构体链表赋值与删除
  9. linux bootloader启动流程,技术|Linux 的启动流程详解
  10. 【系统分析师之路】第五章 复盘软件工程(开发模型开发方法)
  11. delphi备份Oracle,Oracle数据库自动备份工具(Delphi源码)
  12. 龙芯2F安装NetBSD
  13. 数字验证正则表达式大全
  14. Pixhawk-姿态解算源码注释
  15. iphoneX适配-客户端H5页面
  16. 给Testerhome测试小道消息做个硬广告
  17. from __future__ import unicode_literals
  18. 如何用Pytorch读取自己的数据集
  19. 03-鸢尾花分类问题(120个样本的实验)
  20. Java 8计算两个日期之间的月份

热门文章

  1. c/c++教程 - 1.6 程序流程结构 if switch do while for break continue goto ?:三目运算符
  2. IDEA+SpringBoot+Dubbo在webapp下创建前端页面
  3. mysql5.7 之 sql_mode=only_full_group_by问题
  4. bzoj2438 luogu4819 [中山市选]杀人游戏
  5. fiddler之数据统计(statistics)
  6. 创造型模式-生成器模式
  7. 随机初始化(代码实现)
  8. 使用vim遇到的问题
  9. JS 实现 Tab标签切换功能
  10. 如何应对被地下的Oracle口令加密算法(2)