『方案』《女友十年精华》 ORC 图片 文字识别 详解
2008年,遇到一本电子书 《女友十年精华》
觉得很美,想 私藏 这些文章:
>网络搜索文章 —— 没有找到;
>反编译程序 —— 所有文字 都是图片格式(部分文章的 非规律乱码 即为证明,且试用 Adobe Director 反编译 确是图片无疑)
>总计 310篇文章 —— 如何降低 工作复杂度 得到 文本格式的文章?
最后方案:
>写区域截屏软件,将一篇文章 截成多图 (图片文字行 有重复);
>过滤 文章多图 的背景图片(背景图片 会干扰 ORC 的准确率);
>将 文章多图 拆解为 每一行文字一个图片(会有图片文字重复);
>识别 单行文字图片 的 段落起始 和 段落结束;
>识别 单行文字图片,ORC 转换为 文字;
>将 识别后的 文字恢复 段落起始 和 段落结束(当前行文字 抬头空两格,下一行文字 另开段落);
>遍历 识别后的文字行,过滤 重复行;
>最后将文本格式化,把本该属于 一个段落的 取消换行。
看图说话:
>原始运行程序界面
>截屏软件
>图片分析,过滤背景
>拆解单行(前后的 “哈哈哈哈哈”,只是为了 保留 段落格式)
>ORC 图片文字,过滤重复行。(略)
>复原完整 文章图片(无用操作)
>识别最后文本:
>格式化 段落(即为 最后的文本)
>将 文字 转为 HTML (最后使用的格式)
至此结束:
>相关源码 写的很糟糕,各位园友似乎也用不到 ORC(就不开源 啦 —— 需要源码的 再联系我);
>ORC 效果最好的 是 Office 2007(2010 应该也不错)
需要补丁 office2007sp1-kb936982-fullfile-zh-cn.exe 和 office2007sp2-kb953195-fullfile-zh-cn.exe
>不想要 源码,只想要 数据库 的 也可以 再联系我;
舒小龙
2014-07-13 12:02
附上源码下载:http://www.shuxiaolong.com/DoAjax/DownloadHandler.ashx?Number=5IBADAP0MRC
转载于:https://www.cnblogs.com/shuxiaolong/p/20140715_1348.html
『方案』《女友十年精华》 ORC 图片 文字识别 详解相关推荐
- Android笔记(二十):写一个图片文字识别SDK给自己用
背景 市面上文字识别大多需要开通会员才能使用,所以决定自己封装一个sdk出来,供后面开发扫描类app提供便捷工具 效果 SDK API 初始化 需进行初始化才能使用sdk EasyOcrSDK.get ...
- 吴恩达《机器学习》第十八章:图片文字识别OCR
文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...
- 安卓判断服务器返回的状态码,关于服务器返回的十四种常见HTTP状态码详解
原标题:关于服务器返回的十四种常见HTTP状态码详解 HTTP状态码 状态码是由3位数字和原因短语组成的(比如最常见的:200 OK),其中第一位数字表示响应类别,响应类别从1到5分为五种 add:其 ...
- 【正点原子Linux连载】第三十五章 Linux内核顶层Makefile详解 -摘自【正点原子】I.MX6U嵌入式Linux驱动开发指南V1.0
1)实验平台:正点原子阿尔法Linux开发板 2)平台购买地址:https://item.taobao.com/item.htm?id=603672744434 2)全套实验源码+手册+视频下载地址: ...
- 深度学习之图像分类(十九)-- Bottleneck Transformer(BoTNet)网络详解
深度学习之图像分类(十九)Bottleneck Transformer(BoTNet)网络详解 目录 深度学习之图像分类(十九)Bottleneck Transformer(BoTNet)网络详解 1 ...
- Redis(十)——HyperLogLog 基数统计和 Bitmap位图场景详解
文章目录 Redis(十)--HyperLogLog 基数统计和 Bitmap位图场景详解 1.HyperLogLog 基数统计 2.Bitmap位图场景详解 Redis(十)--HyperLogLo ...
- 十大经典排序算法-快速排序算法详解
十大经典排序算法 十大经典排序算法-冒泡排序算法详解 十大经典排序算法-选择排序算法详解 十大经典排序算法-插入排序算法详解 十大经典排序算法-希尔排序算法详解 十大经典排序算法-快速排序算法详解 十 ...
- 【Unity3D-UGUI系列】(十二)ScrollView 滚动视图组件详解
推荐阅读 CSDN主页 GitHub开源地址 Unity3D插件分享 简书地址 我的个人博客 QQ群:1040082875 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有 ...
- 十大经典排序算法-归并排序算法详解
十大经典排序算法 十大经典排序算法-冒泡排序算法详解 十大经典排序算法-选择排序算法详解 十大经典排序算法-插入排序算法详解 十大经典排序算法-希尔排序算法详解 十大经典排序算法-快速排序算法详解 十 ...
最新文章
- 空标签作为占位符调整距离
- 写SpringBoot项目的时候,报错Ordinal parameter not bound
- BeautifulSoup库使用
- java 开发注意项_JAVA开发注意事项集锦
- CPU:别再拿我当搬砖工!
- gg 修改器游戏被保护_GFX画质修改器120帧下载
- pip mysql_config not found_pip安装mysql-python出现mysql_config not found错误
- 中国34个省级行政区2000年-2021年逐月1km植被指数NDVI栅格数据处理及下载
- 最稳定的IDM6.35版本分享
- 工作流引擎的流程业务表设计
- 红米note3android版本,小米-红米note3-LOS-安卓9.0.0-稳定版Stable3.0-来去电归属-农历等-本地化增强适配...
- 阿里云服务器一年价格
- 秋冬易感冒着凉 风寒感冒9大食疗方
- 安装uwsgi 报错 是什么原因??
- 安装pip、pip3
- 一个例子彻底弄懂python中的break和continue语句(Python经典编程案例)
- 刚入职一个月的程序猿
- 找实习的一些感悟(图像算法转大数据)——女孩也能干开发
- Hadoop YARN中 VCores used 与 VCores Avail 数量不相符, YARN WebUI中显示的VCores数不对
- c语言带进位循环左移,带进位循环左移指令.ppt
热门文章
- 华为鸿蒙是安卓9,鸿蒙“翻车”了?网友发现全新的鸿蒙系统居然是安卓9.0,华为骗我们?...
- [转]齐善鸿:职业心智训练与管理教育
- Aspen Plus教程-孙兰义-例7.1-质量分数求解摩尔回收率
- 使用微信小程序怎么用wx.storage来实现收藏功能?
- 实现一个文字识别(图片转文字)工具
- 博士入坑必读教材-A-Z博士(PhD)顺利毕业必读指南
- halcon裁剪图像_【Halcon】Halcon学习之七:改变图像的现实方式和大小
- 15、ESP-MESH组网
- 2010中国互联网哈哈榜
- 实现一个简易的富文本编辑器(二):给富文本添加自定义事件