OCR (Optical Character Recognition ),即光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。简单的来说,OCR技术就是可以把图片上的文字识别出来,并以文本格式的形式提取出来。
    该技术已广泛应用于生活中。比如很多翻译软件都有的拍照翻译功能,就利用了该技术。这里尝试使用百度OCR接口实现Android拍照识别文字功能。

请求模块定义

    这里以网络api的方式来进行识别。涉及到的技术有 retrofit+rxjava 进行网络请求,Android应用动态权限的申请,FileProvider,图片的base64转码,以及热门的MVP框架。

项目结构:

    module目录下存放的是MVP架构的三个模块,bean目录下存放的是网络请求返回的数据类型,apiservice中存放的是retrofit有关网络请求的接口。

根据百度官方的请求方法定义接口方法:

    /*** 通过图片,获取图片内的文字信息* @param accessToken 通过API Key和Secret Key获取的access_token* @param image 图像数据base64编码后进行urlencode后的String* @return  observable对象用于rxjava,从RecognitionResultBean中可以获得图片文字识别的信息*/@POST("rest/2.0/ocr/v1/general_basic")@FormUrlEncodedObservable<RecognitionResultBean> getRecognitionResultByImage(@Field("access_token") String accessToken, @Field("image") String image);

    该方法中,第一个参数是access_token(需申请百度文字识别的开发者资格,得到API key和Secret Key后获取),第二个参数则是String类型,这个参数是在本地将图片base64转码之后生成。

    这些参数以POST的形式发送,按照百度OCR api 的要求,使用@FormUrlEncode注释。这里使用@Field的方式将参数加入请求体。可以看到Observable中的是RecognitionResultBean类型,从里面拿到服务器返回的文字识别信息。

定义好之后便可以构造retrofit对象进行调用。

 Retrofit retrofit = new Retrofit.Builder().baseUrl("https://aip.baidubce.com/").addConverterFactory(GsonConverterFactory.create()).addCallAdapterFactory(RxJava2CallAdapterFactory.create()).build();baiduOCRService = retrofit.create(BaiduOCRService.class);

rxjava+retrofit 在接口方法中的具体实现:

  @Overridepublic void getRecognitionResultByImage(Bitmap bitmap) {String encodeResult = bitmapToString(bitmap);baiduOCRService.getRecognitionResultByImage(ACCESS_TOKEN,encodeResult).subscribeOn(Schedulers.io()).observeOn(AndroidSchedulers.mainThread()).subscribe(new Observer<RecognitionResultBean>() {@Overridepublic void onSubscribe(Disposable d) {}@Overridepublic void onNext(RecognitionResultBean recognitionResultBean) {Log.e("onnext",recognitionResultBean.toString());StringBuilder s = new StringBuilder();List<RecognitionResultBean.WordsResultBean> wordsResult = recognitionResultBean.getWords_result();for (RecognitionResultBean.WordsResultBean words:wordsResult) {s.append(words.getWords());}mView.updateUI(s.toString());}@Overridepublic void onError(Throwable e) {Log.e("onerror",e.toString());}@Overridepublic void onComplete() {}});}

接口要求的参数类型为String,所以要对图片进行base64转码,转码方法:

    private String bitmapToString(Bitmap bitmap){ByteArrayOutputStream baos = new ByteArrayOutputStream();bitmap.compress(Bitmap.CompressFormat.JPEG, 100, baos);byte[] bytes = baos.toByteArray();return Base64.encodeToString(bytes, Base64.DEFAULT);}

    调用此方法,便可以把图片类型转化成字符串类型。之后再对网路接口调用之后的回调方法进行定义。在调用成功后的onNext操作中,可以得到RecognitionResultBean类型参数。这个参数里含有图片所包含的文字信息,这里将所有文字取出,用StringBuilder连接成一个新的字符串返回View层。

相机功能调用

首先在AndroidManifest清单文件中写明需要用到的权限(网络请求权限、数据的读取和存取权限以及相机权限):

    <uses-permission android:name="android.permission.INTERNET" /><uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/><uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE"/><uses-permission android:name="android.permission.CAMERA"/>

调用相机功能的代码如下:

 private void takePhoto(){if (!hasPermission()) {return;}Intent intent = new Intent();intent.setAction(MediaStore.ACTION_IMAGE_CAPTURE);String path = Environment.getExternalStorageDirectory().getAbsolutePath() + "/img";if (new File(path).exists()) {try {new File(path).createNewFile();} catch (IOException e) {e.printStackTrace();}}String filename = new SimpleDateFormat("yyyyMMdd_HHmmss").format(new Date());mTmpFile = new File(path, filename + ".jpg");mTmpFile.getParentFile().mkdirs();if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.M) {String authority = getPackageName() + ".provider";imageUri = FileProvider.getUriForFile(this, authority, mTmpFile);} else {imageUri = Uri.fromFile(mTmpFile);}intent.putExtra(MediaStore.EXTRA_OUTPUT, imageUri);startActivityForResult(intent, CAMERA_REQUEST_CODE);}

调用相机之后重写onActivityResult方法,对返回拍照结果进行处理:

    @Overrideprotected void onActivityResult(int requestCode, int resultCode, Intent data) {if (requestCode == CAMERA_REQUEST_CODE) {if (requestCode == RESULT_OK){Bitmap photo = BitmapFactory.decodeFile(mTmpFile.getAbsolutePath());mPresenter.getRecognitionResultByImage(photo);imageView.setImageBitmap(photo);}}}

这样拍照成功的话,照片就将作为参数传递给之前定义好的接口方法,调用进行图片文字识别。等服务器成功返回识别结构之后,就会调用VIew层的updateUI,更新textview显示识别结果。

作者:吴越

原文链接

Android基于百度OCR识别图片中的文字相关推荐

  1. 使用百度云识别图片中的文字(二):获取图片中的文字

    使用百度云识别图片中的文字(二):获取图片中的文字 上一篇文章中提到怎样获取access_token.此篇文章就是通过access_token来识别图片中的文字. 先来看看:官方的介绍吧: 本文档主要 ...

  2. ai图像识别python的项目_Python3调用百度AI识别图片中的文字功能示例【测试可用】...

    本文实例讲述了Python3调用百度AI识别图片中的文字功能.分享给大家供大家参考,具体如下: 首先pip install命令安装baidu-aip模块,如下图所示(这里使用pip3 install ...

  3. ubuntu+python+百度AI识别图片中的文字

    获取百度AI调用的 ID 和 key 打开百度AI官网:https://ai.baidu.com/ 点击控制台-登录账号-产品服务-图像识别-创建应用,勾选需要的服务(图像服务已默认全都选上, 此时我 ...

  4. 使用飞桨OCR识别图片中的文字

    飞桨是源于产业实践的开源深度学习平台 安装 python -m pip install paddlepaddle-cpu==2.3.1 -i https://mirror.baidu.com/pypi ...

  5. python图片识别是否p过_python 基于百度aip库 实现识别图片中的文字

    最终效果 1. 实现环境 win10系统 + pycharm社区版 + anaconda3 2. 实现步骤 step 1. 安装baidu-aip库 step 2. 进入百度ai官网 http://a ...

  6. C# pdf 转图片 and 创建百度AI文字识别应用(识别图片中的文字和数字)

    /// <summary>/// pdf 转图片/// </summary>public static void Turnpicture(){string str = &quo ...

  7. android智能识别技术,基于Android平台的OCR识别技术研究与实现

    摘要: 随着智能手机市场的迅猛发展和普及,Android成为所占市场份额最高的手机操作系统,与此同时,人们希望在手机终端享受更丰富舒适的应用功能.将OCR和Android智能终端相结合,依托光学字符识 ...

  8. OCR如何识别图片中的文字?

    生活处处可见OCR的身影,OCR如何识别图片中的文字?OCR文字识别技术其实很简单,但还是有很多人不会,这里分享一个方法给大家. 1.首先要在百度或者下载站去搜索捷速OCR文字识别软件,熟悉操作后接着 ...

  9. android集成百度OCR实现身份证、银行卡、营业执照等识别

    声明:申请步骤账号这一块比较懒,直接借用了[大千世界小书童] 大神的原图,有想看大神的可以直接去看,地址:www.jianshu.com/p/a9b5d8b22- 第一步:先登录百度智能云 image ...

  10. python调用qq识别图片文字_Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解...

    百度OCR体验地址: 腾讯OCR体验地址: 测试结果是:腾讯的效果要比百度的好 腾讯云目前额度是: 每个接口 1,000次/月免费,有6个文字识别的接口,一共是6,000次/月 百度接口调用之前写过文 ...

最新文章

  1. linux中文系统装offci,Ubuntu 14.04 LTS中安装fcitx中文输入法的教程
  2. 使用Apache反向代理实现全能主机的搭建
  3. java 获取md5值报错_java获取文件的MD5值
  4. Scikit-learn数据预处理分类变量编码之标签二值化
  5. 【Python数据结构】 抽象数据类型 Python类机制和异常
  6. 深入了解React组件重新渲染的条件和生命周期
  7. 飞凌开发板 cramfs 镜像文件修改
  8. 四周年了,谈谈一个程序员的职场心得
  9. 《Linux操作系统原理》教学大纲
  10. 如何从商业模式画布中看到自己的优势?
  11. 【深度好文】二维图像傅里叶变换 YYDS
  12. 2021碳纤维山地车哪个牌子好世界10大顶级自行车品牌排行榜
  13. Node-RED中建立Websocket客户端连接
  14. 车联网技术 应用场景 各个领域方向(大方向分析)
  15. 400错误可能的原因
  16. C语言系统程序总体框图,c语言学生成绩管理系统(含源代码)精要.doc
  17. 51单片机学习笔记-1简介及点灯
  18. HTML5期末大作业:京东网站设计——仿2016版京东首页(1页) HTML+CSS+JavaScript 大学生网页作品 电商网页设计作业模板 学生网页制作源代码下载
  19. 高速下载某盘文件方法
  20. 2019中山纪念中学夏令营-Day4[JZOJ]

热门文章

  1. 弹出确认提示框,确定,取消
  2. c语言更正错误,c语言出错invalid operands to binary %
  3. 拨开历史的迷雾从篡夺者战争到五王之战的政经原因
  4. 『词向量』用Word2Vec训练中文词向量(一)—— 采用搜狗新闻数据集
  5. 第六章-博弈论之Stackelberg博弈
  6. Python:利用Entrez库筛选下载PubMed文献摘要
  7. leetcode845. 数组中的最长山脉
  8. 微信小程序与普通网页区别
  9. 安卓手机投屏到win10电脑
  10. jd_seckill 使用记录