图像智能处理黑科技,让图像处理信手拈来

  • 0. 前言
  • 1. 图像智能处理简介
  • 2. 图像切边增强
  • 3. PS 检测
  • 4. 图像水印去除
  • 5. 图像矫正
  • 6. 图像去屏幕纹
  • 7. 调用图像智能处理 API
  • 小结

0. 前言

计算机视觉 (Computer Vision, CV) 通过研究如何令机器“看懂”世界,构建从图像中获取信息的人工智能系统,是人工智能领域的一个重要分支。计算机视觉具体而言是指,利用计算机代替人眼对目标进行识别、跟踪和识别等,通过对图像进行处理,使其更适合人眼或计算机检测。因此,图像智能处理技术在计算机视觉中发挥着重要作用。

1. 图像智能处理简介

图像智能处理是指利用计算机对各种复杂应用场景的图像进行自动化处理和分析,是计算机视觉领域中重要的技术领域。通过为机器视觉系统添加图像智能处理功能,等于为机器安装上了智能的“眼睛”,令机器看得清、看得懂,以接近甚至超越人眼的能力执行分析与处理任务。
但是,如所有计算机技术一样,作为一门实践性很强的学科,我们不必要从头开始“造轮子”,本文的目标是令我们能够将图像智能处理快速集成到项目开发中,从而专注于使用这些工具创造新价值。
合合信息是行业领先的人工智能集大数据科技企业,通过在智能文字识别和商业大数据领域的积累的优势,提供了行业领先的计算机图形图像技术,其研发的智能图像处理引擎提供多种图像智能处理黑科技,例如图像切边增强、PS 检测、图像水印去除以及图像矫正等,还有更多图像智能处理黑科技,可以参考合合信息官网。其解决了影像采集不规范问题,能够极大的优化影像质量,为项目后续的图像处理奠定基础。


本文将带领大家一窥合合信息图像智能处理的主要黑科技技术,并通过示例演示如何将其应用于实际的项目实践中。

2. 图像切边增强

文档数字化是保存文献、文档的一种重要方式,随着移动摄像头日益增多,拍摄物理文档成为一种便捷的文档扫描方式,拍摄完成后,可以对图像进一步进行处理,实现内容分析和信息提取。但文档拍摄由于弯曲、旋转、折叠,或者位于复杂背景之上导致扫描结果并不理想,如下图所示。

目前,较为先进的模型采用 U-Net 作为基础模型,它使用全卷积网络作为主干网络,并包含一系列的下采样层和上采样层,网络架构如下图所示。

获取带有标签的海量数据是深度监督学习面临的首个挑战。为训练网络,我们使用大量具有不同扭曲程度的文档图像及相应的变形图像作为输入,但这些数据集难以获取,为了获取真实的变形标签图,需要使用平整文档进行随机扭曲合成数据集。

图像切边增强是指令计算机智能判断照片中主体文档的边缘进行切边,同时增强图像突出文字,支持识别背景复杂的文字内容,返回文字信息及文字的位置信息、行置信度、单字符内容和位置等,体验地址:合合信息图像切边增强。


通过以上结果可以看出,图像切边增强不仅可以可以裁切图像主体区域,同时也能够对主体区域的图像质量进行增强,既能更好的对主题区域进行展示,还能够提高下游任务( OCR 识别、信息识别等)的准确率,在票据识别、文本转录等场景下具有很高的实用价值。

3. PS 检测

PS 作为一款图像处理软件,图像处理效果十分精确,其这一特点不仅为我们的生活提供了极大的便利,也会被“有心之人”利用,例如伪造发票、请假条等。
图像 PS 痕迹检测可以使用视觉线索和压缩伪影两种依据来判断图像是否被篡改:视觉线索即像素之间的关系;而压缩伪影特指 Jpg 压缩所用的 DCT 矩阵。以下网络架构是一种多分辨率融合网络,其融合了多个尺度的特征,可以利用图像的低维特征,对于图像 PS 痕迹检测具有极大优势。

基于行业领先的自研篡改检测系统,合合信息的 PS 检测系统可判断图片是否被篡改,支持身份证、护照、行驶证、驾驶证、港澳通信证等证照类别,及增值税发票、普通发票、小票、合同等文档类别,让一切伪造凭证无所遁形,体验地址:合合信息 PS 检测。


在上图中,可以看出即时对于人眼而言无法察觉的微小 PS 修改痕迹,利用合合信息的 PS 检测系统的“火眼金睛”仍然可以准确的让其原形毕露。

4. 图像水印去除

图像凭借其直观、易生产、传播成本低的特点在诸多信息的传播方式中成为了互联网信息传播的首选方式,而图像水印作为图像版权保护的重要方式在互联网中得到了极为广泛的应用。但是,作为用户,有时过度叠加的水印对我们的冲浪体验造成了极大的不便,相信许多小伙伴都在网上见过叠加了一层又一层水印的图片,并对其深恶痛绝。


图像水印去除问题可以看作是一个从图像到图像的转换问题,即将带水印的图像转换为无水印的图像。我们同样可以基于全卷积网络来搭建图像水印去除模型,以实现这种图像到图像的转换。以下全卷积网络的输入是带水印的图像区域,经过多层卷积神经网络处理后输出无水印的图像,网络模型的目标是令网络输出的无水印图像能够和原始的无水印图像尽可能的接近。

合合信息图像水印去除支持对图片中日期、logo、文字等形式的水印进行自动擦除,确保高保真处理,无痕还原图片素材,体验地址:合合信息图像水印去除。

可以看到水印去除的效果超出预期,即使是图像中的色彩以及细小的线条都可以得到完好的保留,而不是简单的对水印进行淡化涂抹,而且水印去除功能还支持去除 pdf 格式的文件,这对于大多数用户而言简直是福音,再也不用打印出带有浓厚颜色甚至影响阅读的电子版课件了。

5. 图像矫正

在日常生活与工作中我们通常使用纸质文档承载大量有用的信息,随着移动智能手机、便携相机等设备的逐渐普及,我们通常通过拍照实现纸质文档的数字化。文档数字化实现了纸质文档的存档、检索、共享、识别与分析等处理,为我们日常的工作与生活带来了极大的便利。但由于相机的姿态、文档放置状态、文档自身变形等不确定因素,在使用移动设备采集文档照片时会出现角度和弯曲变形,这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响,因此需要进行一定的变形矫正处理。


针对现有用于图像矫正深度学习模型空间泛化性差、模型参数量大、推理速度慢等问题,目前一般采用轻量化文档姿态估计网络,用于透视变形文档图像的姿态估计处理,称之为 DPENet (Document Pose Estimation Network)。利用 DPENet 网络将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视作文档对象的四个姿态估计点,结合当前主流的姿态估计模块 DSNT 实现了文档图像角点的高精度定位,并通过透视变换处理实现了透视变形的高精度矫正处理。

合合信息图像矫正可以智能定位图像中文档主体的边缘,并进行背景切除 (文档提取),对形变文档进行矫正,主要包括角度矫正和弯曲矫正两种复杂的矫正,体验地址:合合信息图像矫正。


可以看到利用合合信息图像矫正功能能够将图像恢复至正面垂直拍摄的效果,解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。

6. 图像去屏幕纹

智能手机,数码相机等设备为我们提供了快速记录信息的机会,已经逐渐成为人们日常生活中必不可少的工具。但是,使用数码相机拍摄数字屏幕时会在照片中会出现令人反感的屏幕纹。屏幕纹的存在不仅严重降低了图像的质量,并且也会影响到我们后续的分析和处理。


同时,由于屏幕纹对重复结构的轻微变换具有极度敏感性,因此图像结构的多样性导致屏幕纹也具有复杂性和不规则性,屏幕纹的消除一直以来都是具有极具挑战性的任务。传统高斯、双边等滤波方式对屏幕纹的抑制效果不佳,而专门针对屏幕纹消除的工作目前仍然较少。不同于取噪点或去马赛克等图像修复问题,由于摩尔纹在频率、形状、颜色等方面的巨大变化,从被摩尔纹扰动的图像中恢复出原始干净图像仍然是一个未解决的问题。
针对这以问题许多研究试图通过多尺度设计来消除不同频段的摩尔纹。DMCNN 提出使用具有多分辨率分支的多尺度 CNN 处理摩尔纹图案,并对不同尺度的输出求和以获得最终输出;MDDM 通过引入基于动态特征编码器的自适应实例规范化改进了 DMCNN。而最新的 MopNet 则使用多尺度特征聚合子模块来处理复杂频率;同时在不同尺度之间采用渐进式上采样策略以平滑地提高分辨率。

合合信息图像去屏幕纹支持去除因拍屏幕产生的各种纹理(屏幕纹、摩尔纹),还原清晰真实图像,体验地址:合合信息图像去屏幕纹。


可以看到合合信息图像去屏幕纹功能能够高效的完成图像恢复任务,最大程度的恢复被屏幕纹污染的屏摄照片,能够去除所有样式的屏幕纹,并且能够保证图片细节信息完整,便于我们后续对图像进行进一步的分析。

7. 调用图像智能处理 API

感受了合合信息图像智能处理引擎的强大之后,我们当然迫不及待的想将其应用到项目实践中去,合合信息提供了丰富的图像智能处理 API,支持 curlJavaC#PythonPHPNode.js等多种编程语言,并且提供了详尽的 API 功能描述与使用示例,方便我们将其应用于项目中去。


Python API 为例,调用合合信息图像智能处理的代码非常简单方便:

import requests
import jsondef get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()class CommonOcr(object):def __init__(self, img_path):# 登录后前往 “工作台-账号管理-开发者信息” 查看 x-ti-app-idself._app_id = 'f5..................5e4'# 登录后前往 “工作台-账号管理-开发者信息” 查看 x-ti-secret-codeself._secret_code = '7...............4cafa'self._img_path = img_pathdef recognize(self):# 图片切边增强url = 'https://api.textin.com/ai/service/v1/crop_enhance_image'head = {}try:image = get_file_content(self._img_path)head['x-ti-app-id'] = self._app_idhead['x-ti-secret-code'] = self._secret_coderesult = requests.post(url, data=image, headers=head)return result.textexcept Exception as e:return eif __name__ == "__main__":response = CommonOcr(r'download.jpeg')print(response.recognize())

小结

依托于合合信息旗下强大的技术支撑,其研发的智能图像处理引擎不仅能够满足项目中常见的图像处理需求,同时其完善的文档支持也能够帮助我们快速部署应用高效的图像处理功能。本节中,介绍了合合信息图像智能处理的主要黑科技,包括图像切边增强、PS 检测、图像水印去除、图像矫正和图像取屏幕纹等,同时也了解了这些黑科技的重要特点,在今后的项目实践中可以根据实际需要合理选用,极大的提高应用程序的性能与效率。

图像智能处理黑科技,让图像处理信手拈来相关推荐

  1. 如何记录2秒内实现1800度转体+翻腾,百度智能云黑科技教你看懂跳水

    百度智能云与中国国家跳水队协同推进人工智能与体育跨界合作再进一步,正在为我国AI+体育的应用探索开拓一片新的大陆.4月22日,百度与中国国家跳水队举行合作启动仪式,百度智能云正式成为中国国家跳水队独家 ...

  2. 智能家居黑科技!首款3D人脸识别智能锁发布 搭载百度智能云函谷物联安全系统...

    随着AI在家庭场景中应用的普及与发展,智能锁逐渐成为智能家居的不可或缺的"门面担当",在满足消费者快捷和多样化需求的同时,如何保障家庭安全也成为被重点关注的问题.4月24日,德施曼 ...

  3. 多模态大模型时代下的文档图像智能分析与处理

    多模态大模型时代下的文档图像智能分析与处理 0. 前言 1. 人工智能发展历程 1.1 传统机器学习 1.2 深度学习 1.3 多模态大模型时代 2. CCIG 文档图像智能分析与处理论坛 2.1 文 ...

  4. 决策易贴心黑科技第2波,智能巡店更高效!

    许多医药代表在做门店拜访计划时,总会觉得今天路线安排非常完美,可以再多走几家计划外的门店了.然而现实总与预期擦肩而过,到了现场盘点检查已上架的产品时,出现名称难写易填错,漏点错点不在少数,小问题一大堆 ...

  5. AIGC时代,我们如何使用“黑科技”,解决图像信息安全

    前言 在当今社会,图像是信息传播和表达的重要方式之一.但是,随着技术的进步,人们可以轻松使用各种图像编辑软件来篡改.伪造图片,制造出看似真实但实际上虚假的场景. 这种现象无疑是给社会带来了一系列负面影 ...

  6. ModelArts黑科技揭秘|模型智能评估、诊断,让模型来个“体检

    摘要:华为云AI开发平台ModelArts黑科技加持AI研发,让模型开发更高效.更简单,降低AI在行业的落地门槛.全面的可视化评估以及智能诊断功能,使得开发者可以直观了解模型各方面性能,从而进行针对性 ...

  7. 智能足球、视频裁判之外,还有这些AI黑科技助力世界杯!

    这个夏天,最燃的莫过于让全球沸腾的世界杯.与往届世界杯不同的是,本次世界杯不仅各国球队在大秀实力,各种AI技术也花式秀出了存在感,甚至靠AI技术判罚而逆转局势的赛事频频发生,以至于很多强队爆冷,球迷们 ...

  8. 黑科技买菜时代到来?花样菜场结合人脸识别、智能结算技术开生鲜店

    近日,杭州城西丰潭路地铁站附近,悄悄开了家特殊的"菜场". 相比于传统的菜场,它看起来更像是一家精致的生鲜便利店,坐落在人来人往的街道旁,覆盖了两家商铺,500平米的面积包含了便利 ...

  9. 全时联手以色列黑科技 构建未来建筑的智能蓝图

    11月17日,北京唐韵山庄, 清华大学.华北电力大学等中国高等学府的教授, 来自中建股份.中国中铁.中国电建.中国铁建.中国中交.北京建工(集团).中建一至8局等建筑企业的近六十位信息化负责人,齐聚一 ...

  10. 智能投影的2014:今年它是一碗“杂碎汤”,明年我们期待黑科技

    2014年,智能投影设备作为一个视频垂直领域的硬件,亮点十足,表现抢眼,新用户有一种发现了新大陆的快感. 这里所说的智能投影设备,相对传统的商用投影来说,是完全针对家庭和个人的投影设备.在产品功能区分 ...

最新文章

  1. sap 实战 table
  2. java事件监听器无效_Java的事件监听器学习心得
  3. 射命丸文 (Standard IO)
  4. android studio 优化完以后开不了虚拟机,Android studio 打不开官方虚拟机 100%成功解决方法...
  5. linux服务器安装Mysql。看了几个教程,没装上,看这个一下就装上了。
  6. CPU中的Little Endian与Big Endian
  7. ubuntu之搭建http服务器apache2
  8. gatsbyjs 了解
  9. springboot全局异常处理_SpringMVC全局异常处理
  10. Visio绘制网络拓扑图
  11. 灰鸽子***猛增五百多变种 网民生活受***监控
  12. 计算机网络-----网络编程
  13. java 类型通配符_通配符类型
  14. python生成词云图、特殊图形_Python模块---Wordcloud生成词云图
  15. YOLOX安装部署使用训练教程以及报错
  16. 苹果手机温度测试软件,苹果手机测温神器上线啦!
  17. 【DevOps研发管理方案】一:方案简介
  18. HDOJ 4889 Scary Path Finding Algorithm 颠覆spfa slf优化
  19. 吉米_王:浅谈链表和顺序表
  20. 去除迅雷影音游戏弹窗

热门文章

  1. 超详细的LSA内容解析及SPF算法分析,一看就懂
  2. ttest函数使用方法_【Excel函数】TTEST函数 - 曹海峰个人博客
  3. 【机器学习】左逆、右逆、伪逆和广义逆的概念理解
  4. 在OpenCV里车牌识别的方法1
  5. 坐着童年纸飞机的C语言for循环!超好玩!超详细!
  6. jmeter--解决登录接口只执行一次和多接口依赖的问题(使用事务控制器和循环控制器)
  7. 微信公共号申请图文详解
  8. 服务器运行几年后搬迁,服务器搬迁之后的准备工作和应对
  9. T和T’触发器的特点和区别
  10. 一个真实的用户画像实例。