(来自文通 杨晓伟)

长微博是通过图片发布文字信息的一种形式,起因是微博通常不得超过140字,故将文字转化为点阵图像发布。长微博最主要的作用是突破140字限制,但后来通过附带相应文字版本的链接演变为博客和长文章的入口。

由于长微博的引入,微博与生俱来的“碎片化传播”特征发生了明显变化。迎合“快餐文化”而出现的微博,通常将字数限制在140字,使得信息“碎片化”,进入日常生活的“边角”时间。而长微博则非常成功地将博客的功能集成到微博中,使得微博用户时常通过长微博或者其附带的博客链接阅读长文。长微博的引入使得博客和微博的联系更加紧密,区别更小,并相互促进——“话题构造在博客空间,而舆论发酵却在微博平台”。用户通过长微博或博客更充分地消化信息,而通过微博发表观点,将更多人引入话题的讨论。

互联网时代人人都是自媒体,人人都有麦克风,5.91亿的中国网民都在通过论坛、贴吧、微博、SNS、博客等网络平台发表言论,参与交流,汇集成网络民意,形成网络舆论。在经过2012年网络监督年、2013年微博反腐年等一系列的网络事件,各政府及企业越来越关注网络舆情动态。

但是长微博和普通的论坛、贴吧有本质的区别,因为长微博是通过图片发布文字信息。这也就意味着对于长微博内容的分析不可能像对于论坛帖子一样,无法做到直接把文字拿来分析。

文字信息存放在图片里,这一致命的缺点,导致了长微博成为某些不法分子危害网络的不良工具。

传统的网络舆情监测系统,只能针对网络上的文字来进行抓取、分析、筛选、判断。一旦遇到长微博这种图片类型的内容,只能望洋兴叹!无法获取图片里的文字信息,就无法正确判断图片带给网络到底是利还是弊。只能放任一些携带违法内容的图片流窜于网络,危害网民。

长微博让人们享受生活“边角时间”带来的速食文化,这毫无疑问是大有好处的。但是那些网络不法分子,一旦利用长微博发布一些危害国家、人民和社会的不良内容。让暴力、色情、犯罪这些违反人伦道德的内容肆虐在网络上,人们被迫的耳濡目染,让那些没有分辨是非能力的青少年接受负面的教育影响,带来的后果是致命的,灾难性的。所以我们要做的就是确保收到的每一条长微博,都是要干净的、都是要健康的。

最核心也是最关键的一步工作,就是要正确识别长微博里的文字内容。做到这一步,我们就可以像分析论坛里的帖子一样,对图片做出正确的判断,究竟是放行还是枪毙!

OCR文字识别技术在这个节骨眼上发挥了巨大的作用。

长微博生来各不相同,背景的颜色五花八门,图文混排,文字在图上,形形色色的长微博充斥在我们的网络世界当中,想要把长微博中的文字识别出来难上加难。

清华大学图文实验室,从国家863计划开始,一直致力于图像文字识别,也就是OCR识别技术。在丁晓青教授的带领下,目前终于攻克了长微博这种复杂背景图片的上的文字识别。在和北京文通科技有限公司的强强合作下,成功把这一识别技术应用在舆情监测的领域,造福了网络世界。让那些污染我们眼睛和心灵的垃圾长微博被扼杀在萌芽之中。

这款长微博识别系统,不仅能对长微博有效的进行版面分析,精确定位到文字内容,而且可以很好的进行二值化处理,把文字内容识别出来,让长微博内容的监测不再有技术门槛。

Inernet自从面世以来,就备受争议。我们应该自觉的维护网络世界,还网络世界一片净土。拒绝传播不良的图文信息。当然如果有人不自觉的想以身试法,那我们就应该拿出OCR识别技术这样的利器来维护我们的权益,让危害无处藏身。

保护地球,人人有责。同样,保护我们虚拟的网络世界,同样刻不容缓。

北京文通科技有限公司相信,在清华大学技术的带领下,我们一定能把OCR技术推广到各行各业,让技术服务于社会,让OCR技术绽放异彩!

长微博识别—让图片里的文字走出来!相关推荐

  1. Python PDF转Word,以及提取Word中图片里的文字

    PDF转Word,以及提取Word中图片里的文字 PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除 软件截图: #!/usr/bin/ ...

  2. 图像 - 识别出图片里的数字和字母

    本文给大家分享的是C#识别出图片里的数字和字母的代码,主要是识别以前公司的软件注册码截图里的数字和字母,功能很简单,也存在很大的局限性,这里仅仅是分享,小伙伴们参考下. 一个图片识别小工具,原先主要是 ...

  3. 怎么从扫描的PDF文档/图片里提取文字

    时间浪费在打字上可不好! 关于"怎么从扫描的PDF文档/图片里提取文字",我集思广益,得到如下结果: 首先是这里的一篇文章:http://hi.baidu.com/d_zzn047 ...

  4. 初次爬虫:读取PDF转成图片,再提取图片里的文字信息

    读取PDF转成图片,再提取图片里的文字信息 三步走 第一步 读取PDF并转换成图片 第二步 调用百度API来识别图片里面的文字信息 第三步 提取自己想要的文字信息 三步走 1 读取PDF,将PDF转换 ...

  5. 如何快速识别提取图片上的文字

    我们在日常工作中,我们经常会遇到将图片上文字转换成Word文档这样的情况,要知道, 图片上的文字是不能直接复制的,这是一件令人头疼的一件事情.那么要怎样才能快速的 提取这些图片的文字呢? 快速识别提取 ...

  6. php网页怎么修改文字内容,图片里的文字怎么修改

    修改图片里的文字方法:首先使用画图打开,点击编辑:然后点击橡皮擦工具,并点击颜色选取器,吸取原来的颜色:最后点击[A]输入字体即可. 本文操作环境:Windows7系统,mspaint6.2软件,De ...

  7. 图片里的文字如何提取?试试这几种提取方法

      最近收到了一些小伙伴的私信,他们收到了对方发送过来的图片,觉得图片上的文字信息比较重要,但是又不知道有什么快速的方法能提取到图片中的文字.平时你们遇到这种情况会怎么做呢?今天我给大家分享几个可以将 ...

  8. python向图片里添加文字

    #!/usr/bin/python #-*-coding:utf-8-*- from PIL import Image,ImageDraw,ImageFontdef main():#python创建图 ...

  9. python数据分析水果_超酷炫的事情,使用python识别出图片里的水果

    文章首发于公众号 coolpython 机器学习是计算机视觉已经成为一种热潮,但进入该领域却是一件非常困难的事情,因为这需要非常扎实的数学背景,其所需要的专业知识,即便是大学本科毕业也近乎难以满足. ...

最新文章

  1. [翻译] Shimmer
  2. 项目管理纵横谈(1)──项目的管理的目标
  3. spark on yarn任务提交及运行完整流程图
  4. 学习 WCF (5)--学习Binding的使用
  5. MyEclipse导入jquery-1.8.0.min.js等文件报错的解决方案
  6. javaScript高程笔记--最佳实践
  7. 跳台阶游戏(洛谷P5613题题解,Java语言描述)
  8. Grunt-Kmc基于KISSY项目打包
  9. Idea导入maven工程,并运行
  10. Android系统各版本号及代号
  11. Golang入门教程(九)复合数据类型使用案例二
  12. 通过界面上传jar包到maven Nexus私服
  13. 使用jquery 给span 赋值
  14. How to study Watir?
  15. Linux下的帮助命令
  16. 【Unity面试】 Unity基础核心 | 面试真题 | 全面总结 | 建议收藏
  17. 软件测试常见面试题目(1)pareto法则,帕累托法则,28杀虫剂怪事,木桶原理,Good-enough原则群集效应,测试与调试的区别,QA以及职责,测试工程师和软件质量保证的,测试提交的缺陷开发人员
  18. Python股票基金数据分析 爬虫 基金对比 Django框架 数据可视化
  19. graphpad导出图片不居中_Graphpad如何导出期刊所需图
  20. 58同城架构师谈:亿级流量架构演进

热门文章

  1. 又到4.1,洋人的节气,看看咱中国的黄历吧~
  2. ArcGIS 对等高线进行标注
  3. 1.无忧考吧———计算机等级考试系统
  4. 「C/C++」有手就能学会系列——经典俄罗斯方块
  5. 箱包卖家私域流量案例:售后卡+短信实现一周8000+精准客户沉淀!
  6. Excel——(分列)实施智能化选择
  7. Aptos、Solana和新公链周期律
  8. 成功是一件很容易的事
  9. 每次重启机都会出现‘电脑关机是因为发生了问题
  10. 基于百度AI语音合成,使用python编写的语音朗读工具