长微博识别—让图片里的文字走出来！

(来自文通杨晓伟)

长微博是通过图片发布文字信息的一种形式，起因是微博通常不得超过140字，故将文字转化为点阵图像发布。长微博最主要的作用是突破140字限制，但后来通过附带相应文字版本的链接演变为博客和长文章的入口。

由于长微博的引入，微博与生俱来的“碎片化传播”特征发生了明显变化。迎合“快餐文化”而出现的微博，通常将字数限制在140字，使得信息“碎片化”，进入日常生活的“边角”时间。而长微博则非常成功地将博客的功能集成到微博中，使得微博用户时常通过长微博或者其附带的博客链接阅读长文。长微博的引入使得博客和微博的联系更加紧密，区别更小，并相互促进——“话题构造在博客空间，而舆论发酵却在微博平台”。用户通过长微博或博客更充分地消化信息，而通过微博发表观点，将更多人引入话题的讨论。

互联网时代人人都是自媒体，人人都有麦克风，5.91亿的中国网民都在通过论坛、贴吧、微博、SNS、博客等网络平台发表言论，参与交流，汇集成网络民意，形成网络舆论。在经过2012年网络监督年、2013年微博反腐年等一系列的网络事件，各政府及企业越来越关注网络舆情动态。

但是长微博和普通的论坛、贴吧有本质的区别，因为长微博是通过图片发布文字信息。这也就意味着对于长微博内容的分析不可能像对于论坛帖子一样，无法做到直接把文字拿来分析。

文字信息存放在图片里，这一致命的缺点，导致了长微博成为某些不法分子危害网络的不良工具。

传统的网络舆情监测系统，只能针对网络上的文字来进行抓取、分析、筛选、判断。一旦遇到长微博这种图片类型的内容，只能望洋兴叹！无法获取图片里的文字信息，就无法正确判断图片带给网络到底是利还是弊。只能放任一些携带违法内容的图片流窜于网络，危害网民。

长微博让人们享受生活“边角时间”带来的速食文化，这毫无疑问是大有好处的。但是那些网络不法分子，一旦利用长微博发布一些危害国家、人民和社会的不良内容。让暴力、色情、犯罪这些违反人伦道德的内容肆虐在网络上，人们被迫的耳濡目染，让那些没有分辨是非能力的青少年接受负面的教育影响，带来的后果是致命的，灾难性的。所以我们要做的就是确保收到的每一条长微博，都是要干净的、都是要健康的。

最核心也是最关键的一步工作，就是要正确识别长微博里的文字内容。做到这一步，我们就可以像分析论坛里的帖子一样，对图片做出正确的判断，究竟是放行还是枪毙！

OCR文字识别技术在这个节骨眼上发挥了巨大的作用。

长微博生来各不相同，背景的颜色五花八门，图文混排，文字在图上，形形色色的长微博充斥在我们的网络世界当中，想要把长微博中的文字识别出来难上加难。

清华大学图文实验室，从国家863计划开始，一直致力于图像文字识别，也就是OCR识别技术。在丁晓青教授的带领下，目前终于攻克了长微博这种复杂背景图片的上的文字识别。在和北京文通科技有限公司的强强合作下，成功把这一识别技术应用在舆情监测的领域，造福了网络世界。让那些污染我们眼睛和心灵的垃圾长微博被扼杀在萌芽之中。

这款长微博识别系统，不仅能对长微博有效的进行版面分析，精确定位到文字内容，而且可以很好的进行二值化处理，把文字内容识别出来，让长微博内容的监测不再有技术门槛。

Inernet自从面世以来，就备受争议。我们应该自觉的维护网络世界，还网络世界一片净土。拒绝传播不良的图文信息。当然如果有人不自觉的想以身试法，那我们就应该拿出OCR识别技术这样的利器来维护我们的权益，让危害无处藏身。

保护地球，人人有责。同样，保护我们虚拟的网络世界，同样刻不容缓。

北京文通科技有限公司相信，在清华大学技术的带领下，我们一定能把OCR技术推广到各行各业，让技术服务于社会，让OCR技术绽放异彩！

长微博识别—让图片里的文字走出来！相关推荐

Python PDF转Word,以及提取Word中图片里的文字
PDF转Word,以及提取Word中图片里的文字 PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除软件截图: #!/usr/bin/ ...
图像 - 识别出图片里的数字和字母
本文给大家分享的是C#识别出图片里的数字和字母的代码,主要是识别以前公司的软件注册码截图里的数字和字母,功能很简单,也存在很大的局限性,这里仅仅是分享,小伙伴们参考下. 一个图片识别小工具,原先主要是 ...
怎么从扫描的PDF文档/图片里提取文字
时间浪费在打字上可不好! 关于"怎么从扫描的PDF文档/图片里提取文字",我集思广益,得到如下结果: 首先是这里的一篇文章:http://hi.baidu.com/d_zzn047 ...
初次爬虫：读取PDF转成图片，再提取图片里的文字信息
读取PDF转成图片,再提取图片里的文字信息三步走第一步读取PDF并转换成图片第二步调用百度API来识别图片里面的文字信息第三步提取自己想要的文字信息三步走 1 读取PDF,将PDF转换 ...
如何快速识别提取图片上的文字
我们在日常工作中,我们经常会遇到将图片上文字转换成Word文档这样的情况,要知道, 图片上的文字是不能直接复制的,这是一件令人头疼的一件事情.那么要怎样才能快速的提取这些图片的文字呢? 快速识别提取 ...
php网页怎么修改文字内容,图片里的文字怎么修改
修改图片里的文字方法:首先使用画图打开,点击编辑:然后点击橡皮擦工具,并点击颜色选取器,吸取原来的颜色:最后点击[A]输入字体即可. 本文操作环境:Windows7系统,mspaint6.2软件,De ...
图片里的文字如何提取？试试这几种提取方法
最近收到了一些小伙伴的私信,他们收到了对方发送过来的图片,觉得图片上的文字信息比较重要,但是又不知道有什么快速的方法能提取到图片中的文字.平时你们遇到这种情况会怎么做呢?今天我给大家分享几个可以将 ...
python向图片里添加文字
#!/usr/bin/python #-*-coding:utf-8-*- from PIL import Image,ImageDraw,ImageFontdef main():#python创建图 ...
python数据分析水果_超酷炫的事情，使用python识别出图片里的水果
文章首发于公众号 coolpython 机器学习是计算机视觉已经成为一种热潮,但进入该领域却是一件非常困难的事情,因为这需要非常扎实的数学背景,其所需要的专业知识,即便是大学本科毕业也近乎难以满足. ...

长微博识别—让图片里的文字走出来！

长微博识别—让图片里的文字走出来！相关推荐

最新文章

热门文章