利用文字技术帮助选购商品,慧眼“识”物的人都这样做……
摘要:现如今市面上产品越来越多元化,但是作为消费者的我们该如何抉择,怎样查询哪些商品是好是坏呢?随着智能化时代的来临,识别技术已经融入在日常生活中,我们应该怎样利用文字识别技术应用到我们生活当中并帮助我们查询选择商品呢?本次博客将从产品国家标准号的数据收集整理成库,以及在ModelArts上通过建立OCR来完成对于某品牌酸奶产品国家标准号的识别以及相应的查询。
1、爬虫收集数据
本次分享活动案例主要目的在于结合产品的标准号和标准号所包含的具体信息进行查询,所以我们需要对产品的标准号信息数据进行提前条件的收集与整理。然而基于目前标准号数据量十分庞大,本次分享活动只针对国家标准号进行了相应的数据收集和整理,并共收集到9620条国家标准号信息。后续我们也会更进补充包括地方标准号在内的尽可能多的标准信息。当然,如果后续还有任何信息不足,欢迎各位进行补充。
接下来本文将从具体的实际操作部分来讲解本次案例。
首先是在众多标准号公开网站上找到标准号的信息并且对应收集整理成数据库的格式。这里我们选择了一个网站,利用爬虫程序先将国家标准号收集,并整理建立数据库。
某公开标准号数据网站
进入该网站,在该网站上按下F12,就能跳出该网站的源代码。找到并进入elements,就能找到众多标准号对应的信息网址,首先利用爬虫程序将这些标准号的号码和所对应的网址爬取下来,进一步收集该标准号的具体信息。
进入具体的标准号信息网址,我们发现这里包含的具体信息众多。我们选取了该国标号的分类级别、标准号、标准名称、该标准号的状态、该标准号的发布实施日期、颁发部门以及该标准号的具体内容作为单独一个国标号的数据子树。并最终生成了Excel文件的数据库,完成对于标准号程序的爬取和收集。
该数据库的部分截图如下:
对于爬虫程序和生成的数据库我们会放在附件当中,请有需求的程序员朋友进行下载和使用。
2.酸奶产品包装在ModelArts的OCR文字识别
对于OCR的模型和代码本文将不再阐述,请有兴趣的朋友转至此网址博客进行学习:https://bbs.huaweicloud.com/blogs/195963
结合上面爬虫程序的整个流程,我们得到了国家标准号的数据库,接下来我们将从实际操作用OCR识别某酸奶的包装的文字,随后得到我们的标准号,从而得到该标准号的具体信息讲解整个流程经过。
首先我们在ModelArts上新建立notebook,将OCR模型代码上传至我们的notebook:
然后经过OCR的识别,我们将酸奶包装信息上的国家标准号信息识别并提取出来:
并在命令行终端得到我们对于酸奶包装信息识别到的文字信息:
经过ModelArts上的OCR识别我们得到识别出来的酸奶的标准号信息是:GB-19302,对应到我们之前利用爬虫程序建立的数据库当中,找到该标准号的具体信息是对酸奶的产品标注定制:
附件下载: Ocr.zip 4.72MB
点击关注,第一时间了解华为云新鲜技术~
利用文字技术帮助选购商品,慧眼“识”物的人都这样做……相关推荐
- 麒麟970让华为Mate10慧眼识物运动抓拍 人人秒变专业摄影大师
随着人工智能技术的发展,我们未来的生活将会变得更加智能化,在智能手机行业,AI技术就已经率先实现应用.华为全新一代旗舰手机Mate10系列开启了未来智慧生活的大门,史无前例的加入了人工智能手机芯片-- ...
- “感动阿里”的技术小二刘畅:善良的事情,我身边很多人都在做
凌晨四点半,正是人们为甜蜜的梦乡收尾的时候,刘畅却在这个时候因一阵急促的捶门声而惊醒,门外是一个女孩惊慌失措地喊叫声:"我妈跳楼了,快救救她!" 这位腼腆的阿里巴巴CBU技术小二, ...
- 埃森哲:技术改变看病的五大趋势!每个人都将受益【附下载】| 智东西内参...
来源:智东西 摘要:解读五大科技趋势及其对生活的影响,盘点新兴技术对医疗健康产业的影响案例. 全球医疗水准已经达到一个临界点,那就是与技术的深度碰撞,商业与个人医疗的界限在模糊. 医疗机构越来越重视智 ...
- 【网络安全】七个最常见的黑客攻击技术,98%的人都遇到过(通俗易懂版)
前排提示:文章同样适用于非专业的朋友们,全文通俗化表达,一定能找到你亲身经历过的网络攻击(建议大家认真看完,这篇文章会刷新你对网络攻防的认知) 前言 在世界人口近80亿的地球上,每天尚且发生数以百万计 ...
- 并不是所有的程序员都适合做技术管理
摘要:这是曾经的技术高手,如今却是名职业经理人分享的内容.他称,相信很多程序员都想做管理,一方面是高薪,另一方面则是做管理很风光.工作也轻松,但实际上并不是所有人都适合做管理,技术和管理是两完全不同的 ...
- 微信「扫一扫识物」 的背后技术揭秘
作者:breezecheng,腾讯 WXG 应用研究员 微信扫码已经深入人心, 微信扫物 12.23 日 ios 版本正式上线,从识别特定编码形态的图片(二维码/小程序码/条形码/扫翻译),到精准识别 ...
- 微信扫物上线,全面揭秘扫一扫背后的识物技术!
导语| 12月23 日,微信扫物 iOS 版本正式上线.从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科, ...
- 微信扫一扫识物的技术揭秘:抠图与检索
作者:冉辰,腾讯 WXG 后台开发工程师 微信扫一扫识物是典型的"离线写,在线读"的业务,业务数据的存储和检索库的构建都是在离线环节完成.我们通过爬虫系统收录了小程序生态下的商品图 ...
- 深度学习核心技术精讲100篇(二十七)-如何利用NLP技术对ASR的query文本进行预处理纠错?
前言 语音系统中语音内容识别 ( ASR ) 的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文 ...
最新文章
- AI工程师成长记 - 工作方法!
- Requirejs加载超时问题的一个解决方法:设置waitSeconds=0
- 【原创】PostgreSQL 增量备份详解以及相关示例
- java孙膑和庞涓问题_庞涓与孙膑的故事
- spring-boot注解详解(四)
- c# 多线程异步demo
- 用c++写的一个词典工具
- Labyrinth(HDU-4826)
- 12月10日见!卢伟冰:红米K30将用上液冷散热
- 【模板】ISAP最大流
- 在CSDN开通博客专栏后如何发布文章及改进建议(图文)
- # AD19规则设置的傻瓜式教程
- 苹果手机录屏软件_4款手机录屏软件推荐,你觉得哪款更好用?
- DELL R720网卡驱动
- 泰坦尼克号数据下载链接
- 【前端】前端学习课程及内容概述
- 《凤凰架构》读后感 - 演进中的架构
- 读取TXT文档数据生成词云图
- 连接/映射网络位置/共享磁盘
- 西电计算机学院嵌入式所,祝贺计算机科学与技术学院张亮老师团队论文被顶级期刊TNNLS录取...
热门文章
- Bootstrap 标签页Tab插件的事件
- ajax get 不会缓存,ajax的get请求时缓存处理解决方法
- web系统备份mysql_学会自动备份MYSQL和WEB的数据
- html asterisk 电话,Asterisk 常见问题
- php mysql 多表搜索_PHP MYSQL查询,使用来自多个表的数据搜索多个字段/列
- map文件分析 stm32_使用STM32内部Flash额外的空间来存储数据
- 计算机数学渤海船舶职业学院,渤海船舶职业学院2020年高职扩招录取原则
- 计算机工程硕士论文全套,计算机工程硕士 论文写作注意事项
- matlab实验4图形的绘制,MATLAB编程与应用实验报告(三维图形绘制)
- [Swift通天遁地]一、超级工具-(13)使用PKHUD制作各种动态提示窗口