我的业务要不要用人工智能?引入AI前你需要评估的(二)
2019-12-04 20:00:00
这是一个系列文章,从各个角度来评估一个问题:“我的业务要不要用 AI ?能不能用 AI?”
本期评估角度——数据。
底层逻辑:数据驱动
基于规则的旧时代
在人工智能普及之前,大家用的产品都是「基于规则」的。
我们通过总结规则,然后让计算机自动的执行这些规则,我们日常工作和生活中很多问题都是基于规则来处理的,比如:
- Excel 中的各种公式的规则就是:将选中的区域进行计算
- 邮件的规则就是:将内容发给收件人
- 公众号的规则就是:将关注的公众号内容推送给你
基于规则的好处就是:所以人都能知道在什么情况下得到什么结果,一切都是可以预判的。
但是基于规则的方法也有很大的弊端:很多问题,很难(甚至无法)总结出有效的规则。
基于数据的 AI 时代
人工智能发展到现在(2019年),最核心的底层逻辑是:「基于数据」。
规则能很好解决的问题当然是用规则来解决,因为他的成本低,可解释性强。但是很多问题没有有效个规则,这个时候人工智能的价值就凸显了。
「基于数据」的方法简单说就是:从海量数据中找规律,这些规律是很抽象的,并不能总结成具象的规则。比如:
- 给机器看海量的猫和狗的照片,它就具备了「区分猫和狗」的能力
- 给机器海量的中英文对照文章,它就具备了「中英文翻译」的能力
- 给机器海量的文章,它甚至可以具备「写文章」的能力
基于数据的好处是:只要有足够多的优质数据,那么机器就能学会某些技能,数据越多,能力越强。
但是基于数据的方法也有明显的弊端:机器只能告诉你「是什么」,但是无法告诉你「为什么」。
想要用 AI,需要知道数据金字塔
上文已经说明了「基于数据」的逻辑,那么支撑这个逻辑的就是「数据」。
没有数据,就无从基于数据。所以想要用人工智能,需要考虑业务场景的数据3要素:
- 数据可获取
- 数据全面
- 数据多
他们3个类似金字塔的结构,先有「数据可获取」再谈「数据全面」,有了「数据全面」再谈「数据多」。
数据可获取
想要解决问题,就需要具备「跟这个问题相关的数据」。比如上面提到的例子:
给机器看海量的猫和狗的照片,它就具备了「区分猫和狗」的能力。
这里需要的数据不光是照片本身,还需要将照片里的猫和狗标注出来,如下图:
所以,你要考虑的问题是:
- 我遇到的问题有哪些影响因素?
- 这些影响因素是数字化的吗?如果不是,能否数字化?
- 这些数据是否可以获取?成本高吗?值得吗?
数据全面
假如我们只能看到 10% 的照片,现在让你区分照片中是猫还是狗,这会非常难。如下图:
当我们能看到照片的 50% 时,还能猜一下。
当我们可以看到100%的照片时,就信心十足了。
人是如此,机器也是如此,你都不让我看全,我怎么分析啊!
所以,当我们想要利用人工智能技术来解决实际问题时,你需要仔细分析这个问题:
- 到底有哪些影响因素?是否有对应的数据?
- 有数据的因素是否足够全面?
- 关键因素的数据有遗漏吗?
数据多
还是区分猫和狗的例子。猫大概有40多个品种,狗大概有接近200个品种。并且照片可以从不同的角度,不同的背景,不同的光线下拍摄,会产生无数种组合。
想要有效的区分猫和狗,需要大量的不同的照片才行。kaggle(很权威的 AI 竞赛网站)上有很多区分猫和狗的训练数据,大部分都是上万的量级(1w+的猫和1w+的狗)。
到底多少算够用呢?
区分猫和狗这种非常简单的任务都需要上万的数据,对于更复杂的任务,就需要上百万甚至上亿的数据。具体要多少跟你要解决的问题复杂度,模型选择,预期结果都有关系。
不过有一条原则是不会变:数据越多,效果越好!
案例分析
假如你是游戏公司的老板,想利用人工智能技术提升游戏的收入,从数据角度评估一下是否可行?
电商平台通过推荐算法可以让购物者花更多钱,那么在游戏里结合推荐算法,理论上也可以让玩家花更多的钱。
推荐算法的本质是:挖掘用户需求,将匹配需求的商品推荐给用户。
应用到游戏里则是:挖掘用户的需求和他的消费能力,将匹配需求的道具,以合适的价格推荐给用户。
第一步:数据是否可获取?
游戏算是数字化程度很高的领域了,但即便如此,还是有部分因素并没有数据化。比如:
- 一些游戏玩家都会在微信群里聊天和互动,这部分数据游戏是没有的
- 老婆发现老公在游戏里泡妞,被迫卸载了游戏。这种游戏外发生的事情有时候也会影响到游戏内。
- 玩家的心理活动也是没有数据的(这次活动打折好厉害,但是我要忍住!不然又要吃一星期泡面了~)
够不够用呢?下一步全面性的时候再分析。
「数据可获取」看似是一个很白痴的问题,但是很多行业的数字化程度非常低,这个问题对于他们来说并不简单。
第二步:数据全面性是否够用?
想要判断玩家的需求和消费能力,大致有下面一些影响因素:
- 用户属性玩家属性(年龄、性别、地理位置…)角色属性(等级、装备情况、剩余钻石数量…)
- 行为数据游戏行为(买过什么东西、参与过什么玩法、打过什么副本…)消费行为(活动页面停留时长、买过什么东西、花过多少钱…)玩家互动(跟谁组过队、跟谁打过架、跟谁参加过活动…)聊天数据(跟谁、说过什么话、游戏内+游戏外)心理活动(想要什么、喜欢什么、觉得多收钱值…)
- 商品属性商品价格商品作用商品特点购买条件
还是参考电商的经验,亚马逊、阿里巴巴都已经验证过:
在缺失「聊天数据」「心理活动数据」「电商平台外数据」的情况下,依然能有效的挖掘出用户需求,刺激消费。
而游戏不但有推荐的权利,还有定价权,可以通过降价进一步的刺激消费。所以全面性角度是 OK 的。
PS:所以在全面性的评估上,不需要理论上 100% 全面,而是达到可用的程度即可,这个事前只能找案例参考。
第三步:数据够不够多?
推荐系统是一种特殊性的情况,他对数据量的要求很有弹性,在数据量少的事情有很多手段来解决冷启动的问题。随着数据量的增多,算法的作用逐步加大。
一个新用户下载了淘宝,依然不妨碍推荐,只不过用的越多推荐的越靠谱一些而已。
PS:在评估数据是否足够时,尽量找经验丰富的技术咨询一下。
所以,经过3个数据角度的评估,「通过推荐算法提升游戏收入」的设想应该是可行的。
总结
评估能不能用人工智能技术时,「数据」可以说是最重要的一个维度。
具体评估时,想清楚下面3个问题:
- 数据可获取吗?
- 数据全面吗?
- 数据多吗?
3个问题需要同时满足,才算是「貌似可行」。
在评估「要不要用」和「能不能用」人工智能时,需要考虑很多问题。这个系列还会持续更新,关注我获得最新内容。
我的业务要不要用人工智能?引入AI前你需要评估的(二)相关推荐
- 我的业务要不要用人工智能?引入AI前你需要评估的(四)
2019-12-12 20:01:00 这是一个系列文章,从各个角度来评估一个问题:"我的业务要不要用 AI ?能不能用 AI?" 本期评估角度--黑箱 系列文章列表: 我的业务要 ...
- 我的业务要不要用人工智能?引入AI前你需要评估的(一)
2019-11-26 20:36:18 有时会跟朋友聊一聊 AI 的话题,我发现很多人对 AI 都有过度高估或者过度低估的情况.有些问题根本不需要用 AI,有些问题即使用 AI 也解决不了. 所以打算 ...
- AI一分钟 | 北京开放自动驾驶车辆路测道路105公里;阿里将人工智能引入时尚界...
▌阿里巴巴集团与 GUESS 合作,将人工智能引入时尚界 (图片来自阿里足迹) 阿里巴巴集团与 GUESS 集团合作,将人工智能引入时尚界,并推出 Fashion AI 项目,今日( 4 日)于香港理 ...
- 虹科-将人工智能引入电子组装检测
虹科-将人工智能引入电子组装检测 人类与机器 利用人工智能技术的决策支持 无代码优势和简单培训 电子产品的检测 虹科-AI网关 AI软件平台 人类与机器 人类擅长通过视觉.触觉.甚至嗅觉来感知差异.我 ...
- 新加坡推出人工智能计划AI.SG 迎战人工智能和数据科学关键难题
新加坡政府为解决新加坡面临的挑战正在转向人工智能(AI)和数据科学,日前引入了新的举措和解决方案以推动这些行业的发展. 新加坡的国家研究基金会(NRF)是总理办公室下属的一个部门,NRF将在五年内投资 ...
- 一周AI看点 | 北航设立全国首个人工智能专业,前IBM沃森首席科学家任京东副总裁
本期一周AI看点包括AI行业要闻.投融资.技术应用.业界观点以及技术前沿. 行业 [北航设立全国首个人工智能专业:与百度合作办学] 近日北京航空航天大学宣布该校软件学院将设立全国首个人工智能专业,并与 ...
- 【人工智能】AI究竟能为你的生意做什么(以及不能做什么)
编译/洪杉 来源:红杉汇 [ 编者按 ] 本文适读对象:那些不打算投资AI基础技术开发.只关心AI能带来哪些商业智能应用的企业决策者. 对这些企业来说,它们关心的是,既不能错过新技术浪潮,但也要等待技 ...
- 干货丨区块链如何改变人工智能(AI)?
区块链被吹捧为一种新兴技术,它有可能对每个行业造成影响.区块链的分布式系统与当今使用的固有集中式操作系统相对立.采用分布式数据库架构形式,某些操作的记录和身份验证取决于多方的协议,而不仅仅是单一的权限 ...
- 业界 | 裁判太嚣张?平昌之后,奥运会评分系统将引入AI技术
平昌奥运会期间,在人类选手角逐较量的同时,八只机器人队伍也获得了参赛资格.2月12日,首届人形机器人滑雪锦标赛在威里山公园滑雪场开幕,这些装备传感器的8台机器人顺利完成比赛,给世界观众留下了深刻的印象 ...
最新文章
- mac -- 安装OpenCV
- win7系统连接2003服务器时快时慢,win7/win8/win10访问Windows2003和XP共享慢的解决方法【图文教程】...
- JZOJ 5483. 【清华集训2017模拟11.26】简单路径
- kafka 同步提交 异步_极限MQ (5) Kafka 消费者
- 【Hibernate】HibernateCallback总结
- TypeScript Mixins 概念介绍
- 如何调整标题字体大小_软网推荐:找回调整Windows 10字号功能
- flume存储到mysql_flume_实现自定义MysqlSink,写入mysql表
- 逆向知识第七讲,三目运算符在汇编中的表现形式,以及编译器优化方式
- 感知机原理及代码实现小结
- java IO流的概念理解
- [辅助工具]	【羽睿】Proxmark3 Easy Gui 4.0 5.0 5.1加强版 PM3GUI_X稳定优化版
- U-DIMM、SO-DIMM、FB-DIMM、Reg-DIMM区别
- 图片中加入超链接html代码,html网页超链接代码 怎样用HTML代码在图片插入超链接...
- python导入随机函数库_Python随机函数库random的使用方法详解
- 狂神ajax,Ajax---狂神说
- NANDFLASH与PSRAM
- 为一加七Pro(LineageOs17.1 4.14内核版本)编译KernelSu
- 【数据结构——哈夫曼树及其应用】
- httpclient报错:Invalid use of BasicClientConnManager: connection still allocated. Make sure to release
热门文章
- ## 应用Python爬虫、Flask框架、Echarts、WordCloud等技术实现豆瓣Top250数据分析
- cross_val_score,cross_val_predict,cross_validate理解
- arrays must all be same length
- 真正理解线程上下文类加载器(多案例分析)
- Keras搭建深度学习模型,指定使用GPU来进行模型的训练和测试
- 中文的csv文件python读取编码问题
- 《预训练周刊》第25期:HyperCLOVA:数十亿级韩语生成式预训练变换器、GPT-3在生物医学领域不是好的小样本学习器...
- 甘利俊一 | 信息几何法:理解深度神经网络学习机制的重要工具
- 智源论坛报名 | 自然语言处理
- 为什么《30天自制操作系统》封面中的猫是两只尾巴