很多技术人应该都参加过InfoQ举办的技术晚场,这是一种相对open且轻松的技术交流活动。

\\

根据提前设置好的技术话题方向,请预先邀请好的小组组长带领小组成员进行讨论,基本上,每个愿意交流的成员都能和组长或者其他嘉宾充分交流。

\\

在7月7日ArchSummit深圳架构师峰会上,魅族联合InfoQ共同策划举办了第9期以“大数据和 AI 应用实践”为主题的魅族技术开放日活动。活动邀请了5位小组长:分别是腾讯云大数据及AI产品中心技术专家 张杉,eBay数据和商业智能研发总监 沈则潜,销售易技术VP 赵宇辰,魅族高级算法工程师 李梦婷,魅族数据平台研发组长、架构师 张欢引。

\\

现场讨论非常热烈,大家相见恨晚,各抒己见,畅所欲言,对于大数据平台架构、推荐系统、图像识别、机器学习等话题,几乎有说不完的想法,讨论不完的问题,借助这样的机会,确实可以帮助大家提供技术解决方案和新思路。

\\

\\

李梦婷小组讨论的内容以推荐算法为主,讨论了两个主要的技术点,一是用户画像体系的建立,这里面涉及用户数据获取的方式,一般包括自行收集数据、外部官方渠道的数据、市场采集数据。其次就是建立标准的标签体系,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可组合出不同的用户画像。除此之外还涉及到画像的存储与索引、标签的计算方法,以及评价指标等内容。

\\

二是讨论到了推荐系统,内容包括推荐系统架构,具体各个模块用到的算法以及效果如何,特征工程,线下评价以及线上评价的方式,算法人员和产品/运营之间的合作方式,推荐位与推广位的权衡等等。

\\

\\

张欢引小组的组员问到,魅族数据仓库是否是按主题分别存储的?除了行为数据外,像日志、DB数据等是怎么接入数据仓库的这样的问题。

\\

实际上,魅族数据仓库是基于一个大规模Hadoop集群上实现的,根据不同业务做不同主题划分,只不过是存储在一起的。数据开发人员在集成开发平台(或流平台)配置对应的任务,将各类行为记录、业务日志、DB、第三方数据通过定时离线抽取(或实时流)方式写入统一的数据仓库,大致流程如下图:

\\

\\

其次,组员们对魅族的用户画像系统存储实现的组建很感兴趣,以及对标签数据生成过程和具体的使用场景很有兴趣。

\\

张欢引介绍,魅族用户画像主要有两种场景,所用的存储组件不同:

\\

  • 圈人及画像洞查服务:用户通过Web进行操作,一次处理数据量大,响应时间要求在3s内,对比Vertica和ES后,最终用户宽表选择了ES方案。\\t
  • DMP服务主要是为PUSH、推荐、广告等提供实时接口查询,并发高,要求在ms级响应。团队最后使用的是HBase方案(对于要求更苛刻的广告业务则使用了Redis)。\

用户画像数据魅族区分指标和标签有两个概念,举例而言:用户消费金额数是指标(0.1元等),而基于此基础上的消费金额等级(高、中、低)则是标签。标签可通过标签规则设置,实则由指标生成。标签数据生成过程如下:

\\

\\

上述生成过程有两个不足:一是会因为某一个指标或标签的生成delay而造成整体标签宽表输出延后,另一个是未考虑实时标签。所以魅族新的方案是将生成的单个标签融合入宽表过程改为单个标签实时put(或post),这样就有效的避免了不足之处。目前魅族画像数据已经为活动分析、营销推广、推荐、广告及业务本身运营提供了支撑。

\\

\\

赵宇辰作为大数据方面的技术大触,和沈则潜老师带领数据挖掘和机器学习讨论组过程中,展开了关于人工智能话题的热烈讨论。在深度学习非常火爆的今天,小组首先分析了深度学习最常见的几个应用场景:图像,声音和文本。机器学习从传统的Feature Engineering(特征工程)随之转向深度模型的Architecture Engineering(架构工程)。

\\

随后小组又讨论了深度学习是否需要大量数据作为训练,在实际应用场景中,如果没有大量数据,Transfer Learning(迁移学习)等技术是否能在此有所应用。来自阿里的组员还分享了阿里在深度学习特别是自然语言处理上的应用,从多轮对话机器人到情感分析,再到知识库,甚至自然语言生成Natural Language Generation(NLG)等等,对整个小组的话题引导和经验分享都非常有帮助。来自企业服务(B2B)的小伙伴们分享了在B2B领域人工智能应该如何发挥作用和应用机器学习的未来愿景。

\\

\\

张杉老师带领小组进行图像识别的话题讨论,讨论结果认为,图像识别在未来的好几个场景是有落地基础的,包括工业制造,智慧城市,智慧医疗,智慧驾驶,以及金融行业。同时在智能医疗上也有可能落地,未来的影象资料结合AI是可以实现的,对于诊断有很大的帮助。

\\

最后小组也讨论了支撑图像识别的技术,尤其在深度学习的大背景下,深度学习其实在很大程度上是大数据的一个发展积累;另外一个重要的条件就是“计算能力+算法”,GPU的出现使得计算能力更进一步,这两者是图像识别的一个重要资源。当然除此之外,小组还聊到了AI时代哪些岗位可能会被替代?例如智能客服的出现,很有可能会取代传统的人工客服岗位。另外数据分析岗位也在可能性行列,数据生成结果之后,怎么往数据中心去迁移则是需要重点考虑的事情。

魅族技术晚场回顾,算法、架构、AI之外,还要考虑未来相关推荐

  1. AI:2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》、《扩展大

    AI:2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛-<工程化打造AI中的CPU>.<构建一个AI系统:在LLM上应用带有RLHF来推进定制>.<多模态预训 ...

  2. 性能超越GPU、FPGA,华人学者提出软件算法架构加速AI实时化

    作者 | 王言治,美国东北大学电子与计算机工程系助理教授 出品 | AI科技大本营(ID:rgznai100) 近年来,机器学习(Machine Learning)领域的研究和发展可谓是与日俱新,各式 ...

  3. 【华为云技术分享】深度理解AI概念、算法及如何进行AI项目开发

    莫衷一是的AI 做了多年的业务工作,一直希望能够用机器代替人力,把人从繁琐的具体工作中解放出来,从技术发展看AI或许可以支撑实现这个愿景. 但最近关于AI的讨论和争论比较多,学术上,纽约大学的Gary ...

  4. DataFun Talk之算法架构系列活动 ——AI在反欺诈中的应用实践

    随着大数据的普及应用,大数据风控的概念随之而生,它是指通过运用大数据构建模型的方法对作弊和欺诈方进行风险控制和风险提示.大数据风控通过采集各项指标进行数据建模分析,不仅提高了效率,还使统计结果变得更加 ...

  5. 自然语言处理技术(NLP)在推荐系统中的应用 原2017.06.29人工智能头条 作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索、推荐以及算法相关工作。多年来主要从事推荐系统以及机

    自然语言处理技术(NLP)在推荐系统中的应用 原2017.06.29人工智能头条 作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索.推荐以及算法相关工作.多年来主要从事推荐系统以及机 ...

  6. 腾讯技术开放日 | 腾讯会议如何构建实时视频传输算法架构,来实现用户体验质量最优?

    在实时视频通讯中,要达到终端用户的体验质量(QoE)最优,需要实现实时视频传输的信号质量和交互性最优,而时延和带宽是有限的,如何衡量取舍对有限资源进行分配,成为构建腾讯会议实时视频传输算法架构的核心问 ...

  7. 自动化测试发展变革——第五期魅族技术开放日现场精彩回顾

    9月24日,由魅族与msup联合主办的第五期魅族技术开放日"构建适合你的自动化测试体系"在深圳弈投咖啡举行.魅族测试部技术开发组组长王照辉.原惠普中国自动化测试工程师高焰.腾讯架构 ...

  8. 传统热度算法与AI技术的结合:探索更精准的热点分析方法

    一.热度算法的定义和应用 热度算法是指在互联网内容领域中,用来衡量和预测某个内容或话题受欢迎程度的算法.热度算法一般会考虑多个因素,如点击量.分享量.评论量.点赞量等,综合计算出一个热度值,用来衡量一 ...

  9. 图像抠图去背景技术从传统算法到深度学习到商用:如何快速使用JAVA/PHP/Python/ShellCommand 实现人像抠图去背景-调用PicUP.AI抠人像接口API实现人像抠图

    图像抠图去背景技术从传统算法到深度学习 图像去背景(抠图)是图像编辑中的关键技术 三分图(trimap)的概念 PicUP.AI [链接](https://www.picup.ai). 实测例子 AP ...

最新文章

  1. Go 语言:The Laws of Reflection 中文版
  2. java 定义类变量初始化吗_Java的变量有哪些类型?变量如何定义?如何初始化?请说明理由并举例_学小易找答案...
  3. [Python] Django框架入门
  4. python自动测试u_自动化测试——Selenium+Python之下拉菜单的定位
  5. html网页大小自动调整大小,根据电脑屏幕分辩率大小自动调整网页宽度
  6. c语言编程常见问题解答,C语言编程常见问题解答之常用函数的包含文件
  7. Python中的解决中文字符编码的问题
  8. C语言课后习题(23)
  9. 三星旗舰Galaxy Note 10系列发布 5G版本国行尝鲜价8299元
  10. 在CentOS上,Servlet出现java.lang.NoClassDefFoundError
  11. LeetCode 25 Reverse Nodes in k-Group Add to List (划分list为k组)
  12. Illustrator 教程,如何在 Illustrator 中更改图稿颜色?
  13. 高速PCB设计中走线屏蔽的各项规则解析
  14. 使用Flask在Raspberry Pi上构建物联网服务器
  15. SpringBooot:Redis:根据两地经纬度计算距离
  16. 「对话GitOps之星」张晋涛:“肝帝”时不时也会拖更
  17. 运动无线蓝牙耳机哪款好、运动无线蓝牙耳机推荐
  18. 邮箱、微信号、手机号正则验证
  19. html5微信页面制作,微信上的html5页面是怎么制作出来的?自己怎么制作微信网页链接?...
  20. WDM内核驱动程序模型分析

热门文章

  1. 使用Python破解zip的密码
  2. 关于程序修改时(修改被调用的SQL时),注意关联性(也可以说是影响范围)。
  3. mysql数据库服务器cpu_mysql数据库服务器cpu 100%
  4. sqoop导入数据常见问题解决方法
  5. 解决github clone慢的问题
  6. 解决element-ui的el-select组件文字超过宽度时不出现横向滚动条问题
  7. HTTP 错误 500.19 Internal Server Error的解决方法
  8. 如何在SQL Server中使用级联删除?
  9. 严格的别名规则是什么?
  10. flink 本地_Flink 01 | 十分钟搭建第一个Flink应用和本地集群