模型的训练上,头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快,这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于storm集群实时处理样本数据,包括点击、展现、收藏、分享等动作类型。模型参数服务器是内部开发的一套高性能的系统,因为头条数据规模增长太快,类似的开源系统稳定性和性能无法满足,而我们自研的系统底层做了很多针对性的优化,提供了完善运维工具,更适配现有的业务场景。

目前,头条的推荐算法模型在世界范围内也是比较大的,包含几百亿原始特征和数十亿向量特征。整体的训练过程是线上服务器记录实时特征,导入到Kafka文件队列中,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,随后根据最新样本进行在线训练更新模型参数,最终线上模型得到更新。这个过程中主要的延迟在用户的动作反馈延时,因为文章推荐后用户不一定马上看,不考虑这部分时间,整个系统是几乎实时的。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第7张

但因为头条目前的内容量非常大,加上小视频内容有千万级别,推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略,每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致,一般超时不能超过50毫秒。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第8张

召回策略种类有很多,我们主要用的是倒排的思路。离线维护一个倒排,这个倒排的key可以是分类,topic,实体,来源等,排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断,高效的从很大的内容库中筛选比较靠谱的一小部分内容。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第9张

二、内容分析

内容分析包括文本分析,图片分析和视频分析。头条一开始主要做资讯,今天我们主要讲一下文本分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。没有内容及文本标签,无法得到用户兴趣标签。举个例子,只有知道文章标签是互联网,用户看了互联网标签的文章,才能知道用户有互联网标签,其他关键词也一样。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第10张

另一方面,文本内容的标签可以直接帮助推荐特征,比如魅族的内容可以推荐给关注魅族的用户,这是用户标签的匹配。如果某段时间推荐主频道效果不理想,出现推荐窄化,用户会发现到具体的频道推荐(如科技、体育、娱乐、军事等)中阅读后,再回主feed,推荐效果会更好。因为整个模型是打通的,子频道探索空间较小,更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大,子频道做的好很重要。而这也需要好的内容分析。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第11张

上图是今日头条的一个实际文本case。可以看到,这篇文章有分类、关键词、topic、实体词等文本特征。当然不是没有文本特征,推荐系统就不能工作,推荐系统最早期应用在Amazon,甚至沃尔玛时代就有,包括Netfilx做视频推荐也没有文本特征直接协同过滤推荐。但对资讯类产品而言,大部分是消费当天内容,没有文本特征新内容冷启动非常困难,协同类特征无法解决文章冷启动问题。

今日头条推荐算法原理全文详解之二相关推荐

  1. 今日头条推荐算法原理全文详解之一

    本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第1张 一.系统概览 推荐系统,如 ...

  2. 今日头条推荐算法原理全文详解之四

    三.用户标签 内容分析和用户标签是推荐系统的两大基石.内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大. 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 ...

  3. 【推荐系统】今日头条推荐算法原理全文详解

    如今,算法分发已经逐步成为信息平台.搜索引擎.浏览器.社交软件等几乎所有软件的标配,但同时也开始面临各种不同的质疑.挑战与误解. 2018年1月,今日头条资深算法架构师曹欢欢博士,首次公开今日头条的算 ...

  4. 抖音推荐算法原理全文详解

    阅读目录 一.系统概览 二.内容分析 三.用户标签 四.评估分析 五.内容安全 抖音推荐算法原理全文详解 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 回到 ...

  5. 今日头条、抖音推荐算法原理全文详解

    之前头条召开了一场分享交流会.资深算法架构师.中国科学技术大学计算机博士曹欢欢,在今日头条总部带来了题为<让算法公开透明>的分享,消除社会各界对算法的一些误解,同时接受意见和建议. 本次分 ...

  6. 3分钟了解今日头条推荐算法原理

    今日头条的内容分发算法一直颇神秘低调.自12年开发运营起进四次改版,从未透露核心内容. 2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法.建言 ...

  7. 了解今日头条推荐算法原理

    https://www.toutiao.com/a6512245165707493896/ 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 一.系统概览 推荐 ...

  8. 【聚能聊有奖话题】今日头条公布算法原理,你认可他们的理念吗?

    本话题地址,参与即可获得礼品: https://yq.aliyun.com/roundtable/63978 11 日,今日头条召开了一场旨在推动整个行业来问诊算法.建言算法的分享交流会.资深算法架构 ...

  9. 今日头条推荐算法详解(PDF下载)

    源 | AI研习社    编辑 | 昱良 内容较长 点击阅读原文即可下载 今日头条资深算法架构师曹欢欢: 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 一. ...

  10. 人脸识别算法原理过程详解

    本文为转载内容,由于找不到源作者链接,故特此说明. 人脸识别各算法详解 最近,由于工作需要,为了找到一款高效的人脸识别算法,对各种人脸识别算法都研究了一番,以下记录的是各算法的理论基础. 一.MTCN ...

最新文章

  1. java io 缓冲流_记忆系列-Java IO的缓存输入输出流(高效流)
  2. 相机原理updateTexImage
  3. python 字符串数组互转
  4. Apache HBase的现状和发展
  5. UR #3 核聚变反应强度( gcd )
  6. 发布在IIS的网站,可以用本机IP登录访问,用localhost不可登录访问
  7. 【OpenCV图像处理】一、图像相加、相减、相乘与相除的实现【转载】
  8. kafka(一)设计分析
  9. 【NLPCC 2021】 First Call For Papers
  10. python log日志常用用法总结
  11. win11家庭版安装时如何跳过联网设置 windows11家庭版跳过联网设置的步骤方法
  12. 制作ZedBoard-linaro-desktop-ubuntu全过程之运行linaro系统
  13. Lighttpd介绍
  14. 3.4输入手写数字图片输出识别结果
  15. SAP 玻璃原片单位问题处理
  16. AR、MA、ARMA和ARIMA模型------时间序列预测
  17. 数据库的范式,第一、二、三、四、五范式、BC范式,为什么分不清
  18. 常见Oracle错误都在这了: ORA-00257/ORA-00313/ORA-28000/ORA-28000
  19. java script的小基础
  20. 统计碱基序列中ATCG出现的个数

热门文章

  1. C语言基础知识:地址与取地址符
  2. 许鹏:从零开始学习,Apache Spark源码走读(一)
  3. 知群产品经理必修TOP班 学习笔记:电梯演讲和商业画布
  4. 债券指数基金以及债券ETF
  5. 外贸企业邮箱注册申请,阿里qq腾讯邮箱对比选择
  6. netware php_服务器_如何在 Netware 服务器中安装多块网卡,如果网络在扩大时服务器只装 - phpStudy...
  7. 可集成到APP的车架号识别sdk
  8. 搜狗新闻语料库 python正则表达式 新闻内容提取
  9. ABP框架实战 1.基础信息维护
  10. 华为网络设备-生成树协议配置