1月11日,北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,雷锋网(公众号:雷锋网)观察到,包括BAT等在内的诸多科技公司算法工程师、产品经理等100多人参与现场讨论。资深算法架构师、中国科学技术大学曹欢欢博士于现场介绍了今日头条的推荐算法原理。

曹欢欢表示,今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配,要达到这一效果,其算法推荐系统输入三个维度变量:

  • 一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;

  • 二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣;

  • 三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。

结合这三方面维度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。

算法推荐要达到不错的效果,需要解决好这四类特征:

  • 相关性特征,解决内容和用户的匹配;

  • 环境特征,解决基础特征和匹配;

  • 热度特征,在冷启动上很有效;

  • 协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

但是,曹欢欢表示,点击率、阅读时间、点赞、评论、转发,这些都是可以量化的,但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

总之,没有一套通用的模型架构适用所有的推荐场景,头条仍需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。据雷锋网了解,西瓜视频、火山小视频、抖音短视频、悟空问答,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

正在基于上文所述反复训练推荐的需要,今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

但是,完全依赖模型推荐成本过高,因此,今日头条也有简化策略的召回模型——基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

曹欢欢表示,在今日头条工作前三年,收到用户反馈最大的一个问题就是——“怎么老给我推重复的?”

曹欢欢解释称,每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨球迷,可能恨不得所有报道都看一遍。要解决这个问题,就需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等。而文本特征对于推荐的独特价值就在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

而语义标签的效果是检查一个公司NLP(自然语言处理)的试金石。

频道、兴趣表达等重要产品功能,需要一个有明确定义、容易被理解的文本标签体系。在隐式语义特征已经可以很好地帮助推荐、做好语义标签需要投入远大于隐式语义特征的情况下,仍需要做好语义标签。

除了用户的自然标签,推荐还需要考虑很多复杂的情况:

  • 1)过滤噪声:过滤停留时间短的点击,打击标题党;

  • 2)惩罚热点:用户在热门文章上的动作做降权处理;

  • 3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;

  • 4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;

  • 5)考虑全局背景:考虑给定特征的人均点击比例。

现实中,影响推荐效果的因素有很多,需要完备的评估体系,不能只看单一指标,如点击率、留存、收入或是互动,需要看很多指标综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

那么,所有这些指标可以合成唯一的一个公式吗?“我们苦苦探索了几年,目前还没有做到。”曹欢欢表示。

并且,曹欢欢称,目前很多公司算法做得不好,不是人的问题,而是实验平台的问题。例如A/B Test每次数据都是错的,总上不了线,这个事最后就废了。而一个强大的实验平台,可以实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。

据雷锋网了解,头条现在拥有健全的内容安全机制,除了人工审核团队,还有技术识别,包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术,曹欢欢强调。

每天被今日头条推送文章 背后的算法技术是什么?相关推荐

  1. 隐藏在今日头条百亿市值背后的算法:巨大可能与现实困境

    无论2016年科技圈热门的噱头有多少,对数据基础设施方面的耕耘仍然是决定实力的关键.阿里之类电商数据帝国自不待言,今日头条.一点资讯等在资讯数据领域的开拓更加值得注目.比起电商的物流数据,资讯算法驱动 ...

  2. 今日头条改名“字节跳动”背后,向不堪的过往说“不”?

    日前,今日头条发出内部通知:综合多方意见后,我们最终决定沿用现有公司名称"字节跳动"("ByteDance").今后在提及公司整体的场景中,请统一使用" ...

  3. php订阅与推送,PHP用户关键词订阅推送文章功能

    具体要求: PHP用户关键词订阅推送文章功能 采用语言 原生PHP5.6 数据库mysql 需求 会员才能设置关键词推送 比如用户设置了关键词比如'电脑采购'和设置了匹配标题,如果有文章标题包含这个关 ...

  4. 使用wxjava实现发表内容、预览信息以及推送文章

    大家好,我是雄雄. 文章目录 前言 保存草稿的方法 获取草稿箱列表 根据media_id获取草稿箱信息 给指定人发送预览文章 推送文章(按照标签推送) 前言 今天分享的内容有如下几个: 保存草稿 根绝 ...

  5. fiyme android底层,魅族首批Android 10底层Flyme于今日正式推送

    原标题:魅族首批 Android 10 内测版今日起开始推送 7月21日消息 魅族官方曾于 6 月 25 日宣布为旗下 10 款机型的 Flyme 适配 Android 10 系统底层.从 6 月 2 ...

  6. python爬虫如何实现每天爬取微信公众号的推送文章

    python爬虫如何实现每天爬取微信公众号的推送文章 上上篇文章爬虫如何爬取微信公众号文章 上篇文章python爬虫如何爬取微信公众号文章(二) 上面的文章分别介绍了如何批量获取公众号的历史文章url ...

  7. 今日头条热点爬文章---python

    观察网页结构: 注意:今日头条热点的文章列表在data中(json格式),这时你就会想:"我直接解析出来不就好了",经过小编的多次实践发现,这部分内容是不能直接爬下来的.这里小编就 ...

  8. 万字长文揭秘今日头条、抖音的推荐算法原理!

    点击上方"开发者技术前线",选择"星标" 18:50 在看 真爱 来自:今日头条 编辑:可可 www.toutiao.com/a6511211182064402 ...

  9. 今日头条自媒体搬运工视频消重技术 批量视频去重软件使用教程做好伪原创 揭秘百家号提示视频...

    今日头条号如何避免视频重复伪原创 自媒体操作中如何批量下载大量视频消重软件 火山小视频怎么批量搬运呢,有什么消重的好方法 头条号运营技巧:视频重复文章无推荐如何避免消重 视频重复,文章没有推荐,头条创 ...

最新文章

  1. 密码找回功能可能存在的问题
  2. mysql安装过程以及启动服务中的若干问题
  3. 数据库的方向 - 行vs列(转自: IBM i 中国开发团队)
  4. android炫酷叼ui,XUI: 一个简洁而优雅的Android原生UI框架,解放你的双手!
  5. linux mem设备是什么,linux下/dev/mem分析
  6. Spring boot 属性加载顺序
  7. Python深度学习(Deep Learning with Python) 中文版+英文版+源代码
  8. pg_lightool-postgres数据分布查看工具
  9. TCP header
  10. 网络 DNS 解析与CDN加速
  11. Anaconda安装keras教程
  12. 解决U盘中文件全部变成快捷方式的问题
  13. inux下服务器心跳集群脚本
  14. C printf() 详解之终极无惑
  15. python将图片帧生成视频
  16. 数据分析面试:Excel必考知识点!
  17. 如何做一个基于微信失物招领小程序毕业设计毕设作品
  18. Python 之return 自定义返回值
  19. 接招吧!最强“高并发”系统设计 46 连问,分分钟秒杀一众面试者
  20. swapidc,QCNSWAP,模板

热门文章

  1. 小明同学利用计算机软件绘制函数,各地选择题压轴类专题原卷.doc
  2. mysql有哪些地方刷题网站_几个SQL在线刷题的网站
  3. HTTP认证之基本认证——Basic
  4. Java实现 LeetCode 481 神奇字符串
  5. 分酒问题java代码_java程序实现一个有趣的买啤酒问题
  6. c语言字符串接龙,接龙分析.c
  7. 《惢客创业日记》2021.01.10(周日)高龄创业的无奈
  8. 如何用HTML5制作iPhone App
  9. MySQL零基础从入门到精通(函数篇)
  10. 享誉业界学界的2022年SuperComputing(SC22)又要来了,基于FPGA的硬件数据处理加速器值得关注