今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征,显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。此外还有隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对于词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第13张

另外文本相似度特征也非常重要。在头条,曾经用户反馈最大的问题之一就是为什么总推荐重复的内容。这个问题的难点在于,每个人对重复的定义不一样。举个例子,有人觉得这篇讲皇马和巴萨的文章,昨天已经看过类似内容,今天还说这两个队那就是重复。但对于一个重度球迷而言,尤其是巴萨的球迷,恨不得所有报道都看一遍。解决这一问题需要根据判断相似文章的主题、行文、主体等内容,根据这些特征做线上策略。

同样,还有时空特征,分析内容的发生地点以及时效性。比如武汉限行的事情推给北京用户可能就没有意义。最后还要考虑质量相关特征,判断内容是否低俗,色情,是否是软文,鸡汤?

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第14张

上图是头条语义标签的特征和使用场景。他们之间层级不同,要求不同。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第15张

分类的目标是覆盖全面,希望每篇内容每段视频都有分类;而实体体系要求精准,相同名字或内容要能明确区分究竟指代哪一个人或物,但不用覆盖很全。概念体系则负责解决比较精确又属于抽象概念的语义。这是我们最初的分类,实践中发现分类和概念在技术上能互用,后来统一用了一套技术架构。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第16张

目前,隐式语义特征已经可以很好的帮助推荐,而语义标签需要持续标注,新名词新概念不断出现,标注也要不断迭代。其做好的难度和资源投入要远大于隐式语义特征,那为什么还需要语义标签?有一些产品上的需要,比如频道需要有明确定义的分类内容和容易理解的文本标签体系。语义标签的效果是检查一个公司NLP技术水平的试金石。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第17张

今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root,下面第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳…,足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队…,相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是,如果要提高召回,可以看到我们连接了一些飞线。这套架构通用,但根据不同的问题难度,每个元分类器可以异构,像有些分类SVM效果很好,有些要结合CNN,有些要结合RNN再处理一下。

今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第18张

上图是一个实体词识别算法的case。基于分词结果和词性标注选取候选,期间可能需要根据知识库做一些拼接,有些实体是几个词的组合,要确定哪几个词结合在一起能映射实体的描述。如果结果映射多个实体还要通过词向量、topic分布甚至词频本身等去歧,最后计算一个相关性模型。

今日头条推荐算法原理全文详解之三相关推荐

  1. 今日头条推荐算法原理全文详解之一

    本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 第1张 一.系统概览 推荐系统,如 ...

  2. 今日头条推荐算法原理全文详解之四

    三.用户标签 内容分析和用户标签是推荐系统的两大基石.内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大. 今日头条推荐算法原理全文详解 今日头条 数据分析 产品经理 产品 好文分享 ...

  3. 【推荐系统】今日头条推荐算法原理全文详解

    如今,算法分发已经逐步成为信息平台.搜索引擎.浏览器.社交软件等几乎所有软件的标配,但同时也开始面临各种不同的质疑.挑战与误解. 2018年1月,今日头条资深算法架构师曹欢欢博士,首次公开今日头条的算 ...

  4. 抖音推荐算法原理全文详解

    阅读目录 一.系统概览 二.内容分析 三.用户标签 四.评估分析 五.内容安全 抖音推荐算法原理全文详解 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 回到 ...

  5. 今日头条、抖音推荐算法原理全文详解

    之前头条召开了一场分享交流会.资深算法架构师.中国科学技术大学计算机博士曹欢欢,在今日头条总部带来了题为<让算法公开透明>的分享,消除社会各界对算法的一些误解,同时接受意见和建议. 本次分 ...

  6. 3分钟了解今日头条推荐算法原理

    今日头条的内容分发算法一直颇神秘低调.自12年开发运营起进四次改版,从未透露核心内容. 2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法.建言 ...

  7. 了解今日头条推荐算法原理

    https://www.toutiao.com/a6512245165707493896/ 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 一.系统概览 推荐 ...

  8. 【聚能聊有奖话题】今日头条公布算法原理,你认可他们的理念吗?

    本话题地址,参与即可获得礼品: https://yq.aliyun.com/roundtable/63978 11 日,今日头条召开了一场旨在推动整个行业来问诊算法.建言算法的分享交流会.资深算法架构 ...

  9. 今日头条推荐算法详解(PDF下载)

    源 | AI研习社    编辑 | 昱良 内容较长 点击阅读原文即可下载 今日头条资深算法架构师曹欢欢: 本次分享将主要介绍今日头条推荐系统概览以及内容分析.用户标签.评估分析,内容安全等原理. 一. ...

  10. 人脸识别算法原理过程详解

    本文为转载内容,由于找不到源作者链接,故特此说明. 人脸识别各算法详解 最近,由于工作需要,为了找到一款高效的人脸识别算法,对各种人脸识别算法都研究了一番,以下记录的是各算法的理论基础. 一.MTCN ...

最新文章

  1. ruby生成C++头文件引用关系图
  2. 成功爬取-CVE-2018-15982漏洞复现【博客园】【1】
  3. R语言lm函数拟合多项式回归模型、删除数据中的异常样本outlier、之后诊断模型( diagnostics)、使用plot函数打印回归模型的QQ图、残差拟合图、标度-位置图、残差与杠杆关系图
  4. 布隆过滤器解决缓存穿透_缓冲穿透/缓存击穿/缓存雪崩等问题解决办法
  5. 5.4 matllab数据插值案例(机动车刹车距离问题、)
  6. 页面重构-让我们的布局自适应
  7. 算法系列:5分钟了解哈希算法
  8. mysql在linux下诸多稀奇古怪的错误
  9. 闲置域名解析到自己的博客
  10. 偏微分方程数值解的matlab程序,偏微分方程数值解法的MATLAB源码
  11. canvas教程8-小球连线之碰壁则返
  12. python初学者入门小项目之一:在 cowpy中增加自己的人物头像
  13. Python学习日记-第十四天-面向对象练习
  14. 详述IT项目文档类别
  15. 微信热搜 API数据接口
  16. 删除设备和驱动器中的图标
  17. 3D动画效果照片墙demo
  18. node.js云学堂微信小程序学习系统的设计与实现毕业设计源码011735
  19. Python tutrle画棋盘格
  20. java实现缩放图像、切割图像、图像类型转换、彩色转黑白、文字水印、图片水印等

热门文章

  1. Java学习笔记6——网络编程
  2. 模式识别谱聚类matlab,基因表达谱聚类分析
  3. 实施持续绩效管理流程的 6 大实用技巧
  4. 傅一平:业务流程的数字化到底是什么?
  5. 氨基酸序列碎裂by离子-生物信息学笔记
  6. Android模仿微信浮窗功能的效果实现
  7. SM2/RSA证书工具--简单CA实现
  8. HTML+CSS淘宝首页[web课设代码+模块说明+效果图]
  9. 极客空间-MySQL实战45天-第一天
  10. EasyTouch插件是否还在使用?