机器学习方法应用在DSP广告投放中,预估CTR/CVR,业界常用的方法是人工特征工程+LR,GBDT,近期FM,FFM模型在其中使用效果非常显著。

先解释一波DSP相关专业术语:
DSP:Demand-Side platform,需求方平台,在互联网广告产业中,DSP是一个系统,也是一种在线广告平台,服务于广告主,帮助广告主在互联网上进行广告投放。两个核心特征:强大的RTB(Real-Time Bidding)的基础设施和能力,强大的用户定位(Audience Targeting)技术。
CPC:Cost Per Click按点击计费
CPA:Cost per Action按成果数计费
CTR: Click Through Rate 点击率
CVR: Click Value Rate 转化率,衡量CPA广告效果的指标。
了解DSP中的基础算法和模型,可以参考M6D公司的文章,以及一份中文解释:http://www.techinads.com/archives/41

FM:Factorization Machine 因子分解机,又称分解机器,旨在解决大规模稀疏数据下的特征组合问题。
FFM:Field-aware Factorization Machine,场感知分解机器,把相同性质的特征归于同一个field

稀疏问题引出:
在机器学习中,尤其是计算广告领域,特征并不总是数值型,很多时候是分类值,对于categorical feature,通常会采用one-hot encoding转换成数值型特征,转化过程会产生大量稀疏数据。

one-hot encoding:独热编码或者叫一位有效编码,使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器,并且在任意时刻,只有一位有效。可以这么理解:对于每一个特征,如果它有m个可能取值,那么经过one-hot encoding之后,就变成了m个二元特征,并且,这些特征互斥,每次只有一个激活,因此,数据会变得稀疏。

好处:1.解决了分类器不好处理属性数据的问题。2.在一定程度上起到了扩充特征的作用。
推荐两篇文章:
美团背景:
http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html
新浪背景:
http://www.360doc.com/content/16/0608/07/1317564_565957182.shtml
具体的原理和代码后期补充。

DSP模型中FM FFM模型相关推荐

  1. python编程练习:模拟水文模型中的水箱模型(tank model),不含参数率定过程

    一.水箱模型结构 二.代码 import matplotlib.pyplot as plt import numpy as np import math import time # 设置标签为负号可显 ...

  2. 模型中AIC和BIC以及loglikelihood的关系

    目录 1. AIC的解释 2. BIC的解释 3. AIC和BIC的比较 4. 实例演示 4.1 模型1的AIC和BIC 4.2 模型2的AIC和BIC 4.3 模型1和模型2比较 5. LRT似然比 ...

  3. Jena 简介:通过 Jena Semantic Web Framework 在 Jave 应用程序中使用 RDF 模型

    简介: RDF 越来越被认为是表示和处理半结构化数据的一种极好选择.本文中,Web 开发人员 Philip McCarthy 向您展示了如何使用 Jena Semantic Web Toolkit,以 ...

  4. 通过 Jena Semantic Web Framework 在 Jave 应用程序中使用 RDF 模型 (转)

    RDF 越来越被认为是表示和处理半结构化数据的一种极好选择.本文中,Web 开发人员 Philip McCarthy 向您展示了如何使用 Jena Semantic Web Toolkit,以便在 J ...

  5. 通过 Jena Semantic Web Framework 在 Jave 应用程序中使用 RDF 模型

    http://www.ibm.com/developerworks/cn/java/j-jena/ RDF 越来越被认为是表示和处理半结构化数据的一种极好选择.本文中,Web 开发人员 Philip ...

  6. 深度学习:Diffusion Models in Vision: A Survey视觉中的扩散模型:综述

    Diffusion Models in Vision: A Survey视觉中的扩散模型:综述 0.摘要 1.概述 2.通用模型架构 2.1.Denoising Diffusion Probabili ...

  7. 非常规解释:分类ML模型的十大模型性能指标

    2020-06-21 12:31:00 全文共3574字,预计学习时长11分钟 图源:unsplash 本文将带大家了解10个最重要的模型性能指标,这些指标可用于评估分类模型的模型性能.一旦了解了指标 ...

  8. arch模型的思路_ARCH模型

    ARCH模型(Autoregressive conditional heteroskedasticity model) [编辑] 什么ARCH模型? ARCH模型由美国加州大学圣迭哥分校罗伯特·恩格尔 ...

  9. arch模型的思路_ARCH模型课件.ppt

    ARCH模型课件 ARCH检验结论 显然,无论是ARCH-LM检验还是残差相关图检验,都显示P值很大,即残差的自相关关系不再显著,最终剩余的残差是真正的白噪声. 残差ARCH 效应检验结果表明深证综指 ...

最新文章

  1. ethereumjs/ethereumjs-vm-4-tests
  2. Eclipse导入Maven项目解决Build Path不能配置问题
  3. thinkphp mysql desc table_Thinkphp 连接数据库、查询、添加
  4. 分布式系统架构与云原生—阿里云《云原生架构白皮书》导读
  5. 网络字节与主机字节转换 htons(), ntohl(), ntohs(),htons() 函数
  6. WordPress Kyma plugin检测kyma连接状态的逻辑
  7. 单播、广播、组播、多播
  8. mysql导入sqlserver数据库表
  9. Github CodeSpaces 使用及定制化
  10. BugkuCTF-Reverse题不好用的ce
  11. php 实现防盗链,php中如何实现防盗链的示例
  12. python常用的库与包_python常用到哪些库?
  13. 深入浅出Hyper-V网络虚拟化(序)
  14. adadelta算法_ADADELTA: AN ADAPTIVE LEARNING RATE METHOD(2012)
  15. jvm讲解-jvm内存结构详解
  16. 什么是QT(轻松的帮你做带界面的软件)
  17. 每日思考第 70 期:人,往往会低估一件事的难度,而高估自己的能力
  18. 一切都结束了。OI退役感言。
  19. 解决su – 后显示-bash-4.1#
  20. 今天没有写的,唱首歌吧。。

热门文章

  1. k折交叉验证(k-fold Cross-validation)
  2. pytorch Vocab
  3. 七层网络模型(大致信息讲解)
  4. form表单用butten提交后无反应表单提交三种方式
  5. VSCode配置MPX开发
  6. 电子计算机的产品情况,广东省市场监督管理局关于2020年度广东省电子计算机配套产品及耗材产品质量监督抽查情况的通告...
  7. http常见状态返回码
  8. 团队-中国象棋游戏-设计文档
  9. spark开发及调优
  10. Python迭代器、生成器、map以及reduce