ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

目录

特征工程之高维组合特征的处理思路

1、原始数据:语⾔言和类型两种离散特征

2、为了提高拟合能力,语言和类型可以组成二阶特征

3、以逻辑回归算法为例例

4、所有的特征,才开始看起来没有任何问题

问题出现

问题解决


特征工程之高维组合特征的处理思路

1、原始数据:语⾔言和类型两种离散特征

2、为了提高拟合能力,语言和类型可以组成二阶特征

3、以逻辑回归算法为例例

<x_i,x_j>表示x_i和x_j的组合特征,w_ij的维度等于 |x_i|*|x_j| = 2*2 = 4

4、所有的特征,才开始看起来没有任何问题

但当引入ID类型的特征时,就会出现大规模数据。

(1)、⽤用户ID和物品ID对点击的影响

(2)、用户ID和物品ID的组合特征对点击的影响

问题出现

若用户的数量=m,物品的数量为n,那么学习的参数的规模mxn。但是可是,在互联⽹网环境下,数量
都可以达到千万量级,几乎无法学习这么大规模的参数。

问题解决

有效的方法就是将用户和物品分别用k维的低维向量表示(k<<m, k<<n),其中$x_i^’$ 和 $x_j^’$分别表示
x_i和x_j对应的低维向量。


需要学习的参数的规模变成m*k+n*k (实质上就是等价于矩阵分解)。

ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题相关推荐

  1. ML之FE:数据处理—特征工程的简介、使用方法、案例应用之详细攻略

    ML之FE:数据处理-特征工程的简介.使用方法.案例应用之详细攻略 目录 特征工程的引入 特征工程的简介 特征工程的思路 特征工程的关键步骤

  2. 特征工程(1)特征工程的简介

    特征工程入门与实践笔记 特征工程是什么 将数据转换为能更好的表示潜在问题的特征,从而提高机器学习性能 特征工程内容 转换数据的过程 特征工程适用于任何阶段的数据,通常将数据处理成表格形式,数据组织成行 ...

  3. [特征工程系列一] 论特征的重要性

    满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...

  4. 特征工程系列:自动化特征构造

    特征工程系列:自动化特征构造 原创: JunLiang 木东居士  今天 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...

  5. ML之LoR:基于LoR算法实现对非线性数据集点进行绘制决策边界

    ML之LoR:基于LoR算法实现对非线性数据集点进行绘制决策边界 目录 基于LoR算法实现对非线性数据集点进行绘制决策边界 1.查看数据集 2.设计代码 3.输出结果 基于LoR算法实现对非线性数据集 ...

  6. word2vec模型评估_特征工程(下)—特征评估

    点击上方"大数据与人工智能","星标或置顶公众号" 第一时间获取好内容 作者丨stephenDC 编辑丨Zandy 这是作者的第15篇文章 本文是特征工程系列的 ...

  7. 机器学习基础之《特征工程(2)—特征工程介绍、特征抽取》

    一.什么是特征工程 机器学习领域的大神Andrew Ng(吴恩达)老师说"Coming up with features is difficult, time-consuming, requ ...

  8. [特征工程系列三]显性特征的衍生

    前一文讲的是一些特征的基础处理方式,包括怎么降维.怎么处理脏数据等等.其实特征工程真正的难点是如何结合业务需求衍生出新的特征.结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原 ...

  9. [特征工程系列二]显性特征的基本处理方法

    今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法.关于显性特征是什么,大家可以去看系列文章一.关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每 ...

最新文章

  1. 在asp.net2.0中使用串行化对象实现自定义配置
  2. java 初始化duration_Java 8-Duration 详解
  3. 化工原理少学时答案解析_化工原理 少学时 思考题答案
  4. 拓端tecdat|R语言极值理论EVT:基于GPD模型的火灾损失分布分析
  5. SRv6技术研究和组网设计
  6. 调节RStudio的代码字体大小
  7. macbook-M1的idea下集成svn环境
  8. python导入鸢尾花数据集_数据可视化——鸢尾花数据集的分析与散点图的绘制
  9. java生成的条形码扫不了_JAVA 生成扫描条形码
  10. Android 软键盘的那些坑,原理篇来了!
  11. 轮循与连接-- 细雪之舞
  12. 计算机网络,概念,发展历史,分类,协议
  13. pdf分割拆分——speedpdf帮您免费在线将PDF拆分成多个文件
  14. MySQL基础(补充)
  15. 虚拟机设置共享文件夹不显示
  16. 云架构云原生 IaaS,PaaS,SaaS,Serverless
  17. 那些年一起追过的日漫之留下的经典台词
  18. GNSS伪距单点定位、DOP值为什么和卫星分布有关
  19. python打包文件
  20. mamp nginx php7,MAMP nginx 开启 pathinfo 模式

热门文章

  1. android mvp模式例子_关于Android市场这件事,没有饱和的市场只有饱和的思维
  2. 用户姓名保护python_Python操作LDAP,对用户进行认证(验证用户名以及密码)
  3. 常用 Git 命令清单(转)
  4. 使用Fedora之VMware 虚拟机安装Fedora
  5. mysql数据库优化课程---6、mysql结构化查询语言有哪些
  6. REST技术第四步 多个參数注解问题
  7. 亚马逊手机端测评软件/PC端测评软件各有什么优缺点?
  8. 机房收费--操作员注册
  9. git通过authorized_keys来管理用户的权限(二)
  10. Django学习(一)