学习心得

(1)本次task学习了推荐系统中特征处理的主要方式,并利用 Spark 实践了类别型特征和数值型特征的主要处理方法,深度学习和传统机器学习的区别并不大,TensorFlow、PyTorch 等深度学习平台也提供了类似的特征处理函数。

(2)其中几个特征处理API:
Normalizer,是范式归一化操作,保证归一化之后范式为1
StandardScaler,是标准差归一化操作,保证归一化之后均值为0标准差为1
RobustScaler,是使用分位数进行鲁棒归一化操作,可以有效减少异常值的干扰
MinMaxScaler,是使用最大值和最小值进行归一化操作。

(3)Spark 的计算过程:Stage 内部数据高效并行计算,Stage 边界处进行消耗资源的 shuffle 操作或者最终的 reduce 操作。
注意:OneHotEncoderEstimator() 在PySpark 3.0.0及以上版本已经更改为 OneHotEncoder()

  • 数据部分

    • flink流处理平台准实时数据处理:src/main/java/com/sparrowrecsys/nearline/flink
    • spark大数据离线数据处理:
      • 数据处理

【王喆-推荐系统】(task2)用Spark进行特征处理(特征工程篇)相关推荐

  1. 【王喆-推荐系统】RS整体架构和流程

    这个系列是学习王喆的[深度学习推荐系统实战]时做的笔记和自己的学习总结. 文章目录 零.一个栗子的引入 一.学习目标和要求 1.学习目标 2.前置要求 二.推荐体系 1.基础架构篇 2.特征工程篇 3 ...

  2. 深入浅出推荐系统(七):水源木本--特征工程

    在介绍排序算法之前,我们先来谈一谈召回与排序模型的通用基础建设–特征工程.早期如LR.树模型等排序算法,对于特征十分依赖,尽管现在深度学习所谓端到端的训练大行其道,但特征仍然有着独特的作用:特征的选取 ...

  3. 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(下)

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征下半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  4. 特征工程+特征组合+特征交叉+特征变换+生成特征

    特征组合+特征交叉(交叉特征,组合特征,特征组合)+特征变换+生成特征+特征提取+ 特征缩放+特征选择+特征分箱+时间特征+特征关联+文本特征+特征采样 特征关联---->corr() 特征分箱 ...

  5. 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(上)

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征上半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  6. Spark性能优化指南:基础篇

    前言 在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...

  7. orb特征 稠密特征_特征点的基本概念和如何找到它们

    一.什么是特征点,它具有什么"特征"? 特征点.角点.关键点,这些概念虽然有细节上的不同,但是在我们这里统一称为"特征"点,也就是具有特征性质的点.在图像处理中 ...

  8. 如何应对大数据分析工程师面试Spark考察,看这一篇就够了

    作者丨斌迪.HappyMint 来源丨大数据与人工智能(ID:ai-big-data) [导读]本篇文章为大家带来spark面试指南,文内会有两种题型,问答题和代码题,题目大部分来自于网络上,有小部分 ...

  9. pcl点云特征提取 法线估计 PFH FPFH NARF 惯量偏心矩 RoPs特征 视点特征直方图VFH GASD特征

    pcl点云特征提取 法线估计 PFH FPFH NARF 惯量偏心矩  RoPs特征  视点特征直方图VFH GASD特征 博文末尾支持二维码赞赏哦 _ 如果要对一个三维点云进行描述,光有点云的位置是 ...

  10. 特征,特征维度,特征深度

    关于神经网络中的特征,特征维度,特征深度的一些问题 是不是卷积深度浅的叫低维特征? 不完全正确.卷积深度浅的特征通常被称为浅层特征,而低维特征通常是指特征的维度较低.在深度学习中,卷积深度通常指卷积神 ...

最新文章

  1. python用一行代码编写一个回声程序_一行python代码实现树结构
  2. [svc]ext4文件删除访问原理
  3. N个数依次进栈,求所有可能的出栈方式
  4. 在一个风景秀丽的小镇,一天早上,有N名晨跑爱好者(编号1~N)沿着优雅的江边景观道朝同一方向进行晨跑
  5. LeetCode 971. 翻转二叉树以匹配先序遍历(DFS)
  6. 2018年计算机CPU纳米制程,AMD发大招,推出7纳米制程CPU与GPU
  7. 信息学奥赛C++语言: 输出矩形
  8. python布尔类型运算_Python bool类型和比较运算符(入门必读)
  9. 小白来学C语言之字符串与指针
  10. 超简单炫彩抽象线条感海报PSD分层素材,一切变得简单!
  11. reprint函数的用法c语言,百篇大计敬本年之C语言巅峰之道《五》—— snprintf 是否需要 memset 缓冲区...
  12. 20非常有用的Java程序片段(1)
  13. 【JavaWeb】Filter案例:登录验证、敏感词汇过滤
  14. 典型计算机控制系统的基本框图6,计算机控制系统复习题标准答案.doc
  15. 向日葵RCE后续利用之本地提权
  16. 各行业程序员年薪分析
  17. 手机自带计算机在线汇率,中美汇率换算计算器(汇率换算器在线 查询)
  18. 淘宝 生成 图片二维码分享
  19. idea2017激活方式(亲测可用,良心推荐)
  20. React Reconciler

热门文章

  1. windows 修改磁盘盘符教程
  2. python 小说 小说_我用Python实现了一个小说网站雏形
  3. macbook系统和linux区别,Mac OS和Linux有什么区别?
  4. 位运算:找出唯一成对的数、找出落单的数
  5. Linux下,编译程序遇到“undefined reference to XXX” 报错(可针对webots的编译,不同的文件夹下面不同的cpp,.h文件)
  6. Java二维数组声明与初始化
  7. dom实现类似淘宝的星级评分
  8. 牙科植入物市场现状及未来发展趋势
  9. Ubuntu14联合安装opencv与opencv_contrib踩过的坑
  10. SQL优化之四两拨千金