AI实战:推荐系统之影视领域用户画像——标签数据清洗
前言
用户画像就是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型。
先回顾下构建用户画像三部曲:
一、数据收集二、搭建用户画像标签体系三、构建用户画像
上一篇文章 AI实战:推荐系统之影视领域用户画像——数据采集内容 中介绍了影视领域用户画像数据采集内容,本文简要介绍搭建用户画像标签体系中的数据清洗。
数据清洗
- 回顾数据采集内容:
标签清洗
一、数据清洗常用方法
缺失值处理
删除缺失值
数据采集不易,一般不轻易删除数据。
插补缺失值
常见方法:均值插补、中位数插补、众数插补、最大值插补、最小值插补、固定值插补、最近邻插补、热卡填补法(类似的方法还有最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等)、通过拟合函数来插补(拉格朗日插值法、牛顿插值法、Hermite插值法、分段插值法和样条插值法)
不处理缺失值
重复值处理
删除重复值
异常值处理
查找异常值,根据规则来处理
常见方法:
1、统计分析
对数据进行统计分析,如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,如年龄为-10岁或300岁,显然是不合常理的,视为异常值。
2、3σ准则
如果数据服从正态分布,在3σ原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。
3、箱型图分析
箱型图
4、基于模型检测
首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象
5、基于距离
通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象
6、基于密度
当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。
7、基于聚类:
基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。
删除异常值
视为缺失值后进行插补
发现异常值后在按照“插补缺失值”来处理。
二、清洗标签数据
例子说明:
1、清洗年龄
缺失值处理
将缺失值替换为年龄的众数
将年龄异常值替换为
使用统计分析方法,检测出年龄的异常值,再将异常值替换为年龄的众数
将年龄分段化
按照儿童、少年、青年、中年、老年5个阶段,将年龄映射到其中。
将儿童、少年、青年、中年、老年分别表示为1 、2 、3、4、5。
最终年龄清洗为枚举特征。
2、购买VIP
二值特征主要是0/1特征,购买VIP只有购买了或者没有购买两种,故符合二值特征。
缺失值处理
缺失值替换为0,即默认未购买VIP。
最终 ‘购买VIP’ 清洗为二值特征。
3、观看时长
该标签为整形,在特征中属于 ’连续特征‘ 。
这里采用0-1 标准化来处理:
x(标准化)=(x-最小值)/(最大值-最小值)
缺失值处理
缺失值替换为0,即观看时长为0。
最终 ‘观看时长’ 清洗为连续特征。
4、爱追剧
该标签无法直接从数据库中获取,需要对 “观看内容” 进行统计分析才能得到。
缺失值处理
缺失值替换为0,即爱追剧为0表示不爱追剧。
最终 ‘爱追剧’ 清洗为二值特征。
其他标签都可以归为上面4种处理方法,就不再一一举例说明了。
AI实战:推荐系统之影视领域用户画像——标签数据清洗相关推荐
- AI实战:推荐系统之影视领域用户画像——数据采集内容
前言 用户画像就是根据用户特征.业务场景和用户行为等信息,构建一个标签化的用户模型. 了解用户画像架构: 构建用户画像三部曲: 一.数据收集 数据收集主要包括用户行为数据.用户基础数据. 下面是某跨境 ...
- 全网超详细!用户画像标签体系建设指南!
大家好,最近工作之余看了很多用户画像的文章,要么描述浅显.要么相对片面,对于数据分析人员来说算是窥中豹管. 今天我将结合日常工作实践和理解,整理了一份用户画像的文章,内容偏向数据分析方法论,个人觉得这 ...
- 万字用户画像标签体系建设分析指南!
转自:大数据梦想家 01 什么是用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特 ...
- 只需8步,轻松构建用户画像标签体系
随着互联网流量红利的逐渐消失及用户需求的日渐碎片化,APP无论是进行拉新获客还是用户全生命周期管理,或是商业变现,都需要更精准地洞察用户需求,从而为用户提供高质量贴心服务,实现精细化运营. 于是,构建 ...
- 三分钟入门大数据之用户画像标签的分类
哈喽,大家好,我是汉斯老师.近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧.很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来.然而一方面受到"互联网寒冬" ...
- 用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系 用户画像的核心在于给用户"打标签",每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄.性别.兴趣偏好等,不同的标签通过结构化的数据体系整合 ...
- 用户画像标签维度_用户画像标签 数据挖掘系列:用户头像的用户标签
在寻找人的业务场景中,用户可以直接找到各个垂直类别的专家帐户,并且可以通过跟踪专家帐户直接获取各个垂直类别的高质量内容.在热门的微博业务场景中,内容流来自垂直类别的专家帐户:在发布特定类别的高质量内容 ...
- 用户画像标签维度_一文看懂用户画像标签体系(包括维度、应用场景)
一文看懂用户画像标签体系(包括维度.应用场景) 互联网相关企业在建立用户画像时一般除了基于用户维度(userid)建立一套用户标签体系外,还会基于用户使用设备维度(cookieid)建立相应的标签体系 ...
- 用户画像标签数据存储之Elasticsearch存储
目录 0. 相关文章链接 1. Elasticsearch简介 2. 应用场景 3. 工程化案例 4. 用户画像标签数据存储总结 注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一 ...
- 企业级360°全方位用户画像:标签系统[四]
絮叨两句: 博主是一名软件工程系的在校生,利用博客记录自己所学的知识,也希望能帮助到正在学习的同学们 人的一生中会遇到各种各样的困难和折磨,逃避是解决不了问题的,唯有以乐观的精神去迎接生活的挑战 少年 ...
最新文章
- api工程IOS学习:在IOS开发中使用GoogleMaps SDK
- Oracle 简单树查询
- 一些概念整理(不一定完全正确)
- Go 指针 unsafe.Pointer
- PHP函数库之BC高精确度函数库
- 2013-3-14 生活日记
- 修复远程过程调用 (RPC) 时发生的各种问题KB908521
- 安装mysql 遇到最后一步卡死解决方案
- STC8H8K系列汇编和C51实战——实现跑马灯(汇编版)
- JAVA程序设计(学堂在线-清华大学) 课后练习题 已更新完毕
- 2021年最优秀的新闻APP或许是这两个(国内没上架)
- Linux信号量以及互斥体
- python全栈教程 pdf_马哥python全栈+爬虫+高端自动化课程大纲 (2018版) 全套视频教程【MP4】【65.22GB】...
- 淘宝APP用户体系运营拆解​
- 队列元素逆置 数据结构 队列
- java 步长_java设定窗口步长,依次统计窗口内数值总和
- 首款基于龙芯的域名系统服务器发布,首款基于龙芯CPU的国产域名服务器发布
- 中国城市轨道交通与设备产业十四五建设规划与运营模式咨询报告2022-2028年
- 沟通表达的实用技巧和练习方法
- Cloudflare 远程浏览器隔离
热门文章
- unbutu服务器误删文件,ubuntu中恢复rm命令误删文件
- 360桌面隐藏应用 android代码,360手机桌面上的隐藏应用怎么设置?
- STC51入门笔记(郭天祥C语言)---第九节:常见芯片和运放电路介绍
- android电容触摸驱动
- Mbed记录 STM32F207ZG板子引脚图
- mysql 批量插入 优化_mysql 批量插入优化之rewriteBatchedStatements
- st8s003 c语言编译器,stm8s003f3p6
- java docx4j 目录,1、带你一起拥有docx4j
- word转pdf时图片模糊+文字版权的有效处理方式——Microsoft Print to PDF(YYDS)
- EVMC6678L时钟主频配置