数据样本过大 数据维度过大:用户名做一个聚类2.可以将时间分段,达到降维的效果
CTR的核心问题主要是点击率
*广告排序
– ECPM=CTR*Bid
– 排序时Bid已知,但CTR未知
*扣费
– CPCi = (CTRi+1*CPCi+1)/CTRi
– 当前广告的扣费依赖当前及后一条广告的CTR
所以,计算每条广告的CTR是排序和扣费的核心
数据样本过大
我们现在做的比赛样本都比较小,几个G上下,在自己的PC上还是能凑和的,但是在实际运用中,样本往往会很大,往往达到几百G,所以一般有两种方法可以来处理:
1.下采样:直到样本大小达到我们能够训练的程度。注意在采样时尽量让样本达到均衡的状态如:正样本采样率多一点,负样本采样率少一些
2.借助工具:Spark MLlib
http://spark.apache.org/mllib/
数据维度过大
降维即可,方法如下:
1.可以把用户名做一个聚类
2.可以将时间分段,达到降维的效果
tip:在处理大数据的时候,如果用pandas,不出意外,内存肯定会爆掉,所以推荐使用LIBSVM,这是台湾大学的一位教授开发的一款简单快捷的SVM模式识别与回归软件包,这款软件在数据处理(比如One-Hot Encoding后)能有效减少所需内存
从FM到FFM
FM和FFM模型是最近几年提出的模型,因其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在CTR预估比赛中获得不错的战绩。
FM:有三个库,台大的LIBMF;原作者的LIBFM;还有上交的svdfeature
FFM:LIBFFM
关于这两个算法,网上已经有很多优秀的资料了,在这里我主要讲一下自己的理解
FM:
首先通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。例如,“男人”和“游戏”、“女人”与“化妆品”这样的关联特征,对用户的点击有着正向的影响。这种关联特征与label的正向相关性在实际问题中是普遍存在的,所以引入两个特征的组合是非常有意义的。
然而,在经过One-Hot Encoding之后,大部分样本数据特征是比较稀疏的,大多数样本的维度都是零值,导致样本数据的稀疏性。
其次,之前提过,需要引入两个特征的组合,但这也会导致特征空间大。举个栗子:如果类别有100维,那组合后的维度会达到100*100=10000,而且在组合中,绝大多数是零值,从而导致的结果有:1.太费电脑了2.模型结果不准。
数据样本过大 数据维度过大:用户名做一个聚类2.可以将时间分段,达到降维的效果相关推荐
- 阿里云“网红“运维工程师白金:做一个平凡的圆梦人
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...
- 阿里云“网红quot;运维工程师白金:做一个平凡的圆梦人
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...
- 阿里云“网红运维工程师白金:做一个平凡的圆梦人
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名"辟拾(P10)": 他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路: 他爱好清 ...
- 乐高大颗粒作品19:端午节做一个粽子
今天我们用乐高大颗粒搭建一个粽子,还行,还是有点像的. 好了,今天的分享就到这里吧,赶谢大家的阅读. 每个孩子都是一张纯洁的白纸,就因为对世界一无所知,所以思维发育会更加不受限制,孩子们总能够从不同的 ...
- 当年课设期末大作业,班主任让我们做一个新闻发布管理系统
导读:基于web的新闻发布及管理系统的设计与实现,是动态网页和数据库结合,通过事件来处理新闻.我们对最新信息的更新和发布需要比较及时,而动态交互网页能实现这些功能,新闻发布及管理系统就是一个能够在网上 ...
- 【大数据运维监控】Prometheus水平扩展Cortex的架构分析
Cortex由Weaveworks创建,是一个开放源码的时间序列数据库和监视系统,用于应用程序和微服务.基于Prometheus,Cortex增加了水平缩放和几乎无限的数据保留. Cortex的架构图 ...
- 大数据运维架构师培训(1):Zookeeper,Hadoop(HDFS,MR,Yarn)
一.风哥大数据运维架构师实战培训专题2.0介绍 课程背景: 为满足想学习和掌握大数据运维与体系架构的学员,风哥特别设计的一套比较系统的大数据库运维培训课程. 课程目标: 本套风哥大数据运维架构师实战培 ...
- 大数据运维 | 集群_监控_CDH_Docker_K8S_两项目_云服务器
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课程,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾 ...
- 广州大数据项目招资深大数据运维工程师
工作职责: 一.负责大数据基础平台的运维 负责大数据基础平台维护,确保集群稳定运行: 数据可用性检查,保证数据质量: 集群安全管理.数据安全管理.租户管理等: 二.负责相关服务产品的落地执行 制定各类 ...
- 智能制造与大数据:数据分析实现智能化
前面<智能制造与大数据--数据共享实现网络化>一文围绕智能制造发展的第二个阶段--"网络化"展开阐述,重点介绍通过主数据标准制定及数据处理等技术保障共享数据的一致性与完 ...
最新文章
- php在线客服系统源码_在线客服系统物流行业解决方案
- Module build failed: Error: Node Sass version 5.0.0 is incompatible with ^4.0.0.
- Oracle的AES加密与解密用法
- opencv python教程-OpenCV4 Python 最新中文版官方教程来了(附下载)
- SQL Server 将在下一个版本实现内存中运行
- Node后端数据渲染
- 张亚勤新力作《变革中的思索》受热捧
- cad汉仪长仿宋体_长仿宋体字体下载 cad工程机械绘图工程制图国标字体下载
- java.lang.IllegalStateException: Only fullscreen activities can request orientation
- U盘文件格式简单介绍
- 智能问答机器人python_帮帮智能问答机器人中TaskBot任务对话算法实践
- elasticsearch实战 中文+拼音搜索
- 关于Win10资源管理器总是崩溃的问题解决方案
- ssh “Missing privilege separation directory: /run/sshd“
- Only one connection receive subscriber allowed.
- Nachos实习——Lab3同步机制实习报告
- Linux从零学习记录(三)
- 阿里云ECS学生成长计划续费资格考试
- VS编写简单的网游客户端
- 《深入浅出DPDK》——DPDK网络功能虚拟化