零基础入门推荐系统 - 新闻推荐实战-笔记四-特征工程

  • 什么是特征工程
  • 本次特征工程内容
    • 已有特征
    • 特征构造
    • 负采样

什么是特征工程

工业界名言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程本质是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程可以一步增强数据的表达能力,通过构造新特征,可以挖掘出数据的更多信息,使得数据的表达能力进一步放大。
我理解的特征工程包括: 数据处理、特征选择、维度压缩。

本次特征工程内容

①通过制作特征和标签把预测问题转成了监督学习问题;
②围绕着用户画像和文章画像进行一系列特征的制作;
③通过负采样技术,以达到正负样本数据均衡的目的。

已有特征

文章的自身特征:
category_id表示这文章的类型
created_at_ts表示文章建立的时间这个关系着文章的时效性
words_count是文章的字数

用户的设备特征信息:
click_environment:用户点击环境
click_deviceGroup:点击设备组
click_os:点击系统
click_country:所在国家
click_region:所在地区

特征构造

每个用户的点击文章是与其历史点击的文章信息是有很大关联的, 比如同一个主题, 相似等等。 所以特征构造很重要的一系列特征是:结合用户的历史点击文章信息。我们已经得到了每个用户及点击候选文章的两列的一个数据集, 而我们的目的是要预测最后一次点击的文章, 思路就是和其最后几次点击的文章产生关系, 这样既考虑了其历史点击文章信息, 又得离最后一次点击较近,因为新闻很大的一个特点就是注重时效性。 往往用户的最后一次点击会和其最后几次点击有很大的关联。 所以我们就可以对于每个候选文章, 做出与最后几次点击相关的特征如下:

①候选item与最后几次点击的相似性特征(embedding内积) — 这个直接关联用户历史行为
②候选item与最后几次点击的相似性特征的统计特征 — 统计特征可以减少一些波动和异常
③候选item与最后几次点击文章的字数差的特征 — 可以通过字数看用户偏好
④候选item与最后几次点击的文章建立的时间差特征 — 时间差特征可以看出该用户对于文章的实时性的偏好

负采样

负采样是为了解决类别太多的一种折中方案。
在自然语言处理领域中,判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。
采样得到一个上下文词和一个目标词,生成一个正样本(positive example),生成一个负样本(negative example),则是用与正样本相同的上下文词,再在字典中随机选择一个单词,这就是负采样(negative sampling)。

在这次新闻推荐中和上面的例子也是想类似的,会给数据增加一个label列,该列数据为1时为正样本(即对应的item是正确的),为0时是负样本(即对应的item是错误的)。这就有熟悉的监督学习内味了。

零基础入门推荐系统 - 新闻推荐实战-笔记四相关推荐

  1. 零基础入门推荐系统 - 新闻推荐-Task2 (DataWhale学习小组)

    零基础入门推荐系统 - 新闻推荐-Task2 (DataWhale学习小组) 数据探索性分析 加载需要的module %matplotlib inline import pandas as pd im ...

  2. 零基础入门推荐系统 - 新闻推荐(一)

    赛题地址 背景: 随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代.在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:作 ...

  3. 零基础入门推荐系统(新闻推荐)

    零基础入门推荐系统(新闻推荐) 比赛介绍 本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 -- 零基础入门推荐系统之新闻推荐场景下的用户行为预测挑战赛. 赛题简介 此次比赛是新 ...

  4. 基于hadoop的商品推荐系统_[零基础入门推荐系统(1)]基于用户和基于物品的协同过滤方法(python代码实现)...

    1. 前言: 为什么会有该系列? 最近,打算写<零基础入门推荐系统>系列,为了系统地介绍推荐系统知识,以及加强基础的实践能力. 该系列将结合一些书籍,比如项亮的<推荐系统实践> ...

  5. Task01——零基础入门NLP - 新闻文本分类之赛题理解

    本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...

  6. 零基础入门NLP - 新闻文本分类

    本文是对阿里云新人竞赛中的"零基础入门NLP - 新闻文本分类"解体过程进行的记录,目前仅使用了textCNN模型进行预测,后续还会考虑使用LSTM进行对比. 赛题数据 赛题以新闻 ...

  7. 零基础入门NLP - 新闻文本分类,正式赛第一名方案分享

    零基础入门NLP - 新闻文本分类,正式赛第一名方案分享:https://mp.weixin.qq.com/s/7WpZUqdlItBToLYuRLm44g

  8. 单片机零基础入门(8-4)实战:单片机动态数码管消影---附源代码

    单片机零基础入门(8-4)实战:单片机动态数码管消影 一.回顾 二.问题及原因 三.解决办法: 四.解决后的源代码: 五.补充知识:数码管驱动方式 1.单片机直接扫描: 2.专用驱动芯片: 一.回顾 ...

  9. 单片机零基础入门(9-1)实战:模块化编程(模块化两个案例含源码--以及无法显示头文件(.h)的解决方案)

    单片机零基础入门(9-1)实战:模块化编程-(以及无法显示头文件(.h)的解决方案) 本文作为单片机零基础入门(8-5)模块化编程的拓展和补充,比前面的单片机零基础入门(8-5)模块化编程更为详细. ...

最新文章

  1. 送书 | 你一定能看懂的算法基础书(代码示例基于Python)
  2. 学习使用ASP对象和组件
  3. idea @value提示_IDEA 中springboot 项目使用 注解Autowired 出现红线
  4. [最后召集:西瓜糖、editasp]微软MVP呕心力作《我的第一本C++书》新鲜出炉,围观即有机会获新书免费送...
  5. Twitter数据抓取的方法(三)
  6. iOS学习之单例模式
  7. vs2013实现duilib结合cef的demo
  8. 金蝶商贸版,后台修改序时簿过滤条件
  9. 我,阿里P7,找不到工作
  10. 2022年手机CPU性能天梯图排行榜 手机处理器排行榜 2022
  11. jsp未正确拼写字 mysql_江西26个英文字母的正确拼写方式
  12. 几款好用证件照制作工具推荐
  13. 开发技术-git修改用户名和邮箱地址
  14. 如何看计算机接口类型,怎么看自己电脑cpu的接口类型
  15. 【docker系列】四种基础网络模式及自定义网络
  16. solidworks画渐开线直齿轮(不用toolbox和其他工具箱)
  17. B2型水面线计算(含python代码)
  18. VS平台账号注册机--源码--详细文档--分析-原理-实现
  19. 商品展示和陈列VI设计的创意方法
  20. 每天记录学习的新知识:开源代码是否可以商用在项目中?

热门文章

  1. 3个月周末,软考高级复习攻略,信息系统项目管理师考后总结
  2. python 颜色与字体
  3. 第二篇第一章概述及第二章生产和储存物品的火灾危险性分类 重点在于表格...
  4. qq加群采集群成员,无痕偷人
  5. 内存 profile (zz)
  6. 麒麟系统云打印安装指导
  7. 移动宽带客户测试软件,华为移动宽带终端检测工具(Mobile Doctor)
  8. PIP 更换国内安装源
  9. 计算机学院运动会开幕式稿,大学运动会开幕式方队解说词
  10. 京东小程序开放平台,他来了