关注公众号,发现CV技术之美

随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长。互联网时代带来了大量的信息,这些信息是名副其实的大数据。另外,性能极佳的硬件也使得计算机的计算能力大大增强,这二者结合到一起,人工智能的蓬勃兴盛就变成了自然而然的事情。机器学习作为一种传统的、可解释性较强的算法,在人工智能三驾马车之算法中也占有一席之地。

一本《机器学习算法竞赛实战》应运而生,意在帮助机器学习初学者通过实战的方法从虽然优美但是略显枯燥的各种公式和理论当中脱离出来,感受机器学习在实际应用中的奥秘,而竞赛则是一种最特殊的实战。

算法竞赛时代

2010 年,全球著名算法竞赛平台 Kaggle 举办了第一场竞赛 Forecast Eurovision Voting,奖金为 1000 美元。

2015 年,国内第一场算法竞赛在天池举办,比赛题目是阿里移动推荐算法,奖金为 30 万元人民币,吸引了 7000 多人参加。虽然国内的算法竞赛起步时间晚于国外,但从 2015 年开始,在全球举办的一共 1000 多场赛事中,中国就举办了 400 多场,并且场次的年均增长率高达 108.8%,累计有超过 120 万人参加,奖金累计达到 2.8 亿元人民币。在算法竞赛的举办场次拥有如此高增长率的情况下,其技术价值、业务价值和创新价值自然不容小觑。

对于有志于进军机器学习相关领域从事研究或者相关工作的初学者来说,竞赛是性价比极高的一个实战选择,可以说是零门槛,任何人都能参加。

易于学习的竞赛宝典

对于想参加机器学习竞赛的初学者来说,一本内容友好的图书极其重要,可以少走很多弯路。这本《机器学习算法竞赛实战》合理地规划了章节架构,作者们除了仔细的讨论外,还采纳了国内多名顶尖竞赛选手的建议,深入剖析算法的本质内容,还结合多个领域模块进行了实战讲解。全书分为五个部分,作者还给每部分都取了一个名字。

PART.

01

磨刀事半,砍柴功倍

第一部分以算法竞赛的通用化流程为主,介绍竞赛中各个部分的核心内容和具体工作,且每章都配有具体的实战部分,以便加深理解。

PART.

02

物以类聚,人以群分

第二部分主要介绍用户画像相关的问题,构建完善的标签体系是用户画像的核心,也是解决用户画像类赛题的关键,比如个性化推荐和金融风控等问题都需要以用户画像作为支撑。为了帮助读者加快对此类竞赛问题的学习、理解,会讲解具体的竞赛案例,即 Kaggle 平台的 Elo Merchant Category Recommendation。

(题目背景:想象一下,当你在一个不熟悉的地方饿着肚子想要找好吃的东西时,你是不是会得到基于你的个人喜好而被专属推荐的餐馆,且该推荐还附带着你的信用卡提供商为你提供的附近餐馆的折扣信息。

目前,巴西最大的支付品牌之一 Elo 已经与商家建立了合作关系,以便向顾客提供促销或折扣活动。但这些促销活动对顾客和商家都有益吗?顾客喜欢他们的活动体验吗?商家能够看到重复交易吗?要回答这些问题,个性化是关键。

Elo 建立了机器学习模型,以了解顾客生命周期中从食品到购物等最重要方面的偏好。但到目前为止,那些学习模型都不是专门为个人或个人资料量身定做的,这也就是这场竞赛举办的原因。

在这场竞赛中,需要参赛者开发算法,通过发现顾客忠诚度的信号,识别并为个人提供最相关的机会。你的意见将改善顾客的生活,帮助 Elo 减少不必要的活动,为顾客创造精准正确的体验。)

PART.

03

以史为鉴,未来可期

第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析两个具体的实战案例,分别是天池平台的全球城市计算 AI 挑战赛和Kaggle 平台的Corporación Favorita Grocery Sales Forecasting。

(题目背景:在实体杂货店里,销量预测和顾客采购量之间的关系总是很微妙。如果销量预测得多,而顾客采购得少,那么杂货店的商品就会积压过多,尤其对易腐商品的影响较大;如果销量预测较少,而顾客采购量较大,那么商品很快就会卖光,短时间内顾客的体验会变差。

随着零售商不断增加新地点、新产品,以及季节性口味的变化多样和产品营销的不可预测, 问题变得更加复杂。位于厄瓜多尔的大型杂货零售商 Corporación Favorita 也非常清楚这点,其经营着数百家超市,售卖的商品超过 20 万种。

于是 Corporación Favorita 向 Kaggle 社区提出了挑战,要求其建立一个可以准确预测商品销量的模型。Corporación Favorita 目前依靠主观预测来备份数据,很少通过自动化工具执行计划, 他们非常期待通过机器学习实现在正确的时间提供足够正确的商品,来更好地让顾客满意。)

PART.

04

精准投放,优化体验

计算广告相关的业务大多是很好的竞赛题目,第四部分主要介绍了计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价。实战案例部分则包括两道赛题,分别是 2018 腾讯广告算法大赛——相似人群拓展,以及 Kaggle 平台的 TalkingData AdTracking Fraud Detection Challenge。

PART.

05

听你所说,懂你所写

第五部分基于自然语言处理相关的内容进行讲解,包括常见任务和常见技术,实战案例部分是 Kaggle 平台上的经典竞赛 Quora Question Pairs。

这本书可以说是算法竞赛领域一本系统性介绍竞赛的书,不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。

本书还附赠读书思维导图,轻松定位学习要点。

本书特色

1

腾讯广告算法大赛两届冠军、Kaggle Grandmaster倾力打造

2

赛题案例来自 Kaggle、阿里天池、腾讯广告算法大赛

3

按照问题建模、数据探索、特征工程、模型训练、模型融合的步骤讲解竞赛流程

适合谁读

  • 对算法竞赛感兴趣的人。兴趣是最大的驱动力,为了让算法竞赛变得更加有趣和更加多样性,本书增加了很多扩展与探索性的内容,从多个方向、多个领域进行介绍和实战。

  • 想要研究机器学习或深度学习算法实战的人。实战的最佳方式之一是参加一场算法竞赛,加深对理论知识的理解,这也是本书的核心思想。

  • 计算机相关专业的人。机器学习或深度学习算法作为目前计算机行业一个火热的就业方向,值得去深入研究。本书提供了很好的实战讲解,帮助读者知其然,并知其所以然。

《机器学习算法竞赛实战》

王贺 刘鹏 钱乾 著

本书是算法竞赛领域一本系统介绍竞赛的图书,书中不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。

全书分为五部分:第一部分以算法竞赛的通用流程为主,介绍竞赛中各个部分的核心内容和具体工作;第二部分介绍了用户画像相关的问题;第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析天池平台的全球城市计算 AI 挑战赛和 Kaggle 平台的Corporación Favorita Grocery Sales Forecasting;第四部分主要介绍计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价,其中两个实战案例是 2018 腾讯广告算法大赛——相似人群拓展和Kaggle 平台的TalkingData AdTracking Fraud Detection Challenge;第五部分基于自然语言处理相关的内容进行讲解,其中实战案例是 Kaggle 平台上的经典竞赛 Quora Question Pairs。

作者简介

王贺(鱼遇雨欲语与余),现任职于小米商业算法部,从事应用商店广告推荐的研究和开发。从 2018 年至 2020 年多次参加国内外算法竞赛,共获得 5 次冠军和 5 次亚军,是 2019 年和 2020 年腾讯广告算法大赛的冠军。毕业于武汉大学计算机学院,硕士学位,研究方向为图数据挖掘。

刘鹏,华为技术有限公司算法工程师,从事电信运营商和智能运维领域的算法研究和开发工作。2016 年本科毕业于武汉大学数学基地班,保研至中国科学技术大学自动化系,硕士期间研究方向为复杂网络与机器学习,2018 年起多次获得机器学习相关竞赛奖项。

钱乾,数程科技大数据技术负责人,工作方向为物流领域的智能算法应用。本科就读于美国佐治亚理工大学,研究方向包括机器学习、深度学习、自然语言处理等。

目录抢先看

(向右划动查看)

文末福利

在文末留言区 推荐一篇近期你认为不错的机器学习相关论文,包含论文题目及地址,例如:

题目:Quantifying Explainers of Graph Neural Networks in Computational Pathology。

地址:https://arxiv.org/abs/2011.12646

再谈谈你的推荐理由,9 月 30 日 12 点前,CV君将从中选择 5 位(由CV君确定)留言最走心的粉丝赠送正版图书 1 本。

未中奖的读者,如果需要也可以通过扫描下方二维码/点击『阅读原文』,进入小程序购买

END

欢迎加入「算法竞赛交流群

【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...相关推荐

  1. 【赠书】腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,涵盖Kaggle、阿里天池等赛题...

    随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也使得计算机的计算能力大大增强, ...

  2. 腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,涵盖Kaggle、阿里天池等赛题...

    随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也使得计算机的计算能力大大增强, ...

  3. 【国庆赠书】腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,涵盖Kaggle、阿里天池等赛题...

    值此国庆佳节,给大家赠书啦!祝大家假期快乐!(可在文末参与活动) 随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副 ...

  4. 【粉丝福利】赠《机器学习算法竞赛实战》10 本书

    随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也使得计算机的计算能力大大增强, ...

  5. 《机器学习算法竞赛实战》整理 | 八、实战案例:Elo Merchant Category Recommendation

    详情请参见原书 ​​​​​<机器学习算法竞赛实战(图灵出品)>(王贺,刘鹏,钱乾)[摘要 书评 试读]- 京东图书 前言 比赛链接: https://www.kaggle.com/comp ...

  6. 《机器学习算法竞赛实战》笔记 - 第一部分 磨刀事半,砍柴功倍

    <机器学习算法竞赛实战>笔记 - 第一部分 磨刀事半,砍柴功倍 I. 图书豆瓣背景: II. 主要框架: 初见竞赛 问题建模 数据探索 特征工程 模型训练 模型融合 1. 初见竞赛: 竞赛 ...

  7. 《机器学习算法竞赛实战》-chapter4特征工程

    <机器学习算法竞赛实战>学习笔记,记录一下自己的学习过程,详细的内容请大家购买作者的书籍查阅. 特征工程 特征工程是算法竞赛中工作量最大,决定参赛者能否拿到较好名次的关键部分.吴恩达老师说 ...

  8. 机器学习算法竞赛实战--3,数据探索

    数据挖掘是竞赛的核心模块之一,贯彻竞赛始终也是很多竞赛胜利的关键那么数据探索又是什么呢?可以解决哪些问题?首先应该明确3点,即如何确保自己准备好竞赛使用的算法模型如何为数据集选择最合适的算法如何定义可 ...

  9. 《机器学习算法竞赛实战》学习笔记4.特征工程

    吴恩达老师有言:"机器学习在本质上还是特征工程,数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限而已." 特征工程主要分为:数据预处理.特征变换.特征提取.特征选择四部分 ...

最新文章

  1. HealthKit开发快速入门教程之HealthKit框架体系创建健康AppID
  2. mxnet迁移学习 注释版
  3. hust1343(贪吃蛇模拟)
  4. mongodb副本集架构搭建
  5. Visual Studio 15.5预览版先睹为快
  6. Linux环境变量总结
  7. 基于JAVA+Servlet+JSP+MYSQL的幼儿园管理系统
  8. rust笔记6 枚举类型
  9. LeetCode简单题目(#172 #189 #190 #191 #198 #202)-6道(序列、数字)
  10. 华为服务器虚拟化概念,华为服务器虚拟化助力IT信息化建设
  11. IIS与ASP.NET Http Runtime Pipeline
  12. 怎样呵护友谊_我不善于经营友情,有好的开始却没有好的友谊,怎样建设友情呢?...
  13. 和cesuim类似的三维GIS平台_绿城南宁,火红的三维GIS
  14. 内网环境中公网域名解析成内网地址的问题
  15. 阿尔伯塔大学 计算机科学,阿尔伯塔大学计算机科学专业入学要求及申请费用盘点...
  16. java jar包转成exe运行
  17. selenium自动登陆校园网wifi(含验证码处理)
  18. Unity3D-实现第一人称人物动作: 走,跑,跳,移动视角
  19. 数据结构与算法的学习——思维的学习与高屋建瓴
  20. Android开发——如何解决三方库中的类名冲突问题

热门文章

  1. 事业单位考试考试【转载】
  2. VS2008下直接安装使用Boost库1 46 1版本
  3. VC2008 Windows Media Player控件的使用技巧 二
  4. 推荐系统知识梳理——WideDeep
  5. 数据竞赛入门-金融风控(贷款违约预测)四、建模与调参
  6. 一个简单的PHP邮件列表管理器
  7. ARM 编译选项的默认关系 001
  8. ad17 pcb扇孔_PCB设计中为什么需要先进行扇孔
  9. python扫地机器人开发学校_扫地机器人源码及解释
  10. kafka 丢弃数据_Kafka史上最详细原理总结下