大家好,我是王贺(鱼遇雨欲语与余),一个工作两年的推荐广告算法工程师,热爱算法竞赛。今天跟大家聊聊我的新书《机器学习算法竞赛实战》,以及我的竞赛经历。明天晚上的直播我会以天池平台开放的二手车交易价格预测为例从实战入手讲解机器学习竞赛的流程和几个核心的算法竞赛方向。

写书的缘起

说起本书,便要追溯到2019年4月19日人民邮电出版社策划编辑陈兴璐在知乎上发给我的一则信息,其中讲到她看过我很多有关算法竞赛的文章,而且多次在算法竞赛中获奖,因此期待我能出版一本关于算法竞赛的图书。大概在2018年初,我就已经创建了专栏开始分享竞赛相关的文章,一路走来持续输出,目前的文章总浏览量达到百万。这次收到来信以及希望出版算法竞赛图书的邀请,是对我分享竞赛知识和已取得成绩的莫大认可,我欣然答应了写作邀请,并确定以「机器学习算法竞赛实战」作为书名。

为了完成本书,我邀请了我的竞赛老队员刘鹏(国内多次竞赛的冠亚军),陈兴璐编辑向我推荐了钱乾(Kaggle竞赛平台的grand master,国内最早一批竞赛选手)。另外,考虑到每个人擅长的点不同,我们进行了明确的章节分工,以保证每个章节的质量。

在确定目录章节的时候也得到了@李凯东@DOTA@大野人007@inf.turing的建议,虽然这些人没有成为作者之一,但也对本书做出了很大的贡献,在此一并表示感谢。

关于这本书

本书以算法竞赛为引导,给出了采用机器学习解决实际问题的主要过程,从问题建模、数据探索、特征工程、到模型训练和模型融合,并分别列举了这个过程中的主要难点要点、通用思路和解决方法。在后续章节中,以实际的竞赛题目为落脚点,阐述和佐证如何通过问题剖析、数据治理、融合探索等方法论,使得算法逐步发挥其重要作用。

对于本书的章节架构,我们除了进行仔细的讨论外,还采纳了国内多名顶尖竞赛选手的建议。算法竞赛本身涵盖的范围是很大的,我们的理念是剖析其最本质的内容,然后结合多个领域模块进行实战讲解,这也是本书的一大特色。

本书分为以下四个部分:

Part1

磨刀事半,砍柴功倍

这部分以算法竞赛的通用化流程为主,介绍竞赛中各个部分的核心内容和具体工作,且每章都配有具体的实战部分,以便加深理解。

Part2

物以类聚,人以群分

这部分主要介绍用户画像相关的问题,构建完善的标签体系是用户画像的核心,也是解决用户画像类赛题的关键,比如个性化推荐和金融风控等问题都需要用户画像作为支撑。为了帮助读者加快对此类竞赛问题的学习、理解,会讲解具体的竞赛案例,即Kaggle平台的Elo Merchant Category Recommendation。

Part3

以史为鉴,未来可期

这部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析两个具体的实战案例,分别是天池平台的全球城市计算AI挑战赛和Kaggle平台的Corporación Favorita Grocery Sales Forecasting。

Part4

精准投放,优化体验

与计算广告相关的业务都是很好的竞赛题目,这部分主要介绍了计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价。实战案例部分则包括两道赛题,分别是2018腾讯广告算法大赛——相似人群拓展和Kaggle平台的TalkingData AdTracking Fraud Detection Challenge。

Part5

听你所说,懂你所写

这部分基于自然语言处理相关的内容进行讲解,包括常见任务和常见技术,实战案例部分是Kaggle平台上的经典竞赛Quora Question Pairs。

本书是算法竞赛领域第一本系统性介绍竞赛的书籍,不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。

我的算法竞赛之路

19年写过一篇关于我的竞赛历程的文章「这两年:我的数据竞赛之路」,这篇可以看成我的竞赛之路的上半程,如今我想应该是介于上半程和下半程之间,毕竟我还是会将竞赛持续到底。

取得更多成绩

不同之前,参加比赛的次数少了很多,更多的是找些自己感兴趣的比赛参加。

着手赛题设计

最近一年参与了多个比赛的赛题设计,单个赛题报名人数超1万,累计报名人数超3万。并提供赛题baseline和学习文档,帮助更多人快速入门竞赛。不同于参加比赛,竞赛的设计需要考虑的赛题难易程度、赛题可玩性、知识点多样性以及数据的稳定性。

竞赛经验分享

在过去,我还多次进行有关竞赛相关的分享,不仅将我的个人竞赛经验分享给更多人,同时也让更多人了解到算法竞赛。

写在最后

本书的写作过程并不轻松,利用的基本是晚上下班之后的时间,定期还要和刘鹏、钱乾进行线上会议,讨论近期的写作进度,以及相互审阅内容。最后再次感谢刘鹏和钱乾两位作者所做的巨大贡献,两位所具备的丰富的竞赛经验也是促使本书能够更加高质量完成的一个重要因素。

希望本书能够成为连接机器学习理论和应用实战之间的桥梁,希望能够帮助你在竞赛道路上走的更加顺畅。

最后,对算法竞赛感兴趣的小伙伴可以来观看我的直播分享,天晚上19点,我在图灵社区和天池读书会手把手带你了解竞赛,以天池平台开放的二手车交易价格预测为例从实战入手讲解机器学习竞赛的流程和几个核心的算法竞赛方向。

☟ 一键五折购买

算法竞赛五冠五亚得主,手把手带你了解算法竞赛相关推荐

  1. 基于MVS的三维重建算法学习笔记(五)— 立体匹配经典算法PatchMatch论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(五)- 立体匹配经典算法PatchMatch论文翻译及要点解读 声明 问题提出 问题建模 通过PatchMatch获取平面参数--Inference via Patc ...

  2. 八十五、Python | Leetcode数据结构之图和动态规划算法系列

    @Author:Runsen @Date:2020/7/7 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏艰 ...

  3. JVM内存管理------GC算法精解(五分钟教你终极算法---分代搜集算法)

    转载自   JVM内存管理------GC算法精解(五分钟教你终极算法---分代搜集算法) 引言 何为终极算法? 其实就是现在的JVM采用的算法,并非真正的终极.说不定若干年以后,还会有新的终极算法, ...

  4. JVM内存管理------GC算法精解(五分钟让你彻底明白标记/清除算法)

    转载自  JVM内存管理------GC算法精解(五分钟让你彻底明白标记/清除算法) 相信不少猿友看到标题就认为LZ是标题党了,不过既然您已经被LZ忽悠进来了,那就好好的享受一顿算法大餐吧.不过LZ丑 ...

  5. 模糊数学 计算机智能,《常用算法之智能计算 (五) 》:模糊计算

    原标题:<常用算法之智能计算 (五) >:模糊计算 人们常用"模糊计算"(FuzzyComputing)笼统地代表诸如模糊系统.模糊语言.模糊推理.模糊逻辑.模糊控制. ...

  6. 经典算法研究系列:五、红黑树算法的实现与剖析

                         红黑树算法的层层剖析与逐步实现 ---- 作者 July  二零一零年十二月三十一日 本文主要参考:算法导论第二版 本文主要代码:参考算法导论. 本文图片来源 ...

  7. 棋圣高调搬弄名人日本棋圣挟五冠搬弄对手

    本届名人战循环圈赛八轮战罢,井山裕太九段.河野临九段.张栩九段同为6胜2败,依照同分者上届排名在前居先的端正,由上届排名第2的井山裕太九段与排名第3的河野临九段经过进程加赛决出搬弄者的人选.张栩九段在 ...

  8. 手把手带你撸一个校园APP(五):新闻中心模块

    这个项目是很早之前在学校做的,如今再回首.很多代码很是粗糙,逻辑也不尽完善.还望各位看官海涵. 前言 通过上一篇文章的功能设计,我们可以发现新闻通知公告等是APP的最主要功能点.主要是聚合展示学校官网 ...

  9. 【数据聚类】第五章第一节:基于网格的聚类算法概述

    pdf下载(密码:7281) 基于网格的聚类算法:主要用于处理大规模多维数据的聚类问题.它利用一个网格结构,将数据分布的空间划分为有限数目的单元,然后在这些网格单元上执行聚类操作.基于网格的聚类算法主 ...

最新文章

  1. react中使用scss_我如何将CSS模块和SCSS集成到我的React应用程序中
  2. 业内公认的AI发展最大挑战,有哪些技术突破机会?
  3. Gartner十大IT预测:七大数字巨头,有五家将心甘情愿“自我颠覆”
  4. CNN为何把地震和计划生育扯一起
  5. webshpere下载地址
  6. QOS仍然很有价值-Vecloud
  7. C语言函数手册:c语言库函数大全|C语言标准函数库|c语言常用函数查询
  8. 链表之删除链表a/b处的节点
  9. 遥远的救世主:电视剧《天道》
  10. Android 音频开发(三) 如何播放一帧音频数据上
  11. Saturn分布式调度之系统架构简介
  12. java 获取图片路径_Java获取文件路径的几种方式
  13. 计算机二级c语言必看,计算机二级C语言考试必看技巧
  14. jquery插件中找到好玩插件 http://www.jq22.com/
  15. Codeforces Round #685 (Div. 2) (D(博弈) E1 E2(交互))
  16. Cairo学习(一)
  17. 2020-2021年度第二届全国大学生算法设计与编程挑战赛题解(冬季赛)
  18. Android为什么采用Binder机制
  19. lol手游服务器维护到什么时候,lol10.1版本维护到几点 lol维护公告最新2020
  20. Python爬取京东回力鞋购买情况看看码数比例

热门文章

  1. html body 间距,VBA&amp; HTMLBody - 正文和签名之间的间距
  2. php井字游戏,python实现井字棋游戏
  3. mysql group by 天_MySQL group by语句如何优化
  4. 如何设置鼠标移开后css,如何设置鼠标离开时由hover设置的样式不变?
  5. c++ class struct同名_第二课C到C++的关系
  6. 定义一个有参宏判断一个字符是否在0~9之间
  7. 模板路径,模板变量,过滤器和静态文件的引用
  8. java产生随机数(学习)
  9. 前端每周清单第 33 期:React 16 发布与特性介绍,Expo AR 教程,ExtJS 从崛起到沉寂...
  10. 三星Exynos芯片只卖魅族?或是高通所致