《集体智慧编程》第8章 构建价格模型 个人笔记
第8章 构建价格模型
8.1 K-最近邻算法
本书使用KNN进行回归,对所有样本点和待预测点的距离进行升序排序,取top k,这个k个样本的目标值的均值作为预测点的预测值。
可以为近邻点分配权重,距离越近权重越大,可以通过反函数、减法函数、高斯函数等求权重,然后对top k样本计算加权平均作为预测值。
8.2 交叉验证
交叉验证是将数据拆分成训练集与测试集的一系列技术的统称。这采用多次hold-out cv。
8.3 不同类型的变量
对于不同类型的变量,其变量本身的重要性大小就不一样,比如有些变量特别大,使用欧式距离计算时这些大变量容易掩盖其他一些变量的影响。所以这里可采取按比例缩放的方法,最简单的形式是将每个维度上的数值乘以一个在该维度上的常量。
常采用归一化预处理数据
本章比较简单,唯一有意思的地方可能就是在于它用knn进行了回归,其他书基本都是在做分类。介绍了几种knn回归的trick,可以借鉴
《集体智慧编程》第8章 构建价格模型 个人笔记相关推荐
- 《集体智慧编程》——第一章导读
为什么80%的码农都做不了架构师?>>> 什么是集体智慧 其含义是指:为了长早新的想法,而将一群人的行为.偏好或思想组合在一起. 完成这项工作的一种最为基础的方法,便是使用调查 ...
- 【集体智慧编程】第二章、提供推荐
一.前言 本章即将告诉大家,如何根据群体偏好来为人们提供推荐.有许多针对于此的应用,如:在线购物中的商品推荐.热门网站的推荐,以及帮助人们寻找音乐和影片的应用.本章将告诉你如何构筑一个系统,用以寻找具 ...
- 《集体智慧编程》第九章
1.P210 函数scaledata()在运行时会报错: AttributeError: 'list' object has no attribute 'data' 这是由于函数scaledata() ...
- 《集体智慧编程》第二章(一)
一.计算用户相似度 1.欧几里得距离 为了方便以后的读者学习,代码(基于python2.6)全部在最后. 这个没什么好说的,在二维空间中就是两点之间线段的长度.多维空间中,例如A(x1,x2,x3,- ...
- 《集体智慧编程》读书笔记2
最近重读<集体智慧编程>,这本当年出版的介绍推荐系统的书,在当时看来很引领潮流,放眼现在已经成了各互联网公司必备的技术. 这次边阅读边尝试将书中的一些Python语言例子用C#来实现,利于 ...
- 《集体智慧编程》读书笔记4
最近重读<集体智慧编程>,这本当年出版的介绍推荐系统的书,在当时看来很引领潮流,放眼现在已经成了各互联网公司必备的技术. 这次边阅读边尝试将书中的一些Python语言例子用C#来实现,利于 ...
- 《集体智慧编程》数学公式
这篇博客的目的主要是为了记录这些公式,取自原书附录B. 1.欧几里得距离(Euclidean Distance) 用途:计算距离,衡量相似度 公式: 代码实现: def euclidean(p, q) ...
- 《集体智慧编程》读书笔记10
最近重读<集体智慧编程>,这本当年出版的介绍推荐系统的书,在当时看来很引领潮流,放眼现在已经成了各互联网公司必备的技术. 这次边阅读边尝试将书中的一些Python语言例子用C#来实现,利于 ...
- Rxjs 响应式编程-第四章 构建完整的Web应用程序
Rxjs 响应式编程-第一章:响应式 Rxjs 响应式编程-第二章:序列的深入研究 Rxjs 响应式编程-第三章: 构建并发程序 Rxjs 响应式编程-第四章 构建完整的Web应用程序 Rxjs 响应 ...
- 《集体智慧编程》笔记(1 / 12):集体智慧导言
文章目录 什么是集体智慧 什么是机器学习 机器学习的局限性 真实生活中的例子 学习型算法的其他用途 小结 Netflix, Google都适用了先进算法,将来自不同人群的数据加以组合,进而得出新的结论 ...
最新文章
- linux nohup命令后 解决挂起 避免输入回车
- 007_ServletConfig
- mysql case break_按月转移日志表中日志时,mysql总是报‘MySQL server has gone away’这样的错!...
- OS- -请求分页系统、请求分段系统和请求段页式系统(一)
- wxPython做界面的适用性
- 基于Knative开发应用
- Spark(二): 内存管理
- 动态规划复习-HDU1081
- python 时间模块 time datetime calendar
- 个人简介页面如何设计?集设网优秀案例给你灵感
- (day 43 - 二分查找 ) 剑指 Offer 53 - II. 0~n-1中缺失的数字
- Discuz! X3.0/X3.1/X3.2通用 Apache伪静态规则
- pyplot中文手册_Matplotlib中文手册 PDF 下载
- 达梦数据库DCA培训总结
- Photoshop脚本 删除当前图层
- JXT 导出数据到EXCEL
- 人工智能之模式识别(一)
- 构造启发式算法:最邻近插入法
- 一点一点把CAN总线通信吃透
- linux进程管道通信缺点,Linux 进程间通信(1) -- 管道