非参数统计中的核平滑方法/Kernel smoother
Kernel Smoother
核函数Khλ(X0,X)K_{h_\lambda}(X_0,X)Khλ(X0,X)定义为
Khλ(X0,X)=D(∣∣X−X0∣∣hλ(X0))K_{h_\lambda}(X_0,X)=D(\frac{||X-X_0||}{h_\lambda(X_0)})Khλ(X0,X)=D(hλ(X0)∣∣X−X0∣∣)
其中,X,X0∈RpX,X_0\in\mathbb{R}^pX,X0∈Rp,∣∣⋅∣∣||\cdot||∣∣⋅∣∣为欧拉范数,hλ(X0)h_\lambda(X_0)hλ(X0)为参数(核半径 kernel radius),D(t)D(t)D(t)通常是正实值函数,关于∣∣X−X0∣∣||X-X_0||∣∣X−X0∣∣非增。
设f(x):Rp→Rf(x):\mathbb{R}^p\rightarrow \mathbb{R}f(x):Rp→R为xxx的连续函数,样本{(xi,Yi),i=1,...,n}\{(x_i,Y_i),i=1,...,n\}{(xi,Yi),i=1,...,n}来自
Yi=f(xi)+ϵiY_i=f(x_i)+\epsilon_iYi=f(xi)+ϵi
对任意x0∈Rpx_0\in\mathbb{R}^px0∈Rp,Nadaraya-Watson核加权平均(f(x)f(x)f(x)的估计)定义为,
f^(x0)=∑i=1nKhλ(x0,xi)Yi∑i=1nKhλ(x0,xi)\hat{f}(x_0)=\frac{\sum_{i=1}^nK_{h_\lambda}(x_0,x_i)Y_i}{\sum_{i=1}^nK_{h_\lambda}(x_0,x_i)}f^(x0)=∑i=1nKhλ(x0,xi)∑i=1nKhλ(x0,xi)Yi
下面介绍几种特殊的核平滑方法。
1. Nearest neighbor smoother
近邻平滑器的思想是:对任意的点x0x_0x0,选取其mmm个最近邻函数值的平均值作为f(x0)f(x_0)f(x0)的估计。具体地,
hm(x0)=∣∣x0−x[m]∣∣h_m(x_0)=||x_0-x_{[m]}||hm(x0)=∣∣x0−x[m]∣∣
其中x[m]x_{[m]}x[m]为x0x_0x0的第mmm个近邻,
D(t)={1m,∣t∣≤10,otherwiseD(t)=\begin{cases} \frac{1}{m},\quad |t|\leq 1\\ 0,\quad otherwise\end{cases}D(t)={m1,∣t∣≤10,otherwise
上图中,红色的点为x0x_0x0的mmm个近邻,f(x0)f(x_0)f(x0)的估计为这些红点函数值的加权平均。
这种方法得到的估计不是很光滑。
2. Kernel average smoother
核平均平滑器的思想是:对任意的点x0x_0x0,选取一个常数距离λ\lambdaλ(核半径,或1维情形的窗宽),然后计算到x0x_0x0的距离不超过λ\lambdaλ的数据点的加权平均(权:离x0x_0x0越近,权重越大)作为f(x0)f(x_0)f(x0)的估计。具体地,
hλ(x0)=λ=constanth_\lambda(x_0)=\lambda=constanthλ(x0)=λ=constant
D(t)D(t)D(t)为任一核函数。
对任意x0x_0x0,窗宽是固定的,每个数据点的权重由黄色区域显示。
可以看出,这种方法得到的估计是光滑的,但是边界点函数值的估计是有偏的,这是因为在边界点处的左邻域与右邻域内的数据点不均匀导致的(只用到了单边邻域的信息)。
3. Local linear regression
Nearest neighbor smoother与Kernel average smoother均假设f(x)f(x)f(x)在很小的局部区间内是常数,因此可以通过邻域内函数值的加权平均估计函数。局部线性回归假设局部邻域内函数值是一条直线(高维情形是超平面),而不是常数(水平面),因此,局部线性回归方法首先在局部拟合一条直线,然后取x0x_0x0在这条直线上的值作为f(x0)f(x_0)f(x0)的估计。具体地,
hλ(x0)=λ=constanth_\lambda(x_0)=\lambda=constanthλ(x0)=λ=constant
求解如下加权最小二乘问题(一维情形)
α0,β0=argminα(x0),β(x0)∑i=1nKhλ(x0,xi)(Yi−α(x0)−β(x0)xi)2\alpha_0,\beta_0=\arg\min_{\alpha(x_0),\beta(x_0)}\quad \sum_{i=1}^n K_{h_\lambda}(x_0,x_i)(Y_i-\alpha(x_0)-\beta(x_0)x_i)^2α0,β0=argα(x0),β(x0)mini=1∑nKhλ(x0,xi)(Yi−α(x0)−β(x0)xi)2
f(x0)f(x_0)f(x0)的估计:
f^(x0)=α0+β0x0=(1,x0)(BTW(x0)B)−1BTW(x0)y\begin{aligned} \hat{f}(x_0)&=\alpha_0+\beta_0x_0\\ &=(1,x_0)(B^TW(x_0)B)^{-1}B^TW(x_0)y \end{aligned}f^(x0)=α0+β0x0=(1,x0)(BTW(x0)B)−1BTW(x0)y
其中,
y=(Y1,...,Yn)T,W(x0)=diag(Khλ(x0,xi))n×ny=(Y_1,...,Y_n)^T,W(x_0)=diag(K_{h_\lambda}(x_0,x_i))_{n\times n}y=(Y1,...,Yn)T,W(x0)=diag(Khλ(x0,xi))n×n
BT=(11...1x1x2...xn)B^T=\left( \begin{matrix}1&1&...&1\\ x_1&x_2&...&x_n \end{matrix}\right)BT=(1x11x2......1xn)
可以看出,这种方法得到的估计是光滑的,并且边界点处的估计也是无偏的。
4. Local polynomial regression
局部多项式回归假设局部邻域内函数是一个多项式函数,对一维情形,需极小化
α0,βj,0=argminα(x0),βj(x0),j=1,...,d∑i=1nKhλ(x0,xi)(Yi−α(x0)−∑j=1dβj,0x0j)2\alpha_0,\beta_{j,0}=\arg\min_{\alpha(x_0),\beta_j(x_0),j=1,...,d}\quad \sum_{i=1}^n K_{h_\lambda}(x_0,x_i)(Y_i-\alpha(x_0)-\sum_{j=1}^d\beta_{j,0}x_0^j)^2α0,βj,0=argα(x0),βj(x0),j=1,...,dmini=1∑nKhλ(x0,xi)(Yi−α(x0)−j=1∑dβj,0x0j)2
f(x0)f(x_0)f(x0)的估计:
f^(x0)=α0+∑j=1dβj,0x0j\hat{f}(x_0)=\alpha_0+\sum_{j=1}^d\beta_{j,0}x_0^jf^(x0)=α0+j=1∑dβj,0x0j
资料:
Kernel smoother
Nonparametric Local Polynomial Smoother
非参数统计中的核平滑方法/Kernel smoother相关推荐
- 核平滑方法——局部多项式回归
Kernel Smoothing - Local polynomial regression 1. 核平滑方法 代码实现 2. 局部多项式核回归 2.1 加权最小二乘法(Weighted least ...
- 非参数估计-高斯核平滑Gaussian kernel smoothing-非参数密度估计
目录 1 非参数回归-核平滑 1.1 概念和计算 1.2 Nadaraya-Watson回归 1.3 高斯核 2 高斯核平滑过程-Python实现 2.1 加载库和生成数据 2.2 Full Widt ...
- R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
全文下载链接:http://tecdat.cn/?p=20531 当线性假设无法满足时,可以考虑使用其他方法(点击文末"阅读原文"获取完整代码数据). 相关视频 多项式回归 扩展可 ...
- 核方法(kernel method)的主要思想
本文对核方法(kernel method)进行简要的介绍. 核方法的主要思想是基于这样一个假设:"在低维空间中不能线性分割的点集,通过转化为高维空间中的点集时,很有可能变为线性可分的&quo ...
- ctr 平滑_CTR预估中的贝叶斯平滑方法及其代码实现
我们假设事件的发生并不是相互独立的,相反,在层级结构中相对比较靠近的两个事件的相关性要大于距离较远的两个事件,它们之间拥有很多共通之处.于是,我们便可以利用"相似"事件的信息来丰富 ...
- MRI脑影像分析——多种工具实现Nifti(*.nii)文件读取、处理与写入——把小舞写进脑海里、6mm半高全宽高斯核平滑脑影像、NIFTI文件合并、算fMRI平均图像
| 图源 Nifti(Neuroimaging Informatics Technology Initiative,神经影像信息学技术倡议)文件格式,是目前各大神经影像分析工具普遍兼容的体素水平的 ...
- 基于密度的聚类(Density-based clustering)-- 核密度估计(kernel density estimation)
In density-based clustering, clusters are defined as areas of higher density than the remainder of t ...
- python 数据平滑_数据平滑方法的原理和应用
一.简介 在实际的工程应用中,经常会遇到初始结果噪声太多的问题,比如信号强度抖动的太厉害,比如视频流中的bbox抖动的太厉害,比如光谱信号抖动的太厉害等等,这时候就需要一些简单的滑动平均算法.滑动平均 ...
- 《SVM笔记系列之六》支持向量机中的核技巧那些事儿
<SVM笔记系列之六>支持向量机中的核技巧那些事儿 前言 我们在前文[1-5]中介绍了线性支持向量机的原理和推导,涉及到了软和硬的线性支持向量机,还有相关的广义拉格朗日乘数法和KKT条件等 ...
最新文章
- Docker aufs存储驱动layer、diff、mnt目录的区别
- Silverlight RIA Services基础专题
- IEEE R10 SAC Special Call for Proposals
- 第14课:动手实战中文命名实体提取
- [SQLITE_READONLY] Attempt to write a readonly databse (attempt to write a readonly database)
- python2.7安装pip_python2.7 安装pip的方法步骤(管用)
- sql 拆分_实践参考:MySQL架构设计从开发规范、选型、拆分到减压实战指南
- AttributeError: module 'pip' has no attribute 'main'
- java三星题之_JAVA三星题之playing a TicTacToe game
- 百度如何使用Go语言重构日请求量千亿级别的系统?
- Selenium菜鸟手册
- 诛仙2·末日与曙光》解禁公测
- ajax 微信code获取_ajax实现微信网页授权登录
- 「沐神」工作五年的沉思录 「这就是李沐」开挂人生的深度解读
- 信号与系统 第二版pdf 作者:奥本海姆 翻译:刘树棠
- 01 SOLIDWORKS 2021概述
- 6月书讯 | 初夏,正好读新书
- Golang ToLower和ToLowerSpecial源码探究
- WiFi大师3.0.9独立可运营版
- 921天,从小厂到入职阿里