非参回归和非参线性估计

\((X,Y)\) 是实随机变量对且 \(\mathbb{E}[\lvert Y\rvert]<\infty\),定义 \(f : \mathbb{R}\rightarrow\mathbb{R}\)\(f(x)=\mathbb{E}[Y\mid X=x]\),我们就称其为 \(Y\)\(X\) 的回归函数。不难证明,条件残差 \(\varepsilon\overset{\Delta}{=}Y-\mathbb{E}[Y\mid X]\) 满足性质 \(\mathbb{E}[\xi]=0\)。此时我们又可写为

\[Y_i=f(X_i)+\varepsilon_i,\quad i=1,\ldots,n\]

其中 \(\xi_i\) 独立同分布于 \(\xi\)

在非参数的背景下,我们会要求 \(f\) 落在我们给定的一个非参空间 \(\mathcal{F}\) 上。而我们的自变量 \(\{X_1,\ldots,X_n\}\) 称为一个设计 (design)。

Fixed design

我们先讨论一个简单的情形:\(X_i=i/n\),而 \(f:[0,1]\rightarrow\mathbb{R}\)\(Y_i=f(i/n)+\varepsilon_i\)\(\varepsilon_i\) 独立同分布且均值为零。

由于有

\[\mathbb{E}[Y\lvert X]=\int yp(y\lvert x)\,\mathrm{d}y=\frac{\int yp(x,y)\,\mathrm{d}y}{p(x)}=\frac{\int yp(x,y)\,\mathrm{d}y}{\int p(x,y)\,\mathrm{d}y}\]

在给定核函数 \(K\) 和带宽 \(h\) 后,我们可以构造一个十分自然的估计——Nadaraya-Watson 估计如下

\[\begin{align}f_{n}^{NW}(x)=\frac{\sum_{i=1}^{n}Y_iK\left(\frac{X_i-x}{h}\right)}{\sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)}\overset{\Delta}{=}\sum_{i=1}^{n}Y_iW_{ni}^{NW}(x)\cdot\mathbf{1} \left[ \sum_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)\neq 0\right]\end{align}\]

一个特殊的情况就是取 \(K(u)=\frac12\cdot\mathbf{1}[\lvert u\rvert\leq 1]\),不难看出此时 \(f_n^{NW}(x)\) 即为 \([x-h,x+h]\) 区间上的 \(Y_i\) 的均值,类似于滑动平均。注意到此时核函数的支撑集是有限区间。此时考察两个极端情况

  • \(h\rightarrow \infty​\) ,此时 \(f​\) 即为 \(Y_1,\ldots,Y_n​\) 的均值,该估计的偏差可能会很大,我们称这种情况为欠拟合 (underfitting) 或过光滑 (oversmoothing)
  • \(h\rightarrow 0\) 此时 \(f\) 仅在 \(X_i\)\(h\) 邻域内取值为 \(Y_i\),其他区间取值为 \(0\)。该估计的方差可能会很大,我们称这种情况为过拟合 (overfitting) 或欠光滑 (undersmoothing)

此时又出现了偏差和方差的权衡。

为了和之后的记号统一,我们重写 \(f_n^{NW}\)\(f_n^{NW}=\sum\limits_{i=1}^{n}Y_i W_{ni}^{NW}(x)\),其中

\[W_{ni}^{NW}(x)=\frac{K\left(\frac{X_i-x}{h}\right)}{\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)}I\Bigg(\sum_{j=1}^{n}K\left(\frac{X_j-x}{h}\right)\neq 0\Bigg)\]

我们称 \(\hat{f}_n(x)=\sum_{i=1}^{n}Y_i W_{ni}(x)\)\(f(x)\) 的一个非参线性估计,如果 \(W_{ni}(x)\) 只取决于 \(n, i, x, X_1,\ldots,X_n\),且对所有 \(x\) (更严格讲,几乎所有 \(x\) ), \(\sum\limits_{i=1}^{n}W_{ni}(x)=1\)

Random Design

选取 1 阶的核函数,并使用 \(\hat{p}_n(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)\)\(\hat{p}_n(x,y)=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right)K\left(\frac{Y_i-y}{h}\right)\)。代入\(f_{n}^{NW}(x)=\frac{\int y\hat{p}_n(x,y)\,\mathrm{d}y}{\hat{p}_n(x)}\)

首先,我们有

\[\int y\hat{p}_n(x,y)\,\mathrm{d}y=\frac{1}{nh^2}\sum\limits_{i=1}^{n}K\left(\frac{X_i-x}{h}\right) \int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\]

\[\begin{align}\int yK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y&=\int (y-Y_i)K\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y+\int Y_iK\left(\frac{Y_i-y}{h}\right)\,\mathrm{d}y\\&=-\underbrace{\int(-hu)K(u)(-h)\,\mathrm{d}u}_{0}-\int Y_i K(u)(-h)\,\mathrm{d}u\\&=hY_i\end{align}\]

于是我们有

\[f_n^{NW}(x)=\frac{1}{nh\hat{p}_n(x)}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)\]

当然,如果已知 \(X\) 的分布 \(p(x)\),也可以不使用 \(\hat{p}(x)\)。特别的,当 \(X\sim U(0,1)\) 时,有

\[\bar{f}_{nh}(x)=\frac{1}{nh}\sum\limits_{i=1}^{n}Y_i K\left(\frac{X_i-x}{h}\right)\]

这也就是 \(n\) 个样本点分别贡献 \(1/n\)\(Y_i\) 倍的核函数后的叠加。