非参回归和非参线性估计

是实随机变量对且 ,定义 ,我们就称其为 的回归函数。不难证明,条件残差 满足性质 。此时我们又可写为

其中 独立同分布于

在非参数的背景下,我们会要求 落在我们给定的一个非参空间 上。而我们的自变量 称为一个设计 (design)。

Fixed design

我们先讨论一个简单的情形:,而 独立同分布且均值为零。

由于有

在给定核函数 和带宽 后,我们可以构造一个十分自然的估计——Nadaraya-Watson 估计如下

一个特殊的情况就是取 ,不难看出此时 即为 区间上的 的均值,类似于滑动平均。注意到此时核函数的支撑集是有限区间。此时考察两个极端情况

  • ,此时 即为 的均值,该估计的偏差可能会很大,我们称这种情况为欠拟合 (underfitting) 或过光滑 (oversmoothing)
  • 此时 仅在 邻域内取值为 ,其他区间取值为 。该估计的方差可能会很大,我们称这种情况为过拟合 (overfitting) 或欠光滑 (undersmoothing)

此时又出现了偏差和方差的权衡。

为了和之后的记号统一,我们重写 ,其中

我们称 的一个非参线性估计,如果 只取决于 ,且对所有 (更严格讲,几乎所有 ),

Random Design

选取 1 阶的核函数,并使用 。代入

首先,我们有

于是我们有

当然,如果已知 的分布 ,也可以不使用 。特别的,当 时,有

这也就是 个样本点分别贡献 倍的核函数后的叠加。