局部多项式估计

如果核函数 只取非负值,可以发现 Nadaraya-Waston 估计 满足下列式子

这一结论只需使用一次导数就可以立刻得到,熟悉线性回归的读者应该不会陌生。

这说明了, 给出的是在 处,均方误差最小的一个常数估计,而这是可以被推广的——我们使用一个 阶多项式代替上式中的常数 。具体说来,如果 ,那么对于充分接近 我们有

其中

于是我们得到了推广形式

我们称其为 阶局部多项式估计,简记为

此时, 称为 阶局部多项式估计,简记为

可以发现 其实就是 的第一个分量。而其余的分量则提供了 等的估计

时,我们之前的 也就是 估计。

现在我们开始详细地查看 。为方便记,我们将式子中的平方展开,得

其中定义

求导立得约束条件 。 当 正定时,可以解得 。此时

的计算也不依赖与 的值,也就是说此时我们得到了一个非参线性估计。

既然与 的值无关,事实上我们有如下命题:当 满足 正定且 为一个不超过 阶的多项式,那么我们的 给出的权重 满足 其证明思路简述如下

首先我们可以有 其中

然后设 ,使用 估计得

正定,故 ,则

也就是说,局部多项式回归可以更精细的刻画拟合的结果。

引入假设

和之前一样,我们将误差分为偏差项 和方差项 。其中 中的 ,即真实但未知的一个映射。

不难证明,单点误差

在进行误差分析之前,我们需要引入一些假设。

  • 存在实数 和正整数 ,使得对所有 和任意 ,均有最小的特征值 。这一假设是比正定性更强的一个假设,因为他要求对 一致正定。

    同时,由于 是对称阵,因此该假设也隐含了,对于任意 均有 。如果读者对这一结论并不熟悉,参看之前的博文里关于矩阵基础知识的介绍 【Note】 多元统计分析(一)——矩阵的基础知识

  • 存在实数 使得对任意区间 和所有的 ,均有 , 其中 的勒贝格测度。这一假设刻画了 在区间 上都足够密集。一个极端的例子是,假如所有的样本点中始终有 落在 处,那么取 ,两端取极限。左边为 ,右边为 就不成立了。但一般的 的分布都会满足这一假设。

  • 核函数 有紧的支撑集且落在 上,且 有界。这基本上也都是会被满足的。

有了这三条假设后,我们可以给出关于 的三个引理:对任意 均有只依赖于 的常数 ,使得

证明:首先,由 和 假设一可以推出

类似的,利用假设二,我们有

于是取 即完成证明

第三条则由 的支撑集在 内立得。

误差分析

MSE 和 MISE

现在开始误差的分析。设 估计。并假设 确定,上述三个假设满足,且 均值为零方差有限。那么对 ,有如下上界

使用刚才证明的引理

所以 ,故可证明上界有

同时也可以证明

无穷范数

考察无穷范数时我们需要更强的假设——假设 是独立同分布的高斯函数,均值零且方差有限。 是 Lipschitz 核函数即 。在同样的假设下我们可以证明其收敛速度为

首先

核心在于估计出 。为此,我们选定 个“锚点”来控制住整个上界。令 ,我们有

由于 , 支撑集为 ,且 是多项式组成的函数向量,可以证明

所以后面一项的期望可以被控制为

乘上前面的因子,得到其为

所以这一块的影响不大。现在考察前面的一项,构造 ,其为均值为零的高斯向量。

由引理则有

所以得到

于是得到无穷范数的收敛速度是