分段回归

分段回归是一种回归分析方法,将自变量划为若干区间,并分别拟合出单独的线段。通过对各种自变量分区,也可以对多元数据进行分区回归分析。自变量聚类为不同组别时,这些区域的变量之间会表现出不同的关系,这时分段回归就非常有用。分段之间的界限就是间断点。

分段线性回归就是分段回归,通过线性回归得到区间内的关系。

2段线性回归

第一段水平
第一段上升
第一段下降

分2段线性回归的段间有1个间断点,可用来量化影响因素(x)变化的响应函数(Yr)的突然变化。间断点可解释为临界值、安全值或阈值,过该值会产生(非)预期效果。间断点对决策非常重要。[1]

这些图表说明了可获得的一些结果和回归类型。

分段回归分析基于一组( y, x )数据,其中y是因变量,x是自变量。

最小二乘法分别适用于每个分段,通过这种方法,两条回归线可以分别拟合数据集,同时使因变量观测值(y)与计算值(Yr)之间的差值平方和(SSD)最小化:

  • Yr = A1.x + K1     其中x < BP(间断点)
  • Yr = A2.x + K2     其中x > BP(间断点)

其中

Yr是一定值x下y的期望(预测)值;
A1、A2回归系数(表示线段斜率);
K1、K2是回归常数(表示y轴截距)。

数据可能显示多种类型或趋势,[2]见图。

该方法还能得到2个相关系数(R):

  •     其中x < BP(间断点)

  •     其中x > BP(间断点)

其中

是每段的最小化SSD

,而

Ya1Ya2是各自区间y的均值。

在确定最合适的趋势时,必须进行统计检验,以确保趋势可靠(显著)。

如果无法检测到明显的断点,则必须采用无断点回归。

例子

分段线性回归,3b型

右边的蓝色图给出了芥菜产量(Yr = Ym, t/ha)和土壤盐化x = Ss,用土壤溶液导电率EC表示,单位为dS/m)之间的关系:[3]

BP = 4.93, A1 = 0, K1 = 1.74, A2 = 0.129, K2 = 2.38, R12 = 0.0035(不显著), R22 = 0.395(显著),以及:

  • Ym = 1.74 t/ha                        对于Ss < 4.93(断点)
  • Ym = 0.129 Ss + 2.38 t/ha     对于Ss > 4.93(断点)

表明土壤盐度< 4.93 dS/m是安全的,而土壤盐度> 4.93 dS/m则会使土壤盐度每增加一个单位减产0.129 t/ha。

下图还显示了置信区间和不确定性。

测试程序

时间序列实例,5型
ANOVA表示例:本例中引入断点非常重要。

以下统计检验用于确定趋势类型:

  1. 将BP表示为回归系数A1、A2与y数据均值Y1、Y2,以及x数据均值X1、X2(BP的左右),利用加法和乘法的误差传播规律计算BP的标准差(SE),并应用T检验,从而确定断点(BP)的显著性
  2. 应用T分布和A1、A2的标准差SE,检验A1、A2的显著性
  3. 利用A1、A2差的SE,采用T分布检验差的显著性
  4. 利用Y1、Y2差的SE,运用T分布检验差的显著性
  5. 检验是否有断点的一种更正式的统计方法是伪分数检验,无需估计分段线。[4]

此外,还使用了所有数据的相关系数(Ra)、决定系数或解释系数、回归函数的信赖区间ANOVA分析。[5] 在显著性检验设定的条件下,所有数据的决定系数(Cd)应达到最大值,其计算公式为

其中Yr是根据前回归方程得出的y的预期(预测)值,Ya是所有y值的均值。

Cd系数介于0(完全没有解释)和1(完全解释,完全匹配)之间。
在纯粹的非分段线性回归中,Cd=Ra2。在分段回归中,Cd要明显大于Ra2才能证明分段的合理性。

可找到断点的最优值,使Cd系数得极大值

无效应范围

X=0到X=7.85之间没有影响的范围

分段回归常用于检测解释变量(X)对因变量(Y)无效应的范围。 无效应范围可能在X域的前部,也可能在后部。对于“无效应”分析,应用最小二乘法进行分段回归分析[6]可能不是最合适的技术,因为其目的是找到Y-X关系可被视为零斜率的最长延伸段,在之外,斜率与零有显著差异,但有关该斜率最佳值的知识并不重要。找到无效应范围的方法是对该范围进行渐进式部分回归[7],小步扩展范围,直到回归系数与零有显著差异。

在下图中,X=7.9时找到了断点,而对于相同的数据(芥菜产量见上图蓝色部分),最小二乘法仅在X=4.9时得到断点。后者的值较低,但对间断点以外数据的拟合效果更好。因此,采用哪种方法取决于分析的目的。

另见

参考文献

  1. Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90-70754-33-9 . Free download from the webpage 页面存档备份,存于 , under nr. 20, or directly as PDF : 页面存档备份,存于
  2. Drainage research in farmers' fields: analysis of data. Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : 页面存档备份,存于
  3. R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.
  4. Muggeo, VMR. (PDF). Journal of Statistical Computation and Simulation. 2016, 86 (15): 3059–3067. S2CID 124914264. doi:10.1080/00949655.2016.1149855.
  5. Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download from 页面存档备份,存于 under nr. 13, or directly as PDF : 页面存档备份,存于
  6. Segmented regression analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage 页面存档备份,存于
  7. Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage 页面存档备份,存于
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.