• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

R语言-岭回归的代码和案例解读

武飞扬头像
24442552
帮助1

应用岭回归的场景有很多。
本文介绍的是 在应用多元线性回归时 遇到多重共线性问题,且无法删除变量或者增加样本量的情况下,应用岭回归的情况。

  • 案例:互联网经济对中国经济增长影响
  • 基础模型:C-D生产函数:Y=A*L^α *K^β
  • 应用模型:岭回归
  • 使用工具:r语言
  • 使用程序包:‘MASS’、‘xlsx’、‘car’
  • 准备数据:Y:国民生产总值、K:固定资产投资;L:年期末就业人数;A:互联网综合发展水平
  • 数据处理:为了模型的稳定性与计算的简易性,分别对两端取对数,变成线性关系,得到最终模型:lnY=γlnA αlnL βlnk
  • 变量解释与结果推测:综合考虑互联网经济的指标体系和数据的可得性,采用因子分析的方法估计综合技术水平A(详情可点击)。γ、α、β表示互联网经济产出弹性系数、劳动力弹性和资本弹性系数,本文推测,生产弹性系数会符合以下估计:
    (1)α β γ>1,表示最终经济规模呈递增趋势;
    (2)α<1、β<1,表示边际收益递减的规律性,γ>1,表示互联网经济的边际收益递增性,符合互联网经济的特征。

对数线性化与多重共线性判别

#加载程序包与数据
library(MASS)
library(xlsx)
library(car)
y <- read.xlsx("D:/RData/sets/Y.xlsx",1,encoding = "UTF-8")
l <- read.xlsx("D:/RData/sets/L.xlsx",1,encoding = "UTF-8")
a <- read.xlsx("D:/RData/sets/A.xlsx",1,encoding = "UTF-8")
k <- read.xlsx("D:/RData/sets/K.xlsx",1,encoding = "UTF-8")
dataY <-(y,a,l,k)
#得到相关系数矩阵:变量之间呈同向变动的关系,符合经济发展的规律
scatterplotMatrix(dataY,spread=FALSE,smoother.args=list(lty=2),main="Scatter Plot Matrix")

学新通

#数据对数化
ly <- log(y)
la <- log(a)
ll <- log(l)
lk <- log(k)
dY <-data.frame(ly,la,ll,lk)
#做最小二乘回归
fit <- lm(gdp~a l k,data=dataY)
fit
summary(fit)

用最小二乘法建立计量模型,由(表6)看到,虽然模型的拟合优度足够高,F值也很大,整体拟合效果好,但是模型系数检验不显著。显而易见考虑模型的多重共线性问题

学新通

  • 多重共线性是指在除了因变量与自变量的关系外,在解释变量之间也存在线性相关关系的一种形式。多重共线性导致gdp与互联网综合发展水平、劳动和资本之间的关系不显著。
#应用vif值的开方来判断是否存在多重共线性
library(car)
vif(fit)
sqrt(vif(fit))>2
#vif值开方远大于2,存在多重共线性。
  • 岭回归是一种有偏估计,虽然对数据的无偏估计不准确,但是可以更准确的得到α,β,γ之间的系数关系。
#首先用岭迹图判断k值区间并使用GCV值来进行岭回归估计
plot(lm.ridge(dY[,1]~dY[,2] dY[,3] dY[,4],data = dY,lambda = seq(0,0.5,0.001)))
#确定k至的估计区间在0-0.5间

学新通

#确定k值并选择GCV值=0.127.做岭回归。
select(lm.ridge(dY[,1]~dY[,2] dY[,3] dY[,4],data = dY,lambda = seq(0,0.5,0.001)))
ridge1 <- lm.ridge(dY[,1]~dY[,2] dY[,3] dY[,4],data = dY,lambda =0.127)
ridge1 <- lm.ridge(gdp~a l k,data = dY,lambda =0.127)
ridge1

学新通

结果分析

从系数符号看,符合我们前面对本模型的系数估计。即弹性系数之和大于1,互联网技术弹性系数大于1,劳动力弹性系数和资本弹性系数小于1。从整体来看,α β γ大于1,表明了边际产量递增的趋势,符合当前经济发展的现状,当国家投入劳动力和资本和技术时,经济发展水平总量增加。
(分别具体的每个系数分析在这里不做过多讲述)
本文结论为:我国正处于技术推动经济发展的新时代,应以互联网技术为核心,结合信息与知识,对我国经济发展做出贡献。

总结

本文以具体案例为例子,讲解了岭回归模型的r语言实现过程,并对案例进行一定程度的分析。希望可以对大家有帮助。

在本文中对互联网综合发展指数的因子分析求解可以看作者的另一篇文章
因子分析中因子得分综合求解

***注:***文中数据指标可从作者主页获取。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhggkabg
系列文章
更多 icon
同类精品
更多 icon
继续加载