SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据...
全文下载链接:http://tecdat.cn/?p=27587
某交通工程专业博士生想要研究不同因素对通勤交通方式选择的影响,对成都两个大型小区(高端和普通)居民分别进行了出行调查,各调查了300人。
其中
Distance:居住地离上班地的距离(公里)
Pincome:个人年收入(万元)
Hincome:家庭年收入(万元)
Age:年龄
Gender:性别(0:女;1:男)
Car:家庭拥有汽车的数量
Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)
People:家里人口数量
Children:家里未成年人数量
Housing:房屋拥有类型(0:租房;1:买房)
Area:房屋居住面积(平方米)
Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)
但是小区的编号忘记记录下来。
相关视频
任务:
-
判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。
数值型变量为:
Distance:居住地离上班地的距离(公里)
Pincome:个人年收入(万元)
Hincome:家庭年收入(万元)
Age:年龄
Car:家庭拥有汽车的数量
People:家里人口数量
Children:家里未成年人数量
Area:房屋居住面积(平方米)
点击标题查阅往期内容
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
左右滑动查看更多
01
02
03
04
分类型变量为:
Gender:性别(0:女;1:男)
Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)
Housing:房屋拥有类型(0:租房;1:买房)
Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)
分类型变量为:
Gender:性别(0:女;1:男)
Education:教育水平(1:初中及以下;2:高中;3:专科;4:本科;5:研究生)
Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其他)
Housing:房屋拥有类型(0:租房;1:买房)
Mode:主要通勤出行方式(1:汽车;2:公共交通;3:电动自行车;4:其他)
-
判断每个受访者所在的小区。
根据居住地距离 ,我们使用kmean聚类将样本分成2个类别,并保存结果到小区变量中。
结果如图所示。
聚类中心结果如下
每个样本的聚类信息:
-
分析不同小区居民的平均出行距离、平均家庭收入、年龄分布、性别分布、家庭人口数和受教育程度有什么区别吗?
从均值比较的结果来来看,第1个类别的工作里小区工作距离较短,第三个类别年龄较小,第一个小区家庭人口较大,教育水平第四个小区较低。
然后对不同聚类类别的数据进行独立样本t检验。
由上表中的结果:distance的sig>0.05,可知:distance无显著区别。
-
对每个小区分别建模(逻辑回归和决策树),看哪个模型对出行方式选择的拟合更好(比较模型在检验样本里的表现,而不是训练样本),并分析各个变量如何影响通勤交通方式的选择。
首先对1区的样本进行决策树模型
可以看到距离 收入、家庭人口数和性别对出行方式有较大的影响,男性出行以电动车为主,女性也有一部分以公交出行为主,从家庭人口数来看,大于2人的家庭出行以公交车为主。
然后使用逻辑回归进行预测
由结果来看整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。
对2区出行数据进行决策树模型分析
从结果来看,决策树分类模型可以看到区2的出行方式主要受到距离的影响。若距离较大,则出行方式以汽车和电瓶车为主,若距离较小,则以公交车为主。
对区2的出行数据进行逻辑回归
由结果来看整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。
本文通勤方式数据将分享到会员群,扫描下面二维码即可加群!
点击文末“阅读原文”
获取全文完整资料。
本文选自《SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究不同因素对通勤出行交通方式选择的影响调查数据分析》。
点击标题查阅往期内容
数据分享|R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
R语言Bootstrap的岭回归和自适应LASSO回归可视化
R语言多元时间序列滚动预测:ARIMA、回归、ARIMAX模型分析
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言建立和可视化混合效应模型mixed effect model
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例
R语言使用Metropolis- Hasting抽样算法进行逻辑回归
R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析
R语言基于树的方法:决策树,随机森林,Bagging,增强树
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhhaagjf
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13