记一次问卷数据分析
概述
巴拉巴拉巴拉
预处理
数据清洗
去除问卷有效性设问回答错误的数据,以及按照作答时间3sigma清洗
同时处理异常值
虚拟变量转换
对于问卷中的无序定类变量,我们将其转换为虚拟变量(独热编码/哑变量),比如无序多选题,转为二元定量变量
数据编码
我们对问卷中的有序定类数据进行编码,记得最好正向编码
比如对A的满意度: 非常不满意 不满意 一般 满意 非常满意
我们将其编码为: 1 2 3 4 5
信度分析
Cronbach's α,对问卷的每一个模块的选项进行信度分析
由于问卷选项的值不一致,记得取用标准化Cronbach's α系数
同时可根据标准化Cronbach's α系数变化对问卷部分问题项进行剔除
效度分析
- KMO检验>0.6
- Bartlett检验P值<0.05
描述性统计
一些最基础的数据分析,比如每个选项的频数比重方差等
然后加上可视化
还可以使用交叉列联分析进一步补充描述分析的有效性
问题假设
通过描述性统计与可视化观察与猜测一些有趣的性质结论
然后进一步验证
多源回归
数据降维
很多时候我们希望结论是一个y变量和多个x变量,所以我们对y变量进行降维
因为问卷一般是二元数据,所以直接PCA即可
Spearman相关性分析
为了进一步选择哪些x可用,我们进行相关性分析
一般来说问卷结果不一定呈现正态分布,不建议使用皮尔森
斯皮尔曼要求必须是定量或有序定量变量
多元回归
选取相关性与y的p值显著的作为x变量,然后进行多元回归,建立模型
检验VIF,,P值
然后文字描述即可
OPEN17的个人小站