一、什么是回归分析
1、回归分析的含义
回归分析:通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
在绝大多数情况下,我们没有能力去探究严格的因果关系,只能通过回归分析,研究相关关系。
2、回归分析的使命
拟合:专注于通过直线来描述数据的趋势,不涉及深入的统计分析或解释
回归:建立一个有解释力的模型,并对变量之间的关系进行统计分析
拟合(先承认了变量之间存在相关关系),是回归分析中分析变量相关方向与相关强度的一种方法。 已知线性的情况下,拟合≈回归。
3、回归分析的分类
4、关于数据
横截面数据:在某一时点收集的不同对象的数据
时间序列数据:对同一对象在不同时间连续观察所取得的数据
面板数据:横截面数据与时间序列数据综合起来的一种数据资源
(比如:2008-2018年,我国各省份GDP的数据)
二、线性回归
1、模型理解(理论)
线性:
经过取对数或平方后,让自变量和因变量之间呈线性关系也是可以的。
内生性:
误差项u包含与y相关但是没有添加进模型的“不重要”变量,如果这些变量和模型添加的自变量相关,则存在内生性,会导致回归系数估计得不准确。
核心解释变量和控制变量:
解决内生性:新增控制变量,把一些对被解释变量有影响的“不重要” 变量放进回归方程,
然后在实际应用中只要保证核心解释变量与u不相关即可。
四类回归系数:
取对数:
定性变量->设成虚拟变量:
2、实战:
题目解析:
1、分析评价量(因变量)和其他变量的关系:不需要去除量纲的影响
2、研究影响评价量的重要因素:需要去除量纲的影响(使用标准化回归系数,系数绝对值越大说明影响越大)只关注显著的回归系数哦
准备工作:
1、excel表格->插入表格,建立超级表进行数据的筛选,或者用数据透视表
(看看数据值的范围)
2、Stata
清屏:cls(matlab:clc)
清空变量窗口:clear
调上一个命令:pageup(matlab:⬆)
生成新变量:generate 变量名=怎么的到这个变量(price^2)
变量改名字:rename 旧名 新名
(1)导入数据:
文件->导入excel表格(将第一行作为变量名)
也可以代码导入import excel...
(2)保存代码文件:
新Do-file编辑器,把代码粘过去,然后保存文件(.do)
(3)处理数据:
统计描述
写sum或tab,然后双击选择右上变量窗口的变量,或者直接拖过来粘贴
复制表格到excel,处理成三线表
引入定性数据后 ,stata会自动查重,引入虚拟变量的个数是分类数-1(为了避免完全多重共线性的影响)
小技巧:把指标的说明做成一张表
进行回归分析:
coef:回归系数
p越小(->0),越能推翻H0,越能说明回归系数显著异于0
关于拟合优度可能出现的一些问题:
标准化回归系数:
标准化:原始数据减去平均数,再除以标准差
注意事项:
1、数据不能进行归一化处理!
归一化:将数据缩放到[0, 1]的范围,但是这样每个特征对模型的影响权重就相对均衡了
标准化:为了消除量纲的影响
2、要在论文中说明计算出的回归系数和显著性
3、不能轻易在模型中添加高次项,不然系数不好解释