虚拟变量的定义不唯一吗(变量不唯一是什么意思)

http://www.itjxue.com  2023-01-28 13:37  来源:未知  点击次数: 

虚拟变量是定性因素对解释变量还是对被

原题:虚拟变量是定性因素对解释变量还是对被解释变量的影响

虚拟变量只是一种认为定义定性变量的方法,实质上虚拟变量不一定只能用于定性变量,也可以用于数值型变量。虚拟变量既可以作为解释变量也可以作为被解释变量,如果虚拟变量作为被解释变量,就是所谓二元选择模型或二分类变量模型。

关于虚拟变量的小结

虚拟变量是计量经济学研究中常用的用来 反映定性因素变化 的变量,例如季节变动、政策变动、宏观环境变化等等。之前对此有简单的了解,认为是非常简单直观的一种变量设定。直到最近写的论文中模型部分用到了虚拟变量,深入了解才发现问题多多。在充分搞清楚了 “虚拟变量陷阱” 之后,来适时地做一下总结,也算是温故知新。

虚拟变量的作用简单来说就是“数据分类器”,利用变量和变量的线性组合表示某一种特定的状态。

最容易让人感到比较难理解的就是“虚拟变量陷阱”了。首先是定义:如果模型中每个定性因素有m个相互排斥的类型, 且模型有截距项,则模型中只能引入m-1个虚拟变量, 否则会出现 完全多重共线性 ,称为 虚拟变量陷阱(dummy variable regression) 。

理解这个问题可以从两个角度出发:

1.理性角度: 重点放在为什么会出现“多重共线性上”,利用线性代数的知识就很容易理解。贴上人大经济论坛上一位网友的回答:

还有一个要注意的点: 若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。 不过虚拟变量个数超过样本观测个数这种情况应该不太容易出现吧。。。0.0

暂时总结这么多,后续有继续学习的地方再补充~

数值型变量和虚拟变量的区别

答:数值型变量和虚拟变量的区别是虚拟变量是定性因素对解释变量还是对被解释变量的影响 虚拟变量只是一种认为定义定性变量的方法,实质上虚拟变量不一定只能用于定性变量,也可以用于数值型变量.

虚拟变量的定义

虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。

统计学(16)-什么是虚拟变量/哑变量

此部分对我来说,还是比较难于理解的。我只做简单介绍,后续如果有新的体悟,会再次更新。

定义: 虚拟变量(Dummy Variable) 也叫哑变量,它算不上一种变量类型,确切地说,是将多分类变量转换为二分类变量的一种形式。

Dummy Variable 的意思就是假的变量,不是真实的变量。(厉害吧!)

例1:

某研究者检测了4 种社区类型的S02 水平。研究者欲分析社区类型是否与S02水平有关系,或者说,不同社区类型的S02 水平是否不同。

所谓虚拟变量,就是把原来的一个多分类变量转换为多个二分类变量,总的来说,就是,如果多分类变量有K 个类别,则可以转换为k-1个二分类变量。如变量x为赋值1、2 、3 、4的四分类变量,就可以转换为3个赋值为0和1的二分类变量。(现在有点理解,其实就是按照顺序进行的变化趋势,临近数值的分类)。

分类结果的解释一般是要有参照类别的。

比如我们说男性肺癌发生率高,暗含了"相对于女性”这样的参照; 50 岁以上人群冠心病发生率更高,暗含了"相对于50 岁以下人群”这样的参照。

没有参照,就没法说高或低。比如80%,是高还是低呢?那要看是和70%还是90%比。

当我们把k个类别的多分类变量转换为k-1个二分类变量后,每个二分类变量表示相对参照类的大小。例如,多分类变量x用1 、2 、3 、4 表示,我们设定以1 作为参照,那么生成的3个虚拟变量分别表示2 和1相比的大小、3 和1相比的大小、4 和1相比的大小。

通过生成虚拟变量,就把原来的一个系数变成了多个系数,这多个系数更详细地展示了自变量与因变量之间的关系,在自变量与因变量呈非线性关系的时候,这尤其重要。因为当你使用线性回归、Logistic 回归这些方法的时候,实际上已经默认自变量与因变量是线性关系了,你是不可能找出非线性关系的。

什么时候用虚拟变量?

虚拟变量主要用于多分类自变量与因变量是非线性关系的时候,如果多分类自变量与因变量已经是线性关系了,就没有必要用虚拟变量了。因为此时线性关系已经可以很好地刻画出二者的关系了。

虚拟变量有什么优点和缺点?

优点:当多分类自变量与因变量的关系不是线性关系的时候,虚拟变量可以更真实地展示二者的关系。

缺点:把一个多分类变量转换为虚拟变量后,自变量数目会增多,如一个四分类变量就会生成3个虚拟变量。如果你的样本量不是很大,那么自变量的增加会导致估计结果不稳定。

设置虚拟变量时如何指定参照类?

主要根据专业和研究目的。如年龄,如果你想了解高年龄组与低年龄组的比较情况,那就把低年龄组设为参照。 一般尽量把危险低的设为参照组,如在社区类型中,把对照区(社区类型=0) 设为参照。

这个危险低的理解,是不是就是说熵小呢?以后再解决。

如果虚拟变量的结果不一致该怎么办?

如果产生了3个虚拟变量,其中1个虚拟变量的P0.05, 另外2 个虚拟变量的P0.05, 那么你在报告结果时仍需要把这3个虚拟变量的结果都展示出来,而不是只展示有统计学意义的那一个。在列方程时也需要把3个虚拟变量的系数都列在方程中。(这个看不懂!)

(责任编辑:IT教学网)

更多

推荐windows vista文章