.

Сделать репост в соц сети!

вторник, 24 марта 2015 г.

Как курение влияет на удовлетворенность жизнью и работой

Вчера в посте я показал взаимосвязь между курением и удовлетворенностью жизнью и удовлетворенностью работой Курящие менее удовлетворены своей жизнью и работой.
И в конце задал вопрос "...является ли курение причиной различий в удовлетворенности или же курение опосредует какую то другую причину и показывает не причинную связь, а корреляцию?"
За этим вопросом стоит простое предположение: курящие менее удовлетворены жизнью не потому, что курят, а потому, что они, например, меньше зарабатывают, у них меньший социальный статус.
И это проверяется с помощью статистики.
Самая большая проблема - выбор качественных переменных для проверки. Обращаюсь к господам аналитикам - порекомендуйте переменные, которые можно включить в анализ. Данные брал здесь («Российский мониторинг экономического положения и здоровья населения НИУ-ВШЭ (RLMS-HSE)», проводимый Национальным исследовательским университетом  "Высшая школа экономики" и ЗАО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. (Сайты обследования RLMS-HSE: http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms)»)
Я выбрал две переменные для проверки:

  • rj10.2 Если Вы получали премию по основному месту работы в течение последних 30 дней, то сколько рублей Вы получили? 
  • rj197 У Вас есть банковская пластиковая карта? 

Первая переменная говорит о материальном положении (хотя достаточно спорные данные, но другого я просто не нашел: единственная переменная, где речь идет о сумме вознаграждения)
Вторая переменная говорит скорее о социальном статусе - банковские карты имеют люди не просто обеспеченные, а на более или менее нормальной работе с белой зарплатой и т.п..

Описательные статистики

Поскольку выборка репрезентативная, то отражает показатели по всей России и будет интересна для анализа.

Курение

Указали, что курят - 3897
Не курят - 9 691
Или курит 40 % опрошенных от числа ответивших о курении
Всего в опросе приняло участие 16087 респондентов (с детьми)
Итого, поскольку выборка репрезентативная, то курит 24 % населения России или 40 % взрослого населения России

Премии

Премии за последние тридцать дней носят такое распределение
Как курение влияет на удовлетворенность жизнью и работой

не стал удалять правый хвост: кто то получил 150 000 р, но большая часть меньше 5 000 получали.
Аналитика сразу понимают, что переменную нужно логарифмировать для включение в уравнение.

Анализ

Карты и курение

сразу интересный факт: есть взаимосвязь между фактом наличия у человека банковской карты и фактом курения
Да обозначает наличие карты, Нет - отсутствие. Серый столбик курящих, розовый - не курящих.
Хи квадрат вполне себе ничего
Pearson's Chi-squared test with Yates' continuity correction

data:  table(h11$smoking, h11$bankcard)
X-squared = 50.3739, df = 1, p-value = 1.271e-12

Регрессия

Зависимые переменные у нас выражены порядковой шкалой, я для удобства переведу ее в бинарную
Одна градация - "Полностью удовлетворены"  и "Скорее удовлетворены", другая - все остальное ("И да, и нет", "Не очень удовлетворены", "Совсем не удовлетворены").
Давайте посмотрим на удовлетворенность жизнью
Я буду показывать для краткости только коэффициенты

Банковские карты

                     Estimate     Std. Error     t value      Pr(>|t|)  
(Intercept)     1.596338   0.006569     243.004    < 2e-16 ***
bankcardНет -0.106556   0.014078   -7.569       4.23e-14 ***
Наличие банковской карты связано с более высокой удовлетворенностью жизнью

Курение

                    Estimate     Std. Error    t value    Pr(>|t|)  
(Intercept)     1.538402   0.009754  157.72      < 2e-16 ***
smokingНет  0.053991   0.012161    4.44          9.14e-06 ***
Не так круто, как карта, но тоже ничего себе связано

Карты + курение

Estimate Std. Error t value Pr(>|t|)  
(Intercept)  1.56537    0.01041 150.355  < 2e-16 ***
smokingНет   0.04660    0.01216   3.832 0.000128 ***
bankcardНет -0.10201    0.01411  -7.227 5.43e-13 ***
И вот здесь очень интересный факт - курение не является медиатором по отношению к банковским картам, т.е. факт курение вносит самостоятельный вклад в удовлетворенность жизнью
AIC: 10220

Карты + курение + размер премии

                          Estimate   Std. Error  t value     Pr(>|t|)    
(Intercept)         1.01344    0.14944     6.781     2.41e-11 ***
smokingНет      0.05888    0.03775     1.559     0.119314    
bankcardНет     -0.09325    0.06682    -1.396    0.163244    
log(money)        0.06711    0.01742      3.853    0.000126 ***
Размер премии мы, конечно же, логарифмируем. И при добавлении данной переменной влияние курения и банковских карт становится незначимым
AIC: 1055.6
Если мы возьмем только размер премии в уравнении, то 
AIC: 1055.9 - т.е. добавление в уравнение карт и курения нам практически ничего не дает (Для неспециалистов: показатель AIC говорит о качестве модели. Та модель лучше, где AIC меньше).
Аналогичная ситуация для удовлетворенностью работой.
Отсюда вывод: курение не влияет непосредственно на удовлетворенность жизнью и работой. 

Проблема

только в одном
lm(formula = log(money) ~ smoking, data = h11)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9611 -0.6585 -0.0433  0.6078  3.6590 

Coefficients:
                       Estimate Std. Error    t value    Pr(>|t|)    
(Intercept)      8.37938    0.06491   129.086   <2e-16 div="">
smokingНет  -0.12001    0.07888  -1.521       0.129    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.014 on 754 degrees of freedom
  (6436 observations deleted due to missingness)
Multiple R-squared:  0.003061, Adjusted R-squared:  0.001738 
F-statistic: 2.315 on 1 and 754 DF,  p-value: 0.1286

Мы не нашли значимых различий - влияния курения на размер премии. Точнее связь на уровне 0, 129. Но за этим, на мой взгляд, стоит не очень высокой качество переменной размера премии. Размер премии указали менее 800 человек, в то время как в финальной выборке для анализа (я удалял из выборки тех, кто указывал варианты ответа "Отказ от ответа" и т.п..) 7 192 респондента.
Посему буду рад вашим рекомендациям, какую переменную выбрать для подобного анализа

И главное

Тот факт, что курение не влияет непосредственно на удовлетворенность работой и жизнью, не говорит, что курение не может влиять опосредованно: более высокий заработок, более высокий социально экономический статус может определяться фактом отказа от курения, а уже более высокий уровень зарплаты и статус влияют на удовлетворенность

2 комментария:

  1. хм.....
    интересно, действительно интересно.
    а что если "Есть ли у вас автомобиль?" и "Отдыхали ли вы за границей?"

    ОтветитьУдалить
    Ответы
    1. хм) хорошая версия
      подсказать, где данные?)

      Удалить