.

Сделать репост в соц сети!

среда, 10 сентября 2014 г.

Преобразование переменной для получения нормального распределения

Пост скорее для себя.
Одна из основных проблем использования линейной регрессии - ненормальной распределения переменных. Выбросы сильно искажают картину. Для некоторых случаев можно пренебречь ими: ну, например, отбросить члена КПСС с дореволюционным стажем из выборки. К сожалению, так получается не всегда, поэтому мы можем преобразовать переменную для того, чтобы получаемые данные подчинялись закону нормального распределения.
У нас есть в ассортимента два наиболее распространенных снаряда:

  • корень квадратный
  • логарифмирование

Корень квадратный мне не нравится: он не меняет характер распределения, а только сужает асимметрию до адекватных размеров, и мы закрываем глаза на выбросы, которые как бы уже и не выбросы
логарифмирование меняет характер распределения. Я сегодня сделал логарифмирование в программе R, вот собственно и хочу похвастаться
Исходные данные
Преобразование переменной для получения нормального распределения

После логарифмирования
Преобразование переменной для получения нормального распределения

Чувствуется разница?
И собственно все элементарно
i = log10(Y$переменная)
l = cbind(Y, i)
Для аналитиков: я не претендую на что-то гениальное. ничуть. Это пост баловство, иногда хочется поиграться с диаграммками. 

2 комментария:

  1. Это хорошо если значения переменных взяты по модулю.
    А если же в значениях есть как положительные, так и отрицательные значения?

    ОтветитьУдалить
  2. Сначала написал, потом понял, что написал наивную глупость, всего-то нужно привести все значения к положительным.

    ОтветитьУдалить