Share |

среда, 29 марта 2017 г.

Заявка на конференцию "Современное российское общество и социология"

Я обнаглел и подумал, а почему бы и нет? и подал заявку на участие в конференции Высшей Школы Экономики "Современное российское общество и социология" в качестве докладчика в секции он-лайн опросов.
Шансов у меня, видимо, не выше статистической погрешности, в заявке предполагалось указать научную степень и должность, а у меня нет научной степени и моя должность - индивидуальный предприниматель, но лучше пытаться, чем не пытаться.
И если я не попаду на конференцию, то сделаю вебинар на сайте, поэтому сохраню в блоге тезисы конференции.

Аннотация доклада 

В 2015 был запущен он-лайн опрос «Ключевые факторы текучести и эффективности персонала». Опрос функционирует до сих пор. Респондентам предлагается описать одно из своих последних мест работы: от даты приема до даты увольнения. Всего опрос содержит несколько десятков полей: от социально-демографических данных респондентов до уровня заработной платы и отношений с руководителем.
В своем докладе хотел бы показать возможности он-лайн опроса для мониторинга рынка труда через формирование и расчет показателей рынка и труда и создание прогнозных моделей текучести и эффективности персонала.
Новизна исследования для российского рынка может заключаться в:
  • Применении новых показателей анализа рынка труда, таких, как, например, источники трафика персонала и их влияние на текучесть персонала;
  • Использовании машинного обучения для точечного бенчмаркинга заработной платы специалистов, в т.ч. анализа текста;
  • Применении не очень популярного вида анализа – анализа дожития и регрессии Кокса – для исследования факторов текучести персонала.


Тезисы доклада

В качестве базовой идеи доклада предлагается идея он – лайн опроса (адрес опроса https://edwvb.blogspot.ru/2015/10/kljuchevye-faktory-uderzhanija-i-tekuchesti-personala.html  ), где респондент описывает одно из своих мест работы. Такая индивидуальная анкета позволяет получать информацию о рынке труда, те метрики и показатели, которые на сегодня не популярны в России. Автор доклада претендует на то, что это уникальный для России подход к изучению рынка труда. 
В западной практике исследования рынка труда одним из показателей рынка является источники трафика персонала – то, где работник и работодатель встречаются. В России по умолчанию это место встречи – работные сайта (джоб сайты). Этот источник трафика априори является базовым. Вместе с тем, западные источники показывают, что работные сайты являются поставщиками работников низкого качества. Я хочу показать данные по России, дав анализ связи источников трафика и текучести персонала, используя анализ дожития, и, в более широком смысле, показать, что источники трафика персонала являются показателем развитости рынка труда. 
Одной из базовых техник анализа, представленных в докладе будет анализ дожития и регрессия Кокса (реализованные в программе R), которые позволяют исследовать ключевой фактор рынка труда – текучесть персонала. Регрессия Кокса позволяет как строить прогнозные модели текучести персонала, так и проверять гипотезы о влиянии определенных факторов на текучесть персонала. Так, например, в западных академических исследованиях было показано влияние семейного статуса мужчины на текучесть персонала (это также одна из наиболее распространённых «житейских истин» в России: женатый мужчина отвечает за семью, поэтому работает в среднем дольше, чем неженатый). Данные моего он-лайн опроса и анализ дожития позволяют проверить эту и другие гипотезы (также такую распространенную гипотезу о том, как влияет на текучесть персонала шаговая доступность работы от дома работника – в России появились сервисы, которые предлагаю поиск персонала, живущего вблизи работы гарантируя снижение текучести персонала).  И это будет отражено в докладе.
Отдельным блоком автор доклада планирует проиллюстрировать кризис на рынке труда и представить данные о том, пик кризиса приходился на 2014-2015 годы и что рынок труда в России выходит из кризиса. 
Помимо исследовательских целей он-лайн опрос позволяет давать определенные практические результаты – индивидуальный бенчмаркинг зарплат. На сегодня в России зарплатными обзорами занимаются консалтинговые компании и работные сайты, опрашивая сами компании. Качество подобных обзоров оставляет желать лучшего, лишь единицы дают в обзорах margin of error показателей заработной платы. При этом, главной проблемой остается практическая применимость зарплатных обзоров компаниями – возможность принятия решения о заработной плате на основе таких обзоров. При всей разработанности методологии обзоров должностные обязанности компаний - участников обзоров заработных плат не «бьется» с тем, что показывается в обзоре. По мнению автора, индивидуальная он-лайн анкета позволяет снимать эту проблему: в анкете для описания должностных обязанностей используется тип переменной «текст», который анализируется затем с помощью алгоритмов машинного обучения, что позволяет очень гибко реагировать на разные описания. Таким образом, использование он-лайн анкеты позволяет делать индивидуальный прогноз заработной платы под конкретную позицию, под конкретного специалиста. 
Анализ текста с помощью алгоритмов машинного обучения – одно из самых перспективных направлений исследований в социологии ближайшего будущего. В он-лайн опросе содержится поле «Отзыв о компании», автор доклада покажет, какую информацию исследователь может извлекать из этого поля.

В заключение

Думаю, что имеющие опыт подачи заявок посмеются надо мной. У меня опыта нет, но буду Вам благодарен, если сориентируете, как писать такие тексты.

вторник, 28 марта 2017 г.

Два подхода к исследованию взаимозависимостей (на конкретных примерах)


Для исследования взаимосвязи между двумя переменными, которые выражены в относительной шкале (т.е. конкретные цифры: тонны, км, тыс. грн. и т.д.), мы можем использовать коэффициент корреляции.

Давайте посмотрим, как это сделать.
У нас есть данные по двум переменным: Скорость чтения и Количество книг (прочитанных):
Мы можем быстро построить график scatter plot, который покажет нам характер взаимосвязи:
Теперь мы можем рассчитать коэффициент корреляции.
Поскольку у нас нарушается условие нормальности распределения по одной из переменных, будем рассчитывать коэффициент корреляции Кендала:
Мы видим, что у нас есть слабая положительная корреляция 0,25 и этот результат статистически значим (p = 0.00387).
По сути, это все выводы, которые мы можем сделать из данного расчета.
Как же нам больше узнать о характере взаимосвязи эти двух переменных?
Есть еще один метод, который считается более достоверным, поскольку он учитывает индивидуальные особенности внутри выборки, а не приводит к «угрупнению», как это делается при расчете коэффициента корреляции.
Его суть состоит в следующем.
Для начала, мы берем нашу выборку и делим ее по показателям первой переменной на несколько групп. Например, мы можем по переменной «Скорость чтения» выделить три группы: медленная, средняя, быстрая. И эти три группы будут характеризовать выраженность нашего признака «Скорость чтения».
А потом, уже среди этих групп смотрим, насколько выражен второй признак. И начинаем искать значимые различия между группами.
И здесь мы можем применять уже более широкий арсенал, а не только коэффициент корреляции: критерий Розенбаума, критерий Манна-Уитни, критерий Стьюдента, критерий Крускала-Уоллиса и даже дисперсионный анализ.
Теперь давайте все это сделаем на практике.
Для начала нам нужно разделить нашу выборку на группы по первой переменной.
Давайте взглянем на кривую нормально распределения.
Мы помним, что +/- одно стандартное отклонение охватит 68,26% выборки, +/- два стандартных отклонения – 95,44% и т.д.
Если мы отложим от центра +/- 0,5 стандартного отклонения, тогда получим следующую картину:
Половина всех наблюдений из нашей выборки попадет в группу со средней выраженностью фактора – средняя; 25%, которые находятся слева, попадут в группу – медленная; и 25% выборки, которые находятся справа, попадут в группу – быстрая.
Проделав нехитрые манипуляции в R, мы разделим нашу выборку на три группы по фактору Скорость чтения:
Итак, мы разделили наши наблюдения по переменной Скорость чтения на три группы:
Медленная – 24 наблюдения
Средняя – 27 наблюдений
Быстрая – 16 наблюдений
Теперь у нас есть три группы, которые мы можем сравнивать между собой по второй переменной Количество (прочитанных) книг. И для того, чтобы наши различия были еще более выраженными, мы можем исключить нашу среднюю группу из дальнейших расчетов, и сравнивать только две группы: Медленная и Быстрая.
Давайте так и сделаем. Мы проведем двухвыборочный односторонний тест. Поскольку у нас нарушается условие нормальности по второй переменной Количество (прочитанных) книг, мы будем использовать непараметрический критерий Манна-Уитни:



Мы получили значимый результат p = 0.0035. Т.е. мы можем сделать вывод о том, что люди, которые читают быстрее (попали в группу «быстрая»), читают больше книг за год, нежели люди, которые читают медленно (попали в группу «медленная»).
Если сравнить средние значения Количества (прочитанных) книг этих двух групп, получится разница почти в три раза:
И давайте визуализируем наш финальный расчет:
Вывод
1. Исследовать взаимосвязи между количественными переменными можно не только расчетом коэффициента корреляции.
2. Часто, для более глубокого понимания взаимосвязи между количественными переменными, мы можем преобразовать нашу количественную переменную в качественную (фактор). И важно понимать, что такое преобразование открывает перед нами новые возможности для анализа взаимосвязей.

суббота, 25 марта 2017 г.

Вовлеченность персонала. Обзор подходов.

В преддверии вебинара Эволюция и революция в измерении вовлеченности персонала 18 апреля хочу сделать обзор подходов в области HR, именуемой "вовлеченность персонала" и порефлексировать над тем, в каком состоянии эта область и куда можно двигаться.
Я в 2012 году предлагал свой подход к работе с вовлеченностью персонала (см. Вовлеченность персонала). Под вовлеченностью я предлагал понимать поведение работника, не связанное напрямую с его прямыми должностными обязанностями и направленными на достижение целей компании. В этой методологии подход становился инструментальным для HR (вместо обычного бла бла бла): например, вовлеченность персонала компании можно измерять в этой методологии через уровень закрытия вакансий реферальным рекрутингом.
Но подход не нашел поддержки среди коллег, я сам не стал это развивать. Тема вовлеченности персонала остается в тренде, более того, она получила новое развитие, поэтому я решил написать данный пост.

Проблемы вовлеченности персонала

  1. Терминология. Что понимать под вовлеченностью персонала? Анализ определений показывает, что под вовлеченностью персонала понимают а) поведение работника и б) состояние работника (состояние, эмоции, образ мыслей и т.п.)
  2. Измерение вовлеченности персонала. Если мы понимаем под вовлеченностью персонала образ мыслей или эмоции, или состояние работника, как нам это померить? 
  3. Связь с бизнес результатами. БОльшая часть тех, кто занимается вовлеченностью персонала, просто не замарачивается измерением связи между вовлеченностью и бизнес результатами. Для такого рода "спецов" эта связь априорна. 
  4. Вовлеченность персонала как система. Это, пожалуй, самое слабое место всех конструкций "вовлеченности персонала". Можно сколько угодно рассуждать о том, что такое вовлеченность, но без инструментов и процедур измерения связи с результатами бизнеса все это остается бла бла бла.

Кратчайший обзор в Google

Как не надо

Если погуглить "вовлеченность персонала", то стандартная статья на эту тему выглядит так:
"Многие работодатели уже оценили преимущества вовлеченности – стабильность кадрового состава, снижение расходов на привлечение и удержание талантливых сотрудников, высокая производительность труда. Вовлеченность персонала обязательно сказывается  на удовлетворённости клиента, и как следствие - повышает прибыльность бизнеса в целом. Компании, где уровень вовлеченности персонала составляет менее 25%, никогда не достигнут своих бизнес- целей."
Если Вы считаете этот текст адекватным, вам можно дальше не читать. Этот текст показывает самую стандартную проблему: связь между "вовлеченностью персонала" и бизнес результатами персонала принимается априорно, как у Канта. При этом не очень понятно, что собственно понимается под вовлеченностью.
Или вот еще:
Вовлеченность персоналастремление сотрудников принести максимальную пользу компании и делать все возможное для достижения ее целей, выполнение действий, выходящих за рамки их прямых обязанностей - звезданули в конце мое определение, но не только мое, а надергали отовсюду, дальше пишут, что Единого алгоритма, отвечающего на вопрос «Как измерить вовлеченность персонала?», не существует. А дальше убивают желание читать: Естественно, легко вовлекаемые кадры самые востребованные, такие люди в разы эффективнее обычных не вовлеченных сотрудников.

WiKi

Вовлеченность персонала - определение Википедии, как минимум дает определение вовлеченности персонала: "это физическое, эмоциональное и интеллектуальное состояние, которое мотивирует сотрудников выполнять их работу как можно лучше". Итак, это состояние.
Правда ниже идет фраза: "Вовлечённость же считается наивысшим уровнем, когда человек радеет за свою компанию, выкладывается и старается работать как можно лучше". Постойте господа, глагольная форма - это уже не состояние, а поведение. "Старается" это действия, а не эмоции. Ну не буду спорить, может быть для автора "старается" и "выкладывается" это состояние души работника.
Но проблема статьи Википедии та же (цитирую Вики): "Исследования показывают, что вовлечённость имеет сильную корреляцию с результатами бизнеса (0,7-0,8): совокупный доход акционеров, производительность, текучесть кадров и удовлетворенность потребителей".
В Вики принято давать ссылку на источник, здесь этого нет, внизу дается только список провайдеров, предлагающих услуги вовлеченности персонала, после чего цель статьи Вики становится понятной - втюхать, а не объяснить

Обзор подходов 

Вовлеченность через опросник

Самый разработанный подход измерения вовлеченности персонала - через опросник. Работники отвечают на вопросы, потом исследователь считает некие баллы по шкалам вовлеченности, показывает, по каким шкалам идет западение - средние значения шкалы самые низкие. Некоторые опросники разработаны вполне добротно, с использованием Альфа Кронбаха и т.п.
Проблемы остаются теми же: даже если опросник классно измеряет некое качество "вовлеченность персонала", как мы измерим связь этого качества с бизнес показателями?
Допустим, мы измерили некий личный уровень вовлеченности работников, а затем измерили связь между уровнем вовлеченности работников и уровнем их эффективности (например, те же KPI). Очень простой способ. Вы слышали про такое? Я нет. Да, главная проблема в том, что большинство подобных опросов - анонимные, чтобы обеспечить честность в ответах. Хотя все мы понимаем, что "анонимность" легко обходится, но опять же: где исследования?
Поэтому компании считают некий уровень вовлеченности по компании / филиалам / группам работников и т.п.. В данном случае можно измерить связь, например, между уровнем вовлеченности персонала по годам в компании и уровнем эффективности компании по годам. Доход, прибыль и т.п.. Я про такое тоже не слышал, но судя по выступлениям на конференциях для российских компаний это априори тупиковый путь: бравые графики с конференций показывают бурный рост вовлеченности персонала, а вот доходы при этом растут далеко не всегда. Кроме того, если компания ведет исследования лет 5, то 5 наблюдений не дают почвы для выводов. Компании провайдеры опросов могли бы сделать такой мета анализ по своим клиентам. Ау?
Как вариант, можно посчитать уровень вовлеченности персонала по филиалам и эффективностью филиалов, но снова: многие ли компании могут себе такое позволить? Сбербанк и еще два три монстра. Подлянка же подобных измерений в том, что "корреляция не есть причинность". Выяснили мы, что есть связь между уровнем вовлеченности и эффективности по годам / по филиалам, и что? Может здесь обратная зависимость: год удачный, премия большая, вовлеченность персонала  тоже не отстает. Или: филиал в удачном месте, прибыль ого го, персонал воодушевлен.
Главное преимущество такого подхода: понятность для Заказчика. Красивые диаграммки, умные слова, солидные названия компаний провайдеров, сертификаты и ... не нужно соображать своей головой.

Модификация опросника через регрессионный анализ

Шагом вперед в измерении вовлеченности персонала стало применение регрессионного анализа. Замечу, что я не первый сделал это в России. В компаниях аналитики делали это уже в 2011 году (из того, что я знаю).
Идея проста: в опроснике выбирается одна или несколько шкал Y ("Готовы ли Вы рекомендовать компанию в качестве работодателя своим знакомым, друзьям...") - зависимых переменных, которые по мысли дизайнеров опроса и являются показателем вовлеченности персонала, а остальные вопросы / шкалы опросника - предикторы / независимые переменные, потенциально влияющие на выбранную зависимую переменную.
Далее, мы строим уравнение регрессии, выявляя:
  • факторы, которые имеют / не имеют связь с "вовлеченностью персонала";
  • вес этих факторов.
Преимущество в том, что "вовлеченность персонала" здесь четко определена через конкретный вопрос, связь с этим показателем измерима. Понятна схема принятия решения по результатам такого подхода.
Главная проблема такого подхода: какова связь между ответом на вопрос "Готовы ли Вы рекомендовать компанию в качестве работодателя своим знакомым, друзьям..." и реальной рекомендацией. И без решения данного вопроса мы остаемся на прежнем месте.

Пульс опрос

Заранее прошу не связывать мой текст про пульс опросы с российской практикой: я не знаю российскую практику применения пульс опросов, но могу говорить о идее западных HR аналитиков.
Пульс-опрос вовлеченности персонала позволяет более гибко схватывать изменения: в пульс опросе очень мало вопросов (1-3), его можно проводить чаще, делая случайные выборки работников (разбиваем всех работников на 10 групп, опрашивая каждую каждый месяц). Выборки создаются так, чтобы они были идентичны по параметрам (группы работников, возраст, стаж, пол и т.п.), поэтому изменение уровня вовлеченности персонала (в этом месяц опросили группу №1, которая показала уровень вовлеченности 25 % чего-то там, на следующий месяц группа № 2 показала результат 40 %, но мы как аналитики смело можем утверждать, что эти изменения не следствие различия групп - группы идентичны - а следствие изменения политик компании и т.п..).
Кроме того, пульс-опросы вовлеченности персонала "заточены снимать" настроение работников. Например, работники получают смс с вопросом про настроение, в ответ нужно скинуть смс с цифрой, обозначающей уровень настроения.
Это позволяет измерять сиюминутные вещи. И если мы не говорим про анонимность, то конкретный ответ можно связывать с эффективностью, текучестью работника (ну например, "вдруг" работник с "5" перешел на "2" - жди беды).
Проблема в том же: а с чего работники честно будут отвечать на вопросы и сообщать свое настроение?
И если мы глобальный опрос вовлеченности персонала разобьем на отдельные вопросы и будем их задавать оперативно, что это нам даст с т.з. содержания?

Анализ текста

Мы можем добавлять в опрос открытые вопросы. Техника анализа позволяет сейчас анализировать текст практически также, как цифры. Но при этом анализ текста значительно расширяет возможности анализа. Любой опрос с закрытыми вопросами - это "карта, а не территория", поэтому мы чаще всего получаем то, что закладываем (для спецов. Andrew Marritt рассказывал, что они проделали эксперимент: выкинули из опроса вовлеченности персонала случайным образом 80 % ответов, а потом с помощью рекомендательной системы опять заполнили ответами, точность была на уровне 90 % - очевидно, что это подтверждение того, что работники заполняют ожидаемым образом опросники).
Текст - информация неструктурированная, текст сам предлагает некую структуру, которая очень часто не совпадает с тем, что мы, как исследователи закладываем в исследование. Какого типа результаты мы можем получать из анализа текста применительно к вовлеченности персонала:
  1. Признак был отзыв / не было отзыва. Или он же - % работников, ответивших на открытый вопрос исследования вовлеченности персонала;
  2. анализ тональности / сентимент анализ текста. Если у нас есть шкала позитивности в опросе, мы можем выявить, какие слова, выражения чаще всего связаны с позитивным / негативными проявлениями вовлеченности персонала.фактически это регрессия между отзывом и некой шкалой отношения. Например, эту технику вполне себе можно применять в exit интервью (да, я полагаю, что вовлеченность персонала вполне себе можно измерять через exit интервью): работник выражает общее отношение к компании по шкале в N балов, а также пишет отзыв о компании открытым текстом, а мы потом понимаем, с какими выражениями связаны позитивные выражения о компании, с чем - негативные. Ну совсем просто: увольняющийся ставит "4" компании и говорит о том, чем ему очень нравился коллектив.... И т.п.. Вот вам отчет на вопрос, как формировать образ HR-Бренда, Компании и т.п.
  3. Кластерный / тематический анализ. Каждый открытый вопрос содержит в себе как минимум один смысл или тему. Часто больше: "коллектив у нас хороший, руководитель говно" - здесь уже две темы. Машина позволяет вычленить из всех текстов (а вычленять будет именно машина, руками вы это не сделаете) устойчивые темы. И само наполнение всего корпуса текстов темами будет говорить очень многое. Ну т.е. вам машина выделила темы "развитие", "руководитель", "условия труда" - вы смотрите соотношение (%) этих тем да еще и в разрезе времени, что позволяет управлять этим. См, например Сравнение отзывов на Банки.ру - Людмила Рогова скачала отзывы работников и кандидатов с сайта, выделила топики и показала динамику + несколько других аналитик. 
Проблема в общем та же самая - кто сказал, что работники будут писать честно? И бох бы с ним с честностью. Проблема, с которой мы столкнулись - пишут чаще лишь бы отколупались - см. Обратная связь сотрудников как инструмент диагностики корпоративной культуры и Анализ анкет обратной связи по обучению. Что нам могут сказать открытые вопросы. Работники чаще пишут а ля "все хорошо и замечательно" и вытащить содержание просто невозможно.
Отсюда мы можем саму когнитивную сложность ответов на открытые вопросы принимать как уровень вовлеченности работников (ну представьте: группе людей дали задание написать сочинение про Мадонну Леонардо. Если мы получим одну тему типа "класс" - "говно", то поймем, что 1) людям пофиг на картину или 2) люди в искусстве не сведущи. В отношении компании это значит тоже самое).
Я проводил подобную процедуру на производственном предприятии в отношении нововведений управления в цехах. В цехах, где инновативные практики были уже введены, машина выделяла 3-4 темы в отзывах, а там, где инновация предстояла, только одна тема была!!! И тема эта звучала: "а нахрена? нас и здесь неплохо кормят".
Проблема социальной желательности отзывов наводит на мысль об исключении ситуации опроса. Т.е. анализировать текст как показатель вовлеченности персонала можно и нужно, но нужно не задавать открытые вопросы в опроснике, а наблюдать в естественной среде обитания рабочем процессе непосредственно: на корпоративном портале, в социальных сетях, в переписке электронной почты и т.п..
Правда, трудоемкость измерения вовлеченности персонала возрастает: в Мире есть словари эмоционального окраса слов, так что Раджа Сенгупта считает, а я принимаю его мнение, что нужно разрабатывать собственные подобные словари. А это серьезный уровень, требующий очень серьезных скилсов - это вам не средние значение по шкалам посчитать.

Поведение сотрудников как вовлеченность

Впервые эта мысль прозвучала в исследовании компании Evolv - компания "снимала" как вовлеченность персонала конкретное поведение (например, специалист задерживался на работе по собственной инициативе ради освоения профессиональной сферы знания. Или проявляет инициативы, или факт рекомендации работником знакомому компании, или уровень коммуникаций и т.п.), а потом выявляет факторы, определяющие такое поведение работника. Это фактически стандартное прогнозное уравнение, только обычно эта идеология применяется для выявления эффективных работников или тех, кто проработает в компании долго, а не сбежит через два месяца. В случае вовлеченности персонала путь у нас становится позаковыристей - но тем не менее, выявляются интересные факты: работники, которые чаще задерживаются на работе по собственной инициативе, чаще же и работают в компании дольше, т.е. эта вовлеченность персонала НА САМОМ ДЕЛЕ связана с бизнес показателем - текучестью персонала. Это установил я в своем исследовании и не только я, тот же Evolv. Вот пример такой модели Почему мы задерживаемся на работе по собственной инициативе?. Если вы прочитаете внимательно, то увидите, что не только оплата переработок связана с задержками на работе: позиция руководителя на втором месте (руководитель задерживается на работе не реже подчиненного), но и личностные качества в эту же копилку вовлеченности персонала. Очень приятно, что шкала Новаторство теста Лаборатории Гуманитарные технологии определяет задержки на работе. Это косвенно показывает связь с данными опроса Evolv - там выявили, что работники, которые на своем личном ноуте ставят не дефолтный браузер, чаще задерживаются после работы, работают в компании дольше. Исследователи связывают это в тем, что люди, которые не довольствуются дефолтным браузером более инновативны, склонные к новаторству, больше вовлечены. См. подробнее Браузер скажет о кандидате то, что не скажет уровень учебной успеваемости.

Резюме

Пост получилс объемным, хотя я показал подходы в вовлеченности персонала широкими мазками. Я бы очень хотел, чтобы эта статья была воспринята внутренними HR. Попробуйте понять, в каком месте измерения вовлеченности персонала ваша компания, в каком направлении вы хотите двигаться. И двигайтесь.
Можете пригласить меня (edvb@yandex.ru) - полноценно проводить исследования вовлеченности персонала у вас в компании я навряд ли соглашусь, но сформировать дизайн исследования, помочь с анализом - с удовольствием.
И приходите на вебинар про вовлеченность персонала!

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 

или сделать перевод на карту Сбербанка  676 280 38 921 538 46 57 - укажите "пост в блоге".
Карта Тинкофф банк 5213 2438 5071 8220
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 

четверг, 23 марта 2017 г.

Введение в статистическое обучение с примерами на языке R

Введение в статистическое обучение с примерами на языке RДля большинства спецов эта книга ассоциируется с названием ISLR - ага, с
большим удовольствием сообщаю, что эта книга уже переведена, и теперь перевод книги есть у меня, так что завидуйте. На фото кроме книги видно кусок моего носа.
Думаю, спецы, которые, конечно же, прочитали эту книгу на английском (гордо скажу, что даже я осилил), эту книгу приобретут только потому, что такая книга должна стоять на полке.
А если Вы начинающий аналитик в R (да и не только в R), то эта книга мастрид. Маст маст рид. Книга, с которой нужно начинать.
Книга, после изучения которой, вы можете смело себя в аналитики зачислять.
Хотел дать ссылку на список книг по аналитике, обязательных к прочтению, но отбросил эту глупую затею: ЛЮБОЙ список по аналитике, обязательных к прочтению, включает эту книгу.
Но книгу стоит читать вместе с курсом Statistical Learning - авторы книги и авторы курса Стенфордского университета. И курс один из самых популярных среди курсов по статистике / аналитике. Хотя  в приоритете курс / книга надо выбирать книгу. Тем более, что книга по каждому разделу содержит лабораторные работы.
Про сложность книги: книга не проста для гуманитариев, это точно. Но книга значительно проще курсов МИФИ, Высшей школы экономики или Яндекса. В книге вас никто не будет кормить математикой. На входе Хасти (для меня книга связана именно с ним - ну может потому, что чаще всего он больше вел он-лайн курс по книге) берет быка за рога, вводя в проблему variance bias trade off. Если вы поймете, что это за проблема, то все остальное вы так же освоите.
Вы получите навыки работы со статистикой в R и хорошую прокачку знаниями статистики. Второе может быть важнее: это даст вам уверенность при решении задач, будет база в голове. От линейной регрессии до непараметрических методов типа KNN регрессии и SVM.
Резюме: изучив книгу, вы получите знаний, навыков и уверенности больше, чем на любом университетском курсе по статистике.
И еще похвастаюсь, что книгу я разыграю на своем Семинаре-практикуме "HR-Аналитика в R".
И самое главное: книгу выпустило лучшее издательство в России, выпускающее книги по аналитике – ДМК ПРЕСС. Интересы этого издательства (а также издательств СОЛОН ПРЕСС, Ремонт и сервис, ЭКОМ) в розничных и оптовых продажах представляет его генеральный дилер - КТК Галактика, на сайте которого  можно заказать эту книгу
И я вам еще рекомендую книгу из серии аналитики в R
R в действии. Анализ и визуализация данных на языке R 

вторник, 21 марта 2017 г.

Копаем дальше: Кто чаще уходит сам М или Ж? И как это зависит от уровня управления


В предыдущей статье «Первый подход» я начал изучать датасет Эдуарда и рассмотрел три идеи:
  1. Есть ли связь между стажем работы и зарплатой (белая/серая)
  2. Есть ли связь между инициатором увольнения и полом сотрудника
  3. А также построил график, который показал нам, что работодатель увольняет по своей инициативе более дорогих сотрудников
Вступление
Сегодня мы пойдем еще дальше и углубимся в тему, которую подняли в прошлом материале. А именно:
  1. Посмотрим, связаны ли переменные Инициатор увольнения и Уровень позиции
  2. Посмотрим, как М и Ж распределяются по уровням позиции
  3. А затем объединим все три переменные (Пол, Уровень позиции и Инициатор увольнения) на одном графике
P.S. Эдуард, спасибо за вопросы и наводку!
Идея №1
Давайте посмотрим на данные, которые есть у нас в датасете по двум переменным: Уровень позиции и Инициатор увольнения:


Теперь давайте рассчитаем Хи2:
Мы получили значимый результат. Теперь, чтобы проинтерпретировать остатки, которые и покажут нам, в каких группах мы нашли этот значимый результат, построим график mosaicplot (НУ – начальный уровень, С – специалист, ВС – ведущий специалист, РНЗ – руководитель начального звена, РСЗ – руководитель среднего звена, РВЗ – руководитель высшего звена):
Мы уже знаем, как читать данный график. Нас интересуют синие (отклонения в большую сторону) и красные (отклонения в меньшую сторону) квадраты. Т.е. два синих квадрата внизу показывают нам, что работодатель увольняет по своей инициативе чаще сотрудников с уровней Руководитель среднего звена и Руководитель высшего звена, чем с других уровней.
А красный прямоугольник внизу означает, что с позиции Руководитель высшего звена сами сотрудники уходят гораздо реже.
 
Идея №2
Теперь давайте посмотрим, как распределяются мужчины и женщины по уровням управления. По нашим данным имеем следующий результат:
Напомню также, что в нашем датасете женщин в два раза больше чем мужчин:
Хи2 дает следующие результаты:
Теперь давайте построим mosaicplot и посмотрим, где есть значимые отклонения.
Мужчины чаще находятся на позиции Руководитель высшего звена (нижний синий квадрат). При этом женщины, как раз, занимают эту позицию реже.
 
Идея №3
А теперь давайте объединим все три переменные (Пол, Уровень позиции и Инициатор увольнения) на одном графике:
Данный график выглядит несколько иначе, чем те, которые мы выше рисовали (он рисуется пакетом «vcd»), но смысл и интерпретация аналогичная. Здесь синим и темно розовым цветом отмечены стандартизированные остатки, которые рассчитываются как разница между ожидаемыми и фактическими частотами.
Мы видим, что мужчин, которые занимают позицию Руководитель среднего звена и Руководитель высшего звена работодатель увольняет гораздо чаще. Т.е. это значимое отклонение (светло-синий и темно-синий квадраты внизу справа)
При этом женщины чаще уходят с Начальных позиций и с позиции Специалиста именно по собственному желанию. Это два светло-синих квадрата вверху слева.
 
Вывод
1. Работодатель чаще увольняет сам сотрудников с позиций Руководитель среднего звена и Руководитель высшего звена.
2. Мужчины чаще занимают позицию Руководитель высшего звена и Руководитель начального звена. Женщины чаще занимают позицию Специалист.
3. Руководителей высшего звена и Руководителей среднего звена мужчин работодатель увольняет чаще по своей инициативе. Женщины Начального уровня и Специалисты чаще уходят по своей инициативе.





четверг, 16 марта 2017 г.

Завершается ли кризис в России: индексы рынка труда

Хочу вам показать, как результаты нашего опроса (пройдите по ссылке, поучаствуйте в опросе) могут быть использованы для макроэкономической ситуации в России.
Я, правда, не на что не претендую, просто хочу показать несколько картинок, а вы можете сделать выводы сами.

Источники трафика

Завершается ли кризис в России: индексы рынка труда

На этой диаграмме

  • по строкам - источники трафика кандидатов на позицию HR;
  • по колонкам - годы подбора;
  • в ячейках - % от трафика по годам.

Источники трафика я сократил для читабельности, в опросе они звучат так:

  • Работодатель вышел на Вас через Ваше резюме на джоб сайте= 'Работодатель джоб сайт', 
  • Вы откликнулись на вакансию на джоб сайте = 'Кандидат джоб сайт', 
  • Работодатель вышел на Вас по рекомендации человека, знающего вас= 'Работодатель рекомендация',
  • Пригласил Работодатель, были с ним знакомы до трудоустройсва= 'Был знаком с Работодателем',
  • Кадровое агентство вывело вас на работодателя= 'Кадровое агентство',
  • Вы обратились непосредственно в саму компанию по рекомендации вашего знакомого - работника данной компании= 'реферал'

Но меня здесь больше интересует трафик с джобсайтов.
В 2012 году, когда кризисом еще не так пахло, на джобсайтах работодатели чаще обращались к кандидатам с предложением, чем кандидаты откликались на вакансии. Потом, когда кризис случился, ситуация поменялась и уже кандидаты чаще находили работу, откликаясь на вакансии, чем когда работодатель сам выискивал кандидатов.
А в 2016 году шансы уравнялись.... Это на что-то намекает нам?
Показываю туже самую картинку, но оставил только два источника трафика

Завершается ли кризис в России: индексы рынка труда

2013, 14, 15 года проваливаются по сравнению с 2012 и 2016 годом.

Подбор по отраслям

На этой картинке динамика по тем же годам, но в строках отрасли, в которых шел прием кандидатов HR, а в строках % по году.
Т.е. в 2012 почти четверть принимаемых HR (реально их было не четвертая часть, поскольку я указал только четыре отрасли), принимались в банки, а в 2015 году прием рухнул. 2012 дал максимальный прием в Промышленности, а 2015 году прием упал до минимума.
Розница, которая как бы меньше чувствительна к кризису, показала максимум в 2015 году.
А IT демонстрирует свой восходящий тренд

Динамика зарплат стартовых HR по годам

Завершается ли кризис в России: индексы рынка труда
На диаграмме показаны стартовые зарплаты HR по годам в разрезе Москва / не Москва. Даю с 2007 года, чтобы показать провал 2008/2009 годов. В 2016 году рост показали как Москва, так и регионы.

Итого

убеждают картинки сами за себя?

Понравилась статья?

Я не буду против спонсорской помощи в размере 100 р. Это не обязательно, только если у вас есть время и желание вознаградить за потраченные мной усилия
Номер карты Сбербанка 676 280 38 921 538 46 57
Карта Тинкофф банк 5213 2438 5071 8220
Номер кошелька Яндекс Деньги 41001468611935
Или просто покликайте на директ рекламу

Индивидуальный бенчмаркинг зарплат или Сколько я стою на рынке: методология и практика

Провел сегодня вебинар Индивидуальный бенчмаркинг зарплат или Сколько я стою на рынке: методология и практика (по ссылке запись вебинара).
Презентация ниже.
Для тех, кто не смотрел вебинар:

  1. вы можете пройти опрос Ключевые факторы эффективности и текучести персонала
  2. написать мне о том, что вы прошли опрос, и какой е майл указали;
  3. я вам предоставлю отчет по такой форме Сколько я стою на рынке

Спонсорская помощь не обязательна, но приветствуется, но желательна


Индивидуальный бенчмаркинг зарплат или сколько я стою на рынке from Edward Babushkin
Если Вам понравился сервис, я не буду против спонсорской помощи в размере. например, 100 р. Это не обязательно, только если у вас есть время и желание вознаградить за потраченные мной усилия

  • Номер карты Сбербанка 676 280 38 921 538 46 57 
  • Карта Тинкофф банк 5213 2438 5071 8220
  • Номер кошелька Яндекс Деньги 41001468611935

Или просто покликать на директ рекламу

суббота, 11 марта 2017 г.

Статьи по hr-аналитике на английском 17

Представляю семнадцатый выпуск статей по HR-аналитике на английском.
Предыдущий выпуск статей по hr-аналитике на английском - шестнадцатый - вы можете найти по ссылке Статьи по hr-аналитике на английском 16, а через по ссылкам пройти до первого выпуска.
Статьи по hr-аналитике на английском

Итак,


  1. Employee Retention with R Based Data Science Accelerator - статья - просто золотой фонд HR аналитики. Автора - датасайентисты Microsoft - Le Zhang и Graham Williams. Статья золотая по двум причинам: во первых, авторы делят факторы текучести персонала на статические, неизменяемые во времени, т.е. эта та информация, которую мы собираем о кандидате, сюда относится, например, источник трафика работника, и динамические, те, что меняются со временем, и авторы выносят такой фактор, как sentiment - настроение. Для прогноза текучести важно измерение sentiment. Во-вторых, статья важна тем, что авторы дают код измерения текучести в программе R. И я уже присмотрел, что можно показать на своем семинаре Семинар-практикум "HR-Аналитика в R" 
  2. Learning Analytics: Linking Learning to Impact - короткая, но очень полезная статья для тех, кто собирается применять hr-аналитику в обучении. Приведу самую важную цитату из статьи: Generally, there are two ways to demonstrate the link between programs and performance. First, conduct highly rigorous studies (e.g., experimental designs) that compare a group of trainees to non-trainees across a wide set of performance metrics. These studies are excellent for determining cause and effect (e.g., sales training leads to sales improvement), but they are time-consuming, costly and resource intensive. Second, apply an alternative method such as a scalable technology solution to provide accurate and reliable estimates of performance improvement that are timely and can be compared to benchmarks.
  3. Separating reporting and analytics is (usually) a bad idea - эта статья Andrew Marritt относится к менеджменту Больших данных в HR. Многие hr-аналитики вышли из психологов, владеют методами статистического анализа в SPSS, R, а те, кто занимаются базами данных в компании, BI системами, вышли из software developers. И эти две группы спецов имеют разную культуру анализа, разные взгляды на построение систем анализа. И не есть хорошо. Об этом противоречии пишет автор. Кстати,ровно по этой причине я овладеваю языком запросов баз данных - SQL, с тем, чтобы самому получать те данные, что нужны для построения систем предиктивной аналитики. 
  4. HR data analytics can lay the groundwork for workforce improvements - добротное интервью Emilio J. Castilla, профессора MIT. Будет полезен в первую очередь тем, кто стоит на пороге внедрения HR аналитик. Приведу только одну цитату из статьи: The first step is to determine the most important variables and factors you are seeking to maximize when selecting and hiring employees -- while anticipating which other important people variables may be affected as a result of such efforts. 
  5. AI Is Going to Change the 80/20 Rule - статья про то, как искусственный интеллект изменит правило Парето о том, что 20 % усилий приводит к 80 % результата. В искусственном интеллекте появляются новые соотношения.
  6. Rewriting The Rules For The Digital Age: 2017 Deloitte Human Capital Trends - ну куда же без Берзина. Берзин уже как зубр рынка собирает тысячи лайков и ре постов. Если вы любите попиздеть порассуждать о четвертой индустриальной революции - вам сюда. Берзин с компанией провел недавно глобально исследование, теперь знакомит с его результатами. Интересные мысли ищите в том месте, где Берзин начинает знакомить с трендами. Я в свое время уже наелся трендов Берзина, вот, например, Топ 10 прорывов в HR технологиях.

На этом на сегодня все, хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.
Приходите осваивать науку HR-аналитики на мой Семинар - практикум "Аналитика для HR"

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.

воскресенье, 5 марта 2017 г.

И снова 8марта. Пост про женщин - болтливых, выносливых и очень доверчивых

Отгремел один праздник, посвященный нашим мужчинам, как снова праздник. Теперь уже женский. Только ленивый не прошелся по теме различий между мужчинами и женщинами. Одни труды британских ученых чего стоят). Я тоже решила пройтись по различиям между полами.
Но у меня иная цель. Я не хочу искать или подтверждать эти различия, они и так известны. Я хочу свою фантазию потренировать. И вот в каком направлении. Сталкивались когда-нибудь в своей практике с такими случаями - прилетела задача, и сразу захотелось ее бросить, так как в голове картинка, что данных для решения этой задачи у тебя нет? Я сталкивалась... Вот я и решила брать известные утверждения, и пользуясь ограниченным набором данных, пытаться придумать как эти утверждения можно проверять. И тут же проверять, естественно.
Есть данные опроса, проводимого Эдуардом, им я и воспользовалась. Не буду в этот раз сравнивать зарплаты, результаты тестов, предпочитаемые профессии т. д. и т. п. Пройдусь по-житейскому. Поехали)

Женщины более болтливы. Ок - в опросе есть несколько текстовых полей. Предполагаю, что количество используемых слов у женщин будет больше, чем у мужчин. Воспользуюсь полем с описанием функционала. Количество слов подсчитать не сложно.  Справа картинка сколько слов использовали женщины и мужчины в описании своего функционала. Отличия статистически значимы. Распределения в выборках отличаются от нормального распределения. Для проверки "нормальности" использовала критерий Шапиро-Уилка. P-value и для женщин, и для мужчин где-то далеко меньше 10 e-25. Не нормально. Использую критерий Крускала Уоллиса. p-value 0.00043. Женщины действительно используют больше слов)

Женщины более выносливы. Сразу вспоминаю о наличии вопроса о переработках. Для себя сформулирую так - раз женщины более выносливы, значит будут чаще указывать в ответах варианты, связанные с этими самыми переработками. Ниже следует результат:
Проверка статистической значимости отличий сделала с помощью хи2. В варианте "каждый день" и "никогда" практически полное совпадение с ожидаемыми значениями как у женщин, так и у мужчин. Но есть и отличия. Женщины действительно чаще выбирают ответы "Несколько раз в неделю" и "Несколько раз в месяц" по сравнению с мужчинами (синие столбы гистограммы на рисунке). А в варианте №5 обратная ситуация. Если честно, то на этом месте я впала в легкое недоумение. Женщины гораздо реже выбирали этот вариант ответа. Моя гипотеза - у мужчин чаще встречается гибкий график работы? Или это влияние ИТ специалистов, которых могут призвать на работу в любое время из любой точки, вот только на удаленке, и с мягкого дивана?  Но даже не смотря на ответ под №5 получается, что женщины действительно склонны чаще задерживаются на работе.
Решила зайти немного дальше - может причина задержек не в женской выносливости, а просто нас, женщин, чаще вынуждают перерабатывать? В исследовании есть еще один вопрос, который возможно мне поможет - по чьей инициативе были эти задержки. И заодно я решила посмотреть как влияет пол руководителя на принятие этого решения. 
И вот тут для меня интересный результат. Тренд в поведении и женщин, и мужчин одинаков, когда пол руководителя и пол сотрудника совпадают, и аналогично в случае несовпадения полов. В случае ЖЖ или ММ (желтая заливка)  все полы склонны задерживаться на работе. Только у мужчин явно преобладает ответ №1 - "Я сам", а у женщин №2 - "так обстоятельства сложились". А в случае несовпадения полов все почти наоборот. Женщины, чьими начальниками были мужчины, реже указывали, что они сами принимали решение о сверхурочной работе (факт 337 против ожидаемого 476), тогда как у мужчин сильный отрыв был в варианте №2 - обстоятельства так сложились (факт 96 против 240 ожидаемых). Наверное, последние выводы к выносливости женщин отнести будет сложно, но и утверждать, что женщин чаще вынуждают задерживаться, тоже не получится. 

Женщины менее уверенны в себе. Вот тут у меня было много вариантов, как проверить это утверждение. Возможно, тот вариант, который я в итоге выбрала, у многих вызовет сомнение. Но все же озвучу. Уверенный в себе человек будет искать варианты с "белой" зарплатой, а менее уверенный согласится на любые поступившие предложения. Увы, но этот вывод тоже подтверждается полученными данными. Женщины действительно чаще выбирают соглашаются с "серой" зпл.
Но как ни странно, женщин реже обманывают при приеме на работу. (хи2=0.018). И опять же вопрос - а может просто сами женщины не считают это обманом?
Склонность к самопознанию. Это конечно я очень громко сказала, но тем не менее женщины более склонны проходить всевозможные тесты. Без вариантов - p-value для хи2=4,10 Е-24. Таблицу уже не привожу, их и так много.

Женщины склонны тратить больше. Опять же, для меня стало вызовом проверка данного утверждения. В исследовании нет вопросов, напрямую связанных с этой особенностью женщин. Я решила посмотреть на вопрос про наличие кредитов на момент трудоустройства. Логика моя простая. Больше трачу - надо больше денег. При более низких доходах (а доходы женщин меньше мужчин согласно предыдущим исследованиям) такой вариант возможен только с привлечением "внешних" средств. Если женщины меньше зарабатывают, а тратить любят больше, значит и кредитов у них должно быть больше.
И снова удивление) Данные опроса показывают, что женщины чаще выбирали вариант №4 "не было у меня кредитов" по сравнению с мужчинами. Правда тут же возникает другая идея - может просто женщины не считают кредит мужа/друга своим кредитом? Из серии - твоя зарплата это наша зарплата, а моя зарплата это моя зарплата, только в случае с кредитами наоборот). Не так давно Эдуард коснулся похожей идеи, но только в варианте как женщины и мужчины воспринимают гражданский брак. Вопрос про транжирство женщин остается для меня открытым. У меня действительно пока не достаточно данных, чтобы его подтвердить или опровергнуть, используя только данные опроса.
На этом останавливаюсь. Всем женщинам БОЛЬШОГО счастья, ХОРОШЕГО самочувствия, РАБОТАТЬ поменьше и быть счастливыми) С 8-м марта)

Можно ли по тексту определить, кто его писал: мужчина или женщина

Женщинам племени Мумбо-Юмбо в честь 8 марта посвящается
Восьмимартовский пост на самом деле. Возвращаюсь к нашему исследованию факторов эффективности и текучести (поучаствуйте уже ради праздника, а?).
Идея анализа проста: у нас есть переменная "Пол респондента" и переменная "Отзыв о компании". Всего выбора исследования составила 327 дам и 160 джентельменов, кто оставили свои отзывы о компании.
Лирическое отступление. Вспоминаются Ильф с Петровым и их вечное: Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью.
Восьмимартовская идея поста простая: можем ли мы по тексту отзыва о компании определить, писал ли его негр племени Мумбо-Юмбо мужчина или Эллочка дама. 
Итого мы получаем простую задачу классификации.
Это кстати, не первая моя попытка различать мужчин и женщин))) Ранее я делал такой анализ Можно ли различить мужчин и женщин по соотношению рост / вес

Результат

Показатели точности модели я даю ниже, а теперь сразу "мущинские" слова и "дамские".
С мужчинами чаще связаны слова (т.е. слова, которые в тексте отзывов употрябляют именно мужчины, а дамы почти не употребляют)
Можно ли по тексту определить, что его писал: мужчина или женщина
Чем больше шрифт, тем больше "мущинистость" слова
Можно ли по тексту определить, кто его писал: мужчина или женщина
И вот здесь мой самый главный УПС! У меня в голове работала такая схема: эмоциональные люди чаще употребляют в речи прилагательные, обозначающие отношение. Женщины - более эмоциональные. Но у "эмоциональных" женщин самое нагруженное слово - глагол "работать", а у "не эмоциональных" мужчин самое нагруженное слово "Хороший" (работодатель) и еще "Большой".
Вот так шаблоны на старости лет рушатся. 

Качество модели

Ну спецов то картинки мало трогают, им же надо сказать, насколько очно мы можем женщин от мужчин отделить. И это самое поразительное. 
Площадь под кривой у нас 0, 81!
Можно ли по тексту определить, кто его писал: мужчина или женщина
А Точность Полнота - 0, 72
Можно ли по тексту определить, кто его писал: мужчина или женщина
При том, что базовая точность модели - 0, 23! Добавлю, что я использовал SVM с кросс валидацией и сеткой параметров текста и модели. 

Ложка дегтя

Как мне кажется, такой высокий результат был получен не только за счет мущинистости и дамочности. Дело в том, что бОльшая часть мужчин в опросе - IT специалисты, а дамы - HR-ы, рекрутеры. Поэтому в основе деления лежит еще, наверняка, профессиональная ориентация, которая определяет наши тексты. 
Ну это же следующая задача - как мужчин и женщин вычленить из IT специалистов и рекрутеров! И очень красивая задача.

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.
хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.

среда, 1 марта 2017 г.

Первый подход (увольнения, стаж, з/плата)


Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучестиперсонала), которыми любезно поделился Эдуард Бабушкин.

Вступление. Философское

Накинутся на такой объём данных с наскоку не получится из-за их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было работать с данными. Корректно их импортировать, проверить переменные на соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать, выловить ошибки (например, дата увольнения 2035 год J), решить, что с ними делать. И это только маленькая часть предварительной работы.

Преодолев данный этап предобработки данных, уже чувствуешь себя победителем. Когда даты являются датами, а числа числами, а факторы факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику, аналитику, R, Python. Последовательность может быть любой. Главное начать!

Идея №1

Я решил начать с заработных плат и увольнений.

У нас есть данные о том, какую человек получал з/плату: «белую» или «серую». А также данные о том, сколько лет проработал в компании (т.е. берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда получим такой результат:






Интересно узнать есть ли взаимосвязь между зарплатой («белая»/«серая») и тем, как долго человек работает в компании.
Хи2 дает следующий результат.

Т.е. полученный результат значимый и есть существенные отклонения. Чтобы их увидеть, давайте построим mosaicplot по остаткам:


Как читать данный тип графиков?

  1. Размеры прямоугольников соответствуют количеству наблюдений.
  2. Цвет прямоугольников – величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.
  3. Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.

Мы видим, что у нас левый нижний квадрат («серая» зарплата и стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто согласился на «серую» заработную плату увольняются в первый же год с этой работы. Т.е. количество таких наблюдений у нас в разы больше, нежели ожидалось.

Идея №2

У нас есть данные о том, кто являлся инициатором увольнения: работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между этой переменной и полом.

Объединив эти данные в таблицу сопряженности получим:



Рассчитаем Хи2:

Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные (инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать результаты, давайте построим mosaicplot.


Что мы видим на это графике?


Работодатель гораздо чаще увольняет по своей инициативе именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо противоположная (левый нижний светло красный квадрат).


Идея №3


Еще у нас есть данные о размере заработной платы на момент увольнения работника. Если объединить эту информацию с инициатором увольнения и стажем работы в этой компании до увольнения в один красивый график, тогда получим:


Зеленые и красные боксплоты нам четко показывают, что работодатель увольняет более дорогих сотрудников, чем те, которые увольняются по собственной инициативе.
Можно еще сделать и такое предположение, что менее оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами увольняются.
Резюме
Пока это еще не супер глубокий анализ, а всего лишь первый подход к данным. Я бы сказал – знакомство с данными. Но уже понятно, в каком направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать». Следите за следующими подходами. :)