Share |

четверг, 23 марта 2017 г.

Введение в статистическое обучение с примерами на языке R

Введение в статистическое обучение с примерами на языке RДля большинства спецов эта книга ассоциируется с названием ISLR - ага, с
большим удовольствием сообщаю, что эта книга уже переведена, и теперь перевод книги есть у меня, так что завидуйте. На фото кроме книги видно кусок моего носа.
Думаю, спецы, которые, конечно же, прочитали эту книгу на английском (гордо скажу, что даже я осилил), эту книгу приобретут только потому, что такая книга должна стоять на полке.
А если Вы начинающий аналитик в R (да и не только в R), то эта книга мастрид. Маст маст рид. Книга, с которой нужно начинать.
Книга, после изучения которой, вы можете смело себя в аналитики зачислять.
Хотел дать ссылку на список книг по аналитике, обязательных к прочтению, но отбросил эту глупую затею: ЛЮБОЙ список по аналитике, обязательных к прочтению, включает эту книгу.
Но книгу стоит читать вместе с курсом Statistical Learning - авторы книги и авторы курса Стенфордского университета. И курс один из самых популярных среди курсов по статистике / аналитике. Хотя  в приоритете курс / книга надо выбирать книгу. Тем более, что книга по каждому разделу содержит лабораторные работы.
Про сложность книги: книга не проста для гуманитариев, это точно. Но книга значительно проще курсов МИФИ, Высшей школы экономики или Яндекса. В книге вас никто не будет кормить математикой. На входе Хасти (для меня книга связана именно с ним - ну может потому, что чаще всего он больше вел он-лайн курс по книге) берет быка за рога, вводя в проблему variance bias trade off. Если вы поймете, что это за проблема, то все остальное вы так же освоите.
Вы получите навыки работы со статистикой в R и хорошую прокачку знаниями статистики. Второе может быть важнее: это даст вам уверенность при решении задач, будет база в голове. От линейной регрессии до непараметрических методов типа KNN регрессии и SVM.
Резюме: изучив книгу, вы получите знаний, навыков и уверенности больше, чем на любом университетском курсе по статистике.
И еще похвастаюсь, что книгу я разыграю на своем Семинаре-практикуме "HR-Аналитика в R".
И самое главное: книгу выпустило лучшее издательство в России, выпускающее книги по аналитике – ДМК ПРЕСС. Интересы этого издательства (а также издательств СОЛОН ПРЕСС, Ремонт и сервис, ЭКОМ) в розничных и оптовых продажах представляет его генеральный дилер - КТК Галактика, на сайте которого  можно заказать эту книгу
И я вам еще рекомендую книгу из серии аналитики в R
R в действии. Анализ и визуализация данных на языке R 

вторник, 21 марта 2017 г.

Копаем дальше: Кто чаще уходит сам М или Ж? И как это зависит от уровня управления


В предыдущей статье «Первый подход» я начал изучать датасет Эдуарда и рассмотрел три идеи:
  1. Есть ли связь между стажем работы и зарплатой (белая/серая)
  2. Есть ли связь между инициатором увольнения и полом сотрудника
  3. А также построил график, который показал нам, что работодатель увольняет по своей инициативе более дорогих сотрудников
Вступление
Сегодня мы пойдем еще дальше и углубимся в тему, которую подняли в прошлом материале. А именно:
  1. Посмотрим, связаны ли переменные Инициатор увольнения и Уровень позиции
  2. Посмотрим, как М и Ж распределяются по уровням позиции
  3. А затем объединим все три переменные (Пол, Уровень позиции и Инициатор увольнения) на одном графике
P.S. Эдуард, спасибо за вопросы и наводку!
Идея №1
Давайте посмотрим на данные, которые есть у нас в датасете по двум переменным: Уровень позиции и Инициатор увольнения:


Теперь давайте рассчитаем Хи2:
Мы получили значимый результат. Теперь, чтобы проинтерпретировать остатки, которые и покажут нам, в каких группах мы нашли этот значимый результат, построим график mosaicplot (НУ – начальный уровень, С – специалист, ВС – ведущий специалист, РНЗ – руководитель начального звена, РСЗ – руководитель среднего звена, РВЗ – руководитель высшего звена):
Мы уже знаем, как читать данный график. Нас интересуют синие (отклонения в большую сторону) и красные (отклонения в меньшую сторону) квадраты. Т.е. два синих квадрата внизу показывают нам, что работодатель увольняет по своей инициативе чаще сотрудников с уровней Руководитель среднего звена и Руководитель высшего звена, чем с других уровней.
А красный прямоугольник внизу означает, что с позиции Руководитель высшего звена сами сотрудники уходят гораздо реже.
 
Идея №2
Теперь давайте посмотрим, как распределяются мужчины и женщины по уровням управления. По нашим данным имеем следующий результат:
Напомню также, что в нашем датасете женщин в два раза больше чем мужчин:
Хи2 дает следующие результаты:
Теперь давайте построим mosaicplot и посмотрим, где есть значимые отклонения.
Мужчины чаще находятся на позиции Руководитель высшего звена (нижний синий квадрат). При этом женщины, как раз, занимают эту позицию реже.
 
Идея №3
А теперь давайте объединим все три переменные (Пол, Уровень позиции и Инициатор увольнения) на одном графике:
Данный график выглядит несколько иначе, чем те, которые мы выше рисовали (он рисуется пакетом «vcd»), но смысл и интерпретация аналогичная. Здесь синим и темно розовым цветом отмечены стандартизированные остатки, которые рассчитываются как разница между ожидаемыми и фактическими частотами.
Мы видим, что мужчин, которые занимают позицию Руководитель среднего звена и Руководитель высшего звена работодатель увольняет гораздо чаще. Т.е. это значимое отклонение (светло-синий и темно-синий квадраты внизу справа)
При этом женщины чаще уходят с Начальных позиций и с позиции Специалиста именно по собственному желанию. Это два светло-синих квадрата вверху слева.
 
Вывод
1. Работодатель чаще увольняет сам сотрудников с позиций Руководитель среднего звена и Руководитель высшего звена.
2. Мужчины чаще занимают позицию Руководитель высшего звена и Руководитель начального звена. Женщины чаще занимают позицию Специалист.
3. Руководителей высшего звена и Руководителей среднего звена мужчин работодатель увольняет чаще по своей инициативе. Женщины Начального уровня и Специалисты чаще уходят по своей инициативе.





четверг, 16 марта 2017 г.

Завершается ли кризис в России: индексы рынка труда

Хочу вам показать, как результаты нашего опроса (пройдите по ссылке, поучаствуйте в опросе) могут быть использованы для макроэкономической ситуации в России.
Я, правда, не на что не претендую, просто хочу показать несколько картинок, а вы можете сделать выводы сами.

Источники трафика

Завершается ли кризис в России: индексы рынка труда

На этой диаграмме

  • по строкам - источники трафика кандидатов на позицию HR;
  • по колонкам - годы подбора;
  • в ячейках - % от трафика по годам.

Источники трафика я сократил для читабельности, в опросе они звучат так:

  • Работодатель вышел на Вас через Ваше резюме на джоб сайте= 'Работодатель джоб сайт', 
  • Вы откликнулись на вакансию на джоб сайте = 'Кандидат джоб сайт', 
  • Работодатель вышел на Вас по рекомендации человека, знающего вас= 'Работодатель рекомендация',
  • Пригласил Работодатель, были с ним знакомы до трудоустройсва= 'Был знаком с Работодателем',
  • Кадровое агентство вывело вас на работодателя= 'Кадровое агентство',
  • Вы обратились непосредственно в саму компанию по рекомендации вашего знакомого - работника данной компании= 'реферал'

Но меня здесь больше интересует трафик с джобсайтов.
В 2012 году, когда кризисом еще не так пахло, на джобсайтах работодатели чаще обращались к кандидатам с предложением, чем кандидаты откликались на вакансии. Потом, когда кризис случился, ситуация поменялась и уже кандидаты чаще находили работу, откликаясь на вакансии, чем когда работодатель сам выискивал кандидатов.
А в 2016 году шансы уравнялись.... Это на что-то намекает нам?
Показываю туже самую картинку, но оставил только два источника трафика

Завершается ли кризис в России: индексы рынка труда

2013, 14, 15 года проваливаются по сравнению с 2012 и 2016 годом.

Подбор по отраслям

На этой картинке динамика по тем же годам, но в строках отрасли, в которых шел прием кандидатов HR, а в строках % по году.
Т.е. в 2012 почти четверть принимаемых HR (реально их было не четвертая часть, поскольку я указал только четыре отрасли), принимались в банки, а в 2015 году прием рухнул. 2012 дал максимальный прием в Промышленности, а 2015 году прием упал до минимума.
Розница, которая как бы меньше чувствительна к кризису, показала максимум в 2015 году.
А IT демонстрирует свой восходящий тренд

Динамика зарплат стартовых HR по годам

Завершается ли кризис в России: индексы рынка труда
На диаграмме показаны стартовые зарплаты HR по годам в разрезе Москва / не Москва. Даю с 2007 года, чтобы показать провал 2008/2009 годов. В 2016 году рост показали как Москва, так и регионы.

Итого

убеждают картинки сами за себя?

Понравилась статья?

Я не буду против спонсорской помощи в размере 100 р. Это не обязательно, только если у вас есть время и желание вознаградить за потраченные мной усилия
Номер карты Сбербанка 676 280 38 921 538 46 57
Карта Тинкофф банк 5213 2438 5071 8220
Номер кошелька Яндекс Деньги 41001468611935
Или просто покликайте на директ рекламу

Индивидуальный бенчмаркинг зарплат или Сколько я стою на рынке: методология и практика

Провел сегодня вебинар Индивидуальный бенчмаркинг зарплат или Сколько я стою на рынке: методология и практика (по ссылке запись вебинара).
Презентация ниже.
Для тех, кто не смотрел вебинар:

  1. вы можете пройти опрос Ключевые факторы эффективности и текучести персонала
  2. написать мне о том, что вы прошли опрос, и какой е майл указали;
  3. я вам предоставлю отчет по такой форме Сколько я стою на рынке

Спонсорская помощь не обязательна, но приветствуется, но желательна


Индивидуальный бенчмаркинг зарплат или сколько я стою на рынке from Edward Babushkin
Если Вам понравился сервис, я не буду против спонсорской помощи в размере. например, 100 р. Это не обязательно, только если у вас есть время и желание вознаградить за потраченные мной усилия

  • Номер карты Сбербанка 676 280 38 921 538 46 57 
  • Карта Тинкофф банк 5213 2438 5071 8220
  • Номер кошелька Яндекс Деньги 41001468611935

Или просто покликать на директ рекламу

суббота, 11 марта 2017 г.

Статьи по hr-аналитике на английском 17

Представляю семнадцатый выпуск статей по HR-аналитике на английском.
Предыдущий выпуск статей по hr-аналитике на английском - шестнадцатый - вы можете найти по ссылке Статьи по hr-аналитике на английском 16, а через по ссылкам пройти до первого выпуска.
Статьи по hr-аналитике на английском

Итак,


  1. Employee Retention with R Based Data Science Accelerator - статья - просто золотой фонд HR аналитики. Автора - датасайентисты Microsoft - Le Zhang и Graham Williams. Статья золотая по двум причинам: во первых, авторы делят факторы текучести персонала на статические, неизменяемые во времени, т.е. эта та информация, которую мы собираем о кандидате, сюда относится, например, источник трафика работника, и динамические, те, что меняются со временем, и авторы выносят такой фактор, как sentiment - настроение. Для прогноза текучести важно измерение sentiment. Во-вторых, статья важна тем, что авторы дают код измерения текучести в программе R. И я уже присмотрел, что можно показать на своем семинаре Семинар-практикум "HR-Аналитика в R" 
  2. Learning Analytics: Linking Learning to Impact - короткая, но очень полезная статья для тех, кто собирается применять hr-аналитику в обучении. Приведу самую важную цитату из статьи: Generally, there are two ways to demonstrate the link between programs and performance. First, conduct highly rigorous studies (e.g., experimental designs) that compare a group of trainees to non-trainees across a wide set of performance metrics. These studies are excellent for determining cause and effect (e.g., sales training leads to sales improvement), but they are time-consuming, costly and resource intensive. Second, apply an alternative method such as a scalable technology solution to provide accurate and reliable estimates of performance improvement that are timely and can be compared to benchmarks.
  3. Separating reporting and analytics is (usually) a bad idea - эта статья Andrew Marritt относится к менеджменту Больших данных в HR. Многие hr-аналитики вышли из психологов, владеют методами статистического анализа в SPSS, R, а те, кто занимаются базами данных в компании, BI системами, вышли из software developers. И эти две группы спецов имеют разную культуру анализа, разные взгляды на построение систем анализа. И не есть хорошо. Об этом противоречии пишет автор. Кстати,ровно по этой причине я овладеваю языком запросов баз данных - SQL, с тем, чтобы самому получать те данные, что нужны для построения систем предиктивной аналитики. 
  4. HR data analytics can lay the groundwork for workforce improvements - добротное интервью Emilio J. Castilla, профессора MIT. Будет полезен в первую очередь тем, кто стоит на пороге внедрения HR аналитик. Приведу только одну цитату из статьи: The first step is to determine the most important variables and factors you are seeking to maximize when selecting and hiring employees -- while anticipating which other important people variables may be affected as a result of such efforts. 
  5. AI Is Going to Change the 80/20 Rule - статья про то, как искусственный интеллект изменит правило Парето о том, что 20 % усилий приводит к 80 % результата. В искусственном интеллекте появляются новые соотношения.
  6. Rewriting The Rules For The Digital Age: 2017 Deloitte Human Capital Trends - ну куда же без Берзина. Берзин уже как зубр рынка собирает тысячи лайков и ре постов. Если вы любите попиздеть порассуждать о четвертой индустриальной революции - вам сюда. Берзин с компанией провел недавно глобально исследование, теперь знакомит с его результатами. Интересные мысли ищите в том месте, где Берзин начинает знакомить с трендами. Я в свое время уже наелся трендов Берзина, вот, например, Топ 10 прорывов в HR технологиях.

На этом на сегодня все, хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.
Приходите осваивать науку HR-аналитики на мой Семинар - практикум "Аналитика для HR"

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.

воскресенье, 5 марта 2017 г.

И снова 8марта. Пост про женщин - болтливых, выносливых и очень доверчивых

Отгремел один праздник, посвященный нашим мужчинам, как снова праздник. Теперь уже женский. Только ленивый не прошелся по теме различий между мужчинами и женщинами. Одни труды британских ученых чего стоят). Я тоже решила пройтись по различиям между полами.
Но у меня иная цель. Я не хочу искать или подтверждать эти различия, они и так известны. Я хочу свою фантазию потренировать. И вот в каком направлении. Сталкивались когда-нибудь в своей практике с такими случаями - прилетела задача, и сразу захотелось ее бросить, так как в голове картинка, что данных для решения этой задачи у тебя нет? Я сталкивалась... Вот я и решила брать известные утверждения, и пользуясь ограниченным набором данных, пытаться придумать как эти утверждения можно проверять. И тут же проверять, естественно.
Есть данные опроса, проводимого Эдуардом, им я и воспользовалась. Не буду в этот раз сравнивать зарплаты, результаты тестов, предпочитаемые профессии т. д. и т. п. Пройдусь по-житейскому. Поехали)

Женщины более болтливы. Ок - в опросе есть несколько текстовых полей. Предполагаю, что количество используемых слов у женщин будет больше, чем у мужчин. Воспользуюсь полем с описанием функционала. Количество слов подсчитать не сложно.  Справа картинка сколько слов использовали женщины и мужчины в описании своего функционала. Отличия статистически значимы. Распределения в выборках отличаются от нормального распределения. Для проверки "нормальности" использовала критерий Шапиро-Уилка. P-value и для женщин, и для мужчин где-то далеко меньше 10 e-25. Не нормально. Использую критерий Крускала Уоллиса. p-value 0.00043. Женщины действительно используют больше слов)

Женщины более выносливы. Сразу вспоминаю о наличии вопроса о переработках. Для себя сформулирую так - раз женщины более выносливы, значит будут чаще указывать в ответах варианты, связанные с этими самыми переработками. Ниже следует результат:
Проверка статистической значимости отличий сделала с помощью хи2. В варианте "каждый день" и "никогда" практически полное совпадение с ожидаемыми значениями как у женщин, так и у мужчин. Но есть и отличия. Женщины действительно чаще выбирают ответы "Несколько раз в неделю" и "Несколько раз в месяц" по сравнению с мужчинами (синие столбы гистограммы на рисунке). А в варианте №5 обратная ситуация. Если честно, то на этом месте я впала в легкое недоумение. Женщины гораздо реже выбирали этот вариант ответа. Моя гипотеза - у мужчин чаще встречается гибкий график работы? Или это влияние ИТ специалистов, которых могут призвать на работу в любое время из любой точки, вот только на удаленке, и с мягкого дивана?  Но даже не смотря на ответ под №5 получается, что женщины действительно склонны чаще задерживаются на работе.
Решила зайти немного дальше - может причина задержек не в женской выносливости, а просто нас, женщин, чаще вынуждают перерабатывать? В исследовании есть еще один вопрос, который возможно мне поможет - по чьей инициативе были эти задержки. И заодно я решила посмотреть как влияет пол руководителя на принятие этого решения. 
И вот тут для меня интересный результат. Тренд в поведении и женщин, и мужчин одинаков, когда пол руководителя и пол сотрудника совпадают, и аналогично в случае несовпадения полов. В случае ЖЖ или ММ (желтая заливка)  все полы склонны задерживаться на работе. Только у мужчин явно преобладает ответ №1 - "Я сам", а у женщин №2 - "так обстоятельства сложились". А в случае несовпадения полов все почти наоборот. Женщины, чьими начальниками были мужчины, реже указывали, что они сами принимали решение о сверхурочной работе (факт 337 против ожидаемого 476), тогда как у мужчин сильный отрыв был в варианте №2 - обстоятельства так сложились (факт 96 против 240 ожидаемых). Наверное, последние выводы к выносливости женщин отнести будет сложно, но и утверждать, что женщин чаще вынуждают задерживаться, тоже не получится. 

Женщины менее уверенны в себе. Вот тут у меня было много вариантов, как проверить это утверждение. Возможно, тот вариант, который я в итоге выбрала, у многих вызовет сомнение. Но все же озвучу. Уверенный в себе человек будет искать варианты с "белой" зарплатой, а менее уверенный согласится на любые поступившие предложения. Увы, но этот вывод тоже подтверждается полученными данными. Женщины действительно чаще выбирают соглашаются с "серой" зпл.
Но как ни странно, женщин реже обманывают при приеме на работу. (хи2=0.018). И опять же вопрос - а может просто сами женщины не считают это обманом?
Склонность к самопознанию. Это конечно я очень громко сказала, но тем не менее женщины более склонны проходить всевозможные тесты. Без вариантов - p-value для хи2=4,10 Е-24. Таблицу уже не привожу, их и так много.

Женщины склонны тратить больше. Опять же, для меня стало вызовом проверка данного утверждения. В исследовании нет вопросов, напрямую связанных с этой особенностью женщин. Я решила посмотреть на вопрос про наличие кредитов на момент трудоустройства. Логика моя простая. Больше трачу - надо больше денег. При более низких доходах (а доходы женщин меньше мужчин согласно предыдущим исследованиям) такой вариант возможен только с привлечением "внешних" средств. Если женщины меньше зарабатывают, а тратить любят больше, значит и кредитов у них должно быть больше.
И снова удивление) Данные опроса показывают, что женщины чаще выбирали вариант №4 "не было у меня кредитов" по сравнению с мужчинами. Правда тут же возникает другая идея - может просто женщины не считают кредит мужа/друга своим кредитом? Из серии - твоя зарплата это наша зарплата, а моя зарплата это моя зарплата, только в случае с кредитами наоборот). Не так давно Эдуард коснулся похожей идеи, но только в варианте как женщины и мужчины воспринимают гражданский брак. Вопрос про транжирство женщин остается для меня открытым. У меня действительно пока не достаточно данных, чтобы его подтвердить или опровергнуть, используя только данные опроса.
На этом останавливаюсь. Всем женщинам БОЛЬШОГО счастья, ХОРОШЕГО самочувствия, РАБОТАТЬ поменьше и быть счастливыми) С 8-м марта)

Можно ли по тексту определить, кто его писал: мужчина или женщина

Женщинам племени Мумбо-Юмбо в честь 8 марта посвящается
Восьмимартовский пост на самом деле. Возвращаюсь к нашему исследованию факторов эффективности и текучести (поучаствуйте уже ради праздника, а?).
Идея анализа проста: у нас есть переменная "Пол респондента" и переменная "Отзыв о компании". Всего выбора исследования составила 327 дам и 160 джентельменов, кто оставили свои отзывы о компании.
Лирическое отступление. Вспоминаются Ильф с Петровым и их вечное: Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью.
Восьмимартовская идея поста простая: можем ли мы по тексту отзыва о компании определить, писал ли его негр племени Мумбо-Юмбо мужчина или Эллочка дама. 
Итого мы получаем простую задачу классификации.
Это кстати, не первая моя попытка различать мужчин и женщин))) Ранее я делал такой анализ Можно ли различить мужчин и женщин по соотношению рост / вес

Результат

Показатели точности модели я даю ниже, а теперь сразу "мущинские" слова и "дамские".
С мужчинами чаще связаны слова (т.е. слова, которые в тексте отзывов употрябляют именно мужчины, а дамы почти не употребляют)
Можно ли по тексту определить, что его писал: мужчина или женщина
Чем больше шрифт, тем больше "мущинистость" слова
Можно ли по тексту определить, кто его писал: мужчина или женщина
И вот здесь мой самый главный УПС! У меня в голове работала такая схема: эмоциональные люди чаще употребляют в речи прилагательные, обозначающие отношение. Женщины - более эмоциональные. Но у "эмоциональных" женщин самое нагруженное слово - глагол "работать", а у "не эмоциональных" мужчин самое нагруженное слово "Хороший" (работодатель) и еще "Большой".
Вот так шаблоны на старости лет рушатся. 

Качество модели

Ну спецов то картинки мало трогают, им же надо сказать, насколько очно мы можем женщин от мужчин отделить. И это самое поразительное. 
Площадь под кривой у нас 0, 81!
Можно ли по тексту определить, кто его писал: мужчина или женщина
А Точность Полнота - 0, 72
Можно ли по тексту определить, кто его писал: мужчина или женщина
При том, что базовая точность модели - 0, 23! Добавлю, что я использовал SVM с кросс валидацией и сеткой параметров текста и модели. 

Ложка дегтя

Как мне кажется, такой высокий результат был получен не только за счет мущинистости и дамочности. Дело в том, что бОльшая часть мужчин в опросе - IT специалисты, а дамы - HR-ы, рекрутеры. Поэтому в основе деления лежит еще, наверняка, профессиональная ориентация, которая определяет наши тексты. 
Ну это же следующая задача - как мужчин и женщин вычленить из IT специалистов и рекрутеров! И очень красивая задача.

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.
хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.

среда, 1 марта 2017 г.

Первый подход (увольнения, стаж, з/плата)


Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучестиперсонала), которыми любезно поделился Эдуард Бабушкин.

Вступление. Философское

Накинутся на такой объём данных с наскоку не получится из-за их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было работать с данными. Корректно их импортировать, проверить переменные на соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать, выловить ошибки (например, дата увольнения 2035 год J), решить, что с ними делать. И это только маленькая часть предварительной работы.

Преодолев данный этап предобработки данных, уже чувствуешь себя победителем. Когда даты являются датами, а числа числами, а факторы факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику, аналитику, R, Python. Последовательность может быть любой. Главное начать!

Идея №1

Я решил начать с заработных плат и увольнений.

У нас есть данные о том, какую человек получал з/плату: «белую» или «серую». А также данные о том, сколько лет проработал в компании (т.е. берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда получим такой результат:






Интересно узнать есть ли взаимосвязь между зарплатой («белая»/«серая») и тем, как долго человек работает в компании.
Хи2 дает следующий результат.

Т.е. полученный результат значимый и есть существенные отклонения. Чтобы их увидеть, давайте построим mosaicplot по остаткам:


Как читать данный тип графиков?

  1. Размеры прямоугольников соответствуют количеству наблюдений.
  2. Цвет прямоугольников – величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.
  3. Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.

Мы видим, что у нас левый нижний квадрат («серая» зарплата и стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто согласился на «серую» заработную плату увольняются в первый же год с этой работы. Т.е. количество таких наблюдений у нас в разы больше, нежели ожидалось.

Идея №2

У нас есть данные о том, кто являлся инициатором увольнения: работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между этой переменной и полом.

Объединив эти данные в таблицу сопряженности получим:



Рассчитаем Хи2:

Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные (инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать результаты, давайте построим mosaicplot.


Что мы видим на это графике?


Работодатель гораздо чаще увольняет по своей инициативе именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо противоположная (левый нижний светло красный квадрат).


Идея №3


Еще у нас есть данные о размере заработной платы на момент увольнения работника. Если объединить эту информацию с инициатором увольнения и стажем работы в этой компании до увольнения в один красивый график, тогда получим:


Зеленые и красные боксплоты нам четко показывают, что работодатель увольняет более дорогих сотрудников, чем те, которые увольняются по собственной инициативе.
Можно еще сделать и такое предположение, что менее оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами увольняются.
Резюме
Пока это еще не супер глубокий анализ, а всего лишь первый подход к данным. Я бы сказал – знакомство с данными. Но уже понятно, в каком направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать». Следите за следующими подходами. :)


Понаехали тут: чем московские специалисты отличаются от немосковских

Давно зрела местечковая гипотеза: проверить, чем отличаются москвичи от немосквичей.
Точнее даже так: бОльшая часть тех специалистов, кто сейчас работает в Москве "понаехали тут", поэтому гипотеза состояла в том, отличаются ли чем-то специалисты, которые из регионов уехали в Москву от тех, что остались.
Вам, прежде чем читать дальше, сначала нужно пройти наш опрос Ключевые факторы эффективности и текучести персонала, иначе будет сглаз и падучка - сотни людей читают пост, а пройти опрос западло.

Результаты

Я взял только HR специалистов, чтобы максимально исключить возможное смещение (ну, например, вдруг в московскую выборку попадет больше айти спецов, чем в немосковскую, а айти парни умные, в результате москвичи превзойдут остальных по уму - это неправильно).
Итого у нас получилось две группы HR специалистов: Москва и не Москва и десять шкал психологических тестов:
  1. Общий балл теста способностей;     
  2. Вербальный IQ;                                                                                                       
  3. Эрудиция;                                                                                                        
  4. Числовой IQ;                                                                                                 
  5. Обработка информации;                                                                                             
  6. Интроверсия - экстраверсия;  
  7. Независимость - согласие;                                                                                        
  8. Импульсивность - самоконтроль;    
  9. Тревожность- стабильность;                                                                                       
  10. Консерватизм- новаторство.
Давайте посмотрим, что получилось
Понаехали тут: чем московские специалисты отличаются от немосковских
На картинке показаны 10 диаграмм боксплотов, где по оси Y - шкала психологического теста, по оси X - группы московских и не московских HR. Что такое boxplot - думаю, пояснять уже не надо.
Я проверил значимость различий по группам москвичей/не москвичей по всем шкалам теста с помощью критерия Крускал - Уолисса, значимых различий НЕТ!
У вас может вызвать сомнение вывод относительно шкалы "Обработка информации", так вот там Краскел Уолисс - KruskalResult(statistic=1.1981481365141897, pvalue=0.27369212051137048).
Таким образом, оснований говорить о том, что "понаехавшие" специалисты чем то отличаются от оставшихся дома, у нас нет.
Что не исключает двух вариантов:

  1. мы могли бы сделать кластерный анализ, посмотреть, в какие кластеры чаще попадают москвичи / не москвичи, и здесь найти различия;
  2. вполне возможно другие тесты покажут такие различия, я думаю, что вы со мной согласитесь: мы вполне может ожидать у москвичей более высокую мотивацию достижений. 

Но как минимум, мы установили, что московские HR ничуть не умнее регионов. Теперь, когда московский HR будет запрашивать отчет откуда-нибудь из Самары, можн будет смело ткнуть ему: ты, мол, там не умничай, знаем мы ваши результаты тестов. Аминь
На этом на сегодня все, хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.