Share |

среда, 24 августа 2016 г.

Статьи по hr-аналитике на английском 6

Шестой выпуск просто сказочный на материалы оказался. Боюсь загадывать, но самый лучший, наверное.
Предыдущий выпуск здесь Статьи по hr аналитике на английском - 5. Через эту ссылку вы ко всем предыдущим постам перейдете.
Сегодня представляю статьи

  1. 13 People Analytics Ideas to Get you Started - Трейси Смит показывает перечень задач по HR-аналитике, с чего можно начинать. Хотя я бы сказал, что это и начало, и середина. Если вы этот перечень осваиваете, то можно сказать, вы достигли много в аналитике. 
  2. Predictive analytics in HR: Tutorial and 7 case studies - можете прочесть только эту статью, но прочтите обязательно. Это очень крутая статья с т.з. объяснения механизмов аналитики "на пальцах". Если вы понимаете такие статьи, вам не надо ходить на мой Семинар BigData для HR-директоров. В статье очень ясно, полно показываются алгоритмы и принципы анализа и дается несколько кейсов конкретных компаний. И на сам ресурс обратите внимание: ребята сделали классный ресурс по hr-аналитике. Не хуже, чем мой блог)))
  3. After Big Data: Is Your HR Team Prepared for the Future of Technology? - короткая, но емкая статья, а что дальше? Мне она точно интересно, посколько я вижу горизонты, а здесь мне их раздвигают.
  4. What Drives Employee Turnover? Part 2 - там же часть первая. Очень крутая статья, потому что автор перечисляет драйверы - предикторы - факторы, кому как нравится, текучести. Это то, от чего собственно надо отталкиваться в своих собственных исследованиях. Просто берите и начинайте работать по этим факторам. Не уверен, что у вас получатся аналогичные результаты. У автора, например, семейный статус и наличие детей влияют на текучесть, а я показал несколько раз (см. Неженатые мужчины старше 35 лет как фактор риска для работодателя и Удерживает ли мужчину в компании наличие детей), что нет)
  5. Use Case for HR: Retaining your valuable employees - в этой статьей Watson Analytics себя рекламирует, но статья полезна тем, что там есть датасет в excel с реальными данными, которые вы можете самостоятельно проанализировать!

Удачи!
коллеги, если вам такие мои статьи нужны, напишите в комментах, чтобы я продолжал, ок? Я трачу время, не хочется тратить его в пустую

понедельник, 22 августа 2016 г.

Изучаем Spark. Молниеносный анализ данных

Изучаем Spark. Молниеносный анализ данныхЯ не буду вдаваться в том, что такое Spark, каково содержание книги.
Хочу рассказать про то, что, кажется, совсем недавно программа R была из разряда фантастики, нечто невероятным. И простой боксплот как кусочек мистики.
В Python я "въезжал" уже значительно быстрее. И в какой то момент я осознал, что это не вопрос моего выбора. Просто это путь, который надо пройти. И Spark это очередной поворот пути. Это, действительно, Большие Данные.
Параллельно изучаю курс по Spark на edx.org - от Databrics.
И если Вы развиваетесь в области аналитики - мимо Spark не пройдете, не пройдете мимо книги.
Я прорываюсь с трудом, мне это кажется сложным (это проходит), но повторюсь: это уже не вопрос моего выбора.
Удачи вам в изучении Spark.

  • Купить Изучаем Spark. Молниеносный анализ данных на Озоне
  • На сайте ДМК пресс - рекомендую обратить внимание на книги издательства, самое аналитичное издательство.

воскресенье, 21 августа 2016 г.

Бенчмарк зарплат HR по размеру компании

В продолжение темы исследования ключевых факторов текучести.
Бенчмарк зарплат HR по размеру компании (брал количество работающих). Под зарплатами я понимаю стартовые зарплаты - на какую зарплату кандидат приходит в компанию.
Простенькая аналитика, и пост будет коротким.
Выборка
По размеру компании выборка билась
до 25 работающих - 54 респондента (понятно, что это рекрутеры кадровых агентств и консалтеры);
  • 25-100 - 126 респондентов;
  • 100 - 1 000 - 441 HR;
  • 1 000 - 10 000 - 297 HR;
  • 10 000 - 50 000 - 87 HR;
  • более 50 000 - 42.

Результат

Бенчмарк зарплат HR по размеру компании

Дескриптивные статистики 

$`до 25`
   Min. 1st Qu.  Median    Mean    3rd Qu.    Max.
   5.00   13.75     22.50      31.82     40.00     150.00  

$`25-100`
   Min.   1st Qu.    Median    Mean    3rd Qu.    Max.  
   5.00     25.00     40.00       45.35      55.00     170.00  

$`100-1 000`
   Min.   1st Qu.  Median    Mean    3rd Qu.    Max.  
   5.00     25.00     40.00      52.32      60.00    450.00  

$`1 000 - 10 000`
   Min.   1st Qu.    Median    Mean    3rd Qu.    Max.
   5.00      25.00      45.00      62.01      75.00    450.00  

$`10 000-50 000`
   Min.     1st Qu.    Median    Mean   3rd Qu.    Max.  
  10.00       25.00      40.00      61.08    90.00     210.00  

$`более 50 000`
   Min. 1st Qu.    Median    Mean    3rd Qu.    Max.  
  10.00   36.25     72.50      105.30    147.50  350.00  

Крускал тест

оказался предсказуемо значимым
Kruskal-Wallis rank sum test

data:  q1$zp by q1$size
Kruskal-Wallis chi-squared = 32.949, df = 5, p-value = 3.851e-06

Результаты очевидно предсказуемы: в компаниях до 25 человек работают рекрутеры кадровых агентств, они и показывают крайне низкие результаты стартовых зарплат. Увеличение зарплат с увеличением компании объясняется тем, что бОльшего размера компании сосредоточены чаще в Москве (а в Москве зарплата больше), и в бОльших компаниях больше hr начальников.
Отсюда вопрос: как мы с вами можем вычленить влияние именно размера компании, а не тех факторов, что я перечислил?

ПыСы

Коллеги, опрос проводится на некоммерческой основе, у меня нет спонсоров, я трачу много своего времени, поэтому, если Вы захотите выразить мне благодарность за интересные результаты, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести)

или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо! 

суббота, 20 августа 2016 г.

Бенчмарк зарплат HR по отраслям

Показываю результат нашего исследования Ключевые факторы текучести и удержания персонала (коллеги, пожалуйста, поучаствуйте! результаты вкуснючие).
На этот раз бенчмарк зарплат HR по отраслям.
Обращаю ваше внимание, что я показываю бенчмарк стартовых зарплат - зарплат, на которые приходили HR в компании.

Выборка

Всего собрал данные по 567 HR. Распределение по отраслям такое:
  • Банки - 117 респондентов;
  • IT - 79;
  • Ритейл - 140;
  • Оптовая торговля - 84;
  • Промышленность - 147.
Мало кажется? так принимайте участие в бенчмарке зарплат HR по отраслям.
Были представители других отраслей, но количество респондентов маловато, чтобы включать в общий отчет. Дам вам наводку, сколько HR по другим отраслям, чтобы вы позвали коллег к участию)
  • Строительство - 51;
  • Телеком - 39;
  • Фармацевтика - 31;
  • Транспорт - 29;
  • Энергетика - 23;
  • HoReCa - 20
Так что все шансы есть поучаствовать).
Стартовые зарплаты брались по 2010- 2016 годам. Кому-то покажется разбег не корректным, но если мы посмотрим бенчмарк зарплат HR по годам, то обнаружим, что нет у нас большого разброса годам.

Итак

Картинка получилась вот такая
Бенчмарк зарплат HR по отраслям

Дескриптивные статистики 

$Banks
   Min.  1st Qu.   Median      Mean   3rd Qu.    Max.  
  10.00   30.00       50.00      75.62      82.50    450.00    
$IT
   Min.    1st Qu.    Median       Mean   3rd Qu.    Max.  
   5.00       30.00      45.00       54.07      67.50     200.00  
$Retail
   Min.    1st Qu.    Median    Mean    3rd Qu.    Max.  
  10.00      25.00      40.00      59.39      80.00     250.00  
$Opt
   Min.    1st Qu.   Median      Mean    3rd Qu.    Max.  
  10.00      25.00      40.00       51.92      61.25     310.00  
$Manuf  (Промышленность)
   Min. 1st Qu.     Median    Mean    3rd Qu.      Max.
   5.00   20.00      35.00        53.61       60.00      450.00  

Крускал тест

Kruskal-Wallis rank sum test

data:  q7$zp by q7$otr
Kruskal-Wallis chi-squared = 10.81, df = 4, p-value = 0.02878
Ну, конечно, не так чтобы, но Банки и Промышленность дают значимые различия.

Самое интересное в этом результате, что Бенчмарк текучести HR по отраслям показывает другие результаты. Банки и Промышленность на разных полюсах.

Вопрос на засыпку

Как бы вы объяснили эти результаты?

ПыСы

Коллеги, опрос проводится на некоммерческой основе, у меня нет спонсоров, я трачу много своего времени, поэтому, если Вы захотите выразить мне благодарность за интересные результаты, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести)

или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо! 

среда, 17 августа 2016 г.

Как в Python читать файлы формата excel

Иногда задача кажется бессмысленной, но все равно хочется ее решить: ведь совершенно просто файл формата .xlsx сохранить в формате .csv и не парить по поводу загрузки в Python для обработки.
Но раз уж попала вожжа под хвост, то покатимся. Это первая причина, а вторая причина - мои посты на 99 % носят содержательный характер, гуманитарный я бы сказал. Т.е. я показываю содержательное решение задачи, а где-нибудь в уголке показываю метод (с помощью xgboost). А сегодня под настроение хочется показать кусок кода.

Ну и так

давайте загрузим в Python такой файл
first
second
2
5
3
6
Загружаем сначала необходимые пакеты
import pandas as pd
import xlrd
За загрузку файла excel отвечает пакет xlrd, и загружается он напрямую, не через pip - мелочь, а приятно.
Загружаем
rb = xlrd.open_workbook('D:1.xlsx',formatting_info=False)
sheet = rb.sheet_by_index(0)
Далее вот такой хитрый код
row = []
for i in range(sheet.nrows):
    r = sheet.row_values(i)
    row.append(r)
print (row)
Данные у нас выходят в таком виде
[['first', 'second'], [2.0, 5.0], [3.0, 6.0]]

Нам это не нравится, мы переводим в табличный вид
df = pd.DataFrame(row)
df.columns = df.iloc[0]
df = df.reindex(df.index.drop(0))
Последние две строки для того, чтобы первая строка стала заголовками. Можно, видимо, сделать это элегантней.
Ну и как то так
first
second
1
2
5
2
3
6

Такой способ загрузки может быть востребован, если вы не хотите тратить время на переформатирование файла (чаще присылают excel, а не csv). И кроме того, при данном способе Python обрезает пустые строки сверху. Т.е. если вам прислали файл, в котором сверху отступ в виде пустых строк, то загрузятся только строки с данными

Пост показался полезным?

Кликните на директ рекламу - вы сэкономите время с помощью кода, а мое затраченное время будет не таким бессмысленным)))

Python и анализ данных

Python и анализ данныхБуду рассказывать про книги, которые я читаю и изучаю.
Начну с базовой "Python и анализ данных".
Книга для широкой аудитории, но я ее рекомендую в первую очередь тем, кто только собирается изучать Python.
Это по сути учебник с первых шагов: от установки и базовых шагов.
Python, наверное, стоит изучать в он - лайн режиме на курсах типа курсеры или edx.org, но книгу нужно иметь под рукой как справочник.
Достаточно сказать, что преподаватели курса "Введение в машинное обучение" от Высшей школы Экономики рекомендовали эту книгу как базовую.
А курс этот, если кто проходил - крышесносный)

"Python и анализ данных" выпущена издательством ДМК Пресс - обращаю ваше внимание на это издательство. Если вы развиваетесь в сфере аналитики, то книг данного издательства вам не миновать.
Когда я сидел на Rstudio, я пользовался теми же книгами ДМК Пресс. И если вы начинаете с R, то наверняка слышали про книгу R в действии. Анализ и визуализация данных на языке R или Наглядная статистика. Используем R!.
Там же вышел учебник по статистике от профессоров Стенфорда Хасти с командой, авторы очень популярного курса по статистике. Но я его на сайте издательства не нашел, подозреваю, что ушел влет.
Купить книгу "Python и анализ данных" можно на Озоне>> либо, как вариант, через сайт самого издательства.
Ну как-то так. Ждите продолжение серии.

понедельник, 15 августа 2016 г.

Статьи по hr аналитике на английском - 5

Очередная порция статей по hr-аналитике.
Выкладываю ссылку только на последнюю порцию статей Статьи по hr аналитике на английском - 4 - там вы найдете ссылки на все посты со статьями на английском.
Статьи на сегодня

  1. People Analytics Market Growth: Ten Things You Need to Know - статья Джоша Берзина. Джош повторяется, но вне зависимости, про что он пишет, его статьи надо хотя бы просматривать. 
  2. 20 People Analytics Case Studies - Part 1 - самая ценная статья в данном обзоре, пожалуй. Давид Грин показывает кейсы от западных компаний по hr -аналитике. Стоит ознакомиться как минимум с названиями компаний. И если в будущем вам будут говорить, что hr-аналитика не развита и все такое, можете привести в качестве примера эту статью. На сегодняшний день people analytics имеет уже целый набор кейсов, свою тусовку, методы и заходы. 
  3. 20 People Analytics Case Studies - Part 2 - тоже самое, часть 2.
  4. Reinventing School: 108 Ed Tech Startups Across Learning Management, Language Teaching, And More - может не совсем в тему hr-аналитики, но близко, поскольку а) про технологии и б) на указанных ресурсах также учат hr-аналитике. В статье собраны все ресурсы стар-апы по обучению.
  5. Why The Future Of Work Is All About The Employee Experience - статья тоже не совсем про аналитику, но часто цитируется западными аналитиками, в которой автор рассказывает про новую парадигму отношений работодатель - работник.
  6. The 5 most trending HR analytics articles of July 2016 - ну тут все понятно. Я бы рекомендовал осторожно относиться к подобным статьям, поскольку они чаще про около аналитику, а не аналитику.
  7. Exclusive: Google Names Eileen Naughton As New Head Of People Operations - может для кого то еще будет новостью: в Google сменился вице-президент по HR, Ласло Бок уходит. Посмотрите на нового, точнее новую
  8. Analysis of Trump on Twitter indicates he writes only the angry tweets - это не про HR-аналитику, но это про анализ текстом Трампа, и нас, HR, может заинтересовать сам анализ, те результаты, которые мы можем получать у себя на наших данных.
Статьи по hr аналитике на английском - 5

До встречи)

четверг, 11 августа 2016 г.

Как сочетание психотипов руководитель - подчиненный влияет на эффективность подчиненных

Я очень долго шел к этому посту: это и процесс дозревания как специалиста, и, что главнее, отсутствие данных. И если вы не звезобол от HR, а профи, который реально занимается данными, то вы меня поймете, как непросто было набрать такой внушительный датасет.

Заход на проблему

Проблема проста - прогноз эффективности кандидата. Вопрос в том, что во всех кейсах, что я встречал, прогнозируют эффективность на основе только показателей кандидата. Но при этом на уровне просто здравого смысла мы понимаем, что на эффективность должны влиять отношения в паре руководитель подчиненный. Я выделил курсивом, поскольку эта фраза не корректна для исследователя, но я решил обозначить некий здравый смысл.
То, что понятно на уровне здравого смысла, вытекает в технические проблемы:
  • что значит отношения руководитель - подчиненный?
  • и главное, как померить отношения?

Как я реализовал 

Я взял результаты личностных тестов подчиненного и руководителя. Поначалу я включил в уравнение прогноза данные тестов как отдельные переменные, результаты здесь Кейс по прогнозу эффективности работников.
Но опять: мы берем данные сингл - не в интеракции между собой.
Для интеракции я проделал следующую процедуру: провел кластеризацию (Kmeans) данных тестов руководителей и подчиненных, и получил несколько типов руководителей и подчиненных.
Интересно, что кластеры получились практически идентичные на выборке руководителей и на выборке подчиненных.

Про терминологию

Я вместо слова "кластер" буду использовать слово "психотип" только потому, что "психотип" более популярно, чем кластер. Но отнюдь не претендую на точность употребления термина.
Если вы мне подскажите, какой термин более соответствует "кластеру" в машинном обучении, буду вам благодарен
Показываю кусок визуализации психотипов
Как сочетание психотипов руководителя - подчиненный влияет на эффективность подчиненных


  • По оси X -шкалы теста, 
  • по оси Y - выраженность этого качества у того или иного психотипа.

Название теста, шкал не даю, поскольку это конфиденциальная информация, но немного удовлетворю ваше любопытство.
Второй психотип - это люди с высокой нормативностью, методичностью, умением выполнять рутинные операции, но низкими показателями по гибкости, креативности, уверенности в себе и мотивации достижения.
Почему второй психотип только описываю? Дальше

Есть ли любовь между психотипами

Параллельно проверил гипотезу: не притягивается ли подобное подобным? Руководители также выбирают себе подчиненных,  ия решил проверить через старый добрый Хи квадрат, не чаще ли руководители определенного психотипа выбирают себе подобных или другой психотип
Как сочетание психотипов руководителя - подчиненный влияет на эффективность подчиненных
На картинке показано сочетание психотипов руководитель - подчиненный ( не смотрите на нижнюю строку и крайнюю правую колонку - это итоги).
Частота распределения наводит на профессионалов на мысль, что связи между психотипами нет, а я еще скажу, что Хи квадрат равен - 0, 12, и мы констатируем, что руководители не имеют предпочтений в выборе себе определенного психотипа. Если не считать, что в целом предпочитают выбирать нулевой психотип, а это вполне себе объяснимо, поскольку специалисты данного психотипа имеют ярко выраженные навыки презентации и уверенности в себе.

Сочетание психотипов и эффективность

А далее я сделал хитрую штуку: я сметчил психотипы и получил новую переменную. Т.е. я использовал сочетание психотипов. И в итоге у нас в новой переменной было девять уровней (3 Х 3 сочетаний).
Регрессия (для спецов - xgboost) показало значимость сочетания второго и второго психотипов.
Результат: если подчиненный и руководитель это люди с высокой нормативностью, методичностью, умением выполнять рутинные операции, но низкими показателями по гибкости, креативности, уверенности в себе и мотивации достижения, то показатели подчиненного по эффективности в среднем значимо ниже, чем у других специалистов.
pvalue=0.0075
На этом наша радость может закончиться, поскольку я показываю данные
Как сочетание психотипов руководителя - подчиненный влияет на эффективность подчиненных
Здесь на боксплоте единицей обозначена группа сочетания психотипов "2" руководителей и подчиненных, а по оси Y - 5 выполнения KPI.
Заметили, что различие крайне незначительно?

Вот дескриптивные статистики

Показываю результаты эффективности выполнения KPI для сочетания психотипов "2" и остальных.
Для нулевой группы
   mean        1.134012
     std         0.178565
     min         0.530000
     25%         1.000000
     50%         1.090000
     75%         1.220000
     max         2.000000
Для сочетания психотипов 2 и 2
     mean        1.098419
     std         0.164190
     min         0.420000
     25%         1.000000
     50%         1.050000
     75%         1.170000
     max         1.760000
Правда, смешно? разница медиан 0, 04 выполнения KPI. 
Вопрос вам: вы бы подчиненного психотипа "2" отправили к руководителю психотипа "2", зная, что вместе они имеют риск выполнения KPI на четыре сотых меньше? 
На это кланяюсь, обещаю копать дальше

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

воскресенье, 7 августа 2016 г.

Еще раз про миф в оценке персонала

Пост - резюме обсуждения. Выложил недавно в сеть пост Главный миф в оценке персонала, в этом месте было бурное обсуждение поста.
Попробую кратко описать обсуждение и мои вопросы.
На Западе проводится мета-анализ методов оценки персонала, приведенные мной данные - устаревшие, на сегодня есть обновленные данные (или см. ниже картинку), где ассессмент центр опустился в точности, а тесты интеллекта выросли.
И вообще, показатели исследования - это не объясненная дисперсия, не коэффициент Пирсона, высчитывается по сложной формуле, поэтому мне не стоит сравнивать свои кейсы с данными цифрами.
Мои комменты и вопросы:

  • Пусть метаанализ предполагает более сложный коэффициент, но тогда было бы неплохо получить объяснение, что в практическом смысле этот коэффициент обозначает. Также, как мы понимаем R^2.
  • Ну хорошо, сам исследователь далеко, его не допросишься, но тех, кто активно продвигают и защищают такие исследования, можно попросить объяснить нам, какой практический смысл имеют цифры и коэффициенты исследования? И что на основе данного исследования может предпринять в своей конкретной компании вполне конкретный HR?
  • Пусть метаанализ предполагает более сложный коэффициент, чем, например, R^2, но сам коэффициент в границах от нуля до единицы, и HR воспринимает валидность как высокую и близкую к нулю, а реальные кейсы демонстрируют другие цифры, например здесь R^2 дает максимум 0, 25, что очень далеко до 0, 65 тестов интеллекта на картинке ниже, а в моем кейсе были не только тесты способностей, была куча других признаков. В итоге у HR могут возникнуть завышенные ожидания от инструментов оценки.
  • В уже указанном кейсе ассессмент центр вообще не присутствует, поскольку связь с эффективностью равна нулю. И мой опыт показывает: ассессмент центр во всех кейсах показал нулевую связь с эффективностью. Как бы не считался коэффициент мета анализа, но не натягивает на 0, 37. Ноль везде ноль.
  • Хорошо, мой опыт нельзя считать репрезентативным, а я сам ангажирован, зол на провайдеров ассессмент центра и все такое. Тогда давайте проведем консилиум. Найдите мне кейс реальной российской компании, где ассессмент центр показал бы связь с эффективностью. Только кейс должен содержать цифры и набор данных с описанием, а не просто рассказом, что вот мы сделали, а у нас продажи сразу раз и выросли на 56 %. Этот кейс можно обсудить на любой hr конференции, а я со своей стороны могу показать свои кейсы, покажу, как я провожу анализ. Хотя уверен, вы не согласитесь на это)))
Дополнительно отмечу только, что 11-е место в списке занимает "Средний балл успеваемости", но при этом уже несколько крупных компаний отказались от использования этого показателя при приеме: нет никакой связи между эффективностью и уровнем успеваемости.

Еще раз про миф в оценке персонала

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

воскресенье, 31 июля 2016 г.

Тематический анализ отзывов на Банки.ру. На что жалуются сотрудники

автор Люда Рогова

Этот пост посвящен анализу текста. Возможно, называть анализом мою попытку пока преждевременно, но начало положено. Тренируюсь я на отзывах кандидатов и работников банков - служебный рейтинг banki.ru.  Ранее Эдуард упоминал о такой возможности на примере анализа тональности отзывов о компании. Скажу сразу, мне эта тема очень интересна, так как я сама являюсь работником одного из банков, и отзывы о нем, да и о других банках, периодически читаю. Было интересно определить, что больше всего волнует людей,  какие темы наиболее часто звучат на указанном ресурсе.
Никогда ранее не приходилось обрабатывать текстовые данные, гораздо привычнее иметь дело с информацией, представленной в числовом виде. Но текст это тоже информация, и как показывает мой первый опыт, очень даже полезная и интересная.
Ради выгрузки и обработки отзывов, пригодных для дальнейшей работы, пришлось дополнительно познакомиться с несколькими библиотеками python, предназначенными  для этих целей (BeautifulSoup, nltk, pymorphy2). Уверенна, время потрачено не зря) На текущий момент у меня 4 610 отзывов о более чем 20-ти банков. Список банков в рейтинге больше почти в 10 раз, но я рассматривала только те банки, чьи работники оказались наиболее активными, и количество отзывов более 50.
Для кластеризации текстов по темам использовала KMeans. Попробовала разное количество кластеров, но оптимальное количество оказалось равным 5 - темы различимы, пересечение минимально при заданных условиях. Ниже попытка визуализации результата, там же список первых 10-ти наиболее важных ключевых слов, характеризующих каждый кластер:









По приведенным ключевым словам уже можно понять, какие темы затрагиваются в отзывах. Я же вижу полный список  слов, из которого понимаю что в кластере №0 речь идет о трудностях при увольнении, №1 содержит благодарности, в №2 истории приемов на работу (состоявшиеся и нет), кластер №3 о сложностях с руководством, выставленными планами, и последний №4 о вознаграждении. Я почему-то ожидала, что 4-й будет самый массовый, но данные говорят о популярности №1 и №3. Одинаково ли распределение для банков по отдельности? Может для одних более важна одна тема, для других иная? Как я написала ранее, я сама работник банка, и мне интересно не столько получить общую картинку, сколько сравнить своего текущего работодателя с другими.
Тут я это сравнение приводить не буду - окончательный результат я покажу в другом месте. Заодно, это будет хорошим примером использования текстовых данных в качестве нового источника полезной информации.
А здесь покажу несколько картинок по двум отдельным банкам. Названия их не указываю просто из вредности. Эта информация открытая, ее легко можно получить, перечитав несколько тысяч отзывов, имеющихся в свободном доступе.
Банк № 1

Банк № 2

Первые две картинки по сути об одном и том же - они позволяют получить некоторое представление о распределении отзывов по кластерам (темам). На мой взгляд первая интереснее, а вторая привычнее. Последняя картинка показывает как менялось количество отзывов по годам. Вариантов извлечения полезной информации масса, все ограничивается только полетом нашей фантазии и имеющимися на текущий момент знаниями.

суббота, 30 июля 2016 г.

Статьи по hr аналитике на английском - 4

Продолжаю выкладывать ссылки на интересные статьи по hr аналитике на английском. Подчеркиваю, что на интересные - с моей точки зрения. А вкус у меня, безусловно, изысканный. Причем, очень бы хотелось видеть аудиторию посто статей по hr аналитике на английском не студентов, а действующих HR
Первые три поста здесь
Статьи на сегодня
  • 15 tips to help HR get started with People Analytics - статья Давида Грина. Замечательна тем, что автор дает несколько блогов, на которые стоит подписаться, и несколько имен, кого стоит читать. Имена - это западные аналитики (хотя не только, я двоих индусов там увидел), а ссылки на их профили в Линкедине. Я подал заявки во френды всем указанным в посте. 
  • How we built Talent Analytics at LinkedIn - понятно по названию. Реальный опыт всегда интересно читать
  • The 27 best HR Analytics articles of H1 2016 - название говорит само за себя, хотя я большинство статей называю не статьями по hr анадитике, а околоаналитичными. Первое место по традиции занимает Джощ Берзин.
  • The 21 best HR Analytics articles of 2015 - из той же серии, тот же автор, на первом месте все тот же Джош Берзин. 
  • How text analytics is changing the employee survey - в моем сегодняшнем списке статей единственная статья с собственно аналитикой или, точнее, про то, какие результаты мы сейчас можем получать. Рекомендую автора статьи - Андрей Маррит - ко фаундер компании, создавшей инструмент Workometry - штука, которая анализирует обратную связь работников и не только работников. Workometry получил приз зрительских симпатий на конференции в Лондоне в этом году. А мы, видимо из профессиональной зависти, начали в этом направлении тоже работать, см. Анализ отзывов о компании

Кейс по прогнозу эффективности работников

Прелесть данного кейса в том, что я впервые в качестве предиктора данные не только самих работников, но данные руководителя
Всего были использованы такие данные в модели:
  1. Стаж работы в должности
  2. Данные подразделения, должности, региона и т.е..
  3. Пол, возраст сотрудника
  4. Пол руководителя, соотношение полов руководитель / подчиненный;
  5. Тест интеллекта сотрудника;
  6. Личностный тест сотрудника;
  7. Тест интеллекта руководителя;
  8. Личностный тест руководителя.

Результаты

Практически все указанные факторы внесли свой в точность модели (см. на самой нижний картинке значимость факторов - не расшифровываю названия, поскольку кейс реальный, соблюдаю конфиденциальнсоть). На первом месте по значимости  стаж работы. Т.е. рост эффективности в первую очередь определяется стажем.
Далее факторы идут в вперемешку (хотя менее значимы факторы пола, соотношения полов руководитель / подчиненный) , но в качестве главного вывода исследования можно сказать, что результаты руководителя влияют не меньше, чем результаты самого работника.
Звездоболам не рекомендую открывать рот и говорить, что это очевидно.

Вопрос

В этом месте я обращаюсь за помощью к профи: я в качестве предиктора использовал просто шкалы теста, но подозреваю, что важным является не просто наличие или отсутствие того или иного качества у руководителя или подчиненного, а взаимодействие этих качеств у руководителя и подчиненного (на примере пола я показываю, что мы смотрим не просто пол руководителя или пол подчиненного, а взаимодействие полов, т.е. их возможные сочетания: ММ, МЖ, ЖМ, ЖЖ). Т.е. говоря математически, мы должны проверить гипотезы об интеракции факторов. Но просто перебор шкалы со шкалой чересчур трудоемкая работа: даже ели бы у нас был Big5 у руководителя и подчиненного, то количество возможных сочетаний будет 25, а у нас не Big5, поэтому количество проверяемых гипотез больше в десятки раз.
Подскажите, как можно поступить в данном случае? Кластерный анализ?

Картинки

Ну и без того, у нас модель получилась выше плинтуса. Я тренировал модель на RMSE - отклонении прогнозного значения от фактического, но поскольку без масштаба будет непонятно, то даю R^2. Он в нашей модели получился 0, 23.
Маловато, не спорю.
В этом месте вы выходим на один важный вопрос, который я еще в дискурсиях не встречал ни разу: какова в принципе возможна прогнозируемая точность на основе входных данных? Поскольку на эффективность влияет куча других, динамичных факторов, таких как ситуация на рынке, отношения в коллективе, маркетинговая политика компании и другие политики, мотивация и обучения персонала и т.п.. 
На картинке точность так выглядит
Кейс по прогнозу эффективности работников


среда, 27 июля 2016 г.

Кейс по импутации данных при создании модели прогноза эффективности персонала

У меня в выборке было почти 2 000 человек, у которых были полные результаты по одному тесту (а), а другого теста (в) было на 200 результатов меньше.
В данном случае две стратегии:

  1. удалить часть выборки у кого нет результатов по тесту "в" и запускать алгоритм только по чистым данным. Тогда у нас останется примерно 1 800 строк в выборке
  2. Импутация данных - заменить пропущенные значения теста "в" какими -то значениями. Я использовал метод median - т.е. заменил эти 200 значения медианными значениями по всей выборке каждой шкалы (ну т.е. мы берем шкалу, вычисляем медиану, вставляем ее в незаполненные ячейки, далее переходим к новой шкале и т.д..)

Возникает вопрос, а имеем ли мы право так поступать: ставить какие то сглаженные значения? Как они повлияют на анализ? В нашем случае мы можем понять ответы на этот вопрос, если поймем, как эти стратегии влияют на качество модели. Т.е. если при методе импутации данных качество данных не пострадает, то мы можем его применять
Я реализовал обе стратегии: с импутацией данных и без.
В первом случае показатель при кросс валидации показал R^2 = 0, 16, во втором случае при импутации данных R^2 = 0, 146.
Драматического различия не обнаружено, можем пользоваться импутацией.
Почему это важно? Потому что помимо, собственно, результатов теста у нас есть полные переменные: пол, возраст, стаж, позиция, подразделение, регион и т.п. и терять 200 наблюдений никак не хочется
ну и вот такая картинка

  • По оси X - прогнозные значения;
  • По оси Y - реальные. 

Кейс по импутации данных


воскресенье, 24 июля 2016 г.

Анализ отзывов о компании

В опрос ключевые факторы текучести и удержания персонала добавил новый, открытый вопрос - отзыв о компании, он звучит так
"Напишите (по желанию) в нескольких предложениях отзыв о работодателе (конфиденциальность гарантируем): особенности работодателя, особенности корпоративной культуры, менеджмента и коллектива, причины, по которым вы уволились или работаете в компании и т.п. Спасибо!"
Буду вам благодарен, если вы пройдете опрос, ответив в т.ч. на этот новый, дополнительный вопрос - отзыв о компании
Что нам это даст? Приведу простой пример. Мы с Люда Рогова скачали данные с страницы отзывов кандидатов и работников банков - служебный рейтинг banki.ru и провели так называемый sentiment analysis ли анализ тональности отзывов о компании, т.к. какие слова / выражения чаще присутствуют в позитивных / негативных отзывах о компании.
В качестве визуализации такого анализа
Анализ отзывов о компании

На картинке показаны слова, которые чаще присутствуют в позитивных, а не негативных отзывах о компании. Высота слова обозначает вес - коэффициент вхождения, т.е. это слово сильнее связано с позитивным отзывом о компании. На этой картинке показаны единичные слова, но можно представить словосочетания, тогда слова "возможности" и "обучения" превратятся в словосочетание "возможности обучения". И такую же картинку можно сделать для негативных отзывов о компании.
Также мы можем выделить темы отывов - типы отзывов о компании или кластеры, можем понять, какие темы / типы отзывов о компании чаще присутствуют в негативных и позитивных отзывах, какие какие темы / типы отзывов о компании чаще присутствуют в отзывах различных профессиональных группах (по позициям), по уровню менеджмента (уровни руководства, позиций) и т.п..
Мы показали анализ отзывов о компании на внешних ресурсах, но эту технику можно применять внутри компании при анализе обратной связи

  • при оценке 360 градусов, 
  • при исследовании вовлеченности и удовлетворенности персонала в компании и т.п...

Понравилась идея анализа отзывов о компании? поучаствуйте в исследовании текучести персонала (даже если вы участвовали там ранее) и оставьте там свой отзыв о компании.
Захотели применить такой анализ в собственной компании? обращайтесь edvb@yandex.ru
Для профи: анализ провожу в Python, алгоритмы опорных векторов и наивного Байеса, с использованием стемминга, лемматизации 

пятница, 22 июля 2016 г.

Идея карьерного портала

Пытался продать рынку идею карьерных порталов (см, например, 10 потрясающих карьерных сайтов компаний, и чему мы можем научиться у них).
Вот результат
Идея карьерного портала
По данным нашего опроса (проголосуйте по ссылке, ок?) даже среди самой продвинутой аудиториии - IT специалистов, источник трафика "карьерный портал" дает всего 6 % (у других профессий еще меньше)
Идея карьерного портала

четверг, 14 июля 2016 г.

Статьи по hr аналитике на английском - 3

Продолжаю выкладывать ссылки на интересные статьи по hr аналитике на английском. Подчеркиваю, что на интересные - с моей точки зрения. А вкус у меня, безусловно, изысканный. Причем, очень бы хотелось видеть аудиторию посто статей по hr аналитике на английском не студентов, а действующих HR
Первые два поста здесь


Сегодня еще немного вкусного:

  • Do Competency Frameworks Work in Real-World Organisations? - чувак посчитал корреляции между оценками по компетенциям и эффективностью менеджеров, показывает результаты, а результаты не очень. Очень рекомендую посмотреть просто на цифры
  • Will IoT technology bring us the quantified employee? - три автора, среди которых Джош Берзин, рассуждают, как интернет вещей повлияет на процессы управления персоналом. Очень рекомендую статью. Берзин уже 20 раз доказал, что как он предсказывает, так оно потом и происходит. 
  • Forget Myers-Briggs, algorithms can better predict team chemistry - а тут название само за себя говорит. И мне кажется, рынок уже готов эту мысль принять. 
  • The 27 best HR Analytics articles of H1 2016 - Тут бОльшая часть статей про около аналитику (поэтому поставил в конец), но все равно, пусть будет, пройдитесь хотя бы по заголовкам, чтобы посмотреть, что волнует западных спецов. На первом месте опять Джош Берзин.

И еще у меня будет просьба: если вам интересны такие обзоры статей по hr аналитике на английском, напишите коммент к посту, нудно такие обзоры статей по hr аналитике на английском делать или нет. Спасибо


воскресенье, 10 июля 2016 г.

Как стаж работы сейлза влияет на продажи

Один из участников моего семинара Аналитика для HR поделился данными своей аналитики: связь между стажем продажников и продажами. По понятным причинам не раскрываю компанию.
Стаж дан в днях, продажи - премия (которая напрямую зависит от продаж), и распределение дано по годам.
Заметили, что связь не линейна? Также заметны группы "новичков" и "старичков".
Что вы еще могли бы сказать по данным диаграммам?
Какой следующий шаг анализа вы бы предложили?
Как стаж работы сейлза влияет на продажи


Как стаж работы сейлза влияет на продажи
Как стаж работы сейлза влияет на продажи

Как стаж работы сейлза влияет на продажи

суббота, 9 июля 2016 г.

Чем отличаются руководители представительств западных компаний от руководителей российских компаний

В конце прошлого года сделал бенчмарк текучести по российским компаниям и филиалам / представительствам западных компаний (см. Работают ли в филиалах западных компаний дольше, чем в российских). Результат: в российских компаниях работают значимо меньше.
Меня в данном факте интересует больше всего влияние менеджмента.
Моя гипотеза: в представительствах западных компаний менеджмент / руководители чаще дают обратную связь, подчеркивают заслуги подчиненного, что влияет на удержание работника.

Результаты

Не стал я делать модели, решил для первого среза обойтись Хи квадратом.
В нашем исследовании факторов текучести персонала (пройдите опрос, чтобы понять контекст вопросов) мы задавали вопросы респондентам:

  • Критиковал (критикует) ли Вас руководитель в присутствии других?
  • Благодарил ли Вас Ваш руководитель за достижения?
  • Как часто Ваш руководитель давал (дает) Вам обратную связь?
  • Проявлял (проявляет) ли Ваш руководитель заботу о Вашем развитии?
  • Выходили (выходите) ли Вы со своими инициативами на руководителя

Каждый из этих вопросов я скрещивал с вопросом о месте работы: российская компания и "Головной офис в Северной Америке, Европе".

Критиковал (критикует) ли Вас руководитель в присутствии других?

Значимых различий по российским и представительствам западных компаний не выявлено. Критикуют везде одинаково.

Благодарил ли Вас Ваш руководитель за достижения?

Pearson's Chi-squared test

data:  w
X-squared = 5.5811, df = 3, p-value = 0.1339
Различия не значимые, но p-value  близок к 0,05. Причем, в пользу западных компаний - в этих компаниях чаще благодарят подчиненных

Выходили (выходите) ли Вы со своими инициативами на руководителя

Pearson's Chi-squared test

data:  w
X-squared = 4.5441, df = 3, p-value = 0.2084
Подчиненные равномерно инициативны, и это не определяется компанией

Проявлял (проявляет) ли Ваш руководитель заботу о Вашем развитии?

Pearson's Chi-squared test

data:  w
X-squared = 14.335, df = 2, p-value = 0.0007712
                 Головной офис в Северной Америке, Европе Российская компания
Да,(сам предлагал курсы повышения квалификации, 
тренинги  и т.п..)                0.1974790                  0.1492537
Сам нет, но готов был поддержать меня в моем 
стремлении развиваться            0.4915966                  0.4121699

Нет                               0.3109244                  0.4385763                                                        

Как часто Ваш руководитель давал (дает) Вам обратную связь?              


Pearson's Chi-squared test

data:  w
X-squared = 14.25, df = 3, p-value = 0.002584
                   Головной офис в Северной Америке, Европе Российская компания
ежедневно                     0.1446809                          0.2283419
не реже одного раза в неделю  0.2765957                          0.2656340
реже одного раза в неделю     0.4255319                          0.3230063
никогда                       0.1531915                          0.1830178

Резюме

В компаниях с российским собственником подчиненные получают благодарности и критику в той же мере, что и в компаниях, где собственники / руководство находится в Западной Европе и/или Северной Америке.
В компаниях с российским собственником руководители реже дают обратную связь и реже проявляют заботу о развитии подчиненного.
И это может являться одной из причин более высокой текучести персонала в компаниях с российским капиталом. 
Слабость данных результатов в том, что различия в поведении менеджмента может определяться не уровнем культуры / менеджмента, а, например, различиями в представленности иностранных компаний в отраслях. Т.е. например, иностранные компании чаще представлены в банковской сфере, а не в производстве, и, может быть, в банковской сфере мы по определению встречаем руководителей, которые заботятся о развитии подчиненных. 
Но для такого анализа у нас пока мало данных. 

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

Удерживает ли мужчину в компании наличие детей

Пост посвящается двум знакомым женатым мужчинам с детьми.
Давно уже публиковал пост Неженатые мужчины старше 35 лет как фактор риска для работодателя - вызвал в свое время много обсуждений.
Но мне высказали идею, что дело в факте наличия жены, а в факте наличия детей. Из за детей мужчина старается работать лучше, готов много ради них вытерпеть и т.п...
Сегодня развеем этот миф.
Всего в нашем исследовании факторов текучести (пройдите по ссылке и поучаствуйте в опросе) приняло участие 801 мужчина на сегодня
398 указали, что у них были дети на момент трудоустройства;
403 указали, что не было.

Вот такая картинка

Удерживает ли мужчину в компании наличие детей

Как читать такой тип диаграммы - Анализ и визуализация дожития: чем HR похож на медиков.
  • По оси X - число месяцев стажа
  • По оси Y - % оставшихся в компании.
Обратите внимание, что линии дожития фактически сливаются. P-value - 0.87.
Такой же анализ я сделал для мужчин старше 35 лет: есть / нет дети. Результаты аналогичные.
Вывод: давайте расставаться с мифом про то, что дети удерживают мужчин на месте.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!


среда, 6 июля 2016 г.

Прогноз текучести персонала на основе тестов

Идеологический скорее пост.
О том, насколько точно мы можем прогнозировать текучесть на основе входных данных. Я построил прогноз текучести персонала на основе тестов (личностные опросники и тест способностей).
Картинка прогноза получилась вот такой
Прогноз текучести персонала на основе тестов

  • По оси X - предсказанный стаж работы;
  • ось Y - реальный стаж;
  • красный и зеленый цвет точек означает статус работника - работает он еще или уже уволился (т.е. если работает, то стаж "не закрыт").
Точность модели - R^2 = 0. 046 или 4. 6 % дисперсии.
И по самой картинке точность модели хорошо читается без R^2. Хотя без цифр вообще можно предположить, что модель не работает. Но я ее покрутил через случайный лес и бустинг, могу утверждать, что факторы значимы, но качество такое, какой есть)
Для того, чтобы оценить реальное качество модели, рекомендую посмотреть этот пост Ключевые факторы удержания и текучести персонала

  Исследования компании Evolv показывают, что характеристики работника объясняют лишь 8 % дисперсии, мы накопали чуть меньше - 4,6 %, при этом у меня нет даже пола, возраста работника и т.п..
  • Если говорить о содержательной стороне, то на текучесть влияет экстраверсия или, в более широком смысле - тип поведения, при котором работник открыт для общения, самоуверен, ориентирован больше на новые контакты и общение, чем на рутинную работу. 
  • Соответственно, методичность, готовность выполнять рутину влияет на удержание. 
  • Чувство ответственности и позитивное отношение к жизни удерживают людей в компании. 
  • И чуть чуть влияют способности на удержание - естественно, люди с более высокими способностями)
Но я говорю о конкретном кейсе. Переносить его на свою компанию не рекомендую.
Хотя в пользу экстраверсии говорит данное исследование - Универсальный драйвер текучести персонала - это исследование открытое, наше исследование Ключевые факторы удержания и текучести персонала
Отсюда вывод: надо искать факторы текучести не внутри работника, а в том, что происходит между работником и компанией. Это вещи динамичные, трудносхватываемые, но если мы хотим попадать с прогнозом, мы должны учиться это делать.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!