Share |

понедельник, 23 февраля 2015 г.

Отбираем "звезд" на этапе подбора с помощью тестов

Используем уже знакомый набор данных. Напомню, что у нас есть выборка из 87 сотрудников, из которых 12 признаны неэффективными, 29 - "звездами", остальные промежду этими группами. Все они при приеме на работу проходили тест CPI (Калифорнийский психологический опросник (California Psychological Inventory))
В прошлых постах я показывал, как можно отсеивать неэффективных (см. посты
, сегодня - как отбирать звезд.
Фишка в том, что у нас просто куча шкал коррелирует с звездностью / не звездностью работников. Это такие шкалы: Sy, Sp, Lp, Ie, Do, In, Em, Wb, Ac, Fx, F.m, Mp, Tm.
Корреляция есть, но важно показать не просто наличие связи, а конкретную инструкцию по тому, как отбирать звезд от не звезд. 

Инструкция

 Сначала применяем метод дерева решений. В нашем случае инструкция выглядит таким образом
Отбираем звезд на этапе подбора с помощью тестов (тренировка модели)
Шаг 1. Если показывает по шкале Sp менее 56 баллов, уже не "звезда". 
Шаг 2. Если показывает по шкале Sp более или равно 56 баллов, то смотрим шкалу Fx
Шаг 3. Если показывает по шкале Fx менее 50 баллов, значит "звезда"

Точность модели

Нам также необходимо оценить точность модели, т.е. сказать бизнесу вероятность ошибки нашего прогноза. 
Отбираем звезд на этапе подбора с помощью тестов (тренировка модели)

зеленые треугольнички - наши звезды, красные точки - все остальные.
По графику мы видим, что инструкция близка тому, что мы видим на картинке, во - вторых, попадание не 100 %.

воскресенье, 22 февраля 2015 г.

Аналитика для HR, Алматы, Казахстан

20-21 февраля проводил семинар Аналитика для HR в Алматы, Казахстан. Все страхи про то, что в Казахстане хуже с цифрами, чем в России, развеялись.
Группа выполнила стандартный набор упражнений.
Хотя замечу, что я в семинар Аналитика для HR в версии 2015 внес изменения: новые упражнения, новое начало семинара.
На семинаре в Алматы было два специалиста по цифрам: hr-аналитик банка и представитель маркетинговой компании. Они были в некотором смысле драйверами группы.
И спасибо огромное организаторам семинара - Ольге Хе и Регине Лариошиной из HR-Practice Kazakhstan. Было очень легко и просто работать.

Аналитика для HR, Алматы, Казахстан


воскресенье, 15 февраля 2015 г.

Инструмент отсева неэффективных работников на этапе подбора: дерево решения

Решил показать новый для нашего рынка инструмент принятия решения на основе данных кейса Кейс: отсев неэффективных работников на этапе подбора.
Напомню, мы протестировали кандидатов на входе, они в дальнейшем показали определенные результаты, что позволило разделить их на 1 - неэффективных (или тех, кого не стоило бы брать в компанию) и 2) всех остальных или тех, кого можно принимать.
В предыдущем посте я показал возможности логистической регрессии. Мы выявили две шкалы - Sp и Do, которые позволяют отличать неэффективных от всех остальных.
Главный недостаток логистической регрессии - интуитивно непонятные результаты, диаграмму ROC не предъявишь совету директоров. 
Требуется более наглядный инструмент. Таким инструментом является технология Trees - или дерево принятия решения.

Итак, 

Напоминаю, что мы выявили две шкалы, которые значимо различают неэффективных и остальных:
  • Sp
  • Do
(про то, как выявили, что такое значимость различий, читай 
Визуализируем взаимосвязь тестов и показателей эффективности. 

На этой диаграмме
  • шкала X - показатели кандидатов по шкале Sp теста CPI, 
  • шкала Y - данные шкалы Do теста CPI; 
  • зеленые пирамидки - неэффективные работники, 
  • красные точки - работники, качество работы, которое устраивает работодателя.
График сам подсказывает решение, верно? Прям так и просится провести границу по линии 50 Sp. 
Посмотрим, что нам скажет инструмент Trees
Инструмент отсева неэффективных работников на этапе подбора: дерево решения
Обращаю ваше внимание, что это не человек рисует данное дерево, а машинка (программа R или она же Rstudio). Для спецов в области статистики сообщаю, что я здесь не рассматриваю проблемы оверфитинга и т.п., моя задача - показать инструмент. Инструмент нам предлагает следующую инструкцию принятия решения по кандидату:
  1. если показатели кандидата по шкале Sp больше или равно 50, значит берем на работу
  2. если меньше 50, смотрим шкалу Do.
  3. если Do больше или равно 54, берем кандидата, если меньше, отклоняем кандидатуру.
Красиво?

суббота, 14 февраля 2015 г.

Все больше HR требуются навыки BigData и аналитики

К сожалению, это не про Россию, а про США.
Перевод поста "Big Data" Skills Needed in HR Jobs с с сайта wantedanalytics.com
Приятно, что авторы не ориентируются на мнения, а приводит конкретные цифры, потому и даю.

Рекрутеры

От рекрутеров часто требуется опыт в тех областях, где они будут подбирать кандидатов. В 4-м квартале 2014 году более 400 вакансий рекрутеров включали требование иметь опыт подбора специалистов с умениями BigData. Рост 54 % в сравнении с аналогичным кварталом 2013 года.
"demonstrated experience recruiting in related industries strongly preferred, such as Media, Software Technology, Data Analytics/Big Data."

Обучение и развитие

770 вакансий в данной сфере в 4-м квартале прошлого года. Это в первую очередь, специалисты по обучению навыкам bigdata и аналитики.
Рост - 46 %
пример требований
"Provide support and training services for projects that contain an analytical, statistical, or business intelligence component; conducting workshop sessions for training; coordinating efforts for on-site visits."

Compensation and Benefits

Более 1000 вакансий с требованиями навыков аналитики, Bigdata
"analyze benefits data for trends, cost drivers, and savings opportunities which align with the company's benefits philosophy and long-term strategy."

HR Generalists

Более 1 500 позиций с требованиями hr-аналитики  и Bigdata.
Рост 36 %/
И вот такие требования
"ability to collect and synthesize large quantities of quantitative and qualitative data, recognize trends, and develop recommendations based on data analysis."
"prior experience modifying existing Human Resources systems and software, including databases and tools designed for handling of Big Data, which enables analysis on a detailed level."

Общее

Общий рост вакансий с требованиями аналитики / BigData составил 41 % и нет признаков того, что пот ребность будет снижаться
Три мысли хочу выразить
Одна наглая реклама:

  • Вы еще до сих пор не прошли семинар Аналитика для HR? пишите edvb()yandex.ru
  • Обращаюсь к job сайтам, давайте такую же аналитику соберем? Вы данные, я анализ
  • И не пора ли нам клуб HR-аналитиков сделать?

четверг, 12 февраля 2015 г.

Логарифмирование переменной: зачем это нужно и как интерпретировать

В качестве дополнительной информации участникам семинара Аналитика для HR.
Чаще всего у нас распределение зависимой переменной не носит характер нормального распределения (см. кстати, на эту тему пост Управление эффективностью.Распределение зависимой переменной (кейс по hr-аналитике)).
Вот, например, распределение зависимой переменной "стаж"

Или распределение показателей продаж сейлзов
Согласитесь, что даже визуально нет нормального распределения.
Чем это нам грозит? Искажением результатов регрессии. Помните, я показывал кейс с Москвой и Питером. Эти два случая сильно искажали результаты регрессии, их исключение из уравнение меняло R^2, коэффициенты. Т.е. данные, далеко отстающие от среднего значения, могут искажать уравнение регрессии. Наша задача минимизировать влияние таких данных. Желательно не исключая их.

понедельник, 9 февраля 2015 г.

Влияние загруженности рабочего на текучесть персонала

Приятно, что данные прислали по результатам семинара Управление текучестью персонала на основе данных.
Есть данные о загруженности рабочих. Гипотеза простая - влияет ли загруженность (или величина нагрузки) на текучесть персонала.
Начнем с описательных статистик

Показатели нагрузки 

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's
  30.00   46.00   52.00   53.68   60.00  134.00       5

Влияние загруженности рабочего на текучесть персонала
Видно, что нагрузка носит ненормальный характер, поэтому мы можем прологорифмировать переменную, чтобы избежать искажений Преобразование переменной для получения нормального распределения. Также мы можем отсечь тех, у кого нагрузка более 100 - это явные выбросы.

воскресенье, 8 февраля 2015 г.

Опыт продажи себя с помощью видеорезюме и краудсорсинга

С большим удовольствием представляю соискателя должности менеджер по персоналу Александру Барсукову и ее опыт продвижения себя.
Некоторое время назад Александра опубликовала в нашей группе на Линкедин Поиск работы: вакансии, резюме пост Что вы думаете об использовании видео резюме?, где выложила ссылку на свое видеорезюме и попросила дать обратную связь. Несколько участников подключилось, и в итоге Александра создала финальный вариант видеорезюме
Соискателям рекомендую брать опыт Александры на вооружение, а работодателям оценить подход Александры

суббота, 7 февраля 2015 г.

Управление эффективностью.Распределение зависимой переменной. Примеры

Для понимания данного поста рекомендую прочитать пост Управление эффективностью. Распределение зависимой переменной (кейс по hr-аналитике).
Мы смотрим возможный характер распределения переменной эффективности работников. Спасибо за присланные гистограммы одному знакомому, он пожелал остаться неизвестным, поэтому я даю только сами гистограммы.
Напоминаю только, что Джош Берзин эффективность представляет в виде распределения степенной функции.
Итак,

Управление эффективностью.Распределение зависимой переменной (кейс по hr-аналитике)

Джош Берзин недавно выложил презентацию

Датификация в HR. Очень полезная презентация. Я из одного слайда презентации вебинара Джоша сделал кейс по hr-аналитике
Управление эффективностью.Распределение зависимой переменной (кейс по hr-аналитике)

На слайде с вебинара Джоша Берзина показано два распределения:

  1. нормальное, то как в представлении Берзина HR-ы представляют себе распределение показателей эффективности персонала 
  2. то, как на самом деле по Берзину показатель эффективности распределен в компании. Правый хвост на графике - таланты. По Берзину распределение носит закон степенной функции.

Управление эффективностью.Распределение зависимой переменной (кейс по hr-аналитике)По поводу нормального распределения хотел бы прокомментировать. Внедрял в свое время автоматизацию управления эффективностью на базе системы Webtutor в компании, где результирующая процесса управления эффективностью должна была соответствовать картинке слева.
Знакомо вам?
Это некое обобщенное представление о HiPo - эффективных работниках с высоким потенциалом. По одной оси у нас измеряется выполнение / достижение целей / KPI, а по другой - компетенции работников.
На пересечении получаем несколько квадрантов, которые соответствуют категории работника: ог "лузера" до "звезды".
Наверняка, вы встречали нечто подобное в своей практике.
И главное в этой картинке - распределение категорий близко или равно нормальному распределению.
Мой вопрос HR-директору, почему распределение именно такое, встретил взгляд а - ля: "Я думала, ты профессионал, а оно вон оно что....".
Поэтому на сегодня я не встречал ни одного исследования, подтверждающего нормальность распределения HiPo и/или эффективности.
Если у вас есть ссылки на обоснование этой схемы, прошу мне прислать (контакты ниже). Только пожалуйста, присылайте ссылки именно на исследования, а не на мнения экспертов по типу: а вот Х сказал, что эта схема ля ля ля...

Собственно задание

Вопросы на засыпку:
  1. Согласны ли вы с Берзиным в том, что распределение управляемой переменной не носит характер нормального распределения, а характер степенной функции. ("Power Law" - степенная функция). И если не не согласны, то какое распределение должен носить показатель эффективности персонала. Обоснуйте
  2. Самое главное. Чтобы не обсуждать голословно, сделайте домашнее задание (в обоснование своего мнения о распределении): выгрузите из CRM показатели эффективности и постройте график распределения. Или пришлите мне файл с показателями, в котором будет одна колонка - показатель эффективности (в строках будут работники, ФИО. должности указывать не надо, а в ячейках будут их показатели эффективности; период выбирайте любой). Напишите, как считается этот показатель (продажи это, % выполнения плана, сложно составной показатель KPI и т.п..).
  3. И совсем уж философский вопрос: зачем нам нужно знать распределение управляемой переменной. 
Для участников семинара Аналитика для HR задание обязательно к выполнению. Мой е майл edvb()yandex.ru

Задание

Если у вас нет своих данных, перейдите в пост Кейс "Связь оценки по компетенциям и результатов деятельности", скопируйте данные в excel или любую другую программу анализа данных и постройте распределение переменной KPI

четверг, 5 февраля 2015 г.

В завершение вебинара Управление текучестью персонала на основе данных

Выкладываю презентацию вебинара, приглашаю к исследованию факторов текучести и приглашаю на свои семинары Аналитика для HR




Семинары





ПыСы. Интересная статистика по кликам участников вебинара (я давал ссылки по ходу вебинара, получился своеобразный рейтинг кликов)

  1. Ключевые факторы удержания и текучести персонала - 69
  2. Как Google стал №3 в списке самых дорогих компаний Мира, используя People Analytics - 66
  3. Пример отчета: анализ текучести по подразделениям - 66
  4. Забудьте про резюме: Большие Данные определяют решение рекрутера - 54
  5. В Head-Hunting Big Data может быть не такой уж сложной задачей - 50
  6. Как читать диаграмму boxplot - 40
  7. Какие преимущества дает BigData в HR - 40
  8. Как признание заслуг подчиненного влияет на удержание талантов (результаты западных исследований) - 37
  9. Главный аргумент в пользу рекомендательного рекрутинга или как управлять текучестью персонала - 35


среда, 4 февраля 2015 г.

Мультиколлинеарность: чем она нам неприятна и как с этим бороться

Решил дать пояснения про мультиколлинеарность: что это такое на инструментальном уровне. Мультиколлинеарность - это корреляция независимых переменных.
Вредна мультиколлинеарность тем, что может влиять и искажать результаты регрессии.
На самом деле, мультиколлинеарность страшна, когда мы напишиваем пачку переменных у уравнение, не задумываясь, как они между собой взаимодействуют.
Самый простой способ - построить корреляционную матрицу независимых переменных, обратить внимание на пары переменных с высоким уровнем корреляции (на самом деле я бы не давал конкретных границ уровня корреляции, в одном из примеров мультиколлинеарность проявилась на уровне где-то 0, 35, а кто-то советует обращать внимание на 0, 6), а потом посмотреть, как ведет себя уравнение с одной из коррелирующих переменных, с другой, с обоими.
Чтобы было понятно, привожу пример
Мультиколлинеарность - файл с данными. В нем переменные:

  • WinterRain
  • AGST
  • HarvestRain
  • Age
  • FrancePop
  • Price

Price - зависимая переменная, остальные - независимые.Постройте в excel (или где вам удобно) уравнение регрессии со всеми переменными.

Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Y-пересечение
-0.4504
10.18888
-0.0442
0.965202
WinterRain
0.001043
0.000531
1.963313
0.064416
AGST
0.601224
0.10302
5.835976
1.27E-05
HarvestRain
-0.00396
0.000875
-4.52298
0.000233
Age
0.000585
0.079003
0.007402
0.994172
FrancePop
-5E-05
0.000167
-0.29715
0.769578

Теперь исключим FrancePop, получаем

Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Y-пересечение
-3.42998
1.765898
-1.94234
0.066311
WinterRain
0.001076
0.000507
2.120148
0.046694
AGST
0.607209
0.098702
6.151932
5.2E-06
HarvestRain
-0.00397
0.000854
-4.65161
0.000154
Age
0.023931
0.008097
2.955564
0.007819

Обратите внимание на значимость переменной Age в первом случае и во втором.
В этом, собственно, и заключается опасность мультиколлинеарности.
С т.з. просто смысла мультиколлинеарность это масло масленое - по сути дела это избыточная переменная, которая в лучшем случае не несет никакой полезной информации для модели (я чаще встречался с ситуацией, когда одна из переменных значима в уравнении регрессии, а вторая незначима при высоком уровне корреляции между ними. Когда, например, два шкалы теста сильно коррелируют между собой, уравнение показывает значимость только одной, вторая, соответственно, нам не нужна для прогноза. В этом кейсе Прогноз эффективности продавцов на основе теста CPI корреляция с зависимой переменной была у порядка 8 шкал, но в итоге оставил 2, которые давали реальный прогноз), в худшем - мы можем получить искаженные результаты.
Борьба с мультиколлинеарностью - как профилактика заболевания, смотрим корреляции между переменными и обращаем внимание, как они ведут себя в уравнении.

воскресенье, 1 февраля 2015 г.

Пример отчета: анализ текучести по подразделениям

Выступал с темой управления текучестью персонала на основе данных одной hr-конференции и предложил сделать анализ текучести по одному параметру первым трем приславшим данные.
По одному параметру означает выявление влияние какого-то фактора на текучесть. Например, в сегодняшнем кейсе показываю, есть ли разница в текучести между подразделениями.
Данные реальные, я убрал только настоящие названия подразделений, чтобы ненароком не разгласить конфиденциальную информацию.
Мне важно в данном кейсе показать принципиально другой подход к изучению, описанию, анализу текучести персонала. Особенности оформления отчета - дело тоже пока неважное, важно - сами показатели.
Хотите получить аналогичный отчет по вашей компании или научиться строить такие отчеты сами, пишите edvb()yandex.ru

Отчет

Количество сотрудников

Показываю количество работников по подразделениям с учетом уволились / работают
М, О, П, Ф - названия отделов
Уволившиеся
      М            О             П        Ф
     15            55           641     16
Работающие
     М             О              П       Ф
     31            70            734    19

Описательные статистики

Данная статистика дает показатели по стажу (стаж указан в месяцах):
  • Минимум (работник с минимальным стажем) 
  • 1-й квартиль 
  • Мединана 
  • Среднее 
  • 3-й квартиль 
  • Максимум 

Таблица описательных статистик

  • первая колонка - обозначение показателей
  • работающие / уволившиеся - какую категорию работников описывают показатели
  • М, О, П, Ф - названия отделов


М
О
П
Ф
мин
работающие
5
1
1
4
уволившиеся
2
1
1
1
1-й квартиль
работающие
24
12.25
13
26.5
уволившиеся
8
5
4
2.75
медиана
работающие
37
27.5
28
32
уволившиеся
20
8
11
7.5
среднее
работающие
41.9
33.57
34.9
38.21
уволившиеся
23.3
15.76
14.75
13.44
3-й квартиль
работающие
55.5
51.5
56
51.5
уволившиеся
33
21.5
19
17.25
максимум
работающие
88
91
91
88
уволившиеся
59
91
87
77

Визуализация решения

Диаграмма №1

По оси Х – стаж в месяцах, ось Y - % доработавших до этого момента стажа. Синяя линия – отдел М, красная – П, зеленая и черная слились
Пример интерпретации: на рубеже работы в 12 месяцев (1 год), в отделе М остается работать 85 % от первоначального числа принятых, в остальных отделах – 72-75 %.
И т.п.. 


Пример отчета: анализ текучести по подразделениям