.

Сделать репост в соц сети!

воскресенье, 25 сентября 2016 г.

Анонс вебинаров по HR-аналитике

Хочу представить два вебинара по HR-аналитике, которые пройдут этой осенью.


Ждем!

Возвышение Китая наперекор логике стратегии. Эдвард Люттвак. Отзыв


Купил и прочитал последнюю книгу Эдварда Люттвака Возвышение Китая наперекор логике стратегии. Сразу скажу, считаю, что эта книга ему удалась меньше, чем другие. Но читать Люттвака обязательно надо, и начните с книги Стратегия Византийской империи. Кроме того, у автора есть книги "Стратегия Римской империи", "Стратегия. Логика войны и мира", где он замахнулся на роль аналитиков а-ля Бэзил Лиддел Гарт. И я думаю, что у Люттвака есть все шансы встать в этот ряд.
И обязательно прочитайте про него самого Эдварда Люттвака - чувак, который сам сделал себе карьеру и судьбу, он из тех, кто создавал стратегию разрушения СССР. Ну и него много всяких фишек в жизни, которыми можно гордиться. Он ко всему прочему еще и экономист и т.п.
Возвышение Китая наперекор логике стратегии. Эдвард Люттвак. Отзыв
Теперь смягчу краски. Мне книга показалась не самой удачной по нескольким причинам:

  1. я уже знаю Люттвака, трудно ожидать что-то нового.
  2. Из публикация в интернете и интервью Люттвака я уже на 50 % знал содержание книги;
  3. Писать о прошлом проще, чем о настоящем;

Но нельзя не заметить, что оценки Люттвака о СССР очень точны. Он американец, но понимаем ситуации России изнутри: почитайте его текст в книге про расширение НАТО на восток.
И это вызывает доверие к книге.
Базовая метафора книги - сравнение с Германией образца до Первой Мировой войны. Немцам, чтобы победить, надо было сделать простую вещь - не воевать. Рост их экономики превосходил темпы Англии, Франции, России не только в процентах, но и по качеству отраслей.
Китай напоминает Германию начала 19 века. И китайцы, также как и немцы тогда, начинают выпендриваться.
Темпы роста экономики Китая превосходят американские и все прочие темпы роста. И это вызывает амбиции Китая стать фигурой глобального масштаба. В случае с Китаем все хуже, потому что вся история Китая подразумевает китаецентрическую модель - есть Китай, а все остальные либо вассалы, либо варвары.
Это начинают чувствовать окружающие Китай страны. Давайте посчитаем странцы вокруг Китая: Индия, Бирма, Лаос, Вьетнам, Индонезия, Филиппины, Южная Корея, Япония. Все эти страны сейчас так или иначе союзники США. Чтобы круг замкнулся, чего не хватает?
Правильно, России.
В этом месте предлагаю понять правильное место России в Мировом раскладе сил. Крым, Сирия - это окраинные, провинциальные войнушки. Основное противостояние сложилось по линии США - Китай. Если вы слышали про инциденты в Южно-китайском море, то прислушайтесь: там проблема не только в нефти, через это море идет торговли на 5 трл баксов в год. Контроль моря - лакомый кусок.
И России, так или иначе будет строить свою позицию по отношению к этому противостоянию, как бы кое-кто в России не ставил себя в центр Мира.
Я бы рекомендовал прислушаться к Люттваку даже самых больших нелюбителей пиндосов. Мудрый правитель может получить выгоды от обеих сторон. Отсюда можно понять внимание Японии к России: дело не в Южных Курилах. Япония может быть задавлена Китаем, Россия естественный союзник Японии, поэтому японцы будут готовы на сотрудничество без принципиальных уступок по островам. Антикитайскую коалицию интересует не только Россию саму по себе, а также влияние России на среднеазиатские страны, как часть цепи вокруг Китая.
И исходя из данной логики становится понятна цель Тихоокеанского сотрудничества, куда Китай не приглашен....
Все, дальше сами читайте. Книга на Озоне>>

суббота, 24 сентября 2016 г.

Тренировка по машинному обучению от Яндекса (что HR-ы могут взять для себя)

Был сегодня на мероприятии Яндекса - Тренировка по машинному обучению. Если вас жжет как хочется самим узнать, что было, можно пройти по ссылке и посмотреть запись. Заодно можно подписаться на рассылку Яндекса по подобным событиям.
Посещение таких ивентов бесплатно, даже кормят плюшками с чаем и кофе, но типа не всех пускают: надо показать свой профиль на Кагле и Гитхабе, но меня пустили, значит порог не такой серьезный.
Кстати, к вопросу о корысти Яндекса: у меня был тут спор о цели Яндекса в таких ивентах. Наверное, Яндекс не бескорыстен, организуя такие мероприятия, но это бесплатно для участников, дают плюшки, так что я совсем не против того, чтобы за такой подход Яндекс свою корысть поимел.
Ивент можно смот реть он лайн, но рекомендую хоть раз сходить оф лайн - подышать воздухом. Я был не единственным старым пердуном на мероприятии, хотя, конечно, соновная аудитория - молодые парни.
И Мир таки тесный: я познакомился с парнем из Красноярска: он прошел КЛШ, Нооген, теперь учится в Вышке. Как все тесно, правда? Красноярск, привет!
Сам ивент проходит как выступления участников соревнования Каггла. Для тех, кто не в курсе: kaggle - сайт, где компании выкладывают свои данные, на основе которых они хотели бы построить прогнозы. И любой желающий может поучаствовать в соревновании, кто лучше сделает прогноз. И лучшие получают деньги. Самый популярный набор данных - Титаник. Данные о пассажирах Титаника, задача - спрогнозировать, выживет пассажир или нет.
Помимо воздуха ивента ценность состоит в знаниях.
Хотя ценность xgboost уже давно не подвергается сомнению, но результаты в соревнованиях обеспечиваются больше на за счет настройки алгоритма, а за счет фишек преобразования данных (а на фото ребята из МГУ рассказывают как раз о настройке алгоритма работы с несбалансированными данными: в HR это интересно для случаев прогноза fruad - мошенничества, поскольку на 100 принятых ворует 1-2. Ритейл согласится?).
Тренировка по машинному обучению от Яндекса

Например, в задаче прогноза, какую страховую компанию выберет автовладелец, можно посчитать общее количество предложений конкретному автомобилисту. Это самый простой пример. Т.е. вы берете исходные данные, а с ними что то делаете, получая при этом новые переменные.
К тому я это все говорю, что нам - HR-ам, при нашей скудности данных, придется прибегать вот к таким манипуляциям с данными. И очень скоро тех из нас, кто придет на HR-ивент с кейсом "Прогноз эффективности на основе теста ...Х", будут закидывать помидорами.
Хочется вам попасть на такой HR-ивент? А хотели бы в таком зале провести такой HR-ивент?
И формат ивента очень простой: выходит HR-аналитик, рассказывает кейс:

  • Задача
  • Данные, выборка 
  • Алгоритм, точность модели
  • Обсуждение результатов, гипотезы (может быть самое интересное)
  • Последствия для бизнеса

Придете на такой ивент?
Тренировка по машинному обучению от Яндекса

четверг, 22 сентября 2016 г.

HR-тренды 2016 от Берзина


Думаю, что Джош Берзин известен всем, кто заходит в мой блог, поэтому не буду останавливаться на этой фигуре. Можете поисковиком порыть у меня в блоге же. Самый цитируемый чувак.
Даю ссылку (ниже) на отчет об исследовании и две картинки. От России было аж 42 компании, поднимите руки, кто?

HR-тренды 2016 от Берзина

HR-тренды 2016 от Берзина
На картинках все понятно, поэтому я не буду надувать щеки и делать глубокомысленные выводы, про то, куда движется HR.
Скачать отчет можно по ссылке>>
предлагаю качать быстрее, пока не удалили.
А я вам рекомендую участвовать в нашем исследовании, чтобы мы могли показать свои HR тренды.
Все таки скажу одну глубокомысленную фразу: зачем нужны такие отчеты? практической пользы они не несут, но важны для развития hr специалиста, как способ рефлексии, понимания своего места в бизнесе. Удачи вам в рефлексии. 

понедельник, 19 сентября 2016 г.

Linkedin vs facebook - разница в портрете аудиторий

В нашем опросе (вы поучаствоали? нет, конечно же, поэтому сначала пройдите, а потом читайте дальше) есть такой вопрос "В какой социальной сети вы проявляете максимальную активность". И выбор сетей был достаточно большой: и ВКонтакте, и Одноклассники и т.д..
Но я решил выделить именно Linkedin и Facebook. Эти сети мне казались до сегодня очень схожими с т.з. аудитории. И я не был уверен, что можно ухватить различия. Тем более, что у нас и признаков очевидных было не так много.
Но и тем не менее, я в модель включил следующие вопросы
  1. Возраст на момент заполнения
  2. Зарплата - последний известный уровень
  3. Ваш пол
  4. Какой основной браузер установлен на вашем личном ноутбуке / компьютере
  5. Масштаб населенного пункта
  6. Знание иностранного языка на момент трудоустройства
  7. Образование на момент трудоустройства   
  8. Выходили (выходите) ли Вы со своими инициативами на руководителя - я думал, а вдруг более инициативные в олной из сетей?
  9. Отличались ли договорённости по зарплате на собеседовании при приеме на работу и при первой выплате - а если это не про работодателя, а про работника?
  10. Подключен ли у Вас в квартире интернет
  11. Размер компании (число работников)
  12. Регион
  13. С какого уровня позиции вы ушли из компании
  14. Сведения о компании. Отрасль
  15. Сфера Вашей деятельности
  16. Являлась ли компания филиалом иностранной компании
  17. learning - эта переменная показывает, учился ли респондент во время работы или нет.
Выборка такая:
Фейсбук указали 499 респондентов как сеть, где они проявляют максимальную активность;
Линкедин - 337. Одно ограничение: я взял только Россию, поскольку по другим странам я не знаю, как национальную валюту переводить в рубли.
Не так уже мало, верно?

Результаты

Если вы не знакомы с анализом данных, пропускайте этот раздел и сразу вниз к содержательным вещам.

  • Базовая точность нашей модели = 499 / (499+337) = 60 %
  • Я получил accuracy - 65 %
  • А вот Average precision score: 0.737359 или 74 %
  • AUC Score: 0.635737

И для меня это неожиданно, я ожидал, что результат будет хуже
ROC кривая
Linkedin vs facebook - разница в портрете аудиторий

Precision-Recall curve
Linkedin vs facebook - разница в портрете аудиторий
А никто не обещал "рассчитайся на раз два".
Теперь про содержательные вещи

Важность факторов

Какие признаки позволяют отделить ликединщиков от фейбучников.
Linkedin vs facebook - разница в портрете аудиторий
Список сжался по сравнению с тем, что было выше.
  • Возраст;
  • Пол,
  • Профессия IT и бухгалтера;
  • Знание языка;
  • И формат компании: наша или западная.
И посмотрим, как признаки делят аудиторию

возраст

Linkedin vs facebook - разница в портрете аудиторий
Меня это удивляет, потому что я считал, в Линкедине более возрастной состав. О как.
И еще обратите внимание: различия недоступны людям с плохим зрением типа меня. А это самый важный фактор!!! Но и не забывайте, что это метрический признак, не категориальный.

Профессия IT

Linkedin vs facebook - разница в портрете аудиторий
Это таблица сопряженности: в колонках показан выбор сети, в строках - профессия, Айти - 1, остальные профессии - 0. В правой колонке и в нижней строке - сводные результаты.
И это самый удивительный для меня результат: айтишники чаще сидят в фейсбуке. Рекрутеры, я фигею, верно?

Пол

Linkedin vs facebook - разница в портрете аудиторий
И еще интересный результат: забавно, но женщины более фейсбучны, чем мужчины.

Знание языка

коллеги, простите, здесь я лоханулся  Здесь под единичкой не женщины идут, а те, кто знаю язык на уровне Пре-интермедиейт
простите, не поменял подписи(
Linkedin vs facebook - разница в портрете аудиторий
И небольшая радость для любителей Линкедина: вы чуть чуть лучше знаете иностранный, если верить вашим самоответам.
Вопросы?

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 

суббота, 17 сентября 2016 г.

Анализ прогностичной ценности теста в подборе руководителей

Кейс от одного моего бывшего клиента. Немного подзадолбала меня эта задачка, поскольку я уже питсоттыщраз показал, как это решается, а меня не слышат. А я, к сожалению, не умею говорить то, что он меня хотят услышать, а говорю то, что мне цифры показывают.

Задача

есть результаты тестирования руководителей. Задача - выявить возможности подбора руководителей на основе этого теста.
В качестве output или зависимой переменной берем выполнение КПЭ. Провайдер говорит, что тест рассчитан на другое, он рассчитан на карьерный рост и потенциал развития. Я попросил сказать, а что нам выбрать в качестве зависимой переменной, ответа так и не получил. В итоге остановились на КПЭ. Логика у меня, тем не менее, простая: если показатели по тесту позволят прогнозировать результаты КПЭ, то мы и карьерный рост будем прогнозировать, ибо логично предположить, что выполнение КПЭ имеет влияние на карьерный рост (это не единственный фактор, но он должен присутствовать).

Решение

Итого у нас есть данные по % выполнения КПЭ, шкалам теста по 570 руководителям.
Проверяем распределение по шкалам.
Оцениваем прогностичную ценность теста в подборе руководителей
На самом деле уже такое распределение должно насторожить исследователя: руководители явно отвечали с тенденцией давать высокие результаты по тесту. Вот сравните о шкалой другого теста по этим же руководителям
Оцениваем прогностичную ценность теста в подборе руководителей
Я не силен в теории тестов, насколько понимаю, у нас как минимум две гипотезы по поводу "нашего" теста:
  • Респонденты "считали" тест и отвечают социально желательно
  • У нас респонденты отличаются от генеральной совокупности отвечающих на тест, поэтому у них тенденция к завышению.
По второй гипотезе сомнения потому, что второй тест дает нам почти идеальное нормальное распределение. В любом случае провайдеру стоило бы пересчитать нормы баллов под руководителей.
Но нам по большому счету по барабану, поскольку у нас простая задача: понять, можем ли мы по результатам теста прогнозировать эффективность руководителя и насколько хорошо можем это делать.
С прогнозами у нас все грустно: я использовал два алгоритма:
  • xgboost 
  • Ридж регрессию (кстати говоря, асимметрия и эксцесс шкал укладываются в 2 по модулю (Наследова А.Д.), поэтому можем использовать шкалы в линейных моделях.
Две картинки
ocenivaem-prognostichnuyu-cennost-testa-v-podbore-rukovoditelej
Красная линия - fit - показывает, что связь практически нулевая. Линия параллельна горизонтальной линии, т.е. с возрастанием показателя теста показатели КПЭ у нас не растут.
Ну бох с ним, у нас целых несколько шкал.
Оцениваем прогностичную ценность теста в подборе руководителей
На второй картинке общий результат:
  • по оси X - прогнозные значения КПЭ на основе всех шкал теста;
  • по оси Y - реальные значения выполнения КПЭ.
R^2 - 0, 003.
Все.
Какое управленческое решение должно последовать в этой ситуации? Очень простое: надо отказаться от использования данного теста, а провайдеру посоветовать поработать над тестом.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 

пятница, 16 сентября 2016 г.

Анализ причин текучести персонала: открытые вопросы exit интервью



Продолжаю тему анализа текстов. Сегодня покажу набросок на тему анализа открытых вопросов exit интервью.
Выражаю благодарность Людмиле Роговой и Ивану Безуглову за помощь в работе над постом. К сожалению, становится все сложнее делать посты одному: сложность возрастает.
Проблема у нас в прежнем: мы можем собирать кучу информации при увольнении, в т.ч. задавать открытые вопросы в exit интервью, но
  • кто эти все анкеты будет читать? 
  • как из этого извлечь пользу? Как понять, что конкретная анкета говорит о тенденции, а не о личной проблеме конкретного работника? 
Для это применяется математика. Единственное требование - все эти ответы должны быть в электронном виде, а не на бумаге или в ушах кадровика.
У меня на сегодня нет данных exit интервью конкретной компании, не снабдил меня никто этим. Поэтому я пользуюсь результатами своего исследования факторов текучести персонала (ссылка дана с тем, чтобы вы поучаствовали в опросе). Последний вопрос исследования - открытый, дословно звучит так
Напишите (по желанию) в нескольких предложениях отзыв о работодателе (конфиденциальность гарантируем): особенности работодателя, особенности корпоративной культуры, менеджмента и коллектива, причины, по которым вы уволились или работаете в компании и т.п.
Я этот вопрос, уж простите, решил принять как открытый вопрос exit интервью.

Цель

А цель очень проста: выяснить, какого типа отзывы о компании связаны с высоким риском ухода из компании. Если совсем тупо, то какая причина увольнения заставляет работников покидать компанию быстрей.

Результат

Ну давайте посмотрим, что получилось. Чтобы получить ответ на заданный вопрос, нам нужно сгруппировать все ответы вокруг нескольких тем. Эту задачу выполняют несколько методов, в идеале стоило бы попробовать Латентное размещение Дирихле, см. пост Обратная связь сотрудников как инструмент диагностики корпоративной культуры. Я использовал Kmeans. Отличие в том, что Kmeans относит каждый отзыв о компании или каждую анкету exit интервью к одной теме / топику, а Латентное размещение Дирихле может каждую анкету exit интервью отнести к нескольким темам. Это, наверное, будет более корректным, поскольку респондент может писать о нескольких причинах увольнения, о нескольких особенностях компании. Но я сегодня делаю первый заход, мне хотелось просто потрогать инструмент, попытаться выделить ключевые темы.
Итак, я взял инструмент кластеризации Kmeans и выделил четыре кластера (я оставлю за скобками, почему именно четыре, но просто скажу, что игрался достаточно долго с разными параметрами, эта лучшая комбинация).
Анализ причин текучести персонала: открытые вопросы exit интервью

Невооруженным глазом заметно, что машинка разделяет не очень хорошо, не считая черный кластер - но там всего три точки, которые не оказывают влияния на общую картинку текучести. Но открою страшную тайну, у нас в этом исследовании всего 103 респондента, которые оставили отзыв о компании, я нетерпеливый, не смог дождаться, стал делать, со временем мы сможем получить более устойчивые кластеры.
Но и тем не менее, нас интересует не сами по себе кластеры. Нас интересует текучесть персонала, и как эти кластеры связаны с текучестью.
Используем полюбившийся вам анализ дожития. Я убираю из анализа "черный" кластер, как малочисленный, и смотрю на уровень текучести по каждому кластеру: в каком кластере работники убегают быстрее из компании.
Анализ причин текучести персонала: открытые вопросы exit интервью
Как читать такой тип диаграммы - Анализ и визуализация дожития: чем HR похож на медиков.
  • По оси Y - вероятность, что работник доработает до этого момента стажа в компании.
  • По оси X - число месяцев стажа
И вот у нас "синий" (или четвертый) кластер выбивается в лидеры текучести персонала. Смотрим регрессию Кокса
Call:
coxph(formula = Surv(months, as.numeric(event)) ~ cl, data = q1)

  n= 100, number of events= 63

      coef exp(coef) se(coef)     z Pr(>|z|)
cl3 0.1766    1.1932   0.4566 0.387   0.6988
cl4 0.5573    1.7459   0.2675 2.083   0.0373 *
И приз наш: мы зафиксировали значимые различия между вторым и четвертым кластером! Правда, значимость всего 0, 037, но не забывайте, что наша выборка будет увеличиваться.

Самое вкусное

Я в конце скажу о главном: что кластеры обозначают. У нас четвертый кластер оказался значимо "текучей", чем второй, давайте посмотрим на них.
  • Четвертый кластер включает наиболее "тяжелые" слова: "директор" "директора" "компания" "причина" "руководитель" "руководство" "стороны"    "увольнения"   
  • Второй кластер: "внимания" "возможность" "з/п" "заработная" "корпоративная" "культура" "профессионального" "развиваться" "руководитель"  
Вы заметили, что кластеры очень неточно делят топики? И это главная проблема на сегодня. Тем не менее, четвертый кластер у нас имеет достаточно четко очерченный смысл. И этот смысл повышает риски увольнения в компании. Сейчас найдется куча офигенно продвинутых "аналитиков", которые скажут: ну это же очевидно, что фактор отношений с руководителем играет первостепенную роль. А мне вот лично это не очевидно, поэтому я кручу проблему с разных сторон.
Ждите постов дальше на эту тему. и принимаем участие в исследовании факторов текучести

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

вторник, 13 сентября 2016 г.

Какой функционал HR самый дорогой или кто в HR получает больше






Очередной пост из серии анализа текстов и анализа тональности теста.
Логика такова: у нас в опросе ключевые факторы текучести персонала (который давно уже не только про текучесть. И ссылка дана для того, чтобы вы наконец поучаствовали в нем, неужели эти данные вас не убедят в том, какие вкусные результаты получаются?) есть вопрос о позиции респондента. И позиция HR обозначена как "HR".

Проблема

Проблема в том, что мы не охватываем весь функционал HR в исследовании. Под HR могут понимать рекрутинг, обучение, comp&ben и т.п.. Можно было бы вместо HR указать эти опции, но тогда вопрос будет раздут непомерно. Учтите, что в исследовании участвуют далеко не только HR, и область IT я уже точно не смогу поделить на более мелкие кластеры. Но ведь даже поделив мы найдем кучу специалистов, которые не согласятся с нашим делением, согласны? И нет гарантий, что наша классификация будет более корректной. Да еще и жизнь не стоит на месте, у нас появляются новые направления работы, которые смещают акценты.
Друго аргумент состоит в том, что в HR ведь специалист не обязан заниматься только одним функционалом, он может одновременно вести подбор и адаптацию. КДП и подбор. Обучение и адаптацию. И т.п.. Это еще усложняет подход к выбору классификаторов.

Выход

Но все равно хочется знать, кто же получает больше. И хочется знать, какой функционал чаще спаривается между собой. И так далее и тому подобное. Что делать?
Делать очень просто: попросить респондентов описать свой функционал своими словами. Тогда у нас получится самый дробный классификатор (у нас по сути почти на каждого спеца будет свой уникальный набор функций).
И единственная проблема, которую нам предстоит решить, как этот текст разложить по полочкам или оцифровать или привести из формата переменной "string" (или текст) в формат цифр.
Аналитика на сегодня способна решать такие задачи. Показываю вам результат регрессионного анализа: в качестве зависимой переменной я взял данные зарплаты, которую указал респондент (речь пока только про HR), в качестве независимой переменной - описание функционала (то, чем HR занимается).
Какой функционал HR самый дорогой или кто в HR получает больше

Картинку можно кликом увеличить. Сразу извините за "нерусские" выражения а ля "заработный плата". Машинка приводит слова к единой форме, и это правильно, иначе мы получим кучу падежных форм, что увеличит раздрай.
Высота слова / выражения (обратите внимание, что на картинке есть как отдельные слова, так и выражения. Например, есть просто "обучение" и "адаптация", а есть  "адаптация обучение") обозначает вес этого слова / выражения. В этом смысле "заработный плата" выше, чем "обучение развитие" (чуть ниже, чем "заработный плата").
В приложении к посту я даю таблицу с коэффициентами функций. Величина коэффициента равна высоте слова на картинке или весу слова с т.з. заработной платы HR.
Проблема этого метода в первую очередь заключается в том, что в исследовании приняло участие так мало людей, что с такими результатами меня засмеют, например, на ХХ. Но, кстати, говоря, когда я обратился в свое время на этот ХХ за поддержкой, меня послали очень далеко. В оправдание ХХ замечу, что суперджоб меня тоже послал. Правда, не так далеко.
Но вы можете меня не послать, а поддержать, приняв участие в опросе КЛЮЧЕВЫЕ ФАКТОРЫ ТЕКУЧЕСТИ И ЭФФЕКТИВНОСТИ ПЕРСОНАЛА.
А еще вы этой ссылкой можете поделиться с коллегами. Картинка изменится еще много раз, после того, когда в исследовании примут участие еще тысяча, а лучше три тысячи HR.
А я со временем сделаю простой сервис: вы будете вбивать данные в вебформу, а вам машинка будет выдавать ожидаемый уровень зарплаты, вы просто сравните, подходит предлагаемый вам уровень зарплаты работодателем и ожидаемый по рынку или нет и примите решение.
Коллеги, ведь у нас не только HR принимают участие в опросе. Я очень скоро смогу IT специалистам такое же сделать. И это будет альтернативой скучным и бессмысленным бенчмаркам. Согласны? разошлите ссылку своим коллегам и друзьям.
И вопрос вам: нужна такая работа рынку?

Приложение. Веса функций HR с т.з. заработной платы

Таблица расположена по возрастанию. Чем меньше коэффициент, тем меньше вес. "Подбор" самая малоценная функция (в понятиях заработной платы), "бюджетирование" самый высокий.

суббота, 10 сентября 2016 г.

Обратная связь сотрудников как инструмент диагностики корпоративной культуры



Как вы уже поняли, начал заниматься анализом текстов в компаниях, хочу поделиться некоторыми наблюдениями по результатам анализа текстов обратной связи.
В качестве примеров взял два набора данных

О логике анализа

Есть несколько разных видов / типов анализа текста, один из них, который я хочу затронуть - выделение тем / кластерный анализ / тематическое моделирование. Если говорить грубо, то задача такого вида анализа - выделить из массы текстов несколько смысловых тем. Например, если мы говорим про анкеты обратной связи по обучению, то такими смысловыми темами могут быть:
  1. качество раздаточного материала;
  2. оценка самого тренера;
  3. в идеале оценку тренера с позиций: 1) умение вести группу, 2) владение материалом;
  4. актуальность темы;
  5. применимость полученных знаний / навыков
  6. и т.д...
Отсюда простая техника диагностики семинаров / тренингов: мы понимаем, в каком семинаре чаще поднимают какую тему в анкетах обратной связи, и работаем с этим.
В оценке 360 градусов такими темами могут быть:
  1. Отношения с клиентами;
  2. Отношения в коллективе;
  3. профессиональные качества оцениваемого;
  4. И т.п..
Логика применения аналогична: выделяя такие смысловые темы в текстах обратной связи, мы могли бы понять, каковы болевые точки оцениваемого.

Проблема

Проблема то проста: сложно выделить устойчивых тем / смыслов / кластеров в анализируемых текстах. В анализе обратной связи по обучению я применил кластерный анализ (Kmeans), где кластеры свертывались постоянно в один
Обратная связь сотрудников как инструмент диагностики корпоративной культуры

Что это значит с т.з. содержательной интерпретации? Участники семинара говорили фактически про одно. Одну тему, которые не расчленить на отдельные подтемы.
Сегодня я решил специально решить эту проблему и применил метод тематического моделирования (Латентное размещение Дирихле). Не пугайтесь умным словам. Суть проста: если в кластерном анализе каждый отзыв сотрудника можно отнести к какой-то одной теме, то в тематическом моделировании один отзыв может быть отнесен сразу к нескольким темам. И это логично: работник может в одном тексте написать как про качество раздаточного материала, так и про тренера. 

Результат

Выделил по три темы (в тематическом моделировании мы можем выделить произвольное количество). Результат для анкет обратной связи оценки 360  градусов:
  1. 0.024*задача + 0.022*решение + 0.013*сотрудник + 0.011*клиент + 0.010*поставить + 0.009*ситуация + 0.008*знание + 0.007*работать + 0.006*вопрос + 0.006*высокий;
  2. 0.027*клиент + 0.019*сотрудник + 0.015*результат + 0.015*коллега + 0.012*задача + 0.011*большой + 0.010*ответственность + 0.009*уметь + 0.009*банка + 0.007*общение
  3. 0.020*клиент + 0.013*задача + 0.013*коллега + 0.010*поставить + 0.010*сотрудник + 0.010*ответственный + 0.007*вопрос + 0.007*уметь + 0.007*выполнение + 0.007*решение.
Для анкет обратной связи по обучению:

пятница, 9 сентября 2016 г.

Заметки с Московской международной книжной выставки ярмарки

Блог про hr-аналитику, но чтение книг, саморазвитие, само отношение к книге считаю необходимым условием продвижения вперед, поэтому публикую пост про Московскую международную книжную выставку ярмарку с удовольствием.
У меня много постов про книги и книжную тему:


Это небольшая часть постов про книги. Буккроссинг я предложил выставке Трейнингс Экспо, и, насколько слышал, этот проект существует. Но этот пост про Московскую международную книжную выставку ярмарку.

Первая приятная новость

Начну с приятной новости (для меня и для кого-то, не знаю, пока еще кого)
Заметки с Московской международной книжной выставки ярмарки

Я продолжаю сотрудничать с издательством Манн, Иванов и Фербер, выпросил два экземпляра книги Голая статистика. Самая интересная книга о самой скучной науке.
Это, действительно, замечательная книга, один вариант я оставлю себе, другой вариант я подарю на конференции по hr-аналитике в декабре тому, кто мне понравится своими ответами на мои вопросы. Рекомендую Вам к прочтению. Эта книга может конкурировать с нашумевшей книгой Большие Данные Майер-Шенбергера. Тоже издательства МИФ.

Вторя приятная новость

Я купил последнюю книгу Эдварда Люттвака. По имени вы попадете на все посты с тегом Эдвард Люттвак, но обязательно прочтите пост Талант: опыт реализации проекта. Западный интеллектуал, который сам сделал себе карьеру.
Последняя книга - Возвышение Китая наперекор логике стратегии. Прикольно, что ее до сих пор ни на Озоне, ни в Лабиринте. Для меня книги Люттвака ценны логикой, стратегичностью, здравым смыслом и ясным анализом. Если Вам он показался интересен, почитайте его Стратегия Византийской империи. Эту книгу издательство Университет Дмитрия Пожарского (изд-во также рекомендую, классные книги выпускают, много редких и интересных книг по истории) переиздало, значит спрос есть.

Не самые приятные новости

Московская международная книжная выставка ярмарка откровенно загибается. Это видно по занимаемым площадям, по количеству посетителей, по характеру издательств. Не буду ругаться сразу на читателей: не уверен, что дело в снижении интереса к книге. Тут может быть много причин: есть серьезный конкурент в виде выставки Нон фикш, которая проходит в декабре, многие издательства поняли, что выставка не так уж много дает с т.з. продвижения, поскольку их слой читателей узок, кроме того, сама ситуация в стране, мне кажется, не способствует росту интереса к книге. Зато расцвели какие-то секстанстские издательства: религиозные, духовные, парапсихологические и т.п....
И несколько фото и видео
Куда же без Дмитрия Быкова
Вассерман тоже целый день выступал
Заметки с Московской международной книжной выставки ярмарки

И два видео

На первом видео хотел передать сам дух выставки - посмотрите, если хотите почувствовать.
На втором - читают текст Тотального диктанта. Зацените текст. И читайте книги. Удачи)

среда, 7 сентября 2016 г.

Анализ анкет обратной связи по обучению. Что нам могут сказать открытые вопросы.


Анализирую анкеты обратной связи по корпоративным семинарам. В анкетах помимо полей с цифровой оценкой семинаров есть поле обратной связи в виде открытого вопроса, участники могли писать про пройденный семинар все, что хотели.
В данном посте публикую подход к анализу, если заинтересуетесь, готов его обсуждать.

Проблема 

проблема использования подобных вопросов очевидна:
  1. пишут редко, т.е. вообще отзывов мало;
  2. а в имеющихся отзывах мало содержательной информации, в основном: "все было супер", "препод молодец!";
  3. И когда мы вытаскиваем наконец содержательные отзывы, например, про полноту и ясность раздаточного материала, то непонятно, является ли это субъективным мнением одного участника или отражает мнение хоть части группы. Потому что, если это субъективная оценка участника, то реагировать и работать надо с участником, а если отражает мнение, то работать надо с преподавателем / тренером.
  4. А теперь с учетом всего вышесказанного мы выходим на главную проблему: и кто после этого будет читать эти анкеты? Тренинг менеджер компании потратит два часа времени на чтение анкет, но сделать реальных выводов не сможет. 
Вот собственно для решения данных проблем я решил заняться анализом открытых вопросов анкет обратной связи

Решение

Неспециалистов сразу предупреждаю, что будут какие-то термины в области машинного обучения, которые могут показаться темным лесом, можно перейти сразу к результатам.
Первым заходом на решение проблемы была попытка построить кластеры отзывов: т.е. попытаться превратить все море тестовых отзывов превратить в несколько групп, связанных по смыслу. Выделю эти группы:
  1. раздаточный материал семинара;
  2. тренер;
  3. применимость полученных знаний на практике;
  4. организация семинара. 
Попытка эта не привела к успеху

Анализ анкет обратной связи по обучению. Что нам могут сказать открытые вопросы.
На картинке показана попытка разделить все отзывы на три кластера, качество модели настолько качественно, насколько кластеры отделены друг от друга.
Видно, что кластер 0 не существует практически, а кластеры 1 и 2 это если и не один кластер, то граница весьма условна. Причем, это видно по смысловому наполнению, когда слова "материал" или "тренер" содержаться во всех кластерах, что значит для нас, мы не смогли поделить отзывы по нужным нам смыслам.

Мера сходства сообщений.

Тогда я решил использовать меру сходства сообщений. Это почти тоже самое, что поисковая выдача: первым в поисковике выходит наиболее релевантное сообщение, а потом по мере убывания. Понятно, что Гугл и Яндекс делают это сложнее)))
Но я таким образом могу посчитать насколько каждый отзыв участника семинара / тренинга схож с эталонным сообщением, сообщением, который отражает нужный нам набор слов.
Например, я беру тему "Материалы семинара" и создаю набор слов, выражений:
"раздатка восприятие визуализировать наглядный раздаточный материал материалы ....".
Далее запускаю алгоритм машинного обучения, который определяет меру сходства каждого сообщения с этим эталонным. И каждое сообщение получает свою оценку сходства, которую я записываю отдельной переменной. У нас получается вот такая картина:

благодаря грамотный тренер группа активно участвовать замечательный живой яркий динамичный следить
1.41
тема форма подача информация изучить разобрать инструмент реализация личный цель
1.36

не обращайте внимание на "нерусский" текст, я его предобработал (убрал лишние слова, привел все в одну форму), поэтому он как бы не читаем. 
Но зато вы видите, что у одного отзыва стоит оценка 1, 41, у другого 1, 36. У того, что 1, 36 мы видим слово "подача", которое было приведено в эталонном сообщении. Поэтому данный отзыв имеет больше сходства с эталонным. И важный момент: мера сходства показывает не просто количество слов из эталонного сообщения, но относительную частоту, т.е. сколько слов эталонного сообщения по отношению к количеству всего слов в сообщении. Мы тем самым вводим вес этой темы для отзыва, т.е. учитываем, что если участникам написал только про материалы семинара, вес этого сообщения будет более значимым. 
Таким образом мы можем посчитать средние значения по каждому семинару / тренингу. Получается вот что. 

Семинар
Среднее значение меры сходства
1
Личная эффективность
1.403539
2
Навыки проведения презентации
1.398800
3
Навыки коммуникации
1.404731
4
Переговоры
1.403366
У нас максимальное различие определяется оценкой 1, 41. И таблица может ввести нас в удрученное состояние:
  1. слишком близки средние значения к 1,4 1 
  2. слишком невелико различие между средними.
Но давайте посмотрим на распределение оценок.
Анализ анкет обратной связи по обучению. Что нам могут сказать открытые вопросы.

Упс, у нас из 2853 анкет более 75 % вообще никак не связаны с нашим эталонным сообщением (это правый столбец на картинке, оно же значение 1, 41). И это нормально. Ну никак тема материалов семинара не затронула участников. В этом же числе отзывов и пустые отзывы. 

Дескриптивные статистики 

count    2853.000000
mean        1.403738
std         0.032555
min         1.051462
25%         1.414214
50%         1.414214
75%         1.414214
max         1.414214

Что мы делаем

Тем не менее, четверть отзывов так или иначе связана с темой материалов. И нам осталось понять, есть ли значимые различия в оценках средних значений семинара по теме "Материалы семинара". 
А это может сделать уже любой выпускник психфака, прошедший курс тервера и матстатистики. С помощью критерия Крускала и Краскелла Уолисса.
KruskalResult(statistic=15.880403258075576, pvalue=0.0011998352099500508) 
Значимость критерия ниже необходимого нам уровня в 0, 05 и даже в 0, 01, поэтому мы можем утверждать, что на семинаре "Навыки проведения презентации" тема материалов семинара поднималась в отзывах участников значимо чаще. Отсюда следующие шаги:
  1. мы проводим анализ тональности текста (отвечаем на вопрос, были ли эти отзывы чаще позитивными или негативным);
  2. даем обратную связь тренеру / преподавателю или принимаем решение о дальнейшей работе с ним.
Все. От профи по машинному обучению хочу услышать предложения, как можно сделать проще то, что я понаделал. Ибо я только начинаю тут шаги делать, а от коллег по HR хотелось бы услышать про перспективы применимости услышать. Спасибо. 

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

воскресенье, 4 сентября 2016 г.

Анализ обратной связи в оценке 360 градусов. Зарисовки.

Провожу анализ обратной связи в оценке 360 градусов одной компании. Хочу показать один результат. С разрешения компании.
Компании в оценке 360 градусов часто используют открытые вопросы, чтобы получить обратную связь, получить пояснения оценок и т.п.. Компании эти данные дают оцениваемым как обратную связь, но сама hr служба практически никак не анализирует тексты из-за объемов и отсутствия инструментов.
Но некоторые вещи можно вытащить.

Описание структуры оценки 360 градусов

В данной компании оценка 360 градусов проводилась по четырем компетенциям
  • Лояльность компании;                                                               
  • Ответственность;  
  • Ориентация на клиента;  
  • Эффективное общение.
И задавали два открытых вопроса:
  • В чем этот сотрудник особенно успешен, что получается у него особенно хорошо?  
  • Что бы Вы порекомендовали этому сотруднику изменить в своем поведении, чтобы стать более эффективным?
Первый вопрос был направлен на выявление сильных сторон, второй направлен на выявление слабых сторон.
Всего было оценено более 700 работников

Проблема 360 градусов

Надо обязательно отметить, что оценка 360 градусов имеет одну проблему.
Анализ обратной связи в оценке 360 градусов

На картинке показано распределение оценок 360 градусов по компетенции Ответственность . Шкала оценок от 0 до 2, где "2" - максимальная позитивная оценка. Диаграмма показывает, что "двоек" в оценках слишком много, в нашем случае две трети оценщиков оценили оцениваемых на максимальную оценку. Уверен, что любой, кто проводил оценку 360 градусов, сталкивался с подобным.
Сама по себе эта проблема требует решения, буду готов обсудить с заинтересованными способы решения этой проблемы.

Анализ и результаты

Я провел анализ тональности (сентимент анализ) текста. Анализ тональности позволяет выявить, какие слова, выражения чаще употребляются с позитивной оценкой оцениваемого (оценка "2") и негативной оценкой.
Установлено что вопрос "Что бы Вы порекомендовали этому сотруднику изменить в своем поведении, чтобы стать более эффективным?" позволяет лучше проводить границу между позитивной и негативной оценкой. Отсюда хочу для эксперимента порекомендовать не бояться задавать прямых, резких, провокационных вопросов в обратной связи.
А далее забавный результат
Анализ обратной связи в оценке 360 градусов
На картинке показан Топ 10 слов, связанных с негативными оценками в вопросе  "Что бы Вы порекомендовали этому сотруднику изменить в своем поведении, чтобы стать более эффективным?". Размер шрифта, высота слова / выражения показывает вес слова выражения с негативной оценкой в обратной связи 360 градусов. Чем крупнее слово, тем чаще оно используется в негативной обратной связи.
"Пусто" это не слово "пусто", а пустое пространство, или, точнее, отсутствие обратной связи. Т.е. когда оценщик ставит негативную оценку, он часто просто оставляет поле пустым. А на втором месте "затрудняюсь" и "затрудняюсь" ответить. По сути, равно "Пусто".
Вывод для компании: необходим тренинг научения давания негативной обратной связи. Извините за мой французский.
А теперь аналогичная картинка, но для позитивного вопроса "В чем этот сотрудник особенно успешен, что получается у него особенно хорошо?". Зацените: вопрос призван восхвалять оцениваемого, а мы выявили слова, которые связаны с негативом, оценщик ставит негативную оценку, а в поле восхвалений пишет ниже... "Затрудняюсь" и "Затрудняюсь ответить" тоже присутствует, но далеко не на первом месте (хвалить таки проще?)
Анализ обратной связи в оценке 360 градусов
На первом месте "клиент" (для спецов: лемматизацию я не делал), обратите внимание на картинке выше присутствуют "коллеги". Отсюда гипотеза: негатив чаще связан с самим любимым - оценщиком, с тем, что у тебя случилось с оцениваемым. А клиенты на закуску.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!