Share |

воскресенье, 31 июля 2016 г.

Тематический анализ отзывов на Банки.ру. На что жалуются сотрудники

автор Люда Рогова

Этот пост посвящен анализу текста. Возможно, называть анализом мою попытку пока преждевременно, но начало положено. Тренируюсь я на отзывах кандидатов и работников банков - служебный рейтинг banki.ru.  Ранее Эдуард упоминал о такой возможности на примере анализа тональности отзывов о компании. Скажу сразу, мне эта тема очень интересна, так как я сама являюсь работником одного из банков, и отзывы о нем, да и о других банках, периодически читаю. Было интересно определить, что больше всего волнует людей,  какие темы наиболее часто звучат на указанном ресурсе.
Никогда ранее не приходилось обрабатывать текстовые данные, гораздо привычнее иметь дело с информацией, представленной в числовом виде. Но текст это тоже информация, и как показывает мой первый опыт, очень даже полезная и интересная.
Ради выгрузки и обработки отзывов, пригодных для дальнейшей работы, пришлось дополнительно познакомиться с несколькими библиотеками python, предназначенными  для этих целей (BeautifulSoup, nltk, pymorphy2). Уверенна, время потрачено не зря) На текущий момент у меня 4 610 отзывов о более чем 20-ти банков. Список банков в рейтинге больше почти в 10 раз, но я рассматривала только те банки, чьи работники оказались наиболее активными, и количество отзывов более 50.
Для кластеризации текстов по темам использовала KMeans. Попробовала разное количество кластеров, но оптимальное количество оказалось равным 5 - темы различимы, пересечение минимально при заданных условиях. Ниже попытка визуализации результата, там же список первых 10-ти наиболее важных ключевых слов, характеризующих каждый кластер:









По приведенным ключевым словам уже можно понять, какие темы затрагиваются в отзывах. Я же вижу полный список  слов, из которого понимаю что в кластере №0 речь идет о трудностях при увольнении, №1 содержит благодарности, в №2 истории приемов на работу (состоявшиеся и нет), кластер №3 о сложностях с руководством, выставленными планами, и последний №4 о вознаграждении. Я почему-то ожидала, что 4-й будет самый массовый, но данные говорят о популярности №1 и №3. Одинаково ли распределение для банков по отдельности? Может для одних более важна одна тема, для других иная? Как я написала ранее, я сама работник банка, и мне интересно не столько получить общую картинку, сколько сравнить своего текущего работодателя с другими.
Тут я это сравнение приводить не буду - окончательный результат я покажу в другом месте. Заодно, это будет хорошим примером использования текстовых данных в качестве нового источника полезной информации.
А здесь покажу несколько картинок по двум отдельным банкам. Названия их не указываю просто из вредности. Эта информация открытая, ее легко можно получить, перечитав несколько тысяч отзывов, имеющихся в свободном доступе.
Банк № 1

Банк № 2

Первые две картинки по сути об одном и том же - они позволяют получить некоторое представление о распределении отзывов по кластерам (темам). На мой взгляд первая интереснее, а вторая привычнее. Последняя картинка показывает как менялось количество отзывов по годам. Вариантов извлечения полезной информации масса, все ограничивается только полетом нашей фантазии и имеющимися на текущий момент знаниями.

суббота, 30 июля 2016 г.

Статьи по hr аналитике на английском - 4

Продолжаю выкладывать ссылки на интересные статьи по hr аналитике на английском. Подчеркиваю, что на интересные - с моей точки зрения. А вкус у меня, безусловно, изысканный. Причем, очень бы хотелось видеть аудиторию посто статей по hr аналитике на английском не студентов, а действующих HR
Первые три поста здесь
Статьи на сегодня
  • 15 tips to help HR get started with People Analytics - статья Давида Грина. Замечательна тем, что автор дает несколько блогов, на которые стоит подписаться, и несколько имен, кого стоит читать. Имена - это западные аналитики (хотя не только, я двоих индусов там увидел), а ссылки на их профили в Линкедине. Я подал заявки во френды всем указанным в посте. 
  • How we built Talent Analytics at LinkedIn - понятно по названию. Реальный опыт всегда интересно читать
  • The 27 best HR Analytics articles of H1 2016 - название говорит само за себя, хотя я большинство статей называю не статьями по hr анадитике, а околоаналитичными. Первое место по традиции занимает Джощ Берзин.
  • The 21 best HR Analytics articles of 2015 - из той же серии, тот же автор, на первом месте все тот же Джош Берзин. 
  • How text analytics is changing the employee survey - в моем сегодняшнем списке статей единственная статья с собственно аналитикой или, точнее, про то, какие результаты мы сейчас можем получать. Рекомендую автора статьи - Андрей Маррит - ко фаундер компании, создавшей инструмент Workometry - штука, которая анализирует обратную связь работников и не только работников. Workometry получил приз зрительских симпатий на конференции в Лондоне в этом году. А мы, видимо из профессиональной зависти, начали в этом направлении тоже работать, см. Анализ отзывов о компании

Кейс по прогнозу эффективности работников

Прелесть данного кейса в том, что я впервые в качестве предиктора данные не только самих работников, но данные руководителя
Всего были использованы такие данные в модели:
  1. Стаж работы в должности
  2. Данные подразделения, должности, региона и т.е..
  3. Пол, возраст сотрудника
  4. Пол руководителя, соотношение полов руководитель / подчиненный;
  5. Тест интеллекта сотрудника;
  6. Личностный тест сотрудника;
  7. Тест интеллекта руководителя;
  8. Личностный тест руководителя.

Результаты

Практически все указанные факторы внесли свой в точность модели (см. на самой нижний картинке значимость факторов - не расшифровываю названия, поскольку кейс реальный, соблюдаю конфиденциальнсоть). На первом месте по значимости  стаж работы. Т.е. рост эффективности в первую очередь определяется стажем.
Далее факторы идут в вперемешку (хотя менее значимы факторы пола, соотношения полов руководитель / подчиненный) , но в качестве главного вывода исследования можно сказать, что результаты руководителя влияют не меньше, чем результаты самого работника.
Звездоболам не рекомендую открывать рот и говорить, что это очевидно.

Вопрос

В этом месте я обращаюсь за помощью к профи: я в качестве предиктора использовал просто шкалы теста, но подозреваю, что важным является не просто наличие или отсутствие того или иного качества у руководителя или подчиненного, а взаимодействие этих качеств у руководителя и подчиненного (на примере пола я показываю, что мы смотрим не просто пол руководителя или пол подчиненного, а взаимодействие полов, т.е. их возможные сочетания: ММ, МЖ, ЖМ, ЖЖ). Т.е. говоря математически, мы должны проверить гипотезы об интеракции факторов. Но просто перебор шкалы со шкалой чересчур трудоемкая работа: даже ели бы у нас был Big5 у руководителя и подчиненного, то количество возможных сочетаний будет 25, а у нас не Big5, поэтому количество проверяемых гипотез больше в десятки раз.
Подскажите, как можно поступить в данном случае? Кластерный анализ?

Картинки

Ну и без того, у нас модель получилась выше плинтуса. Я тренировал модель на RMSE - отклонении прогнозного значения от фактического, но поскольку без масштаба будет непонятно, то даю R^2. Он в нашей модели получился 0, 23.
Маловато, не спорю.
В этом месте вы выходим на один важный вопрос, который я еще в дискурсиях не встречал ни разу: какова в принципе возможна прогнозируемая точность на основе входных данных? Поскольку на эффективность влияет куча других, динамичных факторов, таких как ситуация на рынке, отношения в коллективе, маркетинговая политика компании и другие политики, мотивация и обучения персонала и т.п.. 
На картинке точность так выглядит
Кейс по прогнозу эффективности работников


среда, 27 июля 2016 г.

Кейс по импутации данных при создании модели прогноза эффективности персонала

У меня в выборке было почти 2 000 человек, у которых были полные результаты по одному тесту (а), а другого теста (в) было на 200 результатов меньше.
В данном случае две стратегии:

  1. удалить часть выборки у кого нет результатов по тесту "в" и запускать алгоритм только по чистым данным. Тогда у нас останется примерно 1 800 строк в выборке
  2. Импутация данных - заменить пропущенные значения теста "в" какими -то значениями. Я использовал метод median - т.е. заменил эти 200 значения медианными значениями по всей выборке каждой шкалы (ну т.е. мы берем шкалу, вычисляем медиану, вставляем ее в незаполненные ячейки, далее переходим к новой шкале и т.д..)

Возникает вопрос, а имеем ли мы право так поступать: ставить какие то сглаженные значения? Как они повлияют на анализ? В нашем случае мы можем понять ответы на этот вопрос, если поймем, как эти стратегии влияют на качество модели. Т.е. если при методе импутации данных качество данных не пострадает, то мы можем его применять
Я реализовал обе стратегии: с импутацией данных и без.
В первом случае показатель при кросс валидации показал R^2 = 0, 16, во втором случае при импутации данных R^2 = 0, 146.
Драматического различия не обнаружено, можем пользоваться импутацией.
Почему это важно? Потому что помимо, собственно, результатов теста у нас есть полные переменные: пол, возраст, стаж, позиция, подразделение, регион и т.п. и терять 200 наблюдений никак не хочется
ну и вот такая картинка

  • По оси X - прогнозные значения;
  • По оси Y - реальные. 

Кейс по импутации данных


воскресенье, 24 июля 2016 г.

Анализ отзывов о компании

В опрос ключевые факторы текучести и удержания персонала добавил новый, открытый вопрос - отзыв о компании, он звучит так
"Напишите (по желанию) в нескольких предложениях отзыв о работодателе (конфиденциальность гарантируем): особенности работодателя, особенности корпоративной культуры, менеджмента и коллектива, причины, по которым вы уволились или работаете в компании и т.п. Спасибо!"
Буду вам благодарен, если вы пройдете опрос, ответив в т.ч. на этот новый, дополнительный вопрос - отзыв о компании
Что нам это даст? Приведу простой пример. Мы с Люда Рогова скачали данные с страницы отзывов кандидатов и работников банков - служебный рейтинг banki.ru и провели так называемый sentiment analysis ли анализ тональности отзывов о компании, т.к. какие слова / выражения чаще присутствуют в позитивных / негативных отзывах о компании.
В качестве визуализации такого анализа
Анализ отзывов о компании

На картинке показаны слова, которые чаще присутствуют в позитивных, а не негативных отзывах о компании. Высота слова обозначает вес - коэффициент вхождения, т.е. это слово сильнее связано с позитивным отзывом о компании. На этой картинке показаны единичные слова, но можно представить словосочетания, тогда слова "возможности" и "обучения" превратятся в словосочетание "возможности обучения". И такую же картинку можно сделать для негативных отзывов о компании.
Также мы можем выделить темы отывов - типы отзывов о компании или кластеры, можем понять, какие темы / типы отзывов о компании чаще присутствуют в негативных и позитивных отзывах, какие какие темы / типы отзывов о компании чаще присутствуют в отзывах различных профессиональных группах (по позициям), по уровню менеджмента (уровни руководства, позиций) и т.п..
Мы показали анализ отзывов о компании на внешних ресурсах, но эту технику можно применять внутри компании при анализе обратной связи

  • при оценке 360 градусов, 
  • при исследовании вовлеченности и удовлетворенности персонала в компании и т.п...

Понравилась идея анализа отзывов о компании? поучаствуйте в исследовании текучести персонала (даже если вы участвовали там ранее) и оставьте там свой отзыв о компании.
Захотели применить такой анализ в собственной компании? обращайтесь edvb@yandex.ru
Для профи: анализ провожу в Python, алгоритмы опорных векторов и наивного Байеса, с использованием стемминга, лемматизации 

пятница, 22 июля 2016 г.

Идея карьерного портала

Пытался продать рынку идею карьерных порталов (см, например, 10 потрясающих карьерных сайтов компаний, и чему мы можем научиться у них).
Вот результат
Идея карьерного портала
По данным нашего опроса (проголосуйте по ссылке, ок?) даже среди самой продвинутой аудиториии - IT специалистов, источник трафика "карьерный портал" дает всего 6 % (у других профессий еще меньше)
Идея карьерного портала

четверг, 14 июля 2016 г.

Статьи по hr аналитике на английском - 3

Продолжаю выкладывать ссылки на интересные статьи по hr аналитике на английском. Подчеркиваю, что на интересные - с моей точки зрения. А вкус у меня, безусловно, изысканный. Причем, очень бы хотелось видеть аудиторию посто статей по hr аналитике на английском не студентов, а действующих HR
Первые два поста здесь
Сегодня еще немного вкусного:
  • Do Competency Frameworks Work in Real-World Organisations? - чувак посчитал корреляции между оценками по компетенциям и эффективностью менеджеров, показывает результаты, а результаты не очень. Очень рекомендую посмотреть просто на цифры
  • Will IoT technology bring us the quantified employee? - три автора, среди которых Джош Берзин, рассуждают, как интернет вещей повлияет на процессы управления персоналом. Очень рекомендую статью. Берзин уже 20 раз доказал, что как он предсказывает, так оно потом и происходит. 
  • Forget Myers-Briggs, algorithms can better predict team chemistry - а тут название само за себя говорит. И мне кажется, рынок уже готов эту мысль принять. 
  • The 27 best HR Analytics articles of H1 2016 - Тут бОльшая часть статей про около аналитику (поэтому поставил в конец), но все равно, пусть будет, пройдитесь хотя бы по заголовкам, чтобы посмотреть, что волнует западных спецов. На первом месте опять Джош Берзин.
И еще у меня будет просьба: если вам интересны такие обзоры статей по hr аналитике на английском, напишите коммент к посту, нужно такие обзоры статей по hr аналитике на английском делать или нет. Спасибо


воскресенье, 10 июля 2016 г.

Как стаж работы сейлза влияет на продажи

Один из участников моего семинара Аналитика для HR поделился данными своей аналитики: связь между стажем продажников и продажами. По понятным причинам не раскрываю компанию.
Стаж дан в днях, продажи - премия (которая напрямую зависит от продаж), и распределение дано по годам.
Заметили, что связь не линейна? Также заметны группы "новичков" и "старичков".
Что вы еще могли бы сказать по данным диаграммам?
Какой следующий шаг анализа вы бы предложили?
Как стаж работы сейлза влияет на продажи


Как стаж работы сейлза влияет на продажи
Как стаж работы сейлза влияет на продажи

Как стаж работы сейлза влияет на продажи

суббота, 9 июля 2016 г.

Чем отличаются руководители представительств западных компаний от руководителей российских компаний

В конце прошлого года сделал бенчмарк текучести по российским компаниям и филиалам / представительствам западных компаний (см. Работают ли в филиалах западных компаний дольше, чем в российских). Результат: в российских компаниях работают значимо меньше.
Меня в данном факте интересует больше всего влияние менеджмента.
Моя гипотеза: в представительствах западных компаний менеджмент / руководители чаще дают обратную связь, подчеркивают заслуги подчиненного, что влияет на удержание работника.

Результаты

Не стал я делать модели, решил для первого среза обойтись Хи квадратом.
В нашем исследовании факторов текучести персонала (пройдите опрос, чтобы понять контекст вопросов) мы задавали вопросы респондентам:

  • Критиковал (критикует) ли Вас руководитель в присутствии других?
  • Благодарил ли Вас Ваш руководитель за достижения?
  • Как часто Ваш руководитель давал (дает) Вам обратную связь?
  • Проявлял (проявляет) ли Ваш руководитель заботу о Вашем развитии?
  • Выходили (выходите) ли Вы со своими инициативами на руководителя

Каждый из этих вопросов я скрещивал с вопросом о месте работы: российская компания и "Головной офис в Северной Америке, Европе".

Критиковал (критикует) ли Вас руководитель в присутствии других?

Значимых различий по российским и представительствам западных компаний не выявлено. Критикуют везде одинаково.

Благодарил ли Вас Ваш руководитель за достижения?

Pearson's Chi-squared test

data:  w
X-squared = 5.5811, df = 3, p-value = 0.1339
Различия не значимые, но p-value  близок к 0,05. Причем, в пользу западных компаний - в этих компаниях чаще благодарят подчиненных

Выходили (выходите) ли Вы со своими инициативами на руководителя

Pearson's Chi-squared test

data:  w
X-squared = 4.5441, df = 3, p-value = 0.2084
Подчиненные равномерно инициативны, и это не определяется компанией

Проявлял (проявляет) ли Ваш руководитель заботу о Вашем развитии?

Pearson's Chi-squared test

data:  w
X-squared = 14.335, df = 2, p-value = 0.0007712
                 Головной офис в Северной Америке, Европе Российская компания
Да,(сам предлагал курсы повышения квалификации, 
тренинги  и т.п..)                0.1974790                  0.1492537
Сам нет, но готов был поддержать меня в моем 
стремлении развиваться            0.4915966                  0.4121699

Нет                               0.3109244                  0.4385763                                                        

Как часто Ваш руководитель давал (дает) Вам обратную связь?              


Pearson's Chi-squared test

data:  w
X-squared = 14.25, df = 3, p-value = 0.002584
                   Головной офис в Северной Америке, Европе Российская компания
ежедневно                     0.1446809                          0.2283419
не реже одного раза в неделю  0.2765957                          0.2656340
реже одного раза в неделю     0.4255319                          0.3230063
никогда                       0.1531915                          0.1830178

Резюме

В компаниях с российским собственником подчиненные получают благодарности и критику в той же мере, что и в компаниях, где собственники / руководство находится в Западной Европе и/или Северной Америке.
В компаниях с российским собственником руководители реже дают обратную связь и реже проявляют заботу о развитии подчиненного.
И это может являться одной из причин более высокой текучести персонала в компаниях с российским капиталом. 
Слабость данных результатов в том, что различия в поведении менеджмента может определяться не уровнем культуры / менеджмента, а, например, различиями в представленности иностранных компаний в отраслях. Т.е. например, иностранные компании чаще представлены в банковской сфере, а не в производстве, и, может быть, в банковской сфере мы по определению встречаем руководителей, которые заботятся о развитии подчиненных. 
Но для такого анализа у нас пока мало данных. 

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!

Удерживает ли мужчину в компании наличие детей

Пост посвящается двум знакомым женатым мужчинам с детьми.
Давно уже публиковал пост Неженатые мужчины старше 35 лет как фактор риска для работодателя - вызвал в свое время много обсуждений.
Но мне высказали идею, что дело в факте наличия жены, а в факте наличия детей. Из за детей мужчина старается работать лучше, готов много ради них вытерпеть и т.п...
Сегодня развеем этот миф.
Всего в нашем исследовании факторов текучести (пройдите по ссылке и поучаствуйте в опросе) приняло участие 801 мужчина на сегодня
398 указали, что у них были дети на момент трудоустройства;
403 указали, что не было.

Вот такая картинка

Удерживает ли мужчину в компании наличие детей

Как читать такой тип диаграммы - Анализ и визуализация дожития: чем HR похож на медиков.
  • По оси X - число месяцев стажа
  • По оси Y - % оставшихся в компании.
Обратите внимание, что линии дожития фактически сливаются. P-value - 0.87.
Такой же анализ я сделал для мужчин старше 35 лет: есть / нет дети. Результаты аналогичные.
Вывод: давайте расставаться с мифом про то, что дети удерживают мужчин на месте.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!


среда, 6 июля 2016 г.

Прогноз текучести персонала на основе тестов

Идеологический скорее пост.
О том, насколько точно мы можем прогнозировать текучесть на основе входных данных. Я построил прогноз текучести персонала на основе тестов (личностные опросники и тест способностей).
Картинка прогноза получилась вот такой
Прогноз текучести персонала на основе тестов

  • По оси X - предсказанный стаж работы;
  • ось Y - реальный стаж;
  • красный и зеленый цвет точек означает статус работника - работает он еще или уже уволился (т.е. если работает, то стаж "не закрыт").
Точность модели - R^2 = 0. 046 или 4. 6 % дисперсии.
И по самой картинке точность модели хорошо читается без R^2. Хотя без цифр вообще можно предположить, что модель не работает. Но я ее покрутил через случайный лес и бустинг, могу утверждать, что факторы значимы, но качество такое, какой есть)
Для того, чтобы оценить реальное качество модели, рекомендую посмотреть этот пост Ключевые факторы удержания и текучести персонала

  Исследования компании Evolv показывают, что характеристики работника объясняют лишь 8 % дисперсии, мы накопали чуть меньше - 4,6 %, при этом у меня нет даже пола, возраста работника и т.п..
  • Если говорить о содержательной стороне, то на текучесть влияет экстраверсия или, в более широком смысле - тип поведения, при котором работник открыт для общения, самоуверен, ориентирован больше на новые контакты и общение, чем на рутинную работу. 
  • Соответственно, методичность, готовность выполнять рутину влияет на удержание. 
  • Чувство ответственности и позитивное отношение к жизни удерживают людей в компании. 
  • И чуть чуть влияют способности на удержание - естественно, люди с более высокими способностями)
Но я говорю о конкретном кейсе. Переносить его на свою компанию не рекомендую.
Хотя в пользу экстраверсии говорит данное исследование - Универсальный драйвер текучести персонала - это исследование открытое, наше исследование Ключевые факторы удержания и текучести персонала
Отсюда вывод: надо искать факторы текучести не внутри работника, а в том, что происходит между работником и компанией. Это вещи динамичные, трудносхватываемые, но если мы хотим попадать с прогнозом, мы должны учиться это делать.

Понравился пост?

если Вы захотите выразить мне благодарность за интересный пост, вы можете перевести небольшую сумму мне на Яндекс кошелек (кликните по кнопке Перевести) 
или сделать перевод на карту Сбербанка,
Номер карты 676 280 38 921 538 46 57 - укажите "за результаты исследования ". 
Или просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег. 
спасибо!