.

Сделать репост в соц сети!

воскресенье, 5 марта 2017 г.

Можно ли по тексту определить, кто его писал: мужчина или женщина



Женщинам племени Мумбо-Юмбо в честь 8 марта посвящается
Восьмимартовский пост на самом деле. Возвращаюсь к нашему исследованию факторов эффективности и текучести (поучаствуйте уже ради праздника, а?).
Идея анализа проста: у нас есть переменная "Пол респондента" и переменная "Отзыв о компании". Всего выбора исследования составила 327 дам и 160 джентельменов, кто оставили свои отзывы о компании.
Лирическое отступление. Вспоминаются Ильф с Петровым и их вечное: Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью.
Восьмимартовская идея поста простая: можем ли мы по тексту отзыва о компании определить, писал ли его негр племени Мумбо-Юмбо мужчина или Эллочка дама. 
Итого мы получаем простую задачу классификации.
Это кстати, не первая моя попытка различать мужчин и женщин))) Ранее я делал такой анализ Можно ли различить мужчин и женщин по соотношению рост / вес

Результат

Показатели точности модели я даю ниже, а теперь сразу "мущинские" слова и "дамские".
С мужчинами чаще связаны слова (т.е. слова, которые в тексте отзывов употрябляют именно мужчины, а дамы почти не употребляют)
Можно ли по тексту определить, что его писал: мужчина или женщина
Чем больше шрифт, тем больше "мущинистость" слова
Можно ли по тексту определить, кто его писал: мужчина или женщина


И вот здесь мой самый главный УПС! У меня в голове работала такая схема: эмоциональные люди чаще употребляют в речи прилагательные, обозначающие отношение. Женщины - более эмоциональные. Но у "эмоциональных" женщин самое нагруженное слово - глагол "работать", а у "не эмоциональных" мужчин самое нагруженное слово "Хороший" (работодатель) и еще "Большой".
Вот так шаблоны на старости лет рушатся. 

Качество модели

Ну спецов то картинки мало трогают, им же надо сказать, насколько очно мы можем женщин от мужчин отделить. И это самое поразительное. 
Площадь под кривой у нас 0, 81!
Можно ли по тексту определить, кто его писал: мужчина или женщина
А Точность Полнота - 0, 72
Можно ли по тексту определить, кто его писал: мужчина или женщина
При том, что базовая точность модели - 0, 23! Добавлю, что я использовал SVM с кросс валидацией и сеткой параметров текста и модели. 

Ложка дегтя

Как мне кажется, такой высокий результат был получен не только за счет мущинистости и дамочности. Дело в том, что бОльшая часть мужчин в опросе - IT специалисты, а дамы - HR-ы, рекрутеры. Поэтому в основе деления лежит еще, наверняка, профессиональная ориентация, которая определяет наши тексты. 
Ну это же следующая задача - как мужчин и женщин вычленить из IT специалистов и рекрутеров! И очень красивая задача.

Понравился пост?

и Вы захотите выразить мне благодарность за интересные результаты, просто покликайте на директ рекламу ниже на странице - у вас это отнимет несколько секунд, а мне принесет немного денег.
хотите следить оперативно за интересными ссылками, лайкните нашу страницу в фейсбуке Блог про HR-аналитику.

Комментариев нет:

Отправить комментарий