Машинное обучение в социологии
Учёные НОШ МГУ «Мозг, когнитивные системы, искусственный интеллект» применили методы обработки естественного языка (NLP) для анализа связанных с репродуктивным поведением комментариев в социальных сетях.
Исследование, опубликованное в журнале Population and Economics, выявило основные аргументы, используемые пользователями для обсуждения этой темы, а также общественные настроения в этом вопросе.
«Новизна работы состоит в том, что мы придумали разделять аргументы на личные и общественные. Это поможет лучше понимать демографическое поведение. В итоге мы смогли разработать алгоритм, который классифицирует аргументы на личные и общественные, что дает более глубокое понимание общественного мнения и позволяет выявить ключевые аспекты, влияющие на репродуктивное поведение. Главная идея заключается в том, что если во время мониторинга социальных сетей по демографическим вопросам растет доля личных негативных высказываний, то это может служить сигналом к совершенствованию демографической или семейной политики. Это не просто мнение об общественных нормах и установках, это личные истории, сигнал тревоги для людей, принимающих политическое решение», — отметила заведующий кафедрой народонаселения экономического факультета МГУ Ирина Калабихина.
Исследователи собрали данные из социальных сетей, фокусируясь на комментариях, связанных с репродуктивным поведением. Эти данные затем были вручную размечены и классифицированы с использованием методов NLP. Классификация включала анализ личных и общественных аргументов, а также изучение их влияния на репродуктивное поведение пользователей.
Анализ проводился в несколько этапов. На первом этапе исследователи собирали текстовые данные из социальной сети «ВКонтакте», используя специализированные программные средства для сбора данных. Затем эти данные проходили предварительную обработку, включающую удаление дубликатов, очистку от ненужной информации и нормализацию текста.
На следующем этапе исследователи использовали алгоритмы машинного обучения и обработки естественного языка для анализа текста. В частности, применялись методы тематического моделирования для выделения основных тем обсуждения, а также методы кластеризации для группировки схожих по содержанию сообщений. Особое внимание уделялось выявлению аргументов, связанных с личным опытом пользователей или с общественными ожиданиями. В демографии дихотомия «личное-общественное» является весьма сильным информационным приемом. Например, в социологических опросах выясняют, сколько надо иметь детей (общественная норма) и сколько респондент лично хочет иметь детей согласно его (её) жизненным обстоятельствам. Второй ответ очень точно предсказывает будущий уровень рождаемости.
В ходе анализа было выявлено, что не менее 40% высказываний содержат аргумент, то есть объяснение того, почему пользователь социальной сети написал(а) негативный или позитивный комментарий к теме в области репродуктивного поведения. Опыт показал, что около 40% аргументов являются личными, остальные — общественные. Разработан алгоритм для мониторинга демографического поведения и отношения к демографической политике. Теперь можно выявлять личные проблемы пользователей социальных сетей в процессе мониторинга демографического поведения. Личные аргументы включают индивидуальный опыт и личные убеждения, тогда как общественные аргументы связаны с социальными нормами и ожиданиями.
Этот алгоритм апробирован на репродуктивном поведении, но может быть использован и на самосохранительном, брачном, миграционном поведении. Такое знание может помочь в формировании более эффективных стратегий в области репродуктивного здоровья, сбережения здоровья в целом и социальной политики.
«Наши результаты подчеркивают важность учета общественного мнения и личного опыта при формировании политики в области репродуктивного здоровья», — добавила и.о. заведующего кафедрой алгоритмических языков факультета ВМК МГУ Наталья Лукашевич.
Развитие таких методов анализа данных актуально для улучшения понимания общественных настроений и их влияния на репродуктивное поведение. Это может способствовать разработке более эффективных стратегий в области демографического развития, здравоохранения и социальной политики.
Источник: Официальный канал РАН.