Как подслушать, на что злятся горожане, с помощью искусственного интеллекта

Мы привыкли, что градостроители, урбанисты и городские администрации должны считаться с мнением горожан — проводить опросы и рассылать анкеты. Но как узнать настроение всего города? Команда Strelka AI совместно с Центром городской антропологии КБ Стрелка разработала систему Urban Social Media Listening, которая помогает выявлять потребности жителей и узнавать их мнение о текущих или готовящихся проектах. Strelka Mag рассказывает, как устроена новая система.

В основе Urban Social Media Listening лежат открытые данные — тексты постов и комментарии в социальных медиа. Их анонимизируют и собирают с помощью специализированных систем мониторинга. Все тексты анализируются с помощью технологий обработки естественного языка: TextRank, Sentiment Analysis, Top2vec, NER. О них мы и поговорим чуть подробнее.

 

Настроение горожан

Чтобы быстро определить, о каких городских проблемах сейчас говорят местные жители и как к этому относятся, в системе использован алгоритм выделения ключевых словосочетаний TextRank. Эта технология — адаптация PageRank, созданной основателями Google ещё в 1995 году для ранжирования веб-страниц в поисковой выдаче.

TextRank работает следующим образом: для начала специалисты определяют, какие слова можно считать ключевыми в определённом тексте или сообщении. Для этого они применяют метод скользящего окна, то есть проходят по тексту условной рамкой, чтобы найти наиболее часто встречающиеся слова. Важно также определить, с какими словами они употребляются вместе. При этом исключаются служебные слова, которые не несут смысловой нагрузки.

Затем строится модель на графах: вершины графов — это слова, а рёбра — их связи. Так аналитики понимают, как все слова в текстовом корпусе связаны друг с другом. Дальше можно определить, какие словосочетания наиболее популярны в тексте, — эти сочетания и есть те проблемы, которые обсуждаются в городе.

Все сообщения, содержащие рассматриваемое слово или словосочетание, разбиваются на три категории: позитивные, нейтральные и негативные; из их процентного соотношения можно определить тональность контекста.

Зачем. Этот инструмент особенно полезен в проектах по вовлечению горожан: кампаниях по сбору идей, общественных обсуждениях и инцидент-менеджменте. Так можно сразу определять отношение жителей к некоторым темам, выявлять наиболее острые проблемы и точечно отрабатывать негатив.

Пример. С помощью этих технологий был составлен индекс туристической привлекательности 82 регионов России. Чтобы исследовать их образ глазами туристов, аналитики проанализировали 6 300 000 пользовательских текстов из социальных сетей, блогов, форумов и агрегаторов отзывов. В текстах выявили 6 составляющих туристического продукта: материальное (здания, картины, скульптуры, памятники) и нематериальное (музыка, кулинария, язык, традиции, литература) наследие, природа, событийная программа, технологии и производство, инфраструктура.

 

самые больные места

Особенность алгоритма Top2vec в том, что он может обрабатывать огромные текстовые массивы и выделять основные темы, которые в них поднимаются. Top2vec объединяет все слова и тексты из массива в единое семантическое пространство. Затем тексты кластеризируются в группы, образуются темы-кластеры. Слова, оказавшиеся ближе всех к центру каждого кластера, описывают каждую тему-кластер. Также аналитики пользуются словарями ключевых терминов, которые составляются отдельно для каждого проекта.

Зачем. Такая элементарная аналитика полезна на этапе предпроектного исследования: она позволяет в текстовом массиве ранжировать интересующие объекты по упоминаемости. Например, для исследований в Калмыкии это могут быть национальные блюда, буддийские культовые сооружения, особенности местного ландшафта.

Пример. С помощью этой технологии можно за пару дней проанализировать все новости города за несколько лет — количество рассматриваемых текстов может доходить до сотен тысяч.

 

МЕСТНЫЕ ЗНАМЕНИТОСТИ

С помощью технологии NER (Named Entity Recognition) можно понять, какие люди и организации привлекают наибольшее внимание в городе. Модель NER позволяет определить географическую привязку сообщения, даже если горожанин по какой-то причине не поставил геотег. Это возможно, если в тексте есть упоминание улицы, района, населённого пункта или ближайшего кафе. Специалисты используют стороннюю библиотеку SpaCy с открытым исходным кодом, которая показывает один из лучших результатов по русскому языку на сегодня.

 

Как это помогает городам

Получить искреннее мнение

Во время опросов, интервью и других традиционных методов получения обратной связи респонденты находятся в подготовленной среде: они обдумывают заранее поставленный вопрос и стараются дать максимально ёмкий ответ. Анализ открытых текстов из социальных сетей помогает этого избежать: мы как бы наблюдаем за развитием диалога в его естественном виде.

Учесть интересы разных групп населения

В отличие от всё тех же традиционных методов, анализ соцсетей позволяет охватить большую и разнообразную аудиторию. Особенно ценно мнение молодых людей, которые редко готовы тратить время на прохождение опроса или участие в фокус-группе.

Сэкономить время

Анализ текстов при помощи технологий обработки естественного языка позволяет существенно сократить время и затраты на предпроектное исследование и быстрее принимать решения. С момента получения данных до их финальной обработки теперь проходят не месяцы, а считаные дни.

Фото обложки: воркшоп от Strelka.ai по созданию чат-ботов, Dimitry Tsyrenschikov / Strelka Institute

Нашли опечатку или ошибку? Выдeлите фрагмент и отправьте нажатием Ctrl+Enter.

Поделиться в соцсетях

По теме