Страница не найдена

Подсчитать невозможное. Как компания «Яндекс» использует собранную о нас информацию?

Команда аналитиков «Яндекса» знает, какие сны снятся в разных городах России, по каким улицам мы ходим и что едим на обед. Strelka Magazine поговорил с главой исследовательской команды Наталией Крупениной о том, как они достают и используют данные, о целях исследований и о том, как полученные результаты влияют на бизнес и журналистику.

Фото: Егор Слизяк / Институт «Стрелка»

Уже 11 лет «Яндекс» проводит публичные исследования. Красочные презентации о разнообразии российских улиц или кулинарных предпочтениях — это не только интересное чтение. По словам заместителя руководителя Центра городской антропологии, КБ «Стрелка» Дарьи Радченко,  исследования лингвистического характера помогают ответить на вопросы о том, как изменяется язык, какие новые слова и формы появляются, по каким критериям люди формулируют запросы. Другие исследования, связанные с анализом демографических характеристик или перемещений в пространстве, в конечном счёте помогают таргетированию рекламных сообщений и могут применяться в городском планировании. И даже развлекательные материалы, как тот же анализ снов, могут стать основой вдохновения и дать толчок для прекрасных исследований о таких вещах, о которых мы раньше не задумывались.

Наталия Крупенина рассказала о принципах работы команды «Яндекса».

 

О целях публичных исследований

У «Яндекса» очень много данных на разные темы, и мы умеем с этими данными работать. Нам хочется, чтобы интересные, правильно подсчитанные данные про интернет и жизнь вокруг были доступны всем. Например, одно из первых исследований было посвящено пробкам на дорогах Москвы — в то время почти никаких других отчётов на эту тему не было. С другой стороны, таким образом мы рассказываем, что можно делать с помощью наших сервисов. Собственно, поэтому 11 лет назад и появились наши открытые исследования. Самое первое исследование было посвящено СМИ, по данным «Яндекс.Новостей».

В последние годы исследований стало больше, а благодаря появлению новых методов и инструментов для работы с данными они стали более интересными и, соответственно, более заметными.

 

О влиянии на бизнес и СМИ

Наши исследования всегда выполнены в нейтральном ключе, в их основе лежит статистический подход. Мы делаем выводы и обобщения, но всё, что мы пишем, должно быть основано на данных. Однако бывают продолжения, исходящие не от нас, а от СМИ.

Москва с точки зрения развития инфраструктуры для развлечений / Инфографика из исследований компании «Яндекс»

Например, в начале 2017 года мы сделали рейтинг районов Москвы с точки зрения удобства инфраструктуры. Мы определили набор организаций, которые, как мы считаем, обязательно должны быть в пешей доступности: поликлиники, магазины, аптеки. Потом взяли карту Москвы, разделили её на квадраты и для каждого квадрата с помощью данных «Яндекс.Карт» рассчитали время пути до ближайшей организации каждого типа. Это просто рейтинг, исключительно данные.

На эту тему было много журналистских материалов, один из них хорошо продолжает наше исследование. Журналисты выбрали из нашего рейтинга самые плохие районы и поговорили с людьми, которые там живут. Это совсем другой подход — не статистика, а интервью с конкретными живыми людьми. Сами мы такого не делаем, но, когда по нашим исследованиям появляются подобные интервью, это очень здорово.

В некоторые исследования добавляем комментарии, необязательно сотрудников «Яндекса». Так, наше исследование про трудные вопросы русского языка прокомментировал председатель экспертного совета «Тотального диктанта».

Мы никогда не проводим исследований по заказу, однако некоторые впоследствии используются бизнесом. Тот же материал про районы вызвал интерес у риелторов. Они регулярно делают рейтинги районов, и развитость инфраструктуры для них один из показателей. Два года назад мы проводили исследование про туризм — там были данные об изменениях интереса пользователей к разным странам и курортам. Его также использовали внутри туристической отрасли.

Другой пример — в 2014 году мы проводили исследование о медиасфере, там была карта российских СМИ по близости их аудиторий. Например, выяснилось, что у сайта Первого канала много общей аудитории с женскими журналами, у популярных ежедневных газет — «Комсомольской правды», «Московского комсомольца», «Аргументов и фактов» — своя аудитория и так далее. И вот некоторые издания учитывали эту карту — например, меняли стратегию так, чтобы стать ближе к «Коммерсанту» и «Ведомостям».

 

О методах подсчёта

У каждого исследования своя методология — зависит от задачи. Например, в работе с поисковыми запросами мы используем несколько подходов. Если нас интересует сравнительно узкая тема, которую можно описать несколькими основными словами, можно использовать слова-маркеры. Допустим, мы проводим исследование про сны — люди часто ищут в поиске толкования своих снов, и мы хотим проанализировать эти запросы. Почти все запросы, которые нас интересуют, содержат определённые слова: «сонник», «к чему снится», может быть с опечаткой — «к чему сниться», просто «сон». Мало ключевых слов, и это простая ситуация — мы можем взять все запросы, в которых они есть, и работать с ними.

Бывают более сложные классы запросов. Например, если мы хотим написать про путешествия в целом, узнать, куда ездят люди, мы не сможем обойтись небольшим набором ключевых слов. Потому что человек может просто написать название гостиницы или города в поиске. Ключевых слов получилось бы слишком много. Тут мы используем другой метод. Мы смотрим не на сами поисковые запросы, а на результаты поиска. Если люди переходят на туристические сайты — например booking.com или tophotels.ru, — скорее всего, запрос можно считать туристическим. То есть мы можем взять все запросы, по которым переходят на сайты из определённого списка, и анализировать их.

20 самых популярных продуктов / Инфографика из исследований Яндекса

Этот же метод мы использовали в исследовании про то, что готовят жители России. Нас интересовали не те, которые написали в поисковой строке «винегрет» — это сложное слово, может, человек просто хотел узнать, как оно пишется, — а те, кто перешёл, набрав его, на кулинарные сайты.

 

О России

Из некоторых наших исследований можно сделать вывод, что Россия очень разная. В разных регионах слушают разную музыку, и даже сны в разных городах отличаются.

Сны, характерные для разных регионов / Инфографика из исследований Яндекса

Это не совсем так. Наоборот, мы скорее стараемся найти и показать даже небольшие отличия. В действительности по таким вопросам, как сны, разница между регионами очень маленькая. Самые популярные сны везде одинаковы: всем снятся люди, рыбы, змеи, мертвецы и вода.

Поэтому, чтобы найти разницу, мы сначала считаем, сколько этот сон ищут в среднем по стране. И дальше сравниваем данные для каждого региона со средним — насколько то или иное слово встречается в запросах отсюда чаще или реже, чем в среднем по России. То есть насколько этот сон характернее для этого места. Это называется аффинити. Например, оказалось, что в Челябинске людям гораздо чаще, чем в других местах России, снятся метеориты.

 

Об удивительных открытиях

В прошлом году мы проводили исследование про словарь Даля, и было очень неожиданно встретить слова, омонимичные современным. Например, в словаре Даля есть и слово «порно», и слово «двач», но с совершенно другими смыслами, конечно.

Или из вещей, про которые мы не думали заранее: в исследовании про мобильный поиск в Москве мы увидели довольно чёткие границы центра города. В центре люди ищут с телефона одни вещи, на Третьем транспортном кольце другие, темы поиска на окраинах или за городом также немного отличаются. Мы, конечно, ещё на начальном этапе предполагали, что темы запросов будут меняться в зависимости от района — например, что в МГУ интересуются немного другими вещами, чем на рынке «Садовод», — но то, что они прямо обрисуют центр, так, что будет видно, где он заканчивается, — это можно назвать неожиданностью.

О том, что раньше нельзя было посчитать

Современные данные и методы их анализа дали возможность измерить то, что раньше считалось неизмеримым. Например, узнать, что людям снилось, было невозможно: люди обращались к бумажным сонникам или спрашивали знакомых. Теперь, благодаря поисковой статистике, эта информация вообще существует.

Поисковый интерес к различным разделам правил русского языка / Инфографика из исследований Яндекса

Или мы проводили исследование про неизвестные слова — те слова, которые люди вбивали в «Яндекс» со словами «что это» и «что такое». Топы этих слов для каждого года оказались очень интересными. На верхушке рейтинга оказывались новые реалии, которые появились в этом году. По графикам видно, как появилось слово «селфи». В 2014 году никто не знал, что это такое, в 2015-м тоже спрашивали, но меньше, а в 2016-м все выучили, и оно исчезло из этих топов. До этого также появился и исчез Wi-Fi: все выучили, что такое Wi-Fi. Часто в топы попадают слова из новостей — в 2014 году в топе были «майдан» и «люстрация». То есть эти слова были на слуху, но многие не знали, что они значат. Раньше этой информации тоже не было: люди не искали бы в поиске незнакомые слова, а смотрели в словаре или спрашивали друг у друга.

Нашли опечатку или ошибку? Выдeлите фрагмент и отправьте нажатием Ctrl+Enter.

Поделиться в соцсетях

По теме