Предсказание того, какие темы будут развиваться в Twitter

Новый алгоритм предсказывает, какие темы в Twitter будут отслеживать часы заранее и предлагает новую методику анализа данных, которые со временем меняются.

Домашняя страница Twitter содержит регулярно обновляемый список тем, которые являются «тренд», что означает, что твиты о них внезапно взорвались по объему. Позиция в списке очень желанна как источник бесплатной рекламы, но выбор тем автоматически, на основе запатентованного алгоритма, который влияет как на количество твитов, так и на недавнее увеличение этого числа.

На Междисциплинарном семинаре по информации и принятию решений в социальных сетях в Массачусетском технологическом институте в ноябре доцент Деваврат Шах и его ученик Станислав Николов представят новый алгоритм, который с 95-процентной точностью может прогнозировать, какие темы будут иметь тенденцию в среднем на час и до того, как алгоритм Twitter превратит их в список, а иногда и четыре или пять часов раньше.

Предсказание того, какие темы будут развиваться в Twitter

Алгоритм может представлять большой интерес для Twitter, который может взимать премию за рекламу, связанную с популярными темами, но также представляет собой новый подход к статистическому анализу, который теоретически может применяться к любому количеству, которое меняется со временем: продолжительность поездка на автобусе, продажа билетов на фильмы, а может быть, и цены на акции.

Как и все алгоритмы машинного обучения, Шаху и Николову нужно «обучать»: он расчесывает данные в наборе образцов — в этом случае данные о темах, которые ранее делали и не тренда, — и пытается найти осмысленные шаблоны. Что отличает его, так это то, что оно непараметрическое, что означает, что он не делает предположений о форме узоров.

Пусть данные решат

В стандартном подходе к машинным обучению, объясняет Шах, исследователи будут позиционировать «модель» — общую гипотезу о форме шаблона, специфика которого должна быть выведена. «Вы сказали бы:« Серия тренда вещей … остается маленькой в ​​течение некоторого времени, а затем есть шаг », — говорит Шах, адъюнкт-профессор по развитию карьеры Джеймисона в отделе электротехники и информатики. «Это очень упрощенная модель. Теперь, основываясь на данных, вы пытаетесь тренироваться, когда происходит прыжок, и сколько происходит прыжок.

«Проблема с этим заключается в том, что я не знаю, что у этой тенденции есть функция шага», объясняет Шах. «Есть тысяча вещей, которые могут произойти». Поэтому вместо этого он говорит, что он и Николов «просто позволяют данным решать».

В частности, их алгоритм сравнивает изменения во времени в количестве твитов о каждой новой теме с изменениями со временем каждого образца в обучающем наборе. Образцам, статистика которых напоминает те, которые относятся к новой теме, дают больший вес при прогнозировании тенденции новой тенденции. В сущности, объясняет Шах, каждый образец «голосует» за то, будет ли новая тема тренда, но голоса некоторых образцов считаются больше, чем другие ». Затем взвешенные голоса объединяются, что дает вероятностную оценку вероятности изменения новой темы.

В экспериментах Шаха и Николова учебный набор состоял из данных по 200 темам Twitter, которые делали тренд, а 200 — нет. В режиме реального времени они устанавливают свой алгоритм на живых твитах, прогнозируя тренд с 95-процентной точностью и 4-процентным ложноположительным курсом.

Шах предсказывает, однако, что точность системы будет улучшаться по мере увеличения размера учебного набора. «Наборы для обучения очень малы, — говорит он, — но мы все равно получаем сильные результаты».

Удержание

Конечно, чем больше набор тренировок, тем выше вычислительная стоимость исполнения алгоритма Шаха и Николова. Действительно, по словам Шаха, сдерживание вычислительной сложности является причиной того, что алгоритмы машинного обучения обычно используют в первую очередь параметрические модели. «Наши расчеты масштабируются пропорционально данным», — говорит Шах.

Но в Интернете он добавляет, что объем вычислительных ресурсов также зависит от данных: поскольку Facebook или Google добавляют клиентов, они также добавляют серверы. Таким образом, алгоритм его и Николова сконструирован таким образом, что его выполнение можно разделить между отдельными машинами. «Это отлично подходит для современных вычислительных систем», — говорит Шах.

В принципе, говорит Шах, новый алгоритм может быть применен к любой последовательности измерений, выполняемых через регулярные интервалы. Но корреляция между историческими данными и будущими событиями не всегда может быть столь же четкой, как в случае сообщений Twitter. Для фильтрации всего шума в исторических данных могут потребоваться такие огромные обучающие наборы, что проблема становится вычислительно неразрешимой даже для широко распространенной программы. Но если можно определить правильный поднабор данных обучения, Шах говорит: «Это сработает».

«Люди идут на сайты соц-медиа, чтобы узнать, что происходит сейчас, — говорит Ашиш Гоэль, доцент кафедры менеджмента в Стэнфордском университете и член технического совета Twitter. «В этом смысле ускорение процесса — это то, что очень полезно». Из непараметрического подхода исследователей Массачусетского технологического института, говорит Гоэль, «очень полезно использовать сами данные, чтобы выяснить, какие тенденции выглядят. Это довольно творческий и довольно своевременный и, надеюсь, весьма полезный ».»