Ученые придумали алгоритм вычисления заведомо ложных твитов

Опубликовано 18 дек. ‘12 01:21

Текст: Георгий Орлов /Infox.ru

Понравилось?
Поделитесь с друзьями!

Трио ученых представило доклад с описанием универсальной методики, которая позволяет определять сообщения в Twitter, несущие заведомо недостоверную информацию.

Администрация сети микроблогов Twitter определяет свой ресурс не как социальную, а как информационную сеть, и это неоднократно подтверждалось на практике. По данным французской компании Semiocast, на август 2012 года общее число пользователей Твиттера составляло полмиллиарда, при столь объемной аудитории и эффективной технической базе информация по сети действительно распространяется молниеносно. Очень часто сообщения о наиболее важных событиях в мире появляются сначала в Twitter, и только после этого о них докладывают профессиональные СМИ, даже самые оперативные. В этой связи особенно актуальным становится вопрос о достоверности информации, которая распространяется через сеть микроблогов.

Трио ученых, Карлос Кастильо (Carlos Castillo), Марсело Мендоса (Marcelo Mendoza) и Барбара Поблете (Barbara Poblete) разработали универсальную методику определения заведомо недостоверных твитов. В основу методики легли очевидные критерии, по которым можно оценить автора на любом ресурсе социальных медиа. Так, сообщение с высокой долей вероятности является достоверным, если его публикует широко известный источник с большим числом подписчиков, если само сообщение достаточно длинное в пределах отпущенного лимита и, к примеру, содержит в себе URL-ссылку. Важным аспектом является также язык сообщения, вопросительные и восклицательные знаки, а также местоимения первого и третьего лица, обилие которых указывает на то, что этому твиту не стоит доверять.

На основе разработанных критериев авторы проекта построили алгоритм, который с 86-процентной вероятностью производит оценку достоверности каждого отдельно взятого твита. Разумеется, отмечают журналисты Gizmodo, это не стопроцентная уверенность, однако нечто существенно большее, чем интуитивная догадка 50 на 50. Кроме того, профессиональный лингвист вполне может провести фундаментальный семантический анализ сообщения, однако автоматический алгоритм может провести оценку большого числа твитов в считанные минуты и предложить свои выводы.