Обнаружение фейковых новостей в Интернете - Detecting fake news online

Обнаружение фальшивые новости онлайн важен в современном обществе, так как свежий новостной контент быстро создается в результате обилия имеющихся технологий. В мире фальшивых новостей существует семь основных категорий, и в каждой категории фальшивый новостной контент может быть визуальным и / или лингвистическим. Чтобы обнаружить фейковые новости, как лингвистические, так и неязыковые сигналы можно анализировать с помощью нескольких методов. Хотя многие из этих методов обнаружения фейковых новостей в целом успешны, у них есть некоторые ограничения.

Предпосылки и последствия обнаружения фейковых новостей

Обнаружение фейковых новостей

С развитием технологий цифровые новости становятся все более доступными для пользователей во всем мире и способствуют увеличению их распространения. мистификации и дезинформация в Интернете. Поддельные новости можно найти на популярных платформах, таких как социальные сети и Интернет. Было предпринято множество решений и попыток обнаружения фейковых новостей там, где они даже работают с искусственный интеллект инструменты. Однако фейковые новости призваны убедить читателя поверить в ложную информацию, которая делает эти статьи трудными для восприятия. Скорость создания цифровых новостей велика и высока, она выполняется ежедневно каждую секунду, поэтому машинному обучению сложно эффективно обнаруживать фейковые новости.^[1]

Последствия обнаружения фейковых новостей

В рассуждениях о невозможности обнаружить фальшивые новости мир больше не будет иметь никакой ценности в действительности. Фальшивые новости прокладывают путь для обмана других и продвижения идеологий. Эти люди, которые предоставляют неверную информацию, получают выгоду, зарабатывая деньги на количестве взаимодействий с их публикациями. Распространение дезинформации преследует различные цели, в частности, добиться одобрения на политических выборах, в отношении бизнеса и товаров, совершаемых из злости или мести. Люди могут быть легковерными, и фейковые новости сложно отличить от обычных новостей. На большинство из них легко повлиять, особенно если вы делитесь друзьями и семьей благодаря отношениям и доверию. Мы склонны основывать свои эмоции на новостях, поэтому их несложно принять, когда они актуальны, а нашу позицию - исходя из наших собственных убеждений. Поэтому мы удовлетворяемся тем, что хотим услышать, и попадаем в эти ловушки.^[2]

Типы фейковых новостей

Поддельные новости появляются в разных формах, и примеры их функций: щелчок приманка, пропаганда, сатира или же пародия, небрежная журналистика, вводящие в заблуждение заголовки и предвзятые или наклонные новости. По словам Клэр Уордл из Первые черновики новостей, есть семь типов фейковых новостей.^[3]

Семь типов

Типы фейковых новостей	Описание
Сатира или пародия	Одним из выявленных типов фейковых новостей является сатира или пародия, когда информация может ввести в заблуждение и может быть неверно истолкована как факт. Это не обязательно причиняет вред, поскольку для насмешек и использования сарказма требуются истории из новостных источников. Пародии сосредоточены на содержании и предназначены исключительно для развлекательных целей.^[4]
Ложное соединение	Ложная связь очевидна, когда заголовки, изображения или подписи не поддерживают содержание. Новости, основанные на плохой журналистике с несвязанными атрибутами, для привлечения внимания и использования для получения прибыли. Например, если вы читаете заголовок, в котором говорится о смерти знаменитости, но при нажатии на ссылку, содержание всей статьи не упоминает знаменитость.
Вводящий в заблуждение контент	Вводящий в заблуждение контент - это тип фейковых новостей, которые используют информацию для сформулировать проблему или физическое лицо. Популярная форма новостей, используемая политиками для подавления своих оппонентов, делая ложные заявления, возможно, с долей правды.
Ложный контекст	Ложный контекст включает в себя ложную контекстную информацию, которая распространяется вокруг подлинного контента.
Контент самозванца	Контент-самозванец происходит из ложного или выдуманного источника, который выдает себя за настоящий источник новостей.
Манипулируемый контент	Манипулируемый контент представляет подлинную информацию или образы, но обманывает, чтобы рассказать другую историю.
Сфабрикованный контент	Новый и полностью сфабрикованный контент, который на 100% является ложным с целью обмана и причинения вреда.

Типы данных в фейковых новостях

Визуальный

Визуальный тип фейковых новостей использует контент, который объединяет несколько форм мультимедиа, включая графическое представление, такое как Фотошоп изображения и видео. Визуальные новости, привлекающие внимание зрителей, в основном публикуются на таких платформах, как социальные сети и сайты СМИ. Facebook, Instagram и Twitter являются популярными примерами часто используемых социальных сетей для публикации и обмена онлайн-контентом, которые распространяются среди многих других пользователей. Более 70% пользователей используют их в качестве ежедневных источников новостей, чтобы получать самые свежие и самые быстрые обновления. Медиа-сайты управляются контент-медиа-компаниями, и их контент ориентирован на широкий спектр визуальных эффектов, а дизайн сайтов зависит от стиля и интересов пользователя. ^[5]

На основе лингвистики

Лингвистический Тип фейковых новостей представляет собой текст или строковое содержание и обычно анализируется лингвистикой текста. Его содержание в основном сосредоточено на тексте как системе коммуникации и включает такие характеристики, как тон, грамматика и прагматика это позволяет анализ речи. Примерами лингвистических платформ являются блоги, сайты электронной почты и новостные сайты. Сайты блогов управляются пользователями, а создаваемый контент не контролируется, что позволяет легко получить неверную информацию. Электронная почта - это еще одно средство, с помощью которого пользователи могут получать новости, и это создает проблему для обнаружения и проверки их подлинности. Известно, что через электронные письма распространяются мистификации, спам и нежелательная почта. Популярные новостные сайты также могут создавать собственный контент и привлекать пользователей своим подлинным присутствием.^[5]

Особенности обнаружения фейковых новостей

Характеристики фейковых новостей извлекаются из источника, заголовка, основного текста, визуального контента и социальной активности авторов.

Лингвистические подсказки

Представление данных

Подход «мешка слов» оценивает отдельные слова как единую значимую единицу. Частота каждого слова (или н-граммы ) частота, а частоты агрегируются и анализируются на наличие ложных сигналов. Проблема этого подхода в том, что он зависит от языка. Это зависит от отдельных n-граммов, которые обычно анализируются отдельно от полезной контекстной информации. ^[6]

Особенности психолингвистики

В LIWC (лингвистический запрос и подсчет слов) lexicon можно использовать для извлечения подходящих пропорций слов, которые, в свою очередь, помогут в извлечении психолингвистический Особенности. Это позволяет системе «определять тон языка (например, положительные эмоции, процесс восприятия и т. Д.), Статистику текста (например, количество слов) и часть речи категория (например, статьи, глаголы) »LIWC - полезный инструмент, поскольку он может« кластеризовать отдельные категории LIWC в несколько наборов функций, таких как итоговые категории (например, аналитическое мышление, эмоциональный тон), лингвистические процессы (например, служебные слова, местоимения) и психологические процессы (например, эффективные процессы, социальные процессы) ».^[5]

Читаемость

Правдивость содержания можно оценить, проанализировав его читаемость. Это включает в себя выбор функций контента, таких как количество символов, сложных слов, количество слогов и типов слов, среди многих других, что позволяет пользователям выполнять такие показатели удобочитаемости, как Флеш-Кинкейд, Flesch Reading Ease, Грязный туман, а Индекс автоматической читаемости (ARI).^[5]

Дискурс

Используя анализ дискурса, можно оценить правдивость содержания статьи. В Теория риторической структуры (RST) аналитическая структура может использоваться для точного определения риторические отношения между компонентами лингвистики. Различия между честным и нечестным контентом с точки зрения согласованности и структуры можно оценить вместе с помощью Векторная модель пространства (VSM). Положение отдельного контента в многомерном пространстве RST можно оценить с точки зрения его удаленности от правды и обмана. Явное использование определенных риторических отношений может указывать на обман. Однако, хотя есть инструменты для автоматической классификации риторических отношений, они еще не использовались официально в качестве инструмента оценки правдивости. ^[6]

Глубокий синтаксис

Более глубокие языковые структуры, также известные как синтаксис, анализируются на предмет обмана. «Особенности, основанные на контекстно-свободная грамматика (CFG) выбраны, и эти функции во многом зависят от лексикализованных производственных правил, которые сочетаются с их родительскими и дедушками. узлы ». Проблема в том, что синтаксический анализ сам по себе может быть не лучшим средством обнаружения обмана, поэтому он обычно используется в сочетании с другими методами лингвистического или сетевого анализа.^[6]

Семантический анализ

Правдивость контента можно оценить, проанализировав совместимость контента и профиля, из которого он создан. Этот подход является расширением подходов к анализу n-грамм и синтаксиса. Во-первых, обман можно определить по противоречиям или упущению фактов, которые присутствовали в предыдущих публикациях пользователя на похожие темы. Например, для обзора продукта правдивый обзор, скорее всего, будет написан писателем, который делает аналогичные замечания о характеристиках продукта, которые будут комментировать большинство рецензентов. Во-вторых, обман также можно обнаружить через контент, извлеченный из ключевых слов, который содержит пару атрибут: дескриптор. Профили и описание опыта автора сопоставляются, и достоверность описанного контента оценивается путем оценки баллов совместимости - совместимости контента с наличием отдельного аспекта и общего аспекта того, что он на самом деле описывает. Этот подход предсказывает ложь примерно с 91% точности. Показано, что этот подход является ценным в контексте обзоров, но в настоящее время он эффективен только в этой области. Проблема заключается в способности определить выравнивание атрибутов: дескриптор, поскольку это зависит от объема содержимого профилей и точности связанных атрибутов с дескрипторами.^[6]

Неязыковые подсказки

Визуальный

Визуальные подсказки преобладают во всех типах новостного контента. Достоверность визуальных элементов, таких как изображения и видео, оценивается с использованием визуальных функций, таких как четкость, согласованность, разнообразие, оценка кластеризации и гистограмма распределения сходства, а также статистических функций, таких как количество, изображение, несколько изображений, горячее изображение и соотношение длинных изображений. и Т. Д.^[7]

Сеть

Подход связанных данных
Подход связанных данных использует текущий набор человеческих знаний для оценки правдивости новых утверждений. Он основан на запросах доступных сетей знаний и публично структурированных данных, таких как DBpedia Онтология или Google Relations Extraction Corpus (GREC). Эта система работает так: чем ближе узел, представляющий новое утверждение, к узлу, представляющему существующие фактические утверждения, тем больше вероятность того, что новое утверждение истинно. Проблема в том, что утверждения должны быть найдены в уже существующем банке знаний.^[6]

Настроения

Настроения основан на непреднамеренном, осужденном или эмоциональном состоянии. Синтаксические шаблоны содержания может быть оценено для выявления эмоций на основе фактических аргументов путем анализа шаблонов классов стилей аргументации. Фальшивые отрицательные рецензенты использовали чрезмерные термины отрицательных эмоций по сравнению с честными, поскольку они пытались преувеличить определенное чувство, которое они пытались выразить.^[6]

Особенности социального контекста^[7]

Функции социального контекста могут быть извлечены из социальных взаимодействий пользователя на платформах социальных сетей. Он раскрывает процесс распространения, что дает дополнительную информацию, свидетельствующую о ее достоверности. Характеристики социального контекста можно оценить в трех аспектах: на основе пользователей, публикаций и сетей.

На основе пользователей
Было высказано предположение, что фейковые новости с большей вероятностью будут создаваться и распространяться социальные боты или же киборги. Анализируя взаимодействие пользователя с новостями в социальных сетях, можно определить и охарактеризовать пользовательские особенности социального контекста. Функции индивидуального уровня подразумевают доверие и надежность каждого пользователя. Извлекается такая информация, как возраст регистрации, количество подписчиков / подписчиков и авторские твиты. Функции на уровне группы фиксируют общие характеристики групп пользователей, связанных с новостями. Распространители новостей могут образовывать сообщества с определенными характеристиками. Используется такая информация, как процент проверенных пользователей и подписчиков.

Пост-основанный
Эмоции и мнения о фейковых новостях через сообщения в социальных сетях можно анализировать. Функции на основе постов могут использоваться для идентификации фейковых новостей по реакции, выраженной в посте. Функции пост-уровня анализируют лингвистические функции, которые могут применяться для определения уникальных особенностей каждого поста. Специальные функции включают позиция, тема и достоверность. Позиция раскрывает мнение пользователя о новостях. Тема извлекается с использованием тематических моделей, таких как скрытое размещение Дирихле (LDA). Достоверность оценивает степень надежности. Функции на уровне группы объединяют значение функции для всех соответствующих сообщений для новостных статей, использующих мудрость толпы.Temporal level features отслеживает временные вариации значения функции пост-уровня. Он использует неконтролируемые методы встраивания, такие как рекуррентная нейронная сеть (RNN) для отслеживания изменений в сообщении с течением времени.

Социальный сетевой подход
Пользователи создают сети на основе своих интересов, тем и отношений. Фальшивые новости распространяются как эхо-камера цикл; он определяет ценность извлечения сетевых функций для представления сетевых шаблонов для обнаружения фальшивых новостей. Сетевые функции извлекаются путем создания определенных сетей среди пользователей, которые написали соответствующие сообщения в социальных сетях. В случае Twitter сеть позиций построена с узлами, которые показывают твиты, связанные с новостями. Края показывают схожесть стоек. В Сеть совместного возникновения зависит от вовлеченности пользователей. Учитывались сообщения пользователя, относящиеся к тем же новостным статьям. Сеть дружбы показывает структуру между подписчиками и связанными твитами подписчиков. Расширением сети дружбы является сеть распространения, которая отслеживает траекторию распространения новостей. Узлы представляют пользователей, а грани представляют собой путь распространения информации между ними. Эта сеть существует только в том случае, если оба пользователя подписаны друг на друга и первый пользователь публикует новости после того, как второй пользователь делает это.

Методы обнаружения

Глубокий синтаксический анализ

Глубокий синтаксис можно проанализировать с помощью Вероятностная контекстно-свободная грамматика (PCFG). Структуры синтаксиса описываются путем преобразования предложений в деревья синтаксического анализа. Существительные, глаголы и т. Д. Переписываются в их синтаксические составные части. Вероятности присваиваются дерево синтаксического анализа. Этот метод определяет категории правил, например лексикализация и родительские узлы и т.д. Он обнаруживает обман с точностью 85-91%, в зависимости от категории, используемой в анализе.^[8]

Пути распространения

Предложена модель обнаружения фейковых новостей в социальных сетях путем классификации путей распространения новостей. Путь распространения каждой новости моделируется как многомерный. Временные ряды - Каждый кортеж указывает характеристики пользователя, который участвует в распространении новости. Классификатор временных рядов построен с использованием повторяющихся и сверточных сетей для предсказания правдивости новостей. Рекуррентные и сверточные сети способны изучать глобальные и локальные вариации нижних характеристик, которые, в свою очередь, помогают характеризовать ключи для обнаружения фальшивых новостей. ^[9] Кластеризация методы на основе могут быть использованы для обнаружения фейковых новостей с вероятностью успеха 63% за счет классификации фейковых и реальных новостей. Принцип работы кластеризации заключается в том, что большое количество данных подается на машину, которая содержит алгоритм, который создаст небольшое количество кластеров через агломерационная кластеризация с k-ближайший сосед подход. Этот подход «группирует похожие новостные сообщения на основе нормализованной частоты отношений», и после того, как были вычислены центры кластеров настоящих и фальшивых новостей, эта модель способна установить обманчивую ценность новой статьи на основе принципа координатных расстояний, где ее Евклидовы расстояния для центров кластеров настоящих и фальшивых новостей. Однако проблема этого подхода заключается в том, что он может быть менее точным при применении к фальшивым новостным статьям, которые являются относительно новыми, поскольку аналогичные наборы новостных историй могут быть еще недоступны.^[6]

Методы на основе прогнозного моделирования

Обнаружение фейковых новостей также может быть достигнуто с помощью методов, основанных на прогнозном моделировании. Один тип был бы логистическая регрессия модель. В этой модели положительные коэффициенты увеличивают вероятность истины, в то время как отрицательные увеличивают вероятность обмана. «Авторы утверждали, что индикаторы регрессии, такие как Disjunction, Purpose, Restatement и Solutionhood, указывают на истину, а индикатор регрессии Condition указывает на обман».^[5]

Проверка фактов

Проверка фактов - это форма «изучения фальшивых новостей на основе знаний», которая направлена на оценку правдивости новостей. Существует два типа проверки фактов: ручная и автоматическая.^[10]

Ручная проверка фактов

Процесс ручной проверки фактов выполняется людьми и может выполняться как экспертами, так и обычными людьми.

На основе экспертов
Этот метод зависит от профессионалов в проверка фактов поле, также называемое проверкой фактов, для проверки подлинности определенного новостного содержания. Обычно это делают несколько, но очень надежных специалистов по проверке фактов. Этот подход относительно прост в применении и к тому же очень точен. Однако недостатками этого метода являются то, что он дорогостоящий, и система, вероятно, будет перегружена по мере увеличения количества проверяемого новостного контента.

Краудсорсинг
Этот альтернативный тип проверки фактов требует наличия огромной группы нормальных людей, выполняющих функции проверки фактов. Эту форму проверки фактов не так просто провести, и результаты, вероятно, будут менее надежными и точными из-за предвзятости проверщиков фактов, а также возможных противоречий между ними в аннотациях новостного контента. Однако по сравнению с экспертной проверкой фактов это менее вероятно. краудсорсинг система проверки фактов будет перегружена, когда объем новостного контента, подлежащего аутентификации, возрастет. В этом типе проверки фактов важно отсеивать ненадежных пользователей и сглаживать любые результаты, которые могут противоречить друг другу. Эти опасения станут еще более серьезными по мере увеличения числа проверяющих фактов. Тем не менее, люди, которые проверяют факты на этих краудсорсинговых сайтах, имеют больше возможностей для предоставления более исчерпывающих отзывов, в том числе их отношения или мнения.

Автоматическая проверка фактов

Большая проблема с ручной проверкой фактов заключается в том, что системы легко перегружаются растущим количеством свежего новостного контента, который необходимо проверять, что очень распространено в случае социальных сетей. Следовательно, для решения этой проблемы были созданы методы автоматической проверки фактов. Эти подходы в основном зависят от «Поиск информации (IR) и Обработка естественного языка (НЛП), а также сеть /теория графов Методы автоматической проверки фактов обычно состоят из двух этапов: извлечения фактов и проверки фактов. Фактически, извлечение, также известное как построение базы знаний, знания берутся из Интернета в виде «сырых фактов» и обычно не являются необходимыми, устаревшими, противоречивыми, неточными или неполными. Затем они будут уточнены и очищены с помощью «задач обработки знаний для построения базы знаний или графа знаний». Во-вторых, проверка фактов, также известная как сравнение знаний, проводится для оценки достоверности содержания новостей. Это достигается путем сопоставления знаний, взятых из новостного контента, который необходимо проверить, с фактами, содержащимися в текущей «базе знаний или граф знаний (s) ».

Стратегии обнаружения обмана^[10]

Стратегии обнаружения обмана относятся к «изучению фейковых новостей на основе стиля» и в основном направлены на выявление фейковых новостей по их стилю. Популярная стратегия для обнаружения обмана на основе стиля использует «вектор признаков, представляющий стиль содержания данной информации в рамках машинного обучения», чтобы определить, является ли информация ложной, что требует классификации, или насколько она обманчива, что вызывает для регресса.

Обнаружение фейковых новостей на основе распространения^[10]

Обнаружение на основе распространения анализирует распространение фейковых новостей.

Каскадное обнаружение фейковых новостей

Дерево или древовидная структура часто используется для представления каскада фейковых новостей. Показывает распространение пользователями фейковых новостей в социальных сетях. Корневой узел представлен пользователем, который публикует фейковые новости. Остальные узлы представляют пользователей, которые впоследствии распространяют новости путем их пересылки или публикации. Каскад представлен в виде количества шагов, пройденных фальшивыми новостями, который известен как каскад фейковых новостей на основе прыжков, или количества раз, когда они были опубликованы, что известно как каскад фейковых новостей на основе времени. Каскад фейковых новостей на основе прыжков часто представляет собой стандартное дерево, состоящее из таких параметров, как глубина, которая представляет собой максимальное количество сделанных шагов (прыжков), ширина, которая представляет собой количество пользователей, получивших фальшивую новость после ее публикации. , и размер - общее количество пользователей, представленных в каскаде. Каскад фейковых новостей, основанный на времени, часто представлен древовидной структурой, состоящей из параметров, таких как время жизни, которое является самым длинным интервалом для распространения фейковых новостей, и тепловыделение в реальном времени, которое представляет собой количество пользователей, пересылающих и репостивших фальшивые новости. новости в момент времени t и общее количество пользователей, которые перенаправили или повторно разместили фальшивые новости.

Использование ядер графов для анализа каскадного подобия
Сходство между новостными каскадами может быть вычислено с помощью ядра графа и используется в контролируемое обучение framework как функция для обнаружения фейковых новостей. Гибрид на основе графического ядра опорных векторов машина (СВМ) был предложен классификатор, который будет записывать шаблоны распространения высокого порядка (т.е. каскадное сходство) в дополнение к таким функциям, как темы и настроения. Роли пользователей (например, лидер мнений или обычный пользователь), оценки одобрения, настроений и сомнений оцениваются дополнительно. Если предположить, что каскады фейковых новостей отличаются от каскадов реальных новостей, случайная прогулка (RW) графовое ядро kRW (·, ·) использовалось для обнаружения фейковых новостей путем вычисления разницы в расстоянии между двумя каскадами.

Использование каскадных представлений
Информативные представления каскадов могут быть полезны как функции в рамках контролируемого обучения. Помимо использования функциональной инженерии, которая не является автоматической, обучение представлению, которое часто достигается за счет глубокого обучения, также может использоваться для представления каскада. Глубокое обучение путем создания древовидной нейронной сети, рекурсивная нейронная сеть (RNN), была использована в соответствии с каскадами фейковых новостей. Этот метод может автоматически представлять новости, которые необходимо проверить. Однако, поскольку глубина каскада эквивалентна глубине нейронной сети, это будет сложно, поскольку методы глубокого обучения чувствительны.

Обнаружение фейковых новостей по сети

Гибкие сети могут быть построены путем обнаружения фейковых новостей на основе сети, чтобы косвенно фиксировать распространение фейковых новостей. Сети могут быть однородными, разнородными или иерархическими.

Однородная сеть
Однородные сети содержат 1 тип узла и 1 тип край. Сеть позиций - это классическая однородная сеть, в которой узлы представляют сообщение пользователя, связанное с новостями, а края представляют собой положительную или отрицательную связь между сообщениями. Он оценивает правдивость сообщений, связанных с новостями.

Гетерогенная сеть
Гетерогенные сети состоят из узлов и ребер нескольких типов. Обычно это гибридная структура, состоящая из трех компонентов - представления и встраивания сущности, моделирования отношения и полу-контролируемое обучение. Одним из примеров может быть сеть трех отношений между издателями новостей, новостными статьями и распространителями новостей.

Иерархическая сеть
Иерархические сети состоят из узлов и ребер различных типов, которые образуют отношения «множество-подмножество» (то есть иерархию). Проверка новостей превращена в задачу оптимизации графа в этой сети.

Изучение фейковых новостей на основе достоверности^[10]

Этот подход рассматривает фальшивые новости «на основе информации, относящейся к новостям и социальным сетям. Например, интуитивно понятно, что новостная статья, опубликованная на ненадежных веб-сайтах и пересылаемая ненадежными пользователями, с большей вероятностью будет фальшивой новостью, чем новостью, опубликованной авторитетными и заслуживающими доверия пользователями ». Другими словами, этот подход фокусируется на источнике новостного контента. Таким образом, оценка достоверности изучения фальшивых новостей обычно совпадает с изучением фальшивых новостей на основе пропаганды.

Оценка достоверности заголовков новостей

Этот метод обычно вращается вокруг идентификации кликбейт, которые представляют собой заголовки, которые призваны привлечь внимание пользователей и побудить их щелкнуть ссылку на определенную веб-страницу. Существующие исследования по обнаружению кликбейтов используют как «лингвистические функции, такие как частота терминов, удобочитаемость и прямые ссылки, так и нелингвистические функции, такие как как ссылки на веб-страницы ».^[11] «Интересы пользователя», «и позиция заголовка» «в рамках контролируемой структуры обучения, такой как деревья решений с градиентным усилением», «для выявления или блокировки кликбейтов». Эмпирические исследования показали, что кликбейты обычно определяются «количественным числом, удобочитаемостью, сильным существительные и прилагательные, чтобы передать авторитет и сенсационность »

Оценка достоверности источника новостей

Этот подход обычно рассматривает «качество, надежность и политическую предвзятость исходных веб-сайтов», чтобы оценить качество и надежность новостного контента.

Оценка достоверности комментариев к новостям

Достоверность новостного контента также можно оценить по достоверности связанных с ним комментариев. «Комментарии пользователей на новостных веб-сайтах и в социальных сетях несут бесценную информацию об их позициях и мнениях», хотя их очень часто упускают из виду. Существует несколько моделей, которые можно использовать для оценки достоверности комментариев, и их можно разделить на три типа: на основе контента, поведения и графа (сети).

Контентные модели
Эти модели оценивают надежность комментариев, используя языковые особенности, взятые из пользовательских комментариев, и применяемую ими стратегию можно сравнить со стратегией обнаружения фальшивых новостей на основе стиля.

Модели, основанные на поведении
В этих моделях часто используются «признаки ненадежных комментариев, извлеченные из метаданных, связанных с поведением пользователя». Если посмотреть на обзорные исследования по обнаружению спама, эти связанные поведенческие атрибуты можно разделить на пять категорий, а именно: периодичность, активность, своевременность, сходство и крайность.

Графические модели
Наконец, эти модели фокусируются на отношениях между рецензентами, комментариями, продуктами и так далее. Для оценки надежности комментариев к новостям в графических моделях часто используется «Вероятностные графические модели (PGM), алгоритмы веб-ранжирования и центральность меры, или матричное разложение техники ».

Оценка надежности распространителя новостей

Наконец, достоверность новостного контента также можно оценить, посмотрев на пользователей, которые распространяют конкретный новостной контент, и оценив их надежность. Пользователи являются жизненно важной частью распространения ложных новостей, поскольку они могут распространять поддельные новости различными способами, такими как совместное использование, пересылка, лайкание и просмотр. В этом процессе пользователей можно разделить на два типа: злоумышленники, которые обычно имеют низкую надежность и обычные пользователи, которые обычно имеют более высокую надежность. Вредоносные пользователи намеренно распространяют ложные новости в поисках денежных и / или неденежных выгод, таких как власть и популярность. Эту группу пользователей можно разделить на три категории. Во-первых, боты - это программные приложения, «запускающие автоматизированные задачи или сценарии через Интернет». Во-вторых, тролли - это люди, которые препираются или раздражают других пользователей с целью отвлечь и разрушить отношения между людьми. Обычно они делают это, публикуя провокационные, отвлекающие или нерелевантные сообщения, чтобы побудить других пользователей ответить с сильным эмоциональным содержанием. Последняя категория - это киборги, которые представляют собой учетные записи, зарегистрированные людьми в качестве прикрытия для запуска «автоматических программ, выполняемых онлайн. Напротив, наивные пользователи - это постоянные пользователи, которые непреднамеренно участвуют в распространении ложных новостей, поскольку они неверно истолковывают ложные новости за правду. Были изучены два основных фактора, которые могут помочь объяснить, почему наивные пользователи могут участвовать в распространении фейковых новостей. Первый фактор - это социальное влияние, которое «относится к экологическим и экзогенным факторам, таким как структура сети или давление со стороны сверстников, которые могут влиять на динамику фейковых новостей». Об этом свидетельствует « побочный эффект, нормативная теория влияния и теория социальной идентичности », Который показывает, что« давление со стороны сверстников психологически влияет на поведение пользователей в отношении действий, связанных с фальшивыми новостями ». Второй фактор - это самовлияние. Это относится к внутренним характеристикам пользователей, которые могут влиять на то, как они реагируют на ложные новости или обрабатывают их. Например, согласно Подтверждение смещения и наивный реализм пользователи с большей вероятностью поверят в лживые новости или будут участвовать в связанных с ними действиях, если они подтвердят их ранее существовавшие знания.

Анализ аккаунта

Была обнаружена достоверность событий Твиттера путем создания набора данных твитов, относящихся к актуальным темам. Используя краудсорсинг, они аннотировали наборы данных относительно правдивости каждого твита. 4 характеристики, а именно сообщение, пользователь, тема и распространение, были проанализированы с использованием модели дерева решений. Этот метод обеспечил точность 86%. Беневуто и др.^{[нужна цитата ]} придумал модель, которая обнаруживает спамеров, создавая вручную аннотированный набор данных из 1000 записей спамовых и не спамовых учетных записей. Атрибуты содержания и поведения пользователей были извлечены и проанализированы. Этот метод успешно обнаружил 70% спам-аккаунтов и 96% не-спам-аккаунтов. Чу и др.^{[нужна цитата ]} разработали аналогичную модель обнаружения, которая распознала учетные записи ботов. Были разделены на 3 группы - люди, боты и киборги. Система была построена с 4 функциями анализа, а именно: энтропийные меры, обнаружение спама, свойства учетной записи и принятие решений. Этот метод успешно идентифицировал «человеческий» класс с точностью 96%. ^[12]

Надстройки браузера

Плагины браузера может обнаруживать обманчивый контент, такой как приманка для кликов, предвзятость, теория заговора и наука о мусоре на веб-сайтах социальных сетей. Одним из примеров является «Детектор фейковых новостей», который использует технику машинного обучения для сбора набора достоверных данных. Кроме того, мудрость толпы используется для улучшения и обучения программе. Другой пример надстройки для браузера был создан четырьмя студентами колледжа во время хакатона Принстонского университета. Эта система в режиме реального времени анализирует фид пользователя и уведомляет пользователя о размещении или совместном использовании любого потенциально ложного контента путем анализа ключевых слов, изображений и источников. ^[12]

Ограничения обнаружения фейковых новостей

Фальшивые новости - это не что-то новое, однако, поскольку технологии развиваются и развиваются с течением времени, обнаружение фальшивых новостей также становится все более сложной задачей, поскольку социальные сети продолжают доминировать в нашей повседневной жизни и, следовательно, ускоряют скорость распространения фальшивых новостей. ^[13] В недавнем исследовании, опубликованном журналом Science, он проанализировал миллионы твитов, отправленных в период с 2006 по 2017 год, и обнаружил, что: «Ложь распространилась значительно дальше, быстрее, глубже и шире, чем правда во всех категориях информации». Он также пришел к выводу, что «правде в шесть раз больше, чем лжи, чтобы достичь 1500 человек». Кроме того, помимо чистой скорости распространения фейковых новостей, их еще сложнее обнаружить просто из-за того, насколько привлекательными являются наиболее фальшивые новостные статьи имеют название. Та же самая газета Science показала, что ответы на ложные новостные твиты содержали больше выражений удивления или отвращения, чем истинные новости. ^[14]

Ограничения меток и методов на основе функций^[15]

Разнообразие лингвистических реплик подразумевает, что новый набор реплик должен быть разработан для предполагаемой ситуации, что затрудняет обобщение методов конструирования реплик и признаков для различных тем и областей. Таким образом, такие подходы потребуют большего участия человека в процессе проектирования, оценки и использования этих сигналов для обнаружения.

Ограничения методов лингвистического анализа^[15]

Хотя этот метод часто считается лучше, чем методы на основе реплик, он, к сожалению, все еще не извлекает и не использует в полной мере богатую семантическую и синтаксическую информацию из контента. Например: подход N-граммы прост, однако он не может моделировать более сложные контекстные зависимости текста. Синтаксические особенности, используемые по отдельности, также менее эффективны, чем н-граммы, основанные на словах, и их поверхностное сочетание не будет эффективным для выявления сложной взаимозависимости.

Ограничения метода, основанного на глубоком обучении^[15]

Обнаружение фейковых новостей по-прежнему является проблемой даже для таких методов глубокого обучения, как Сверточная нейронная сеть (CNN), рекуррентная нейронная сеть (RNN) и т. Д., Потому что содержание фейковых новостей спланировано так, чтобы оно было похоже на правду, чтобы обмануть читателей; а без перекрестных ссылок и проверки фактов часто бывает трудно определить достоверность только с помощью анализа текста.

Ограничения существующих методов на основе обратной связи^[15]

Проблема с существующими методами, основанными на обратной связи (например: анализ отклика пользователей, анализ текста отклика, анализ временных паттернов, анализ паттернов распространения и ручной анализ) - это тип обучающих данных, на которых обучаются модели. Обычно это снимок ответов пользователей, которые обычно собираются после или ближе к концу процесса распространения, когда доступно достаточное количество ответов. Это поощряет и дает причину снижения качества при раннем обнаружении с использованием обученных моделей, когда собирается меньше ответов. Методы также не имеют возможности обновлять свое состояние на основе постепенно доступных ответов пользователей.

Ограничения существующих методов вмешательства^[15]

Методы вмешательства, такие как (дезактивация, мониторинг сети, краудсорсинг и пользователь Моделирование поведения ), как правило, труднее оценивать и тестировать, особенно в сложных средах, где существует множество взаимозависимых соединений и транзакций. Также они могут делать ограничительные предположения относительно определенных случаев, что ограничивает их применимость.

Обнаружение фейковых новостей в Интернете - Detecting fake news online

Предпосылки и последствия обнаружения фейковых новостей