Les chercheurs ont démontré une solution automatisée basée sur un algorithme qui est comparable et parfois meilleure que les humains pour identifier correctement les fausses nouvelles. Le système qui identifie les indices linguistiques révélateurs dans les fausses nouvelles pourrait fournir à l'agrégateur de nouvelles et aux sites de médias sociaux comme Google Actualités une nouvelle arme dans la lutte contre la désinformation..
Une solution automatisée pourrait être un outil important pour les sites qui ont du mal à faire face à un assaut de fausses nouvelles, souvent créées pour générer des clics ou pour manipuler l'opinion publique, a déclaré Rada Mihalcea, professeur à l'Université du Michigan à l'origine du projet, dans un communiqué..
Le nouveau système a réussi à trouver des contrefaçons jusqu'à 76% du temps, contre un taux de réussite humain de 70%, selon l'étude qui sera présentée le 24 août à la Conférence internationale sur la linguistique informatique à Santa Fe, Nouveau-Mexique..
Les chercheurs pensent que leur approche d'analyse linguistique pourrait également être utilisée pour identifier de faux articles de presse qui sont trop nouveaux pour être démystifiés en croisant leurs faits avec d'autres histoires. L'approche d'analyse linguistique analyse des attributs quantifiables tels que la structure grammaticale, le choix des mots, la ponctuation et la complexité.
Pour l'étude, l'équipe de Mihalcea a créé ses propres données, en faisant du crowdsourcing une équipe en ligne qui a procédé à la rétro-ingénierie de véritables actualités vérifiées en faux. C'est ainsi que la plupart des fausses nouvelles sont créées, a déclaré Mihalcea, par des personnes qui les écrivent rapidement en échange d'une récompense monétaire..
Les participants à l'étude ont été payés pour transformer de courtes actualités réelles en informations similaires mais fausses, imitant le style journalistique des articles. À la fin du processus, l'équipe de recherche disposait d'un ensemble de données de 500 actualités réelles et fausses. Ils ont ensuite alimenté ces paires d'histoires étiquetées à un algorithme qui a effectué une analyse linguistique, apprenant lui-même à distinguer entre les informations réelles et les fausses informations..
Enfin, l'équipe a transformé les algorithmes en un ensemble de données de vraies et fausses nouvelles tirées directement du Web, atteignant un taux de réussite de 76%. Les détails du nouveau système et l'ensemble de données que l'équipe a utilisé pour le construire pourraient être utilisés par des sites d'actualités ou d'autres entités pour créer leurs propres systèmes de détection de fausses nouvelles, a déclaré Mihalcea.