Multimodal misinformation detection overcoming the training data collection challenge through data generation

Multimodal misinformation detection overcoming the training data collection challenge through data generation
(Détection de désinformation multimodale : surmonter le défi de la collecte de données d'entraînement grâce à la génération de données)

Chaffin, Antoine - (2023-11-14) / Université de Rennes
Multimodal misinformation detection overcoming the training data collection challenge through data generation

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Claveau, Vincent; Kijak, Ewa

Discipline : Informatique

Laboratoire : IRISA

Ecole Doctorale : MATISSE

Classification : Informatique

Mots-clés : intelligence artificielle, infox, représentation des connaissances, traitement automatique du langage naturel, vision par ordinateur, multimodal, art numérique, génératif

Intelligence artificielle
Représentation des connaissances
Traitement automatique du langage naturel
Vision par ordinateur

Résumé : Pour répondre au problème croissant de la désinformation, des outils de vérification automatique de l'information sont nécessaires. Des images étant fréquemment associées à la désinformation, ces modèles doivent être multimodaux. La collecte de suffisamment de données non biaisées nécessaires pour entraîner les modèles est un défi. Dans cette thèse, nous explorons comment les modèles génératifs peuvent être utilisés pour des tâches discriminatives en cas de manque de données. Pour résoudre le problème des récompenses clairsemées des GAN textuels, nous explorons la génération coopérative, où le générateur est guidé par un modèle externe, et nous présentons une méthode originale basée sur le MCTS. Ensuite, nous utilisons la génération coopérative pour créer des explications de modèles boîte noire et réalisons une étude empirique sur la complexité/qualité de différents types de modèles dans le cadre de cette coopération. Enfin, nous explorons l'utilisation de légendes humaines dans l'apprentissage par renforcement d'un modèle de légendage d'images en utilisant des récompenses d'un modèle de recherche cross-modal. Nous concluons en discutant des opportunités et des risques des modèles génératifs dans le contexte de la désinformation et en abordant la question du tatouage numérique.

Abstract : To tackle the growing issue of misinformation, automated fact-check tools are required. Because images are often found within misinformation, these models need to be multimodal. Collecting enough unbiased data to train the models is challenging. In this thesis, we explore how generative models can be used for discriminative tasks when there is a lack of data. To tackle the sparse rewards issue of textual GANs, we explore cooperative generation where the generator is guided by an external model and present a novel method based on the MCTS. We then use cooperative generation to generate explanations of black-box models and conduct an empirical study on the complexity/quality of different types of models in the cooperative setup. Finally, we explore the use of ground truth caption in a reinforcement learning training of an image captioning model using rewards from a cross-modal retriever. We conclude by discussing the opportunities and risks of generative models in the context of misinformation as well as watermarking.