A perceptual approach to film editing : exploring cinematography through visual attention and computational saliency

A perceptual approach to film editing : exploring cinematography through visual attention and computational saliency
(Une approche perceptuelle de l'édition de film : exploration de la cinématographie par l'attention visuelle et la saillance computationnelle)

Bruckert, Alexandre - (2022-03-24) / Universite de Rennes 1
A perceptual approach to film editing : exploring cinematography through visual attention and computational saliency

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Bouatouch, Kadi; Christie, Marc

Discipline : Signal, image, vision

Laboratoire : IRISA

Ecole Doctorale : MATHSTIC

Classification : Informatique

Mots-clés : Attention visuelle, cinématographie, oculométrie, saillance visuelle, congruence visuelle inter-observateurs

Oculométrie
Saillance visuelle

Résumé : Quand nous regardons un film, nous ne traitons pas toute l'information visuelle émise par l'image tout le temps. À la place, nous dirigeons notre attention sur certaines zones de l'écran que nous considérons comme importantes, que ce soit à cause de leurs propriétés visuelles, ou de leur importance sémantique pour la narration du film. Depuis plus de cent ans, les réalisateurs de films ont appris à jouer avec l'attention visuelle de leur public, en utilisant un ensemble varié d'outils et de techniques. Dans cette thèse, nous nous proposons d'explorer les liens entre ces choix cinématographiques du réalisateur et la perception visuelle qu'en a le public. Bien qu'il existe de nombreux modèles de saillance visuelle, prédisant les zones d'attention visuelle d'observateurs sur des vidéos, nous montrons que les prédictions de ces modèles s'avèrent parfois fausses dans le contexte particulier de stimuli cinématographiques. Nous proposons donc un nouveau modèle de saillance visuelle, incluant des caractéristiques de haut niveau concernant les propriétés cinématographiques de l'extrait de film considéré. Enfin, nous proposons une étude de la congruence visuelle inter-observateurs dans ce contexte, ainsi que deux modèles visant à prédire l'intensité de cette congruence, sur des images et des extraits de films.

Abstract : When watching movies, we do not grasp the full image that is displayed at all time. Instead, we focus on several parts of the frame, depending on what we deem relevant, be it for the visual properties of this area or its semantic importance in the narration. With more than a century of cinematographic experience, filmmakers have developed a whole array of tools and techniques to direct the attention of their audience, using cuts, camera motion, staging, and so on. In this work, we propose to explore the links between film editing and the visual perception an audience has of it, using a data-driven approach. While there exists a lot of efficient models predicting where people will look on a video, we found that these models could often be wrong on cinematographic stimuli. We then propose a visual saliency model dedicated to include the high-level information created by the director's editing choices, and we show a significant improvement on cinematic stimuli compared to the state-of-the-art. Finally, we propose two models dedicated to predict the inter-observer visual congruency on both static and dynamic stimuli, with particular care to the case of cinematographic stimuli.