Computer Vision per l'analisi automatica di fumetti / Computer Vision for Comics Understanding

Laurea magistrale in Informatica / Relatore: Axel De Nardin

Laboratorio: Artificial Vision and Machine Learning (AVML) Lab

Descrizione: I fumetti rappresentano una forma d'arte e un mezzo di comunicazione di straordinaria ricchezza culturale, capace di documentare tendenze sociali, stilistiche e narrative di epoche diverse. Nonostante la loro diffusione globale e il loro valore culturale, l'analisi automatica del contenuto dei fumetti resta un problema aperto e complesso per la comunità della computer vision. A differenza di fotografie o documenti testuali, il fumetto è un medium intrinsecamente multimodale, in cui testo, disegno, colore e struttura narrativa si combinano secondo convenzioni visive complesse: vignette, balloon, onomatopee, sequenze d'azione, che richiedono una comprensione simultanea di elementi grafici e semantici. Compiti come il rilevamento e la segmentazione delle vignette, il riconoscimento dei personaggi, la localizzazione e il riconoscimento del testo nei balloon e la comprensione della sequenza narrativa pongono sfide che i modelli sviluppati per scene naturali faticano ad affrontare efficacemente. La tesi si propone di studiare e sviluppare modelli basati su deep learning e computer vision per uno o più di questi aspetti del comics understanding, esplorando architetture moderne quali reti convoluzionali, transformer visivi e modelli multimodali, con l'obiettivo di contribuire alla comprensione automatica di questo medium unico.

Description: Comics represent an art form and a medium of extraordinary cultural richness, capable of documenting social, stylistic, and narrative trends across different eras. Despite their global reach and cultural value, the automatic analysis of comic content remains an open and challenging problem for the computer vision community. Unlike photographs or text documents, comics are an inherently multimodal medium in which text, drawing, color, and narrative structure combine according to complex visual conventions, such as panels, speech bubbles, sound effects, and action sequences, that require a simultaneous understanding of both graphical and semantic elements. Tasks such as panel detection and segmentation, character recognition, text localization and recognition in speech bubbles, and narrative sequence comprehension pose challenges that models developed for natural scenes struggle to address effectively. This thesis aims to study and develop deep learning and computer vision models for one or more aspects of comic understanding, exploring modern architectures such as convolutional networks, visual transformers, and multimodal models to contribute to the automatic understanding of this unique medium.