https://repositorio.ufjf.br/jspui/handle/ufjf/16854
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
marcelobarroscustodio.pdf | PDF/A | 10.66 MB | Adobe PDF | Visualizar/Abrir |
Tipo: | Tese |
Título: | Framed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de frames |
Autor(es): | Custódio, Marcelo Barros |
Primeiro Orientador: | Torrent, Tiago Timponi |
Membro da banca: | Matos, Ely Edison da Silva |
Membro da banca: | Fonseca, Aline Alves |
Membro da banca: | Pagano, Adriana Silvina |
Membro da banca: | Caseli, Helena de Medeiros |
Resumo: | A combinação de diferentes modalidades de comunicação é uma das características definidoras da expressão humana, no entanto, muitas pesquisas voltam seus esforços para a análise da semântica textual e imagética de forma isolada. Nas últimas décadas, sistemas que processam dados de imagem e texto de forma correlacionada vêm sendo aplicados em tarefas computacionais como recuperação de dados, tradução automática e criação de legendas. Neste trabalho, partimos da premissa de que o desenvolvimento de tais aplicações computacionais pode se beneficiar de um melhor entendimento dos significados que se estabelecem a partir de combinação de informações textuais e visuais. Em particular, esta tese contribui com um dataset inovador que agrega a uma família de datesets padrão ouro para o PLN multimodal e multilíngue – Flickr30k, Multi30k e Flickr30k Entities – informações semânticas estruturadas em termos de frames, conforme modelados na FrameNet Brasil. O dataset resultante, denominado Framed Multi30k (FM30K), contribui os seguintes dados inovadores: (i) 150.000 descrições conceituais originalmente redigidas em português brasileiro para cada uma das 30.000 imagens no dataset Flickr30k; (ii) 30.000 traduções para o português brasileiro de uma das descrições originalmente escritas em inglês para cada uma das imagens no Flickr30k; (iii) anotações automáticas para frames de todas as descrições conceituais constantes do dataset para o português brasileiro e para o inglês, totalizando 330.000 descrições anotadas semanticamente; (iv) anotações manuais para cada uma das bounding boxes provenientes do dataset Flickr30k Entities em três condições de anotação distintas: anotação de entidades com presença de descrição, anotação de entidades sem presença de descrição e anotação de eventos com presença de descrição. O dataset resultante foi analisado para aspectos formais das descrições criadas em português brasileiro e para a similaridade de cosseno entre as representações semânticas derivadas das anotações automáticas e manuais realizadas para as descrições e imagens, respectivamente. Foram realizadas adicionalmente análises qualitativas acerca das distintas perspectivas codificadas nas representações semânticas geradas para as imagens em cada uma das condições de anotação. As análises corroboram a hipótese de que diferentes condições de anotação no que concerne à interação entre modalidades levam a distintas representações semânticas para as imagens, o que reforça o argumento em favor da adoção de uma abordagem perspectivista para a curadoria humana de datasets |
Abstract: | The combination of dierent communication modalities is one of the defining characteristics of human expression. However, much research has focused on analyzing the semantics of text and images separately. In recent decades, systems that process image and text data in a correlated way have been applied to computational tasks such as data retrieval, machine translation, and caption generation. In this work, we start from the premise that the development of such computational applications can benefit from a better understanding of the meanings that are established from the combination of textual and visual information. In particular, this dissertation contributes an innovative dataset that adds to a family of gold standard datesets for multimodal and multilingual NLP - Flickr30k, Multi30k and Flickr30k Entities - semantic information structured in terms of frames, as modeled in FrameNet Brasil. The resulting dataset, called Framed Multi30k (FM30K), contributes the following innovative data: (i) 150,000 conceptual descriptions originally written in Brazilian Portuguese for each of the 30,000 images in the Flickr30k dataset; (ii) 30,000 translations into Brazilian Portuguese of one of the descriptions originally written in English for each of the images in the Flickr30K; (iii) automatic annotations for frames of all the conceptual descriptions in the dataset into Brazilian Portuguese and English, totaling 330,000 semantically annotated descriptions; (iv) manual annotations for each of the bounding boxes from the dataset Flickr30k Entities in three dierent annotation conditions: annotation of entities with presence of description, annotation of entities without presence of description and annotation of events with presence of description. The resulting dataset was analized for formal aspects of the descriptions created in Brazilian Portuguese and for the cosine similarity between the semantic representations derived from the automatic and manual annotations carried out for the descriptions and images, respectively. Qualitative analyses were also carried out on the dierent perspectives encoded in the semantic representations generated for the images in each of the annotation conditions. The analyses corroborate the hypothesis that dierent annotation conditions regarding the interaction between modalities lead to dierent semantic representations for the images, which reinforces the argument in favor of adopting a perspectivist approach to human curation of datasets. |
Palavras-chave: | Semântica de frames Dataset multimodal Representação semântica multimodal Frame semantics Multimodal dataset Multimodal semantic representation |
CNPq: | CNPQ::LINGUISTICA, LETRAS E ARTES |
Idioma: | por |
País: | Brasil |
Editor: | Universidade Federal de Juiz de Fora (UFJF) |
Sigla da Instituição: | UFJF |
Departamento: | Faculdade de Letras |
Programa: | Programa de Pós-graduação em Letras: Linguística |
Tipo de Acesso: | Acesso Aberto Attribution-NonCommercial-ShareAlike 3.0 Brazil |
Licenças Creative Commons: | http://creativecommons.org/licenses/by-nc-sa/3.0/br/ |
URI: | https://repositorio.ufjf.br/jspui/handle/ufjf/16854 |
Data do documento: | 16-Jul-2024 |
Aparece nas coleções: | Doutorado em Linguística (Teses) |
Este item está licenciado sob uma Licença Creative Commons