Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/20552
Files in This Item:
File Description SizeFormat 
eduardacostacoppo.pdf2.67 MBAdobe PDFView/Open
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Villela, Saulo Moraes-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3358075178615535pt_BR
dc.contributor.advisor-co1Vieira, Marcelo Bernardes-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/0858482819476716pt_BR
dc.contributor.referee1Bernardino, Heder Soares-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7733681743453751pt_BR
dc.contributor.referee2Xavier, Vinicius Layter-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/9683190447704675pt_BR
dc.creatorCoppo, Eduarda Costa-
dc.creator.Latteshttp://lattes.cnpq.br/0126559860730208pt_BR
dc.date.accessioned2026-07-02T12:15:03Z-
dc.date.available2026-06-30-
dc.date.available2026-07-02T12:15:03Z-
dc.date.issued2024-04-11-
dc.identifier.urihttps://repositorio.ufjf.br/jspui/handle/ufjf/20552-
dc.description.abstractHealth data may present vulnerabilities by containing private and sensitive information, which must be considered in contexts that require the manipulation of such data. One solution to the problem of exposing sensitive information is the generation of synthetic samples that accurately represent the dataset to be considered, allowing it to be replaced in the works proposed for a specific task. Among the various methods for generating synthetic data, the use of generative adversarial networks (GANs) stands out in the field of image generation. For tabular data, although studies are still limited, the possibilities are vast and demonstrate the flexibility of these networks in generating samples of lower dimensionality. The proposed method is based on a GAN architecture, supplemented by a training method that employs a custom loss function and different approaches for its application. The goal is to obtain a distribution of the synthetic samples as faithful as possible to the real ones. The main hypothesis is that GAN, combined with the proposed training method, would be capable of generating data whose distribution closely approximates that of the real data. The results indicate that the use of a loss function, based on the approximation of two distributions, promotes the generation of more realistic data, which can be used in the applications required by various machine learning tasks.pt_BR
dc.description.resumoDados de saúde podem apresentar vulnerabilidades por conterem informações privadas e sensíveis, as quais devem ser consideradas em contextos que exigem a manipulação desses dados. Uma das soluções para o problema de exposição de informações sensíveis é a geração de amostras sintéticas que representem adequadamente o conjunto de dados a ser estudado. Isso permitiria uma substituição da base de dados reais, isto é, a base de dados original, pelo novo conjunto de amostras sintéticas em estudos que propõe resolver alguma tarefa envolvendo essa base de dados. Entre os vários métodos de geração de dados sintéticos, a utilização de redes adversárias generativas (GANs) destaca-se no campo da geração de imagens. Para dados tabulares, embora os estudos ainda sejam limitados, as possibilidades são amplas e demonstram a flexibilidade dessas redes na geração de amostras de menor dimensionalidade. O método proposto baseia-se em uma arquitetura de GAN, complementada por um método de treinamento que emprega uma função de perda customizada e diferentes abordagens para sua aplicação, a fim de obter uma distribuição das amostras sintéticas o mais próxima possível à real, ou seja, preservando as características estatísticas dos dados reais, bem como correlações entre seus atributos. A principal hipótese é que a GAN, aliada ao método de treinamento proposto, é capaz de gerar dados cuja distribuição se aproxima da distribuição dos dados reais. Os resultados indicam que a utilização de uma função de perda baseada na aproximação de suas matrizes de covariância favorece a geração de dados sintéticos cujos atributos têm distribuição mais próxima aos atributos dos dados reais, fazendo com que esse conjunto de dados sintéticos possa ser utilizado nas aplicações requeridas por diversas tarefas de aprendizado de máquina.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Juiz de Fora (UFJF)pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICE – Instituto de Ciências Exataspt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFJFpt_BR
dc.rightsAcesso Abertopt_BR
dc.rightsAttribution-ShareAlike 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/br/*
dc.subjectRedes adversárias generativaspt_BR
dc.subjectAumento de dadospt_BR
dc.subjectDados tabularespt_BR
dc.subjectGenerative adversarial networkspt_BR
dc.subjectData augmentationpt_BR
dc.subjectTabular datapt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.titleGeração de dados sintéticos para anonimização de dados de saúde por meio de redes adversárias generativas e uma função de perda customizadapt_BR
dc.typeDissertaçãopt_BR
Appears in Collections:Mestrado em Ciência da Computação (Dissertações)



This item is licensed under a Creative Commons License Creative Commons