Geração de dados sintéticos para anonimização de dados de saúde por meio de redes adversárias generativas e uma função de perda customizada

Coppo, Eduarda Costa

Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/20552

Files in This Item:

File	Description	Size	Format
eduardacostacoppo.pdf		2.67 MB	Adobe PDF	View/Open

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Villela, Saulo Moraes	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3358075178615535	pt_BR
dc.contributor.advisor-co1	Vieira, Marcelo Bernardes	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/0858482819476716	pt_BR
dc.contributor.referee1	Bernardino, Heder Soares	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/7733681743453751	pt_BR
dc.contributor.referee2	Xavier, Vinicius Layter	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/9683190447704675	pt_BR
dc.creator	Coppo, Eduarda Costa	-
dc.creator.Lattes	http://lattes.cnpq.br/0126559860730208	pt_BR
dc.date.accessioned	2026-07-02T12:15:03Z	-
dc.date.available	2026-06-30	-
dc.date.available	2026-07-02T12:15:03Z	-
dc.date.issued	2024-04-11	-
dc.identifier.uri	https://repositorio.ufjf.br/jspui/handle/ufjf/20552	-
dc.description.abstract	Health data may present vulnerabilities by containing private and sensitive information, which must be considered in contexts that require the manipulation of such data. One solution to the problem of exposing sensitive information is the generation of synthetic samples that accurately represent the dataset to be considered, allowing it to be replaced in the works proposed for a specific task. Among the various methods for generating synthetic data, the use of generative adversarial networks (GANs) stands out in the field of image generation. For tabular data, although studies are still limited, the possibilities are vast and demonstrate the flexibility of these networks in generating samples of lower dimensionality. The proposed method is based on a GAN architecture, supplemented by a training method that employs a custom loss function and different approaches for its application. The goal is to obtain a distribution of the synthetic samples as faithful as possible to the real ones. The main hypothesis is that GAN, combined with the proposed training method, would be capable of generating data whose distribution closely approximates that of the real data. The results indicate that the use of a loss function, based on the approximation of two distributions, promotes the generation of more realistic data, which can be used in the applications required by various machine learning tasks.	pt_BR
dc.description.resumo	Dados de saúde podem apresentar vulnerabilidades por conterem informações privadas e sensíveis, as quais devem ser consideradas em contextos que exigem a manipulação desses dados. Uma das soluções para o problema de exposição de informações sensíveis é a geração de amostras sintéticas que representem adequadamente o conjunto de dados a ser estudado. Isso permitiria uma substituição da base de dados reais, isto é, a base de dados original, pelo novo conjunto de amostras sintéticas em estudos que propõe resolver alguma tarefa envolvendo essa base de dados. Entre os vários métodos de geração de dados sintéticos, a utilização de redes adversárias generativas (GANs) destaca-se no campo da geração de imagens. Para dados tabulares, embora os estudos ainda sejam limitados, as possibilidades são amplas e demonstram a flexibilidade dessas redes na geração de amostras de menor dimensionalidade. O método proposto baseia-se em uma arquitetura de GAN, complementada por um método de treinamento que emprega uma função de perda customizada e diferentes abordagens para sua aplicação, a fim de obter uma distribuição das amostras sintéticas o mais próxima possível à real, ou seja, preservando as características estatísticas dos dados reais, bem como correlações entre seus atributos. A principal hipótese é que a GAN, aliada ao método de treinamento proposto, é capaz de gerar dados cuja distribuição se aproxima da distribuição dos dados reais. Os resultados indicam que a utilização de uma função de perda baseada na aproximação de suas matrizes de covariância favorece a geração de dados sintéticos cujos atributos têm distribuição mais próxima aos atributos dos dados reais, fazendo com que esse conjunto de dados sintéticos possa ser utilizado nas aplicações requeridas por diversas tarefas de aprendizado de máquina.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Juiz de Fora (UFJF)	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICE – Instituto de Ciências Exatas	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFJF	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights	Attribution-ShareAlike 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/br/	*
dc.subject	Redes adversárias generativas	pt_BR
dc.subject	Aumento de dados	pt_BR
dc.subject	Dados tabulares	pt_BR
dc.subject	Generative adversarial networks	pt_BR
dc.subject	Data augmentation	pt_BR
dc.subject	Tabular data	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.title	Geração de dados sintéticos para anonimização de dados de saúde por meio de redes adversárias generativas e uma função de perda customizada	pt_BR
dc.type	Dissertação	pt_BR
Appears in Collections:	Mestrado em Ciência da Computação (Dissertações)

Show simple item record Recommend this item

This item is licensed under a Creative Commons License