Temporal Segmentation of Video Lectures: a speech-based optimization framework

Soares, Eduardo Rocha

Use este identificador para citar ou linkar para este item: https://repositorio.ufjf.br/jspui/handle/ufjf/12029

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
eduardorochasoares.pdf	PDF/A	9.94 MB	Adobe PDF	Visualizar/Abrir

Tipo:	Dissertação
Título:	Temporal Segmentation of Video Lectures: a speech-based optimization framework
Autor(es):	Soares, Eduardo Rocha
Primeiro Orientador:	Barrére, Eduardo
Membro da banca:	Souza, Jairo Francisco de
Membro da banca:	Goularte, Rudinei
Resumo:	As videoaulas são muito populares hoje em dia. Seguindo as novas tendências de ensino, estudantes procuram cada vez mais por vídeos educacionais na Web com os mais diferentes propósitos: aprender algo novo, revisar conteúdo para exames ou apenas por curiosidade. Infelizmente, encontrar conteúdo específico nesse tipo de vídeo não é uma tarefa fácil. Muitas videoaulas são extensas e abrangem vários tópicos, sendo que nem todos são relevantes para o usuário que encontrou o vídeo. O resultado disso é que o usuário acaba gastando muito tempo ao tentar encontrar um tópico de interesse em meio a conteúdo que é irrelevante para ele. A segmentação temporal de videoaulas em tópicos pode resolver esse problema ao permitir que os usuários naveguem de maneira não-linear entre os tópicos existentes em uma videoaula. No entanto, se trata de uma tarefa dispendiosa que precisa ser automatizada. Por esse motivo, neste trabalho, propomos um framework de otimização para o problema de segmentação temporal de videoaulas. Nossa proposta utiliza apenas informações da fala do professor, portanto, não depende de recursos adicionais, como slides, livros didáticos ou legendas geradas manualmente. Isso a torna versátil, pois podemos aplicá-la a uma ampla variedade de videoaulas, uma vez que requer apenas que o discurso do professor esteja presente. Para fazer isso, formulamos o problema como um modelo de programação linear, onde combinamos recursos prosódicos e semânticos da fala que podem indicar transições de tópicos. Para otimizar esse modelo, usamos um algoritmo genético elitista com busca local. Através dos experimentos, fomos capazes de avaliar diferentes aspectos de nossa abordagem, como sua sensibilidade à variação de parâmetros e comportamento de convergência. Além disso, mostramos que nosso método foi capaz de superar métodos do estado da arte, tanto em Recall quanto em F1-Score, em dois conjuntos diferentes de videoaulas. Por fim, disponibilizamos a implementação de nosso framework para que outros pesquisadores possam contribuir e reproduzir nossos resultados.
Abstract:	Video lectures are very popular nowadays. Following the new teaching trends, students are increasingly seeking educational videos on the web for the most different purposes: learn something new, review content for exams or just out of curiosity. Unfortunately, finding specific content in this type of video is not an easy task. Many video lectures are extensive and cover several topics, and not all of these topics are relevant to the user who has found the video. The result is that the user spends so much time trying to find a topic of interest in the middle of content irrelevant to him. The temporal segmentation of video lectures in topics can solve this problem allowing users to navigate of a non-linear way through all topics of a video lecture. However, temporal video lecture segmentation is a time-consuming task and must be automatized. For this reason, in this work we propose an optimization framework for the temporal video lecture segmentation problem. Our proposal only uses information from the teacher’s speech, therefore it does not depend on any additional resources such as slides, textbooks or manually generated subtitles. This makes our proposal versatile, as we can apply it to a wide range of different video lectures, as it only requires the teacher’s speech on the video. To do this, we formulate this problem as a linear programming model where we combine prosodic and semantic features from speech that may indicate topic transitions. To optimize this model, we use a elitist genetic algorithm with local search. Through the experiments, we were able to evaluate different aspects of our approach such as sensibility to parameter variation and convergence behavior. Also, we show that our method was capable of overcoming state-of-the-art methods, both in Recall and in F1-Score, in two different datasets of video lectures. Finally, we provide the implementation of our framework so that other researchers can contribute and reproduce our results.
Palavras-chave:	Videoaulas Segmentação temporal de videoaulas Programação linear Processamento de linguagem natural Processamento de fala Video lectures Temporal segmentation of video lectures Linear programming Natural language processing Speech processing
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Juiz de Fora (UFJF)
Sigla da Instituição:	UFJF
Departamento:	ICE – Instituto de Ciências Exatas
Programa:	Programa de Pós-graduação em Ciência da Computação
Tipo de Acesso:	Acesso Aberto Attribution-NonCommercial-NoDerivs 3.0 Brazil
Licenças Creative Commons:	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI:	https://repositorio.ufjf.br/jspui/handle/ufjf/12029
Data do documento:	28-Fev-2020
Aparece nas coleções:	Mestrado em Ciência da Computação (Dissertações)

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons