Trabalhos Disponíveis

TRABALHO Ações
Exploração do Espaço de Projetos de Sistemas Heterogêneos Aplicada ao Problema de Alocação de Recursos em Nuvem
Curso Mestrado em Ciência da Computação
Tipo Dissertação
Data 01/07/2022
Área CIÊNCIA DA COMPUTAÇÃO
Orientador(es)
  • Ricardo Ribeiro dos Santos
Coorientador(es)
    Orientando(s)
    • Danillo Christi Almeida Arigoni
    Banca
    • César Augusto Fonticielha De Rose
    • Liana Dessandre Duenha Garanhani
    • Renato Porfirio Ishii
    • Ricardo Ribeiro dos Santos
    Resumo Os serviços de computação em nuvem oferecem uma gama de recursos computacionais disponíveis sob demanda. Contudo, encontrar a melhor configuração de recursos que reduza custos e atenda as exigências do usuário tornou-se um grande desafio. Este desafio compartilha características essenciais com um problema da área de arquitetura de computadores, a exploração de espaço de projetos - Design Space Exploration (DSE). Em DSE, o foco é escolher, dentre uma grande quantidade de soluções arquiteturais, qual a mais indicada para uma determinada demanda, buscando atender objetivos e cumprindo as restrições de projeto. Diante disso, este trabalho propõe a aplicação de técnicas de exploração de espaço de projeto como potencial solução para o problema de alocação de recursos em nuvem. Este trabalho projetou e desenvolveu a ferramenta MultiExplorer-VM, uma extensão da ferramenta de DSE MultiExplorer. Essa extensão possui um fluxo de execução adaptado para a resolução do problema de alocação de recursos em nuvem, utilizando e adaptando algoritmos e técnicas de exploração de espaço de projeto.
    Experimentos foram realizados visando a validação estatística e comparação com outro trabalho existente na literatura da área que utiliza a técnica Paramount Interation (PI). Os resultados mostram que MultiExplorer-VM possibilita alcançar configurações de recursos com melhorias significativas em relação a técnica de PI. Seguindo as restrições de um modelo de otimização, para algumas aplicações, as soluções obtidas por MultiExplorer-VM são similares às configurações ótimas obtidas por uma ferramenta de busca exaustiva de soluções aplicada ao mesmo problema.
    Download
    Exploração do Espaço de Projetos de Sistemas GP-GPU ciente de Dark Silicon
    Curso Mestrado em Ciência da Computação
    Tipo Dissertação
    Data 30/06/2022
    Área CIÊNCIA DA COMPUTAÇÃO
    Orientador(es)
    • Liana Dessandre Duenha Garanhani
    Coorientador(es)
      Orientando(s)
      • Rhayssa de Almeida Sonohata
      Banca
      • Eraldo Luis Rezende Fernandes
      • Jonathan de Andrade Silva
      • Liana Dessandre Duenha Garanhani
      • Ricardo Ribeiro dos Santos
      Resumo O alto potencial de paralelismo e de largura de banda oferecidos pelas GPUs, aliados à popularização das linguagens de programação CUDA e OpenCL, fizeram com que as unidades de processamento gráfico fossem utilizadas em aplicações distintas daquelas para as quais foram originalmente criadas, consolidando, assim, o conceito de GP-GPU ou Unidades de Processamento Gráfico para computação de propósito geral. A partir do crescente uso de sistemas que unem CPUs e GPUs para processamento de forma colaborativa, foram desenvolvidas ferramentas para explorar o desempenho e o consumo dos diversos parâmetros arquiteturais dos projetos de computação heterogênea. Entretanto, essas ferramentas são escassas, limitadas, computacionalmente custo-
      sas e precisam de parâmetros arquiteturais de difícil obtenção. Isso posto, este trabalho propõe o desenvolvimento e avaliação de modelos de predição de desempenho de sistemas heterogêneos GP-GPU usando técnicas de aprendizado de máquina, com objetivo de alcançar alta acurácia e substituir o custoso processo de simulação. Tais preditores foram validados a partir da integração a uma ferramenta de exploração de espaço de projeto ciente de dark-silicon,denominada MultiExplorer, que realiza a avaliação de alternativas arquiteturais para um projeto-base, buscando alcançar objetivos pré-estabelecidos como maximização de desempenho e minimização de área em dark-silicon, obedecendo restrições de área e consumo energético. Dependendo do espaço de projeto, tal ferramenta avalia centenas de milhares de alternativas arquiteturais e, portanto, os preditores de desempenho com baixo custo computacional e acurácia são essenciais.
      Medianas em genômica comparativa
      Curso Mestrado em Ciência da Computação
      Tipo Dissertação
      Data 27/05/2022
      Área CIÊNCIA DA COMPUTAÇÃO
      Orientador(es)
      • Fabio Henrique Viduani Martinez
      Coorientador(es)
        Orientando(s)
        • Helmuth Ossinaga Martines da Silva
        Banca
        • Carlos Henrique Aguena Higa
        • Diego Padilha Rubert
        • Fabio Henrique Viduani Martinez
        • Francisco Eloi Soares de Araujo
        • José Coelho de Pina Junior
        • Marco Aurelio Stefanes
        Resumo A inferência de genomas ancestrais é uma tarefa clássica em genômica comparativa. Aqui, estudamos o problema da mediana de genomas tal que, dado um conjunto de três ou mais genomas, queremos encontrar um novo genoma que minimize a soma das distâncias par a par entre esse e os genomas dados. A distância representa a quantidade de evolução observada no nível do genoma, para a qual determinamos o número mínimo de operações de rearranjos necessárias para transformar um genoma em outro. Para quase todas as operações de rearranjo conhecidas, o problema da mediana é NP-difícil, com exceção da operação single-cut-or-join (SCJ) que pode ser resolvido eficientemente para genomas multicromossomais circulares e mistos. Neste projeto, estudamos o problema da mediana sob uma medida de rearranjo restrita chamada distância-c4, que é estreitamente relacionada à distância SCJ e à DCJ (double-cut-and-join). Identificamos limitantes precisos e decomposers da mediana-c4 e implementamos algoritmos para a sua construção, dois algoritmo exatos baseados em PLI (Programação Linear Inteira) e três heurísticas combinatórias. Posteriormente, realizamos experimentos com conjunto de dados simulados. Nossos resultados sugerem que a distância-c4 é útil para estudo do problema da mediana de genomas, de perspectiva teórica e prática.
        Predição de nível de rios da Região Hidrográfica do Rio Paraguai utilizando algoritmos de Aprendizado de Máquina
        Curso Mestrado em Ciência da Computação
        Tipo Dissertação
        Data 25/02/2022
        Área CIÊNCIA DA COMPUTAÇÃO
        Orientador(es)
        • Renato Porfirio Ishii
        Coorientador(es)
          Orientando(s)
          • Rogério Alves dos Santos Antoniassi
          Banca
          • Bruno Magalhaes Nogueira
          • Carlos Roberto Padovani
          • Edson Takashi Matsubara
          • Omar Andres Carmona Cortes
          • Renato Porfirio Ishii
          Resumo O Pantanal faz parte da Região Hidrográfica do Rio Paraguai (RH-Paraguai) e possui, como característica, a inundação de uma parcela de sua área em determinadas épocas do ano. Essa inundação gera uma série de problemas socioeconômicos à população que vive em seu entorno. Problemas estes que podem ser mitigados quando há previsão de sua ocorrência com antecedência. Nesse sentido, este trabalho investiga a aplicação de técnicas de Aprendizado de Máquina (AM) para a predição de níveis dos rios da RH-Paraguai, utilizando dados diários de estações a montante para previsão do nível de estações a jusante. Nessa perspectiva, a modelagem com técnicas de AM demonstra-se eficaz nas predições, na medida que trabalhos similares aparecem na literatura correlata. Dessa maneira, é utilizada uma fonte de dados com valores de níveis diários, sendo selecionada uma amostra de três estações. Em seguida, foi retirada a defasagem do tempo entre o pico de cheia de uma estação e outra, pesquisados os hiperparâmetros ideais para as redes Long Short Term Memory (LSTM), Gated Recurrent Unit (GRU) e Bidirectional Long Short Term Memory (BiLSTM) e submetidos ao processo de treinamento. Posteriormente, foram selecionados os modelos de melhores resultados de cada algoritmo, os quais foram comparados com a técnica de Regressão utilizada atualmente. Os resultados mostram que os três modelos testados podem ser utilizados para a tarefa de predição, em que, os três apresentam melhorias em relação ao modelo atual. O modelo com o algoritmo GRU se destacou por apresentar as menores taxas de erro e por ser 23,84% mais preciso que o modelo de Regressão, já LSTM e BiLSTM são, respectivamente, 18,09% e 19,16% mais precisos que o modelo de Regressão. Os modelos de LSTM e BiLSTM se aproximam mais do valor real nos picos de níveis máximos e mínimos, quando comparados ao de Regressão e ao GRU.
          Download
          Problema de roteamento em anéis de dois níveis
          Curso Mestrado em Ciência da Computação
          Tipo Dissertação
          Data 16/12/2021
          Área CIÊNCIA DA COMPUTAÇÃO
          Orientador(es)
          • Edna Ayako Hoshino
          Coorientador(es)
            Orientando(s)
            • Cecília Lescano Osório
            Banca
            • Edna Ayako Hoshino
            • Fabio Henrique Viduani Martinez
            • Fábio Luiz Usberti
            • Francisco Eloi Soares de Araujo
            • Henrique Mongelli
            • Vagner Pedrotti
            Resumo Nesta dissertação de mestrado estudamos o problema do roteamento em anéis de dois níveis, que consiste em, dado um grafo e custos associados às arestas, projetar uma rede hierárquica em dois níveis em que ambos os níveis são anéis. Apresentamos um modelo em programação linear inteira para o problema e propomos um algoritmo exato branch-and-price para resolvê-lo. Uma vez que o modelo proposto faz uso de um número exponencial de variáveis, utilizamos o método da geração de colunas para resolver a relaxação linear do modelo. Propomos também uma relaxação para a geração de colunas e heurísticas para melhorar o desempenho do algoritmo proposto.
            Download
            PUL-SSC: Aprendizado baseado em umaúnica classe com agrupamentosemissupervisionado
            Curso Mestrado em Ciência da Computação
            Tipo Dissertação
            Data 02/09/2021
            Área CIÊNCIA DA COMPUTAÇÃO
            Orientador(es)
            • Bruno Magalhaes Nogueira
            Coorientador(es)
              Orientando(s)
              • Shih Ting Ju
              Banca
              • Bruno Magalhaes Nogueira
              • Diego Furtado Silva
              • Edson Takashi Matsubara
              • Rafael Geraldeli Rossi
              • Ricardo Marcondes Marcacini
              • Solange Oliveira Rezende
              Resumo A grande quantidade de dados disponíveis atualmente é uma fonte de extração de informações para fins comerciais e acadêmicos. Uma abordagem para extrair conhecimento em bases de dados que ganhou destaque é a classificação de uma única classe (em inglês, One-class Classification - OCC). O uso de OCC para classificar se um exemplo é de uma classe específica é apropriado em conjuntos de dados em que as classes são desbalanceadas ou apenas os dados da classe de interesse estão presentes durante o treinamento. Vários algoritmos de OCC encontrados na literatura utilizam agrupamento não supervisionado para delimitar a fronteira da classe de interesse. Esses algoritmos conseguem ter resultados competitivos com aqueles apresentados por outros algoritmos de OCC. Embora o aprendizado semissupervisionado tenha mostrado a possibilidade de alcançar melhores resultados em várias áreas do que com o agrupamento semissupervisionado, o agrupamento semissupervisionado ainda é pouco explorado para OCC. Uma abordagem para OCC é o Positive and Unlabeled Learning (PUL), em que o aprendizado ocorre apenas com dados positivos (interesse) e não rotulados. Os algoritmos de PUL procuram encontrar uma delimitação da classe positiva. Este trabalho de mestrado propõe um novo algoritmo PUL-SSC (Positive and Unlabeled Learning with Semi-Supervised Clustering) que aprende a delimitar a classe de interesse através da criação e utilização de restrições must-link e cannot-link, agrupamento de dados com algoritmo semisupervisionado e um processo de aprendizado transdutivo para propagação de rótulos. Foram explorados dois algoritmos de agrupamento semissupervisionados amplamente usados: PCKMeans e MPCK-Means. Na avaliação experimental, os algoritmos semissupervisionados superaram o algoritmo baseado em k-Means e o SVM de uma classe (OC-SVM) na maioria dos cenários. Em particular, o algoritmo baseado em distância MPCK-Means foi dominante na maioria das comparações usando conjuntos de dados numéricos e textuais.
              Download
              Contagem de Fluxo de Pessoas Utilizando Aprendizado Profundo
              Curso Mestrado em Ciência da Computação
              Tipo Dissertação
              Data 25/08/2021
              Área CIÊNCIA DA COMPUTAÇÃO
              Orientador(es)
              • Edson Takashi Matsubara
              Coorientador(es)
              • Raul Queiroz Feitosa
              Orientando(s)
              • Pedro Henrique de Moraes
              Banca
              • Bruno Magalhaes Nogueira
              • Edson Takashi Matsubara
              • Jonathan de Andrade Silva
              • Rafael Geraldeli Rossi
              • Wesley Nunes Goncalves
              Resumo A contagem do fluxo de clientes é a contabilização da quantidade de pessoas que entram no estabelecimento. Esta contagem permite extrair diferentes métricas do negócio como taxa de conversão das ações de marketing, duração das visitas e tráfego de pessoas. O objetivo principal desta dissertação é propor, desenvolver e avaliar uma solução para contar clientes utilizando câmeras de segurança. A proposta consiste em combinar algoritmos de aprendizado profundo para contagem das pessoas. Adicionalmente identificar pessoas que não devem entrar na contagem, como funcionários e colaboradores. A partir de vídeos coletados em dois locais distintos que foram anotados manualmente foi definido a contagem Real. Posteriormente foram submetidos à Yolov5 para a definição da contagem por Pessoas e RetinaFace por Face. A contagem realizada pela proposta foi comparada com a contagem manual utilizando teste de significância. Segundo o teste houve não diferença significativa entre as contagens de Pessoa e Real. Sendo assim a técnica da solução proposta foi validada e a viabilidade econômica apresentou custo de 24,4USD por mês, considerando 10 horas de vídeo diárias para processamento em nuvem. A solução proposta não necessita de inserção de hardware específico e modificações nos espaços dos lojistas, sendo uma alternativa promissora para esse o problema.
              Download
              Uso de redes neurais para o problema de previsão de pacientes de alto custo
              Curso Mestrado em Ciência da Computação
              Tipo Dissertação
              Data 26/07/2021
              Área CIÊNCIA DA COMPUTAÇÃO
              Orientador(es)
              • Renato Porfirio Ishii
              Coorientador(es)
                Orientando(s)
                • Franklin Messias Barbosa
                Banca
                • Bruno Magalhaes Nogueira
                • Eraldo Luis Rezende Fernandes
                • Luciano Jose Senger
                • Omar Andres Carmona Cortes
                • Renato Porfirio Ishii
                Resumo O crescente envelhecimento da população mundial, juntamente com diversos fatores ambientais, sociais e econômicos, acabam gerando grandes desafios para a saúde pública em geral. Dentro deste cenário é de interesse tanto
                para operadoras de planos de saúde privados quanto para gestores da saúde
                pública um melhor gerenciamento dos recursos disponíveis, a fim de atingir a
                maior parcela possível da sociedade. Para isso, tendo em mente a quantidade
                de informações produzidas diariamente, fica evidente também, a necessidade
                do uso de tecnologias de processamento de dados e auxílio à tomada de decisões para que tal gerenciamento seja feito de maneira satisfatória.
                Este trabalho tem como objetivo analisar a aplicação de técnicas de machine learning na área da saúde. Uma das possíveis aplicações inclui a detecção de possíveis pacientes de alto custo a partir de dados históricos, a fim de
                melhor direcionar intervenções que venham a evitar a transição de pacientes
                regulares em pacientes de alto custo, ou, no caso daqueles que já estão nessa
                condição, permitir abordagens apropriadas ao invés de genéricas. Em ambos
                os casos, a detecção de tais pacientes pode ser benéfica, reduzindo custos
                evitáveis e melhorando a condição dos pacientes.
                A fim de realizar tais detecções, este trabalho se concentrou no uso de técnicas de machine learning, especificamente, Redes Neurais, juntamente com
                um conjunto de dados composto por respostas de pesquisas aplicadas pelo
                governo dos Estados Unidos, denominado Medical Expenditure Panel Survey
                (MEPS) e atributos coletados a partir da literatura.
                O modelo final escolhido para prever a condição de alto custo foi uma rede
                neural sequencial totalmente conectada, com 3 camadas ocultas e 3 camadas
                de dropout. Esta rede obteve 88% nas métricas de accuracy e f1 score, 91%
                na métrica de recall, 86% de precision e 84% de specificity, demonstrando a
                capacidade do modelo de prever corretamente exemplos de ambas as classes.
                Este trabalho teve também como objetivo facilitar a criação e o teste dessas
                redes, disponibilizando as ferramentas desenvolvidas durante sua evolução no GitHub.
                Download
                Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
                Curso Mestrado em Ciência da Computação
                Tipo Dissertação
                Data 07/05/2021
                Área CIÊNCIA DA COMPUTAÇÃO
                Orientador(es)
                • Marco Aurelio Stefanes
                Coorientador(es)
                  Orientando(s)
                  • Rodrigo Albuquerque de Oliveira Siqueira
                  Banca
                  • David Corrêa Martins Junior
                  • Fabio Henrique Viduani Martinez
                  • Francisco Eloi Soares de Araujo
                  • Luiz Carlos da Silva Rozante
                  • Marco Aurelio Stefanes
                  Resumo O alinhamento de múltiplas sequências é uma ferramenta importante para o estudo e a representação de similaridades entre conjuntos de sequências biológicas – como DNAs, RNAs e proteínas. Este estudo permite a obtenção de informações relevantes destas sequências, como suas relações funcionais, evolucionárias e estruturas internas. Devido a sua importância, vários métodos foram propostos como solução a este problema. Entretanto, a complexidade inerente do problema, que é apresentado como computacionalmente NP-Difícil, conduz a tempos de execução proibitivos em cenários com muitas sequências longas.
                  Neste trabalho, apresentamos uma implementação completa para o método heurístico de Alinhamento Progressivo utilizando paralelismo híbrido para ambientes com múltiplas GPUs. Esta abordagem permite a construção de alinhamentos globais entre bases com muitas sequências de comprimentos longos em tempo razoável.
                  Nossa implementação atinge resultados expressivos, apresentando speedups de até 380 quando comparado ao alinhador paralelo ClustalW-MPI para sequências reais obtidas do banco de dados do NCBI.
                  Detecção de Hiperônimos com BERT e Padrões de Hearst
                  Curso Mestrado em Ciência da Computação
                  Tipo Dissertação
                  Data 01/04/2021
                  Área CIÊNCIA DA COMPUTAÇÃO
                  Orientador(es)
                  • Eraldo Luis Rezende Fernandes
                  Coorientador(es)
                    Orientando(s)
                    • Gabriel Escobar Paes
                    Banca
                    • Anderson Vicoso de Araujo
                    • Bruno Magalhaes Nogueira
                    • Edson Takashi Matsubara
                    • Eraldo Luis Rezende Fernandes
                    • Rafael Geraldeli Rossi
                    Resumo A relação de hiperônimo é uma importante relação semântica entre palavras que é útil para resolver problemas como resolução de correferência, extração de relações, textual entailment, dentre outros. Um hiperônimo é uma palavra de sentido mais genérico, enquanto um hipônimo é uma palavra de
                    sentido mais específico. Por exemplo, cidade é hiperônimo de roma, e cachorro é hipônimo de animal. Neste trabalho, propomos um algoritmo não-supervisionado para a tarefa de detecção de hiperônimo que combina os chamados padrões de Hearst com o modelo de linguagem BERT. Padrões de Hearst são padrões linguísticos como banana é um tipo de fruta, o qual é um
                    indício que fruta é um hiperônimo de banana. Uma limitação deste tipo de abordagem é o problema de escassez (sparsity), comum a métodos baseados em padrões linguísticos.
                    O modelo de linguagem BERT é um modelo profundo de representação contextual que é treinado para predizer palavras mascaradas na sequência de entrada.
                    Nós combinamos esta característica do BERT com padrões de Hearst para derivar um algoritmo de detecção de hiperônimo que obtém os melhores resultados da literatura em 7 de 13 datasets considerados.
                    Dentre estes datasets, estão os três primeiros datasets em português e
                    que foram desenvolvidos neste trabalho. Nós comparamos nosso método com
                    o algoritmo DIVE, uma extensão do conhecido algoritmo word2vec que detinha os melhores resultados na maioria dos datasets em inglês para detecção
                    de hiperônimo. Nosso método alcança um desempenho 3 pontos acima do
                    DIVE na média dos treze datasets considerados.
                    Download
                    Mecanismos para apoiar o desenvolvimento de interfaces Web acessíveis para surdos
                    Curso Mestrado em Ciência da Computação
                    Tipo Dissertação
                    Data 05/03/2021
                    Área CIÊNCIA DA COMPUTAÇÃO
                    Orientador(es)
                    • Maria Istela Cagnin Machado
                    Coorientador(es)
                      Orientando(s)
                      • Gênesis Medeiros do Carmo
                      Banca
                      • Cássio Leonardo Rodrigues
                      • Debora Maria Barroso Paiva
                      • Jane Dirce Alves Sandim Eleuterio
                      • Marcelo Medeiros Eler
                      • Maria Istela Cagnin Machado
                      Resumo
                      Download
                        Extração de Relações Complexas em Denúncias Jurídicas por meio de Rotulação de Palavras
                        Curso Mestrado em Ciência da Computação
                        Tipo Dissertação
                        Data 05/03/2021
                        Área CIÊNCIA DA COMPUTAÇÃO
                        Orientador(es)
                        • Eraldo Luis Rezende Fernandes
                        Coorientador(es)
                          Orientando(s)
                          • Lucas Marques Macedo Navarezi
                          Banca
                          • Anderson Vicoso de Araujo
                          • Bruno Magalhaes Nogueira
                          • Edson Takashi Matsubara
                          • Eraldo Luis Rezende Fernandes
                          • Leandro Guimarães Marques Alvim
                          Resumo
                          Segmentação da Área de Olho de Lombo usando Aprendizado Profundo
                          Curso Mestrado em Ciência da Computação
                          Tipo Dissertação
                          Data 02/03/2021
                          Área CIÊNCIA DA COMPUTAÇÃO
                          Orientador(es)
                          • Wesley Nunes Goncalves
                          Coorientador(es)
                            Orientando(s)
                            • Maximilian Jaderson de Melo
                            Banca
                            • Gedson Faria
                            • Hemerson Pistori
                            • Jose Marcato Junior
                            • Marina de Nadai Bonin Gomes
                            • Wesley Nunes Goncalves
                            Resumo
                            Contador de objetos em vídeos usando redes neurais convolucionais
                            Curso Mestrado em Ciência da Computação
                            Tipo Dissertação
                            Data 02/03/2021
                            Área CIÊNCIA DA COMPUTAÇÃO
                            Orientador(es)
                            • Wesley Nunes Goncalves
                            Coorientador(es)
                              Orientando(s)
                              • Plabiany Rodrigo Acosta
                              Banca
                              • Amaury Antonio de Castro Junior
                              • Hemerson Pistori
                              • Jonathan de Andrade Silva
                              • Jose Marcato Junior
                              • Wesley Nunes Goncalves
                              Resumo
                              Download
                                Similaridade DCJ Livre de Famílias
                                Curso Mestrado em Ciência da Computação
                                Tipo Dissertação
                                Data 28/01/2021
                                Área CIÊNCIA DA COMPUTAÇÃO
                                Orientador(es)
                                • Fabio Henrique Viduani Martinez
                                Coorientador(es)
                                  Orientando(s)
                                  • Gabriel Leme Medeiros
                                  Banca
                                  • Carlos Henrique Aguena Higa
                                  • Diego Padilha Rubert
                                  • Fabio Henrique Viduani Martinez
                                  • Francisco Eloi Soares de Araujo
                                  • Luiz Carlos da Silva Rozante
                                  Resumo
                                  Infraestrutura Computacional para Detecção e Análise de Particulados em Plantas Solares Fotovoltaicas
                                  Curso Mestrado em Ciência da Computação
                                  Tipo Dissertação
                                  Data 04/09/2020
                                  Área CIÊNCIA DA COMPUTAÇÃO
                                  Orientador(es)
                                  • Ricardo Ribeiro dos Santos
                                  Coorientador(es)
                                    Orientando(s)
                                    • Guilherme Gloriano de Souza
                                    Banca
                                    • Édler Lins de Albuquerque
                                    • Edson Antonio Batista
                                    • Liana Dessandre Duenha Garanhani
                                    • Marco Hiroshi Naka
                                    • Ricardo Ribeiro dos Santos
                                    Resumo
                                    Download
                                    Generating Search Strings for Secondary Studies Using Text Mining
                                    Curso Mestrado em Ciência da Computação
                                    Tipo Dissertação
                                    Data 01/09/2020
                                    Área CIÊNCIA DA COMPUTAÇÃO
                                    Orientador(es)
                                    • Bruno Magalhaes Nogueira
                                    Coorientador(es)
                                      Orientando(s)
                                      • Leonardo Fuchs Alves
                                      Banca
                                      • Bruno Magalhaes Nogueira
                                      • Edson Takashi Matsubara
                                      • Francisco Jose Silveira de Vasconcellos
                                      • José Adson Oliveira Guedes da Cunha
                                      • Rafael Geraldeli Rossi
                                      • Ricardo Marcondes Marcacini
                                      Resumo Estudo Secundário (ES) é um importante método de pesquisa utilizado em
                                      diversas áreas. Uma etapa crucial na fase de Condução de um ES é a busca
                                      de estudos. Esta etapa é demorada e sujeita a erros, principalmente devido ao
                                      refinamento da string de busca. O objetivo deste estudo é validar a eficácia de
                                      uma formulação automática de strings de busca para ES. Nossa abordagem,
                                      denominada Search String Generator (SeSG), leva como entrada um pequeno
                                      conjunto de estudos (um Quasi-Gold Standard) e os processa usando mineração de texto. Depois disso, o SeSG gera strings de busca que fornecem
                                      um alto F1-Score do Start Set em estratégias de busca híbridas. Para atingir
                                      esse objetivo, (1) geramos uma representação textual estruturada do conjunto
                                      inicial de estudos de entrada como uma bag-of-words usando Frequência de
                                      Termos e Frequência de Documentos; (2) realizamos uma modelagem automá-
                                      tica de tópicos utilizando LDA (Latent Dirichlet Allocation) e enriquecimento de
                                      termos com uma representação de linguagem densa pré-treinada (embedding)
                                      chamada BERT (Bidirectional Encoder Representations from Transformers); (3)
                                      formulamos e avaliamos a string de busca usando os termos obtidos; e (4)
                                      usamos as strings de busca desenvolvidas em uma biblioteca digital. Para a
                                      validação da nossa abordagem, conduzimos um experimento - usando alguns
                                      ES como objetos - comparando a eficácia de strings de busca formuladas automaticamente pelo SeSG com strings de busca manuais relatadas nesses estudos. O SeSG gera strings de busca que alcançam um melhor F1-Score do Start
                                      Set do que as pesquisas relatadas pelos ES. Nosso estudo mostra que SeSG
                                      pode substituir efetivamente a formulação de strings de busca, em estratégias
                                      de busca híbridas, uma vez que dispensa os refinamentos manuais da string.
                                      Download
                                      Modelos Profundos de Linguagem para Reconhecimento de Entidades Nomeadas em Domínio Jurídico
                                      Curso Mestrado em Ciência da Computação
                                      Tipo Dissertação
                                      Data 03/06/2020
                                      Área CIÊNCIA DA COMPUTAÇÃO
                                      Orientador(es)
                                      • Eraldo Luis Rezende Fernandes
                                      Coorientador(es)
                                        Orientando(s)
                                        • Luiz Henrique Neves Bonifacio
                                        Banca
                                        • Anderson Vicoso de Araujo
                                        • Bruno Magalhaes Nogueira
                                        • Edson Takashi Matsubara
                                        • Eraldo Luis Rezende Fernandes
                                        • Leandro Guimarães Marques Alvim
                                        Resumo Modelos de linguagem baseados em aprendizagem profunda, como ELMo,
                                        BERT e GPT, alcançaram resultados impressionantes em várias tarefas de

                                        linguagem natural. Tais modelos de linguagem são pré-treinados em gran-
                                        des corpora construídos a partir de textos de domínio geral, sem qualquer

                                        tipo de anotação, e posteriormente treinados de forma supervisionada em
                                        uma tarefa final. Uma etapa opcional consiste em realizar um ajuste fino

                                        no modelo de linguagem utilizando um corpus intradomínio que seja sufici-
                                        entemente grande e sem anotações, antes de treinar o modelo na tarefa de

                                        interesse. Esta abordagem não é amplamente explorada na literatura atual.

                                        Neste trabalho, é investigado o impacto desta etapa no reconhecimento de en-
                                        tidades nomeadas (REN) em documentos jurídicos no idioma Português. São

                                        explorados diferentes cenários, considerando duas arquiteturas de modelo de

                                        linguagem baseadas em aprendizagem profunda (ELMo e BERT), quatro cor-
                                        pora anotados e três tarefas de REN pertencentes ao domínio jurídico para

                                        o Português. Resultados experimentais mostram uma melhora significativa

                                        no desempenho devido ao finetuning do modelo de linguagem em textos in-
                                        tradomínio. Os modelos treinados também foram avaliados em duas tarefas

                                        de REN de domínio geral, com o objetivo de entender se as melhorias obti-
                                        das foram devidas à similaridade entre os domínios ou simplesmente a maior

                                        quantidade de dados de treinamento. Os resultados alcançados indicam que
                                        realizar finetuning em dados do domínio jurídico prejudica o desempenho do
                                        modelo em tarefas de REN em dados de domínio geral. Além disso, o modelo

                                        de linguagem baseado na arquitetura BERT, treinado em um corpus do do-
                                        mínio jurídico melhorou significantemente o resultado estado-da-arte para o

                                        corpus LeNER-Br, um corpus de REN formado por documentos jurídicos em
                                        Português.
                                        Download
                                        Abordagens para o Problema da Seleção das Subcadeias Específicas utilizando a Distância de Hamming
                                        Curso Mestrado em Ciência da Computação
                                        Tipo Dissertação
                                        Data 04/03/2020
                                        Área TEORIA DA COMPUTAÇÃO
                                        Orientador(es)
                                        • Francisco Eloi Soares de Araujo
                                        Coorientador(es)
                                        • Said Sadique Adi
                                        Orientando(s)
                                        • Lucas Barbosa Rocha
                                        Banca
                                        • Carlos Henrique Aguena Higa
                                        • Francisco Eloi Soares de Araujo
                                        • Luiz Carlos da Silva Rozante
                                        • Marco Aurelio Stefanes
                                        • Said Sadique Adi
                                        Resumo
                                        Download
                                        O problema de roteamento em anéis de dois níveis
                                        Curso Mestrado em Ciência da Computação
                                        Tipo Dissertação
                                        Data 13/02/2020
                                        Área TEORIA DA COMPUTAÇÃO
                                        Orientador(es)
                                          Coorientador(es)
                                          Orientando(s)
                                            Banca
                                            • Edna Ayako Hoshino
                                            • Fabio Henrique Viduani Martinez
                                            • Henrique Mongelli
                                            Resumo
                                            Página 2 de 11 (20 de 209 registros).