A Multi-Faceted Analysis of How Organizations Create and Maintain Code Samples |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
15/09/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Bruno Barbieri de Pontes Cafeo
|
Coorientador(es) |
|
Orientando(s) |
- Matheus Albuquerque de Melo
|
Banca |
- Awdren de Lima Fontao
- Bruno Barbieri de Pontes Cafeo
- Elder José Reioli Cirilo
- Hudson Silva Borges
- Maria Istela Cagnin Machado
|
Resumo |
Code samples, como artefatos presentes no contexto dos ecossistemas de software, a qual tem a função de auxiliar os desenvolvedores, exemplificando o uso de APIs, bibliotecas e outros recursos começaram a ser explorados na literatura recentemente, por volta de 2019. Estudos propuseram a compreender as características estruturais do código desses artefatos, bem como como eles passam por manutenções e evoluem ao longo do tempo. Em 2020, também houve exploração do público-alvo que consome este artefato por meio de perguntas no StackOverflow. Este presente estudo foi dividido em duas partes. Na primeira, investigamos repositórios de code samples no GitHub e analisamos como as organizações lidam com as contribuições de desenvolvedores externos dentro desse ambiente. Na segunda parte, realizamos uma pesquisa com desenvolvedores que produzem code samples dentro das organizações. Isso nos permitiu compreender melhor a visão e as perspectivas deles em relação aos code samples, além de analisar suas experiências com code samples e a dedicação a esses artefatos. As propostas de ambas as partes do estudo não haviam sido exploradas anteriormente no contexto de code samples. Nossas descobertas revelaram alguns pontos como a demora na revisão de pull requests, especialmente os que foram rejeitados, e gargalos na distribuição das atividades de revisão entre os mantenedores. Essas constatações resultaram em uma publicação. Além disso, descobrimos que os objetivos dos code samples vão além dos propósitos educacionais, conforme sugerido pelos desenvolvedores das organizações. Também identificamos que desenvolvedores experientes estão envolvidos no desenvolvimento de code samples nas organizações, dedicando geralmente algumas horas mensais ou semanais para essa atividade. Por fim, notamos a presença de problemas de divergência de opiniões entre os desenvolvedores das organizações, em relação ao público-alvo dos code samples, ao processo de desenvolvimento e à garantia da qualidade desses artefatos. |
|
Problema da coloração de vértices com pesos dissonantes e restrições de cores |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
21/08/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
- Edison Gabriel Gonçalves Borghezan
|
Banca |
- Diego Padilha Rubert
- Edna Ayako Hoshino
- Fabio Henrique Viduani Martinez
- Francisco Eloi Soares de Araujo
- Henrique Mongelli
|
Resumo |
O problema de coloração de vértices com pesos dissonantes e restrições de cores é uma generalização do problema de coloração de vértices e vários outros
problemas de coloração podem ser reduzidos a ele. Neste trabalho é proposta uma variação do problema de coloração de vértices, e também três modelos
matemáticos utilizando programação linear inteira, um modelo cujo número de variáveis e restrições é polinomial, um segundo, no qual o número de variáveis é exponencial em relação ao número de restrições e um terceiro modelo bastante semelhante ao segundo mas que aproveita-se de uma propriedade que permite algumas cores serem aglutinadas almejando uma execução mais rápida. Para os modelos estendidos, são propostos algoritmos de geração de colunas para lidar com o número exponencial de variáveis do problema, assim como heurísticas, tanto para gerar novas colunas quanto para encontrar soluções inteiras em cada nó da árvore de enumeração para acelerar o desempenho de um algoritmo exato de branch-and-price. Um conjunto de instâncias foi proposto e foi possível identificar características das instâncias difíceis para este problema. |
|
Preditor Híbrido de Estruturas Terciárias de Proteínas |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
10/08/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Telma Woerle de Lima Soares
|
Coorientador(es) |
|
Orientando(s) |
- Alexandre Barbosa de Almeida
|
Banca |
|
Resumo |
|
|
Opinion Mining for App Reviews: Identifying and Prioritizing Emerging Issues for Software Maintenance and Evolution |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
14/07/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Ricardo Marcondes Marcacini
|
Coorientador(es) |
|
Orientando(s) |
- Vitor Mesaque Alves de Lima
|
Banca |
- Bruno Magalhaes Nogueira
- Fabio Manoel Franca Lobato
- Jacson Rodrigues Barbosa
- Marcelo Augusto Santos Turine
- Rafael Geraldeli Rossi
- Ricardo Marcondes Marcacini
- Solange Oliveira Rezende
|
Resumo |
A mineração de opinião para avaliações de aplicativos tem como objetivo analisar os comentários dos usuários nas lojas de aplicativos para apoiar as atividades de engenharia de software, principalmente a manutenção e evolução de software. Identificar prontamente problemas emergentes, como bugs, é um dos principais desafios na manutenção da qualidade do software. No entanto, analisar manualmente esses comentários é um desafio devido à grande quantidade de dados textuais. Métodos baseados em aprendizado de máquina têm sido empregados para automatizar a mineração de opinião e lidar com essa questão. Embora métodos recentes tenham alcançado resultados promissores na extração e categorização de problemas a partir das opiniões dos usuários, os estudos existentes concentram-se principalmente em auxiliar os engenheiros de software a explorar o comportamento histórico dos usuários em relação às funcionalidades do aplicativo e não exploram mecanismos de deteção de tendências e classificação de risco de problemas emergentes. Além disso, os estudos anteriores não abrangem o processo completo de análise de problemas e riscos por meio de uma abordagem não supervisionada. Este projeto de doutorado avança o estado da arte na mineração de opinião para reviews de aplicativos, propondo uma abordagem não supervisionada para identificar e priorizar problemas emergentes. Nosso objetivo é minimizar o tempo entre a ocorrência de um problema e sua correção, permitindo uma rápida identificação do problema. Propomos duas novas abordagens que (i) identifica possíveis requisitos de software defeituosos e treina modelos preditivos para antecipar requisitos com maior probabilidade de avaliação negativa e (ii) detecta problemas a partir de avaliações, classifica-os em uma matriz de risco com níveis de priorização e monitora sua evolução ao longo do tempo. Adicionalmente, apresentamos uma abordagem de construção da matriz de risco usando os recentes Large Language Models (LLMs). Processamos mais de 6.6 milhões de comentários de usuários para avaliar nossa proposta, identificando e classificando o risco associado a quase 270.000 problemas. Os resultados demonstram a competitividade de nossa abordagem não supervisionada em comparação com modelos supervisionados existentes. Comprovamos que as opiniões extraídas dos comentários dos usuários fornecem percepções importantes sobre os problemas e riscos associados aos aplicativos, que podem ser detectados antecipadamente para mitigar seu impacto. Nosso processo de mineração de opinião implementa a análise automatizada de problemas, com priorização baseada em risco e monitoramento temporal.
|
Download |
|
|
Abordagens Multimodais com Fusão de Dados em Aprendizado Profundo |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
16/06/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Anderson Vicoso de Araujo
- Bruno Magalhaes Nogueira
- Diego Furtado Silva
- Edson Takashi Matsubara
- Eraldo Luis Rezende Fernandes
- Gustavo Enrique de Almeida Prado Alves Batista
- Ricardo Marcondes Marcacini
|
Resumo |
As redes neurais profundas, especialmente os modelos de linguagem e visão, têm sido amplamente utilizados em problemas reais nos últimos anos. Geralmente modelos aplicam o uso de apenas um tipo de dado/informação (texto, imagem, vídeo, áudio) em problemas de aprendizado, também chamados de modelos unimodais. No entanto, dada a quantidade crescente de informações não estruturadas e a variedade de formatos de dados existentes, novas abordagens têm sido desenvolvidas com o objetivo de estabelecer estratégias que viabilizem a utilização de múltiplos dados em um mesmo modelo de aprendizado. Este trabalho explora a fusão de dados em modelos de Aprendizado de Máquina Multimodal (AM). A proposta desta tese explora uma estratégia simples que utiliza operações matemáticas para fundir os diversos tipos de dados entre as camadas da arquitetura multimodal, mecanismos de atenção e conexões residuais. Uma outra proposta explora o uso da destilação de conhecimento multimodal para otimizar o desempenho de modelos de aprendizado profundo, transferindo conhecimento entre modalidades de um mesmo domínio. O principal avanço deste trabalho foi usar as operações aritméticas, mecanismos de atenção e conexões residuais em abordagens multimodais com a fusão de dados. Isso permitiu obter representações complementares sobre as modalidades, o que levou a uma melhor convergência sem diferença significativa com o estado-da-arte. |
Download |
|
|
Segmentação de Documentos Jurídicos usando Supervisão Fraca |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
22/03/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Eraldo Luis Rezende Fernandes
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Bruno Magalhaes Nogueira
- Edson Takashi Matsubara
- Eraldo Luis Rezende Fernandes
- Leandro Guimarães Marques Alvim
- Valeria Quadros dos Reis
|
Resumo |
Milhões de processos estão em tramitação no sistema judiciário brasileiro.
Os acórdãos são decisões colegiadas de tribunais brasileiros e, por conta disto,
são fundamentais na uniformização do entendimento entre os magistrados e entre diferentes tribunais.
Portanto, desenvolver e implementar soluções tecnológicas eficazes para auxiliar
juízes,
desembargadores e
outros profissionais envolvidos no processo judicial
a lidar com o crescente volume de processos judiciais no Brasil.
Essas soluções devem ser capazes de acelerar a tomada de decisões e reduzir a carga de trabalho,
garantindo a eficiência do sistema judiciário e a satisfação dos cidadãos que dependem dele.
Os acórdãos dos tribunais brasileiros estão disponíveis publicamente,
entretanto, como estes documentos não estão em formato estruturado,
o processamento automático deles é dificultado.
Um dos primeiros passos para o processamento de acórdãos é
a segmentação destes documentos que são compostos por diversas seções com diferentes informações sobre a decisão.
Neste trabalho, foram coletados mais de 960 mil
documentos contendo o inteiro teor de acórdãos de cinco tribunais de diferentes esferas do judiciário brasileiro.
Estes documentos estão em formato PDF e foram coletados nos portais de busca dos tribunais.
Após a coleta, o conteúdo textual e características de layout de 624.161 acórdãos
foram extraídos utilizando diferentes ferramentas.
Adicionalmente, um método de segmentação automática foi desenvolvido para cada tribunal
e todos os documentos foram segmentados em cinco seções obrigatórias em acórdãos de tribunais brasileiros.
A segmentação de 100 documentos de cada tribunal (500 no total) foi manualmente revisada
para servirem como validação e teste de modelos de Aprendizado de Máquina (AM).
Modelos de AM clássicos e baseados em aprendizado profundo foram avaliados utilizando estes datasets.
Todos os modelos foram treinados usando os dados anotados automaticamente (supervisão fraca).
Diversos experimentos foram realizados para avaliar diferentes aspectos do problema de segmentação de acórdãos.
Particularmente, um aspecto analisado foi a capacidade de generalização dos modelos para tribunais não vistos no treinamento.
Outro aspecto considerado nos experimentos foi o impacto de características de layout dos documentos em alguns modelos de AM.
Mais especificamente, foram analisados modelos baseados em aprendizado profundo,
propostos recentemente na literatura,
que consideram como entrada tanto o conteúdo textual quanto algumas características de layout.
Modelos de segmentação com incorporação de layout alcançam, em alguns casos,
desempenho superior aos métodos desenvolvidos especificamente para um tribunal.
Modelos que são treinados e testados no mesmo tribunal também tendem a apresentar um desempenho comparável
ou até superior aos métodos de anotação automática.
No entanto, quando se trata de modelos treinados em um tribunal e testados em outro,
o desempenho depende da correlação encontrada entre eles.
Em alguns casos, a perda de desempenho é substancial.
Neste trabalho, são disponibilizados diversos recursos que podem ser usados em trabalhos futuros.
Todos os documentos coletados em formato PDF,
assim como os correspondentes arquivos TSV e JSON com as anotações automáticas,
estão disponíveis livremente.
Também estão disponíveis os scripts de segmentação automática,
assim como os scripts usados para treinamento e avaliação de modelos.
Por fim, também estão disponíveis as anotações revisadas manualmente de 500 documentos (100 de cada tribunal). |
Download |
|
|
Investigation of machine learning techniques to aid in the diagnosis of neurodegenerative diseases |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
20/03/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Hugo Alexandre Dantas do Nascimento
|
Coorientador(es) |
- Nilza Nascimento Guimarães
|
Orientando(s) |
|
Banca |
- Hugo Alexandre Dantas do Nascimento
- Nilza Nascimento Guimarães
- Renato de Freitas Bulcão Neto
- Rogerio Lopes Salvini
- Ronaldo Martins da Costa
- Sérgio Teixeira De Carvalho
|
Resumo |
Doenças neurodegenerativas (DND), como a Doença de Parkinson (DP), Doença de Huntington (DH) e Esclerose Lateral Amiotrófica (ELA) causam, entre outros sintomas, movimentos involuntários, fraqueza muscular e dificuldade em manter uma marcha estável. Em estágios avançados, essas doenças podem levar à morte. As DNDs não têm cura e diagnosticá-las é uma tarefa difícil porque muitas delas não possuem um único teste definitivo que permita confirmar a doença. Um diagnóstico precoce é ainda mais complexo dada a presença de sintomas comuns a muitas outras doenças, o que posterga intervenções precoces de tratamento e favorece a progressão dos processos degenerativos. Nesta tese, investigamos o uso de técnicas de aprendizado de máquina para auxiliar no diagnóstico e diferenciação de pacientes com DP, DH, ELA e indivíduos saudáveis a partir da marcha. Métodos computacionais alternativos, rápidos, e de baixo custo, são propostos para auxiliar nesta tarefa. Os métodos propostos inovam ao investigar, pela primeira vez na literatura, características obtidas a partir da distorção harmônica da série da marcha, além de prover uma análise detalhada do efeito dos parâmetros da marcha para a classificação desses sinais. Além disso, uma abordagem inovadora é proposta para priorizar os pacientes, reduzindo a quantidade de esforço físico necessário para o exame. Assim, propomos e investigamos a viabilidade de adotar intervalos de caminhada mais curtos, como um único minuto de caminhada, tendo em vista que pacientes com DNNs podem ter dificuldades em caminhar continuamente, mesmo por curtos períodos de tempo, e durante os estágios iniciais da doença. Os métodos propostos são validados com bases de dados públicas de marcha, coletadas por meio de sensores de força alocados nos pés de pessoas com DP, DH, ELA, e também de indivíduos saudáveis durante uma caminhada livre. Os resultados são comparados a estudos de estado da arte, e é possível observar a eficácia e eficiência dos métodos propostos, confirmando seu potencial para auxiliar no diagnóstico de DNDs e serem explorados na prática. |
|
Análise Isogeométrica com Elementos de Contorno e Superfícies de Subdivisão |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
03/03/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Afonso Paiva Neto
- Anderson Vicoso de Araujo
- Marcio Artacho Peres
- Paulo Aristarco Pagliosa
|
Resumo |
O método dos elementos de contorno (MEC), muito utilizado para solução numérica de problemas de mecânica do contínuo, depende de uma malha para a análise e essa malha tem impacto direto na precisão da solução numérica do problema considerado. Quando adotado junto à análise isogeométrica, a escolha de uma representação geométrica adequada é crucial, visto que o modelo de análise deriva diretamente do modelo geométrico. Um tipo de representação amplamente utilizado — que hoje é o padrão na indústria de animação, após forte incentivo da Pixar com o lançamento da API OpenSubdiv — são as superfícies de subdivisão, as quais possibilitam a construção de formas complexas e fornecem aproximações tão boas quanto se queira da forma do objeto a ser representado. Dada tamanha relevância das superfícies de subdivisão, com utilização crescente em diversas áreas, que incluem aplicações CAD (do inglês, Computer-aided Design), e tendo em vista que as simulações físicas não mais se restringem às áreas de ciências e engenharias, com papel importante em outros campos da computação gráfica, tais como jogos digitais, animações e efeitos especiais, neste trabalho foi proposta uma solução para a análise isogeométrica elastostática com elementos de contorno para sólidos representados por superf´ıcies de subdivisão. São introduzidos como parte central desta solução um método de posicionamento de pontos de colocação e um método de extração de elementos curvos para superfícies de subdivisão com bordas, pontos extraordinários e curvas de vinco. A solução proposta se mostrou adequada e equiparável às encontradas na literatura, e se estabelece como uma extensão ao modelo de análise no qual baseia-se este trabalho.
Palavras-chave: superfícies de subdivisão, análise isogeométrica, método dos elementos de contorno.
|
|
Deep Learning Approaches to Segment Eucalyptus Tree Images |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
17/02/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Camilo Carromeu
- Celso Soares Costa
- Jose Marcato Junior
- Wesley Nunes Goncalves
|
Resumo |
O agronegócio é uma das principais fontes de riqueza e emprego do Brasil, representando uma parcela significativa do Produto Interno Bruto (PIB) nacional. Em 2021, o setor do agronegócio atingiu 27,4% do PIB brasileiro, a maior participação desde 2004, quando atingiu 27,53%. A indústria de base florestal é um importante segmento do agronegócio, pois fornece insumos vitais para diversos setores industriais, como produtos de madeira, móveis e papel. As florestas plantadas desempenham um papel essencial na captura de carbono e outros serviços ecossistêmicos, sendo o eucalipto a árvore mais utilizada, com 7,3 milhões de hectares de florestas de eucalipto em 2021. O mapeamento de árvores é vital para a economia e o meio ambiente, e as soluções baseadas em inteligência artificial são valiosas ferramentas de apoio à decisão em agricultura e mapeamento de árvores. Consequentemente, há um forte incentivo para buscar soluções mais abrangentes que utilizem tecnologias avançadas de aprendizado profundo para essa área. Assim, este trabalho tem como objetivo avaliar redes neurais convolucionais de aprendizado profundo eficientes para segmentação de imagens de troncos de eucalipto e apresentar uma proposta de segmentação específica para troncos de eucalipto que pode beneficiar aplicações agrícolas ou ferramentas de apoio à decisão para mapeamento de árvores. Este trabalho foi dividido em duas etapas principais para avaliar as redes de segmentação e criar uma técnica de pós-processamento. A primeira etapa deste estudo avaliou a eficiência de redes de aprendizado profundo na segmentação semântica de troncos de eucalipto em imagens panorâmicas em cores RGB capturadas no nível do solo. As redes de aprendizado profundo FCN, GCNet, ANN e PointRend foram avaliadas nesta etapa para segmentação de imagens de troncos de eucalipto. O treinamento e a avaliação das redes foram realizados usando uma abordagem de validação cruzada de cinco etapas, usando um conjunto de dados composto por imagens anotadas manualmente de uma floresta de eucalipto. O conjunto de dados inicial foi criado usando um campo de visão esférico da câmera. Ele incluiu uma variedade de eucaliptos com características distintas, como variações nas distâncias entre os troncos e mudanças na curvatura, tamanhos e diâmetros dos troncos, que representam desafios significativos para métodos de aprendizado profundo em tarefas de segmentação semântica. Para a primeira etapa deste estudo, o modelo FCN apresentou o melhor desempenho, com precisão de pixel de 78,87% e mIoU de 70,06%, além de obter um bom tempo de inferência. As redes GCNet e ANN também tiveram desempenho semelhante ao FCN, mas com impactos negativos em sua capacidade de generalizar tarefas em contextos específicos. O estudo conclui que o FCN foi o mais robusto, dentre os métodos avaliados, para segmentação semântica de imagens de árvores em imagens panorâmicas. Essa avaliação das redes de segmentação pode ser um passo crucial para o desenvolvimento de outras ferramentas relevantes no manejo florestal, como a estimativa de altura e diâmetro do tronco. A segunda etapa deste trabalho foi criar e avaliar uma técnica de pós-processamento de imagens RGB-D para melhorar os resultados das redes semânticas atuais para segmentação em imagens de eucalipto. Criamos uma nova imagem de conjunto de dados a partir de imagens obtidas de uma câmera estéreo, que capturou não apenas as informações de cor (RGB), mas também as informações de profundidade, o que permitiu uma visão ainda mais completa da floresta de eucalipto. Após a construção do novo banco de imagens, sua anotação foi realizada por especialistas. A próxima etapa deste estudo foi a avaliação de seis redes de segmentação semântica de imagens e a comparação com os resultados antes e depois da aplicação da técnica de pós-processamento. Treinamos, avaliamos e testamos as redes FCN, ANN, GCNet, SETR, SegFormer e DPT nas imagens anotadas. A técnica de pós-processamento melhorou significativamente os resultados das redes de segmentação de imagens testadas, com um ganho significativo de 24,13% em IoU e 13,11% em F1-score para redes baseadas em convolução e 12,49% para IoU e 6,56% em F1-score para redes baseadas em transformadores. A rede SegFormer obteve os melhores resultados em todos os testes antes e após a aplicação da técnica. A técnica também corrigiu com eficácia falhas de segmentação, erosão e erros de dilatação, resultando em bordas mais precisas e troncos mais bem delimitados. O custo computacional médio da técnica foi de 0,019 segundos, indicando que ela pode ser aplicada em redes de segmentação sem comprometer o desempenho. Os resultados obtidos pela aplicação da técnica de pós-processamento propõem uma abordagem inovadora com baixo custo computacional e melhorias significativas para as redes de segmentação existentes. |
|
Simulação de fluidos com PIC usando RBF-FD e grades adaptativas balanceadas |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
10/02/2023 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Afonso Paiva Neto
- Anderson Vicoso de Araujo
- Marcio Artacho Peres
- Paulo Aristarco Pagliosa
|
Resumo |
Em animações baseadas em física, a simulação de fluido por métodos híbridos, ou seja, empregando tanto uma discretização material quanto espacial, é normalmente baseada na subdivisão do espaço por uma grade regular. Essa abordagem, a depender da resolução adotada, pode gerar um grande número de células que não contém fluido e não precisam ser processadas, mas que ainda assim serão visitadas. Com o intuito de contornar esse problema, grades adaptativas foram introduzidas para eliminar células vazias. Nas grades regulares, o cálculo dos operadores diferenciais, que é necessário para a resolver a simulação, pode ser feito pelo método das diferenças finitas. O método aproxima o valor da derivada em um ponto com base em seus vizinhos --- que devem estar alinhados ao ponto em relação aos eixos do domínio e a uma distância do ponto sendo avaliado --- e essa vizinhança é chamada de estêncil. Como nas grades adaptativas os tamanhos das células podem ser diferentes, os estênceis gerados não são aptos para o uso do método das diferenças finitas como na grade regular. Uma alternativa para calcular os operadores diferenciais em uma grade adaptativa é o uso do método de diferenças finitas baseada em funções de base radial (RBF-FD), mas esse método é mais complexo e computacionalmente extensivo que o usado nas grades regulares. A fim de manter os benefícios de uma grade adaptativa e acelerar o cálculo dos operadores diferenciais com RBF-FD, este trabalho propõe o uso de grades adaptativas balanceadas, ou seja, grades em que a diferença de nível entre duas células vizinhas não seja maior que um. O objetivo é, uma vez identificado os estênceis gerados com tal condição, definir um dicionário cujas entradas contém funções que permitem o cálculo acelerado do RBF-FD para cada um desses estênceis possíveis. |
Download |
|
|
Correspondência de Pontos em Formas 3D Baseada em Aprendizagem Profunda Multivisão |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
23/12/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Afonso Paiva Neto
- Douglas Cedrim Oliveira
- Eraldo Luis Rezende Fernandes
- Hemerson Pistori
- Paulo Aristarco Pagliosa
- Renato Porfirio Ishii
- Thales Miranda de Almeida Vieira
- Thiago Oliveira dos Santos
|
Resumo |
Na área de processamento geométrico, diversas técnicas propostas na literatura
requerem que sejam estabelecidos pares de pontos de correspondência entre duas ou
mais superfícies, isto é, dado um ponto sobre uma superfície fonte, é preciso associar
qual é o ponto sobre uma superfície alvo que corresponde ao ponto dado. As aplicações
incluem reconstrução de superfícies, parametrização cruzada, transferência de pose,
transferência de texturas ou animações, reconhecimento e busca de formas, entre outras. A definição de uma função de mapeamento entre duas formas, mesmo para um número discreto de pontos característicos, nem sempre envolve somente relações geométricas ou estruturais, mas também relações semânticas. Uma vez que tal mapeamento em geral não pode ser diretamente expresso por abordagens puramente axiomáticas, em vários métodos de processamento geométrico a indicação de um conjunto inicial de pontos de correspondência é efetuada manualmente, através de processos que podem ser laboriosos e sujeitos a erros. De fato, descobrir relações semânticas entre formas quaisquer sem qualquer interação do usuário tratava-se de um problema ainda em aberto. Modelos de aprendizagem de máquina, em especial aprendizagem profunda, têm evoluído por sua capacidade de utilizar grandes conjuntos de dados para estimar a solução de problemas em diversas áreas do conhecimento, inclusive processamento geométrico. Este trabalho apresenta um método que utiliza aprendizagem multivisão profunda como parte do processamento responsável por encontrar automaticamente, isto é, sem a intervenção direta do usuário, pontos de correspondência entre superfícies de formas 3D, representadas por malhas de triângulos. O método é dividido em dois componentes: treinamento e correspondência. O primeiro trata-se de um treinamento multivisão que aprende, com o auxílio de uma CNN, a detectar pontos de interesse em imagens 2D oriundas de malhas de triângulos dos conjuntos de treinamento. O último, utiliza o resultado do treinamento para inferir correspondências semânticas com pontos de interesse (vértices) em formas 3D. A descoberta desses pontos não requer novo treinamento e nem interação humana durante o pipeline de correspondência. |
|
Correspondência de Pontos em Formas 3D Baseada em Aprendizagem Profunda Multivisão |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
23/12/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
- Eraldo Luis Rezende Fernandes
|
Orientando(s) |
- Alexandre Soares da Silva
|
Banca |
- Afonso Paiva Neto
- Douglas Cedrim Oliveira
- Eraldo Luis Rezende Fernandes
- Hemerson Pistori
- Paulo Aristarco Pagliosa
- Renato Porfirio Ishii
- Thales Miranda de Almeida Vieira
- Thiago Oliveira dos Santos
|
Resumo |
Na área de processamento geométrico, diversas técnicas propostas na literatura requerem que sejam estabelecidos pares de pontos de correspondência entre duas ou mais superfícies, isto é, dado um ponto sobre uma superfície fonte, é preciso associar qual é o ponto sobre uma superfície alvo que corresponde ao ponto dado. As aplicações incluem reconstrução de superfícies, parametrização cruzada, transferência de pose, transferência de texturas ou animações, reconhecimento e busca de formas, entre outras. A definição de uma função de mapeamento entre duas formas, mesmo para um número discreto de pontos característicos, nem sempre envolve somente relações geométricas ou estruturais, mas também relações semânticas. Uma vez que tal mapeamento em geral não pode ser diretamente expresso por abordagens puramente axiomáticas, em vários métodos de processamento geométrico a indicação de um conjunto inicial de pontos de correspondência é efetuada manualmente, através de processos que podem ser laboriosos e sujeitos a erros. De fato, descobrir relações semânticas entre formas quaisquer sem qualquer interação do usuário tratava-se de um problema ainda em aberto. Modelos de aprendizagem de máquina, em especial aprendizagem profunda, têm evoluído por sua capacidade de utilizar grandes conjuntos de dados para estimar a solução de problemas em diversas áreas do conhecimento, inclusive processamento geométrico. Este trabalho apresenta um método que utiliza aprendizagem multivisão profunda como parte do processamento responsável por encontrar automaticamente, isto é, sem a intervenção direta do usuário, pontos de correspondência entre superfícies de formas 3D, representadas por malhas de triângulos. O método é dividido em dois componentes: treinamento e correspondência. O primeiro trata-se de um treinamento multivisão que aprende, com o auxílio de uma CNN, a detectar pontos de interesse em imagens 2D oriundas de malhas de triângulos dos conjuntos de treinamento. O último, utiliza o resultado do treinamento para inferir correspondências semânticas com pontos de interesse (vértices) em formas 3D. A descoberta desses pontos não requer novo treinamento e nem interação humana durante o pipeline de correspondência. |
Download |
|
|
Segmentação de Imagens incluindo Contexto em Redes Neurais Convolucionais |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
19/12/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Hemerson Pistori
- Jonathan de Andrade Silva
- Jose Marcato Junior
- Lucas Prado Osco
- Wesley Nunes Goncalves
|
Resumo |
Existe uma demanda significativa para a automação da localização e reconhecimento dos objetos e pessoas, desde a automação da agricultura até sistemas de mensuração automática do nível da água em rios, tudo realizado por sistemas de visão computacional. A atribuição dessas marcações ou rotulações é realizada atualmente em nível de pixel, técnica chamada de segmentação semântica. Porém, em uma única imagem podem existir várias classes, e frequentemente essas classes são muito parecidas, se tornando um desafio complexo a ser trabalhado. Recentemente, métodos baseados em Redes Neurais Convolucionais (CNN) alcançaram um sucesso impressionante em tarefas de segmentação semântica. Esse sucesso deve-se, entre outros fatores, à inclusão de algum contexto para auxiliar a rede, como por exemplo a informação que uma classe é mais frequente que a outra e/ou; a informação de que o dataset possui imagens com um alto nível de incerteza na rotulação dos pixels presentes nas bordas. Contudo, esses dois pontos mencionados, tanto o desequilíbrio das classes quanto à incerteza de rotulação de pixels, podem ser melhores explorados. Apresentamos uma abordagem que calcula e atribui um peso para o pixel, considerando sua classe e a incerteza durante o processo de rotulação. Os pesos dos pixels são usados durante o treinamento para aumentar ou diminuir a importância dos pixels. Alguns trabalhos são apresentados demonstrando a utilização de técnicas de segmentação semântica com inclusão de contexto, com resultados significativos em comparação com os métodos mais relevantes. Além disso, também apresentamos um método para a reconstrução da área do objeto de interesse, permitindo a reconstrução das bordas desse objeto. As técnicas aqui apresentadas podem ser utilizadas em uma ampla variedade de métodos de segmentação, melhorarando sua robustez. |
|
Mineração de Textos usando Word Embeddings com Contexto Geográfico |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
27/10/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Ricardo Marcondes Marcacini
|
Coorientador(es) |
|
Orientando(s) |
|
Banca |
- Bruno Magalhaes Nogueira
- Camila Vaccari Sundermann
- Diego Furtado Silva
- Rafael Geraldeli Rossi
- Ricardo Marcondes Marcacini
|
Resumo |
Muitos fenômenos importantes estão relacionados a um contexto geográfico, como eventos extraídos de bases textuais na área da economia, saúde pública, violência urbana e questões sociais. A análise de eventos de maneira manual seria impraticável considerando a sua grande quantidade e as diversas formas nas quais os dados são encontrados. Assim, passou-se a ter a necessidade de processos baseados em métodos computacionais inteligentes como a Mineração de Textos que, por meio das suas etapas, torna capaz a exploração do conteúdo textual com informação geográfica e retorna padrões que não seriam encontrados por modelos tradicionais. O modelo tradicional para analisar a relação entre termos e regiões é o de calcular a probabilidade de um termo ser utilizado em textos associados a uma região, em geral, por meio da frequência de termos em regiões. No entanto, é reconhecido que essa abordagem falha para novos termos apresentados a um modelo, bem como para textos com termos ambíguos. Nesse contexto, modelos baseados em Word Embeddings são reconhecidos por melhorar a identificação das relações entre uma palavra e o possível local associado. Nesse sentido, neste projeto são investigadas representações textuais baseadas em Word Embeddings do modelo BERT (Bidirectional Encoder Representations from Transformers) em um processo de ajuste fino, na qual as informações georreferenciadas dos textos são utilizadas como contexto, culminando na proposta deste trabalho denominada GeoTransformers Language Model. Um dos diferenciais da proposta é automaticamente identificar macrorregiões e microrregiões a partir dos eventos e utilizá-las como contexto para ajuste fino de um modelo de linguagem. Os resultados gerados pelo modelo GeoTransformers, em comparação com outros modelos da literatura, apresentaram maiores valores para métricas de precisão, revocação, F1-Score. Além disso, o modelo proposto foi o único capaz de lidar com regiões com menor quantidade de eventos e difíceis de classificar. |
Download |
|
|
Acelerando Florestas de Decisão Paralelas em Processadores Gráficos para a Classificação de Texto |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
12/09/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Wellington Santos Martins
|
Coorientador(es) |
|
Orientando(s) |
- Julio Cesar Batista Pires
|
Banca |
- Fabrizzio Alphonsus Alves de Melo Nunes Soares
- Júnio César de Lima
- SÁVIO SALVARINO TELES DE OLIVEIRA
- Wellington Santos Martins
|
Resumo |
|
Download |
|
|
Modelagem e Desenvolvimento de Algoritmo para o Problema de Roteamento Dinâmico de Veículos |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
09/09/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Ricardo Ribeiro dos Santos
|
Coorientador(es) |
|
Orientando(s) |
- Wilton Gustavo Gomes da Costa
|
Banca |
- Bianca de Almeida Dantas
- Fillipe Goulart Silva Mendes
- Ricardo Ribeiro dos Santos
- Willy Alves de Oliveira Soler
|
Resumo |
Encontrar rotas eficientes para uma frota de forma a minimizar a distância percorrida e o tempo de viagem e maximizar o lucro do serviço são alguns objetivos almejados na resolução do Problema de Roteamento de Veículos (PRV). O PRV e suas variantes são amplamente estudados na literatura técnica especializada, com diversas propostas de modelos, algoritmos e técnicas (métodos) de resolução. Neste trabalho de mestrado, o objetivo é resolver a variante do PRV, denominada Problema de Roteamento Dinâmico de Veículos (PRDV). O PRDV considera que os itens a serem entregues não são conhecidos a priori e podem aparecer para o roteamento de maneira dinâmica. Este é um problema atual e de interesse das empresas de logística, especialmente aquelas com enfoque em marketplace, que precisam lidar com milhares de itens de produtos para entregas ao longo do dia e possuem limitações de frotas de veículos e de horários para entrega. Neste trabalho foram desenvolvidos um algoritmo dinâmico, denominado Dynamic Search per Neighbors Routes (DSNR), e um algoritmo estático, denominado Kmeans, Relax-and-Fix and Optimizations (K-RFO). O cenário para o problema consiste em explorar o roteamento dinâmico a partir de lotes de pacotes para serem entregues em uma jornada de trabalho do mesmo dia. A técnica implementada no algoritmo DSNR é baseada em busca local associada a uma implementação de uma heurística denominada 2-Opt**, visando re-otimizar rotas vizinhas. Quando comparada com os algoritmos dinâmicos QRP-Sweep (QRPS) e Kmeans-Greedy (KG), disponibilizados no repositório Loggibud, observaram-se economias de 17% nos custos de transporte e operacionais, ao utilizar a técnica DSNR. |
|
Counting and locating high-density objects using convolutional neural network |
|
Curso |
Doutorado em Ciência da Computação |
Tipo |
Tese |
Data |
06/09/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
|
Coorientador(es) |
|
Orientando(s) |
- Mauro dos Santos de Arruda
|
Banca |
- Bruno Brandoli Machado
- Jonathan de Andrade Silva
- Jose Marcato Junior
- Keiller Nogueira
- Lucas Prado Osco
- Wesley Nunes Goncalves
|
Resumo |
Contagem e detecção automática de objetos são essenciais em diferentes tipos de aplicações pois permitem melhorias desempenhos na execução das tarefas manuais. Métodos de aprendizado profundo estão se destacando cada vez mais nesse tipo de aplicação pois conseguem realizar boas caracterizações dos objetos. Entretanto, desafios como a sobreposição, oclusão, diferentes de escalas e alta densidade de objetos atrapalham o desempenho desses métodos, fazendo com que esse problema permaneça aberto. Tais métodos normalmente usam anotações por caixas delimitadoras, o que prejudica seu desempenho em cenas de alta densidade com adjacência de objetos. Para superar tais limitações, avançando o estado da arte, nós propomos um método de contagem e detecção de objetos usando mapas de confiança. A primeira aplicação permitiu definir um método baseado em redes neurais convolucionais que recebem como entrada uma imagem multiespectral e detecta os objetos a partir de picos no mapa de confiança. Em uma segunda aplicação, nós inserimos informações de contexto global e local através do módulo PPM, para a detecção de objetos em diferentes escalas. Além disso, melhoramos o refinamento sucessivo do mapa de confiança com múltiplos valores de sigma na fase MSS. Na terceira aplicação do método, nós propomos um módulo de seleção de bandas para trabalhar com imagens hiperespectrais. Em uma quarta aplicação, nós avaliamos o método proposto em imagens RGB de alta densidade de objetos e comparamos com métodos do estado da arte: YOLO, Faster R-CNN e RetinaNet. Por último, expandimos o método propondo uma arquitetura de duas ramificações permitindo a troca de informações entre eles. Essa melhoria permite que o método detecte simultaneamente plantas e linhas de plantio em diferentes conjuntos de dados. Os resultados descritos nesta tese mostram que a utilização de redes neurais convolucionais e mapas de confiança para a detecção e contagem de objetos permite alto desempenho. As contribuições descritas aqui, devem suportar avanços significativos nas áreas de detecção de objetos e aprendizado profundo. |
|
Exploring code samples characteristics and their impacts on software ecosystems |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
23/08/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Bruno Barbieri de Pontes Cafeo
|
Coorientador(es) |
|
Orientando(s) |
- Gabriel Santana de Menezes
|
Banca |
- Andre Cavalcante Hora
- Awdren de Lima Fontao
- Bruno Barbieri de Pontes Cafeo
- Davy de Medeiros Baía
- Eiji Adachi Medeiros Barbosa
- Hudson Silva Borges
|
Resumo |
Os sistemas de software modernos são geralmente construídos sobre frameworks, bibliotecas e APIs (plataformas).
Ambientes onde existem relações entre as organizações que mantêm essas plataformas
e os clientes que utilizam recursos dessas plataformas são conhecidos como Ecossistema de Software.
Nesse contexto, as organizações desenvolvem code samples para ajudar seus clientes com as barreiras de aprendizado.
Code samples são pequenos projetos de software, com fins educacionais, e ensinam como usar os recursos da plataforma.
No entanto, sabemos pouco sobre as características de code samples e sua relação com organizações e clientes.
Neste trabalho, pretendemos preencher essas lacunas avaliando quatro aspectos diferentes. Primeiro, comparando code samples com projetos convencionais através de seu código-fonte. Segundo, explorando o uso de code samples via Stack Overflow e GitHub. Terceiro, avaliando o perfil dos atores que interagem com code samples. Quarto, manutenção de code samples e seu impacto nos clientes.
Descobrimos que os code samples são menores e mais simples do que os projetos convencionais. Também descobrimos que code samples mudam com menos frequência, mas atualiza mais rapidamente para novas versões de plataforma do que os projetos convencionais. Em relação ao uso de code samples, descobrimos que a abordagem copiar/colar é pouco utilizada pelos clientes. Além disso, notamos que o problema mais comum enfrentado pelos clientes é quando eles tentam modificar a code samples e as melhorias são a necessidade mais comum dos clientes. Em relação aos atores em torno dos code samples, descobrimos que o público-alvo dos code samples pode variar de clientes inexperientes a clientes experientes. Além disso, notamos que plataformas de diferentes organizações parecem ter diferentes públicos-alvo. Além disso, os mantenedores de code samples são antigos e impopulares no GitHub.
Por fim, sobre a manutenção de code samples, descobrimos que a modificação de código é a atividade de manutenção mais comum de code samples, mas o gerenciamento de Pull Rquests desempenha um papel essencial no tempo de manutenção. Também descobrimos que os code samples se tornam menos complexas, mas maiores e menos legíveis ao longo do tempo. |
|
Towards an expertise-related metric to preprocessor-based configurable software systems |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
22/08/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Bruno Barbieri de Pontes Cafeo
|
Coorientador(es) |
|
Orientando(s) |
- Karolina Martins Milano Neves
|
Banca |
- Awdren de Lima Fontao
- Bruno Barbieri de Pontes Cafeo
- Elder José Reioli Cirilo
- Hudson Silva Borges
- Maria Istela Cagnin Machado
|
Resumo |
Contexto: Métricas relacionadas à experiência dos desenvolvedores nos permitem encontrar os melhores desenvolvedores para uma tarefa específica em
um arquivo. Sistemas configuráveis usam a variabilidade de código como
unidade de abstração para gerar diferentes membros de uma família de programas. Esse desalinhamento entre os arquivos usados pelas métricas relacionadas à experiência e as variabilidades usadas pelos sistemas configuráveis pode impossibilitar o uso conjunto delas.
Objetivo: O objetivo é duplo. O primeiro é explorar como o trabalho em código mandatório e variável é dividido entre os desenvolvedores e se as métricas
relacionadas à expertise podem indicar um desenvolvedor com expertise para
uma tarefa envolvendo código variável. O segundo é propor uma métrica relacionada à experiência com conhecimento em variabilidades para indicar desenvolvedores com experiência em código variável.
Método: Foram investigados 49 sistemas configuráveis baseados em pré-processadores, sendo analisadas como as mudanças nas variabilidades são dstribuídas entre os desenvolvedores, e se esses desenvolvedores seriam os principais desenvolvedores indicados por métricas relacionadas a experiência do desenvolvedor em arquivos de código. Foram utilizadas técnicas de feature selection e regressão linear múltipla para propor uma métrica relacionada a experiência
do desenvolvedor em relação ao conhecimento de variabilidades de código. A métrica proposta foi validada comparando-a com duas métricas já conhecidas.
Resultados: Poucos desenvolvedores são especialistas em código variável. Foi identificado que poucos desenvolvedores concentram a maioria das alterações
em código variável. Os resultados também sugerem que que a expertise relacionada a métricas já conhecidas não são um bom ajuste para indicar experts em relação ao código variável. Foi proposta uma métrica relacionada a experiência dos desenvolvedores em relação às variabilidades e foi mostrado que a métrica proposta superou métricas relacionadas a experiência em relação a arquivos de código, já conhecidas.
Conclusão: Embora os resultados mostrem que um número considerável de desenvolvedores realizou alterações no código variável durante o histórico de
desenvolvimento, tais alterações são apenas ocasionais. Há uma concentração
de trabalho entre alguns desenvolvedores quando se trata de código variável.
Esta divisão desigual pode causar um esforço de manutenção desnecessário.
Também concluímos que as métricas relacionadas à experiência em relação ao conhecimento das variabilidades podem apoiar melhor a identificação de
especialistas em sistemas configuráveis quando comparadas às métricas existentes |
|
Uma Análise Exploratória da Influência dos Projetos Pedagógicos dos Cursos Superiores no Resultado do Enade por meio de Mineração de Textos e Aprendizado de Máquina |
|
Curso |
Mestrado em Ciência da Computação |
Tipo |
Dissertação |
Data |
11/08/2022 |
Área |
CIÊNCIA DA COMPUTAÇÃO |
Orientador(es) |
- Liana Dessandre Duenha Garanhani
|
Coorientador(es) |
|
Orientando(s) |
- Charles Andre Profilio dos Santos
|
Banca |
- Anderson Vicoso de Araujo
- Bruno Magalhaes Nogueira
- Edson Norberto Caceres
- Liana Dessandre Duenha Garanhani
|
Resumo |
Um curso de ensino superior é orientado pelo Projeto Pedagógico do Curso (PPC), que orienta a formação esperada para o egresso do curso, tanto no aspecto profissional quanto humanístico, de acordo com as diretrizes curriculares nacionais vigentes. Para avaliar os cursos de graduação e as instituições de ensino superior, o Ministério da Educação (MEC) utiliza alguns indicadores de qualidade, como o Exame Nacional de Desempenho dos Estudantes (Enade), sendo uma avaliação aplicada a cada três anos aos estudantes egressos de cada curso, que visa avaliar a qualidade do ensino de graduação no país por meio da atribuição de um conceito a cada curso avaliado. Tal conceito e os demais relatórios de avaliação resultantes do Enade auxiliam os gestores das instituições de ensino superior, coordenadores de curso e professores atuarem para a melhoria de seus projetos pedagógicos, infraestrutura física, recursos humanos e demais aspectos que impactem na formação do aluno. Este trabalho propõe uma análise dos projetos pedagógicos de cursos utilizando aprendizado de máquina, para auxiliar na compreensão de como o seu conteúdo impacta na avaliação dos cursos, mais especificamente, nos conceitos Enade Faixa e Enade Contínuo dos cursos. A análise foi aplicada sobre projetos pedagógicos dos cursos de Ciência da Computação e Sistemas de Informação, porém a metodologia é aplicável para outros cursos, medi- ante replicação do método sobre novos dados de treinamento. Os resultados experimentais demonstraram que é possível predizer o Conceito Enade Faixa com acurácia de ≈ 80% e o Conceito Enade Contínuo com erro percentual absoluto médio de ≈ 11%. |
Download |
|
|