Promovido anualmente pelo Grupo de Interesse Especial em Computação Gráfica e Processamento de Imagens (CEGRAPI) da Sociedade Brasileira de Computação (SBC), o SIBGRAPI – Conference on Graphics, Patterns and Images é um congresso internacional e, este ano, teve a participação do ex-aluno do doutorado do Programa de Pós-graduação em Ciência da Computação (PPGCC) da UFMG, Thiago Luange Gomes, e do aluno do mestrado Welerson Melo. No evento, ocorrido no final de outubro deste ano, Thiago recebeu o prêmio de melhor tese de doutorado no Workshop of Theses and Dissertations (WTD) e Welerson recebeu Menção Honrosa pelo seu artigo, ambos orientados pelo professor Erickson Rangel do Nascimento.
De acordo com a tese do Thiago, transferir movimento humano e aparência humana entre vídeos monoculares continua sendo um dos principais desafios da visão computacional. “Apesar dos grandes avanços feitos pelas abordagens baseadas em redes convolucionais, existem contextos onde as soluções existentes não funcionam adequadamente, por exemplo, quando a transferência envolve pessoas com tamanhos ou pesos diferentes. Nós propusemos métodos que são capazes de lidar com restrições de forma, aparência e movimento tridimensional”, descreveu o ex-estudante.
Já conforme o artigo do Welerson, a detecção, descrição e correspondência de pontos-chave são componentes essenciais de muitas aplicações de visão computacional. “Ao longo dos anos, vários algoritmos foram propostos para resolver tarefas de detecção e descrição de pontos-chave. No entanto, esses algoritmos não consideram duas coisas em sua composição: a probabilidade de correspondência dos pontos-chave e objetos com deformações não-rígidas. Neste trabalho, afirmamos que um alto número de correspondências corretas pode ser alcançado aprendendo como detectar bons pontos-chave, independentemente do método descrito. Por causa disso, apresentamos um novo método de aprendizado de máquina para a detecção de ponto-chave projetado para maximizar o número de correspondências corretas para a tarefa de correspondência de imagens com deformações não-rígidas. Nossa estrutura de treinamento usa correspondências verdadeiras, obtidas combinando pares de imagens anotadas com um extrator de descritor predefinido, como ground-truth para treinar uma rede neural convolucional (CNN) de maneira semi-supervisionada”, explicou Melo.