Os alunos do Departamento de Ciência da Computação (DCC) da UFMG Fabiano Muniz, Marcelo Ganem, Celso França e Marcos Carvalho, orientados pelos professores Alberto Laender e Marcos André Gonçalves, receberam hoje, 23, durante o Simpósio Brasileiro de Banco de Dados (SBBD 2022), Menção Honrosa pelo artigo “Reforço e Delimitação Contextual para Reconhecimento de Entidades e Relações em Documentos Oficiais”. O evento, que ocorreu em Búzios, no Rio de Janeiro, é organizado pela Sociedade Brasileira de Computação (SBC) sobre ciência e tecnologia na grande área de bancos de dados.
De acordo com o artigo, arquiteturas neurais baseadas em transformers tornaram-se o principal componente de vários métodos do estado-da-arte em tarefas de processamento de linguagem natural, tais como Reconhecimento de Entidades Nomeadas e Extração de Relações (REN+ER). “Como essas arquiteturas baseiam-se em aspectos semânticos de sequências de palavras, elas podem não funcionar na identificação e delimitação de entidades nomeadas quando há pouco contexto semântico associado, tais como entidades compostas por dígitos e pontuações apenas (e.g., números de CPF) e entidades com nomes compostos. Neste artigo, são propostas novas técnicas de reforço contextual e delimitação de entidades baseadas em pré e pós-processamento de dados para enriquecer o contexto semântico, melhorando assim um método do estado-da-arte para REN+RE, o SpERT (Span-Based Entity and Relation Transformer). Tais técnicas foram avaliadas usando dados reais de diários oficiais e de processos judiciais. Os resultados mostram que, quando aplicadas em conjunto, as estratégias de pré e pós-processamento levam a ganhos significativos na efetividade de REN+ER”, descreveram os autores.