Cientistas da computação criam novas estratégias para desfazer ambiguidades em referências bibliográficas
FABRÍCIO MARQUES | Revista Pesquisa FAPESP Ed. 257 | Julho 2017
Confusão na avaliação
O interesse dos pesquisadores por esse tema se explica tanto pelo desafio de criar ferramentas computacionais para resolver um problema concreto quanto pela confusão que as ambiguidades causam na hora de medir a produção de um cientista, causando prejuízos em processos de avaliação ou em estudos bibliométricos que necessitam de informações precisas sobre autores. Em um levantamento publicado em 2012 no Sigmod Record, publicação trimestral da Association for Computing Machinery (ACM), o brasileiro Alberto Laender, professor do Departamento de Ciência da Computação da Universidade Federal de Minas Gerais (UFMG), contabilizou 17 métodos computacionais distintos para resolver o problema da ambiguidade que eram utilizados na época. “Hoje, já deve haver pelo menos uns 30 algoritmos diferentes em uso”, conta.
O grupo da UFMG elaborou três desses algoritmos. Um deles, conhecido como HHC (Heuristic-based Hierarchical Clustering), foi apresentado em 2007 e passou a ser usado pela DBLP, a mesma base de dados usada no estudo de Daniel Figueiredo, como uma das ferramentas mais simples para enfrentar o problema. Fruto de uma dissertação de mestrado defendida por Ricardo Cota na UFMG, o HHC reúne as informações bibliográficas vinculadas a uma assinatura e analisa se há coautores que se repetem. Quando existe coincidência, avalia também se os títulos dos artigos têm palavras em comum ou se os autores participaram dos mesmos eventos científicos. A eficiência para desfazer a ambiguidade chegou perto de 80%. “O método passou a ser usado por sua simplicidade, mas a busca por algoritmos cada vez mais precisos continuou”, diz Laender. “Há situações em que não há algoritmo capaz de resolver o problema. Entre autores da China, que têm sobrenomes frequentes e uma grande quantidade de abreviações coincidentes, chega a ser inviável.”
Um segundo método criado por pesquisadores da UFMG foi o Sand (Self-training Associative Name Disambiguator), que agrupa referências bibliográficas de acordo com características comuns, como a presença de coautores, título e ano de publicação. Utilizando técnicas de inteligência artificial, consegue detectar, em sua etapa final, se há autores que, dadas as suas características, deveriam pertencer a determinados agrupamentos – e calcular as chances de que tais registros sejam referências ambíguas de outros autores já existentes. “Essas técnicas de classificação são bastante conhecidas e um dos nossos ex-alunos de doutorado, Anderson Ferreira, hoje professor da Universidade Federal de Ouro Preto, adaptou-as para a desambiguação. O Sand julga em diferentes classes as referências até chegar à conclusão de que um determinado autor tem de estar naquela classe”, afirma Laender. E o terceiro método é o IDNi (Incremental Unsupervised Name Disambiguation), que associa diversas técnicas e é usado para avaliar novos trabalhos científicos incorporados a bases de dados, associando-os de forma automática a perfis de autores já existentes e evitando o surgimento de novas ambiguidades.