Injustiças em bases de dados sob a ótica de análise de sobrevivência são analisados de forma inédita em estudo feito no DCC

Nos últimos anos, ferramentas baseadas em dados e que auxiliam no processo de tomada de decisão estão sendo usadas para contratação, empréstimos bancários e no sistema criminal. Essas decisões impactam a vida das pessoas e, por esse motivo, aumenta a preocupação quanto ao efeito que essas ferramentas podem causar na sociedade. Em particular, uma parcela da comunidade de aprendizado de máquina está focada em problemas relacionados à justiça, culpabilidade, transparência e ética destes sistemas. Pensando nisso, a mestranda do Departamento de Ciência da Computação, Bruna Seewald, orientada pelo professor Flavio Vinicius Diniz de Figueiredo, iniciou uma pesquisa inédita no Brasil intitulada “Uma proposta de conceitos de justiça aplicadas a modelos de análise de sobrevivência” e, com isso,analisou e propôs definições de justiça que pudessem ser aplicadas ao contexto de análise de sobrevivência. “Até o momento não tivemos conhecimento de nenhum outro trabalho que tenha sugerido essa mesma proposta, o que demonstra uma enorme oportunidade de estudos e possíveis inovações para a área”, contou Bruna.

De acordo com o estudo, ainda que os algoritmos de AM atualmente auxiliem na tomada de decisão em contextos socioeconômicos, os modelos treinados por estes algoritmos não são perfeitos. Isto é, erros podem ocorrer. “Um algoritmo pode condenar uma pessoa inocente por vieses raciais. Devido a essa possibilidade de erros, esses algoritmos devem ter responsabilidades junto à sociedade. Neste contexto, essas responsabilidades incluem “uma obrigação de reportar, explicar ou justificar decisões algorítmicas, assim como mitigar qualquer impacto negativo ou potencial prejuízo à sociedade “, disse a aluna.

O estudo apresentou três possíveis abordagens de aplicabilidade de conceitos de justiça em modelos de análise de sobrevivência. A primeira focou na disparidade das curvas de sobrevivência observadas nos dados quando comparadas com previsões, denominada de divergência em paridade demográfica. “Utilizamos o método de Kaplan-Meier para as curvas empíricas e o modelo de Cox para as curvas preditas. A segunda abordagem, denominada discriminação causal, consistiu na realização de um cálculo do c-index, no qual alteramos nos dados o grupo de interesse estudado. Por fim, propusemos uma métrica nova, chamada de justiça de filas, na qual comparamos cenários hipotéticos de duas pessoas sendo julgadas por um modelo de aprendizado de máquina ao mesmo tempo. Essas abordagens foram testadas em três bases de dados, com contextos diferentes, sendo: MIMIC-III, Rossi e COMPAS. A primeira é uma base médica e as demais criminais, com o intuito de analisar a justiça sob diferentes aspectos. Além disso, foram usados algoritmos do modelo de Cox e variações com aprendizado profundo para fazer as predições e os cálculos das métricas envolvendo o c-index”, descreveu Bruna.

De acordo com a mestranda, na métrica de justiça de filas para a base Rossi, foram identificados dois casos de injustiça em que o erro prejudicou os grupos de pessoas não casadas e o grupo de pessoas que não receberam financiamento, já que a reincidência prevista pelo modelo irá acontecer antes para esses grupos. “Apesar de não ter sido encontrado viés quando considerada a variável raça, a análise exploratória mostrou que ela influencia o risco de ocorrência do evento, neste caso, a reincidência. Para a métrica de justiça de filas para a base COMPAS, foram identificados casos de injustiça em três das quatro situações propostas. Nesses casos, o erro prejudicou mais o grupo de pessoas negras, uma vez que a reincidência prevista pelo modelo irá acontecer antes para esses grupos. Esse resultado está em concordância com os achados da análise original (feita pela ProPublica), que também identificou vieses nessa base. Em todas as bases apareceram situações com vieses, o que mostra que as abordagens propostas são um caminho para a aplicabilidade de conceitos de justiça em modelos de análise de sobrevivência. Em particular, a métrica de justiça de filas mostrou-se bem promissora, conseguindo identificar casos de injustiça em todas as bases selecionadas”, relatou.

Já no que diz respeito ao uso de bases da área médica, de acordo com Bruna, foram encontradas diferenças que precisam ser melhor exploradas, já que ainda não é totalmente compreensível como pesquisadores conseguem quantificar justiça em serviços de saúde. Também, segundo a aluna, é essencial garantir que essas bases possuam dados mais diversos e representativos, para que as comparações sejam mais robustas e confiáveis. “Este tipo de avaliação é crucial para evitar que as ferramentas que utilizam modelos de aprendizado de máquina perpetuem injustiças sociais e históricas. Como sugestão de trabalhos futuros, pode-se testar bases que tenham outros contextos, por exemplo, bases de empréstimo bancário e contratação de pessoas, ampliando, assim, o conjunto de resultados. Há espaço para melhorias na própria métrica de justiça de filas, focando em facilitar o entendimento. De forma mais avançada, é possível aplicar técnicas para mitigar os vieses encontrados nessas bases, podendo até virar uma ferramenta. Em suma, o estudo mostrou que ainda há muitas oportunidades para pesquisa e possíveis inovações para a área”, afirmou a aluna.

Por meio deste estudo, foi construído um protótipo que visa, no futuro, criar uma ferramenta útil para as empresas e para a sociedade, que reduza ou, até, finde com injustiças nas diversas áreas: saúde, segurança, finanças. Por ser um estudo pioneiro, segundo a aluna, houve dificuldades para a busca de literatura e, ao mesmo tempo, no Brasil, de acesso aos dados. “A computação é uma grande aliada para as diversas áreas e este estudo propõe melhorias para a base de dados que constroem o aprendizado de máquinas, tornando o sistema mais justo. Ainda há muito o que avançar nas pesquisas e irá continuar. Meu objetivo é dar andamento à pesquisa e construir do protótipo que criamos uma ferramenta efetiva e colocá-la em prática”, concluiu Bruna.

Caso deseje saber mais sobre o estudo, entre em contato com a Bruna pelo e-mail bruna.seewald@dcc.ufmg.br ou no Linkedin.

Esta matéria teve repercussão no site da UFMG

Fonte da imagem: https://bit.ly/34wCWEu