No último domingo, 22, durante a Hackers To Hackers Conference (H2HC), o professor do Departamento de Ciência da Computação (DCC) da UFMG, Jeroen van de Graaf, proferiu a palestra “Techniques for publishing statistical information without violating individual’s privacy according to the LGPD and GPDR”. A conferência é organizada por pessoas que trabalham ou que estão diretamente envolvidas com pesquisas e desenvolvimento na área de segurança da informação, cujo principal objetivo é permitir a disseminação, discussão e a troca de conhecimento sobre segurança da informação entre os participantes e, também, entre as empresas envolvidas no evento.
De acordo com o professor, cada vez mais são coletados dados contendo informações detalhadas sobre indivíduos: das suas pesquisas na internet, telefonemas, localização, saúde, genoma, etc. E cada vez mais esses dados estão sendo usados para análises estatísticas. No entanto, para evitar violações de privacidade, esses dados devem ser protegidos de uma forma ou outra, seja concedendo apenas acesso privilegiado à base de dados, seja modificando ou excluindo dados. Essas técnicas são conhecidas como controle de divulgação estática. “Vários casos proeminentes mostraram que as técnicas mais óbvias, como a anonimização ou a pseudonimização, quase nunca funcionam. Isso foi confirmado num estudo da UFMG sobre a divulgação anual de dados estudantis do MEC/INEP. Além disso, muitas das técnicas mais sofisticadas (anonimato-k, diversidade-l, proximidade-t) também apresentam várias desvantagens. Isso se deve em parte ao fato de que definir a privacidade corretamente é de fato bastante difícil”, explicou.
De acordo com Jeroen, durante a palestra foi apresentado a intuição por trás da *privacidade diferencial*, uma definição que incorpora quaisquer ataques futuros e, portanto, praticamente a única abordagem bem-sucedida na proteção da privacidade nesse contexto. “Em essência, a privacidade diferencial consiste em adicionar sutilmente ruído aos dados, de modo que a privacidade individual seja protegida enquanto a inferência estatística significativa ainda é possível. Um problema aqui é que nem sempre se sabe de antemão qual fato estatístico será considerado interessante”, falou.
Ainda conforme o pesquisador, claramente é impossível ter privacidade perfeita (“não publique nada”) e inferência estatística perfeita (“publique tudo”) ao mesmo tempo, então a privacidade diferencial oferece um equilíbrio calibrado entre os dois extremos. “De fato, adicionar ruído a dados perfeitos e pristinos pode parecer estúpido, mas é a única maneira de preservar um mínimo de privacidade em um mundo orientado a dados. Desistir da privacidade não é uma opção, portanto escolhas terão que ser feitas. A sociedade precisa se conscientizar desse dilema e discutir os prós e os contras das várias soluções”, concluiu.