Os alunos do Departamento de Ciência da Computação (DCC) da UFMG, Felipe Viegas e Carlos Ferreira, orientados pelos professores do DCC, Marcos André Gonçalves e Jussara Almeida, respectivamente, foram premiados no XXIX Simpósio Brasileiro de Sistemas Multimídia e Web 2023 (WebMedia2023), sendo que Felipe foi premiado com o melhor artigo completo e o Carlos foi o primeiro lugar no Concurso de Teses e Dissertações – Doutorado. O artigo intitulado “Evaluating the Limits of the Current Evaluation Metrics for Topíc Modeling”, também teve como autores Antônio e Leonardo Rocha. Já a tese “Modeling and Analyzing Collective Beharvior Capture By Many-to-Many Networks”, também teve a autoria de Marco Mellia.
Realizado anualmente pela Sociedade Brasileira de Computação (SBC), o WebMedia é o principal evento do tema no Brasil e uma excelente oportunidade de intercâmbios científico e técnico entre alunos, pesquisadores e profissionais das áreas de Multimídia, Hipermídia e Web. O evento deste ano ocorreu entre os dias 23 e 27 de outubro, com organização conjunta de duas unidades da Universidade de São Paulo (USP): a Faculdade de Filosofia, Ciências e Letras de Riberão Preto (FFCLRP) e o Instituto de Ciências Matemáticas e de Computação (ICMC).
Segundo a explicação do Felipe em seu artigo, Modelagem de Tópicos (TM) é uma abordagem popular para extrair e organizar informações de grandes quantidades de dados textuais, descobrindo e representando tópicos semânticos de documentos. “Neste artigo, investigamos um desafio importante no contexto da TM, nomeadamente a avaliação de tópicos, responsável por impulsionar os avanços na área e avaliar a qualidade geral do processo de geração de tópicos. As métricas tradicionais de TM capturam a qualidade dos tópicos, avaliando rigorosamente as palavras que construíram os tópicos sintaticamente (ou seja, NPMI, Coerência TF-IDF) ou semanticamente (ou seja, WEP). Nós investigamos se estamos nos aproximando dos limites do que as métricas de avaliação atuais podem avaliar em relação à qualidade do tópico para TM”, cont.
Ainda segundo os autores, foi realizado um experimento abrangente, considerando três coleções de dados amplamente utilizadas na classificação automática, para as quais o tópico (classe) de cada documento é conhecido (ou seja, ACM, 20News e WebKb). “Comparamos a qualidade dos tópicos gerados por quatro das principais técnicas de TM (isto é, LDA, NMF, CluWords e BerTopic) com a estrutura de tópicos anterior de cada coleção. Nossos resultados mostram que, apesar da importância das métricas atuais, elas não conseguiram capturar alguns aspectos idiossincráticos importantes da TM, indicando a necessidade de propor novas métricas que considerem, por exemplo, a estrutura e organização dos documentos que compõem os tópicos”, concluíram.
Já na tese de Carlos, entender como as pessoas se comportam coletivamente é um grande desafio. “Imagine que você esteja tentando entender como diferentes grupos de pessoas agem em sistemas tidos como sendo complexos, por exemplo, plataformas de mídias sociais, sistemas políticos e financeiros. Mesmo que você saiba como cada pessoa se comporta individualmente, olhando para informações dela, entender como se comportam coletivamente, isto é, em grupos, é um grande desafio! Para tentar compreender isso, usamos modelos baseados em redes, que permite investigar como as pessoas interagem umas com as outras, juntamente com abordagens de ciência de dados”, contou. “No entanto, há muitos tipos de interações nesses sistemas, o que dificulta encontrar os padrões emergentes de comportamento que realmente são relevantes para um dado estudo. Muitas vezes, há interações que não são significativas para o nosso problema, agindo como um ruído que atrapalha a nossa compreensão. Por exemplo, ao analisar uma plataforma de mídia social, podemos estar interessados em estudar a presença e as ações de grupos coordenados que disseminam (des-)informação. Nesse caso, o ruído pode ser representado por pessoas que compartilham mensagens desse tipo de forma esporádica, em resposta à grande popularidade do conteúdo presente na mensagem. Essas interações podem não fazer parte de uma ação coordenadamente genuína e, portanto, não devem ser consideradas durante o estudo. Agora, imagine esse cenário quando estamos lidando com centenas de milhares ou até milhões de pessoas, é algo muito dinâmico e que ocorre em larga escala. Essa questão se aplica em diversos outros contextos, tornando essencial separar o comportamento coletivo desejado e potencialmente existente daquele indesejado”, explicou.
Para Carlos, apesar de existirem soluções baseadas em redes amplamente utilizadas na literatura, não só na área de computação, mas em outras disciplinas, essa etapa costuma ser majoritariamente negligenciada. “Em nossa tese, abordamos esse problema, destacando a importância de considerá-lo. Realizamos uma análise abrangente de vários modelos existentes na literatura, mapeando-os e identificando algumas deficiências e, consequentemente, oportunidades de melhoria e propostas de novos modelos. Com base nessa análise, propusemos e aplicamos métodos alternativos que nos auxiliaram na identificação de grupos significativos ao estudar diversos fenômenos sociais de interesse. Isso incluiu a compreensão do comportamento ideológico de congressistas no Brasil e nos Estados Unidos, um trabalho que chegou a ficar entre os melhores trabalhos de uma importante conferência na Rússia em 2018, bem como a análise da disseminação de informações em plataformas como o Instagram e o WhatsApp. Agradeço muito aos meus orientadores, a professora Jussara e o professor Marco Melia, do Politécnico di Torino, na Itália, que tanto me ajudam neste trabalho”, disse.