Seria possível descrever um episódio de Game of thrones com base em discussões postadas na rede social Reddit pelos seguidores do seriado? De acordo com pesquisadores do Departamento de Ciência da Computação, o sucesso nessa tarefa abre possibilidades para identificar, resumir e associar conversas textuais ocorridas em quaisquer mídias on-line, como comentários em blogs de notícias, fóruns de discussão, vídeos do Youtube, conversas no Twitter e no Facebook e troca de e-mails.
Com bolsa de pesquisa da Google, o mestrando Túlio Corrêa Loures, sob a orientação do professor Pedro Vaz de Melo, tem trabalhado na elaboração de ferramenta que, com base em discussões on-line, possa apreender representações de vídeos ou quaisquer outras postagens, que são definidas no projeto como “entidades”.
A intenção é criar método capaz de gerar automaticamente resumos sobre essas entidades, mesmo quando nada se tenha dito, de forma explícita, a seu respeito. Para atingir esse objetivo, os pesquisadores criaram um vetor numérico para representar a entidade com base nos comentários a ela associados. Esse vetor pode ser a chave, por exemplo, para facilitar a indexação – e a busca – de informações de qualquer natureza no vasto universo da rede mundial de computadores.
Para que as buscas na internet funcionem, é necessário que as palavras ou imagens tenham sido associadas a índices que, nesse caso, são os vetores. “O problema é que certos vídeos não possuem informações explícitas que os caracterizem. Nosso intuito é processar os comentários, para obter informações que permitam a indexação”, explica Vaz de Melo.
Associações com a realidade
O universo escolhido para testes foram séries de televisão, como a norte-americana Game of thrones, e as centenas de comentários que cada episódio recebe na rede social Reddit. “Reunimos todos os episódios para os quais há sequência de comentários, algumas vezes mais de mil por episódio. Futuramente, pretendemos testar também com notícias”, informa Pedro Vaz de Melo, lembrando que a ideia é criar uma ferramenta genérica, que navegue por toda a internet e não fique restrita a plataformas ou temas específicos.
Inicialmente, Túlio Loures desenvolveu script na linguagem Python, que simula a navegação de uma pessoa no Reddit. “O script age como uma pessoa muito curiosa, que vai ler tudo e armazenar em disco rígido”, explica o orientador.
Após a coleta dos dados, vem a parte principal do trabalho, que é transformar conversas e opiniões em vetores numéricos. O processamento das informações se torna especialmente complexo quando surgem, nos comentários, derivações para outros temas ou metáforas que associam fatos ocorridos no mundo real a aspectos da entidade que se quer caracterizar.
“Ao se falar, por exemplo, sobre um episódio de Game of thrones, é possível que surjam associações do mundo ficcional com fatos da política brasileira ou com disputas de times de futebol, além de usuários que interagem entre si”, pondera Loures, lembrando que se trata de ambiente muito desafiador para a tarefa de extrair as informações que possam ser relevantes na descrição da entidade.
Pedro Vaz de Melo enfatiza que identificar o modo pelo qual uma discussão se relaciona com a entidade é tarefa extremamente complexa, pois envolve grande compreensão da linguagem natural humana e de como se dão suas interações. “Nossa ideia é usar algoritmos de aprendizado de máquina, que são capazes de encontrar essas conexões, tais como redes neurais, modelos de tópico e métodos de processamento de linguagem natural”, diz.
Ele explica que, em diversas situações na internet, algoritmos são usados para calcular a distância matemática entre vários vetores e identificar os que têm características parecidas. Com isso, é possível, por exemplo, fazer recomendações de filmes e seriados similares aos que o usuário tem assistido.
A novidade da pesquisa de Túlio Loures é a construção de uma representação numérica sobre entidades a partir de sequência de comentários, e não da descrição formal do objeto em foco. “Considere, por exemplo, o problema de descrever o conteúdo de um vídeo pessoal postado no Facebook ou de um evento associado a uma hashtag do Twitter”, observa Vaz de Melo. Segundo ele, com base na representação vetorial de cada conversa, é possível estabelecer conexões nos inúmeros ambientes da internet e sugerir aos usuários acesso a outros que contemplem temas de interesse.
Bolsa de pesquisa
O trabalho de Túlio Loures é um dos cinco projetos da UFMG selecionados pelo Programa de Bolsas de Pesquisa Google para a América Latina, cujo resultado foi anunciado em agosto passado. Ao todo, foram 24 projetos beneficiados na América Latina, 17 deles no Brasil. Depois da UFMG, a USP e a Unicamp aparecem com maior número de propostas premiadas (três cada).
Ao longo de 12 meses, os professores e estudantes de pós-graduação vencedores receberão bolsas de estudo mensais para conduzir pesquisas pioneiras em áreas relacionadas à Ciência da Computação.
“Ter sido selecionado já nos dá uma ideia de que nosso trabalho tem relevância”, afirma Loures, lembrando que os pesquisadores contemplados com a bolsa detêm o controle sobre os resultados. “Podemos, inclusive, tornar essa ferramenta de uso público, sem necessidade do aval da empresa”, enfatiza.
Pesquisa: Representação de entidades baseada em discussões
Autores: Pedro Vaz de Melo e Túlio Corrêa Loures
(Ana Rita Araújo)