Marcos André Gonçalves

CNPq research fellow: A

Research areas:

Degrees:

Doutor, Virginia Polytechnic Institute and State University, USA, 2004

Room: 6313
Phone: 7541
mgoncalv@dcc.ufmg.br

Home page

Lattes

Google scholar

Information extracted from Lattes platform

Research projects
Articles in journals
Papers in conferences
Extended abstracts in conferences
Abstracts in conferences
Students

Last update: 2023/10/06

ORCID: https://orcid.org/0000-0002-2075-3363

Current projects

2023 a Atual	Recomendação Contextual em Ambientes Veiculares Integrantes: Rodrygo Luis Teodoro Santos (coordenador), Marcos André Gonçalves, Leandro Balby.
2023 a Atual	?Desenvolvimento de sistema com malha de sensores para monitoramento da saúde estrutural e acompanhamento da perda de espessura de parede de tubulações, usando conceito IoT e análise automática de dados por algoritmos de inteligência artificial? (?Projeto Integrantes: Marcos André Gonçalves (coordenador), Jussara Marques Almeida.
2023 a Atual	Suporte AWS para o Projeto DeepRI: Aprendizado Profundo, Ativo e Explicável para Recuperação de Informação e Processamento de Linguagem Natural Inteligente Integrantes: Marcos André Gonçalves (coordenador).
2023 a Atual	Predição de Desfechos Clínicos e Econômicos por Meio de Representações Semânticas MultiModais de Pacientes Resilientes a Drifts Temporais Integrantes: Marcos André Gonçalves (coordenador), Milena Marcolino, Carisi Polanczyk.
2022 a Atual	Extending the Role of Semantic Word Clusters (CluWords) in Natural Language Processing (NLP) Tasks Integrantes: Marcos André Gonçalves (coordenador), Leonardo Rocha, Felipe Viegas.
2022 a Atual	Projeto Universal CNPq - Aprendizado Profundo, Ativo e Explicável para Recuperação de Informação e Processamento de Linguagem Natural Inteligente (DeepRI-NLP) Aprendizado de Máquina, especialmente o Aprendizado Profundo, tem atraido enorme interesse acadêmico e empresarial. Uma das aplicações mais promissoras dessas técnicas tem sido na área de gerenciamento de grandes volumes de informações, principalmente dados não estruturados (textuais). Este projeto, ligado a diversas pesquisas lideradas pelo proponente, tem como objetivo geral propor soluções inovadoras para diversos problemas relacionados ao tratamento de grandes volumes de informação textual, em aplicações relacionadas à Recuperação de Informação (RI) e Processamento de Linguagem Natural (PLN). , incluindo: (i) Classificação Automática de Texto, (ii) Pesquisa e Recomendação de Conteúdo, (iii) Modelagem de Tópicos, (iv) Extração e Reconhecimento de Entidades. Apesar dos enormes avanços, várias questões precisam ser resolvidas para a aplicação prática e confiável dessas técnicas em problemas nas áreas de Saúde/Médico, Jurídico, Comércio Eletrônico, etc., incluindo: (i) necessidades de grandes volumes de dados rotulados e imenso poder computacional para o desenvolvimento de soluções; (ii) melhor compreensão das características sintáticas, semânticas e espaciais das representações existentes (embeddings); (iii) interpretabilidade que indica a capacidade de entender por que certas soluções funcionam (ou não). Propomos abordar estas questões empregando: (i) engenharia de dados através da construção de representações textuais contextualizadas -- Cluwords, MetaFeatures (ii) novas técnicas para obtenção de dados de treinamento a baixo custo através de Co-treinamento, Aprendizagem por Reforço e Aprendizagem Ativa (iii) interpretabilidade de soluções explorando a localidade de referência e complementar de visões multi-perspectivas. Resultados recentes publicados por nosso grupo atestam a plausibilidade de nossas propostas. Metodologicamente, conduziremos a pesquisa como subprojetos sinérgicos de mestrado e doutorado realizados por alunos de pós-graduação. Integrantes: Marcos André Gonçalves (coordenador), Leonardo Rocha, Fabiano Belem, Daniel Xavier De Sousa, Wellington Santos Martins, Sergio Canuto, ROSA, THIERSON, PRATES, RAQUEL O..
2021 a Atual	Centro de Inovação em Inteligencia Artifical para a Saúde (CIIA- Saude) (edital FAPESP/MCTI/CGI-Br) Pesquisa e o desenvolvimento de soluções avançadas de inteligência artificial (IA), capazes de auxiliar profissionais de saúde no diagnóstico e tratamento de doenças, e orientar gestores de saúde na programação de ações de prevenção e organização da assistência à saúde. Isso permitirá a otimização dos recursos e melhora da atenção à saúde da população no Brasil. Integrantes: Virgilio Almeida (coordenador), Marcos André Gonçalves, Altigran Soares da Silva, Wagner Meira Jr.
2021 a Atual	Identificação de riscos em fontes de dados abertas (OpenRisk) O projeto em questão se propõe, a partir de fontes de dados públicas e abertas como por exemplo citações em mídia e notícias publicadas na internet e em processos judiciais, dentre outras fontes, a desenvolver um método de classificação de riscos e de apontamento da sua severidade, dado uma busca simples pelo nome ou documento da entidade (CNPJ ou CPF). Integrantes: Marcos André Gonçalves (coordenador).
2020 a Atual	Programa de Capacidades Analíticas do Ministério Público do Estado de Minas Gerais - MPMG Consultoria técnica especializada para prestação de serviços de pesquisa e desenvolvimento na área da Inteligência Artificial Aplicada e soluções de Big Data, vinculada ao escopo do Programa de Capacidades Analíticas do MPMG, incluindo transferência de conhecimento, por meio de mentoring e operação assistida. Integrantes: Wagner Meira Jr (coordenador), Marcos André Gonçalves, Alberto H F Laender, Rodrygo Luis Teodoro Santos, Jussara Marques Almeida, Fabricio Benevenuto.
2020 a Atual	Extending the Role of Semantic Word Clusters (CluWords) in Natural Language Processing (NLP) Tasks Integrantes: Marcos André Gonçalves (coordenador).
2020 a Atual	Comparando a Efetividade de Abordagens Neurais e Não-Neurais em Tarefas de Classificação Automática de Texto (Projeto CNPq/AWS)) Integrantes: Leonardo Rocha (coordenador), Marcos André Gonçalves.
2018 a Atual	Projeto 26139 FAPEMIG/ICEX/DCC/RECINT Esse projeto visa propor soluções inovadoras para vários problemas relacionados ao tratamento de informação na Web, principalmente associados a serviços e aplicações da Web 2.0 (e.g., redes sociais, blogs e micro-blogs) Integrantes: Marcos André Gonçalves (coordenador).
2018 a Atual	Projeto Universal 2018 - Faixa C - Avanços em Recuperação de Informação Inteligente através de Engenharia de Atributos, Enriquecimento Semântico e Aprendizado Ativo O tema de inteligência artificial (IA) e aprendizado de máquina tem atraído enorme interesse acadêmico e empresarial nos últimos anos. De acordo com o Artificial Intelligence Index , o número de artigos sobre IA aumentou mais de 9 vezes desde 1996. Uma das aplicações mais interessantes de técnicas de Aprendizado de máquina tem sido da área de gerenciamento e tratamento de grandes volumes de informação (aka, Big Data). De fato, a sobrecarga de informação, gerada principalmente pela utilização ?quase onipresente? de dispositivos eletrônicos (smartphones, tablets, etc) ligados `a Internet (aka, Internet das Coisas) é um dos principais desafios da Ciência da Computação na atualidade. Estes desafios advém não apenas da imensa quantidade de dados/informações disponíveis, que precisam ser tratados de forma eficaz e eficiente, nas mais diversas plataformas utilizadas pelos usuários, mas também da dificuldade inerente em identificar e tratar conteúdo de boa e principalmente de má qualidade (e.g., spam, vandalismo, fake news, informalidade e imprecisão na linguagem naturais da linguagem humana). Esses desafios têm motivado continuamente pesquisas para avançar o estado-da-arte em áreas como classificação automática, sistema de ranqueamento (ranking) e de recomendação. Por exemplo sistemas de classificação automática baseados em aprendizado supervisionado podem ser usados para aprender a: (i) separar notícias reais daquelas fake a partir de um conjunto de evidências previamente coletados (e.g., viralidade da mensagem; texto associado à mensagem); (ii) determinar a polaridade/sentimento (positivo, negativo ou neutro) de uma mensagem de texto curta em uma rede social ou aplicação de chat; (iii)a categorizar usuários como tendenciosos ou não a aceitar a oferta de determinados produtos e serviços, etc. Sistemas de busca ou de respostas de questões (aka, question answering), por sua vez, são utilizados para ordenar, literalmente dentre milhões de possibilidades, as respostas mais relevantes a uma consulta ou pergunta do usuário de tal forma que esse usuário possa rapidamente encontrar os ?melhores? documentos ou respostas. Nesse contexto, aprendizado de máquina tem sido utilizado para aprender funções de ordenação que maximizem a relevância através de uma combinação, geralmente não-linear, dos atributos (aka, features) disponíveis. Esses algoritmos de ranqueamento podem ser também utilizados em sistemas de recomendação que sugerem os melhores itens para um usuário em um determinado contexto, ou as palavras-chave mais adequadas para descrever um produto de forma a maximizar o lucro em um site de comercio eletrônico. Em suma, esse projeto, conectado a várias pesquisas desenvolvidas pelo proponente, tem por objetivo geral propor soluções inovadoras para vários problemas relacionados ao tratamento de grandes volumes de informação, em aplicações tais como recuperação de informação em máquinas de busca, classificação automática de texto e recomendação de conteúdo, por meio de avanços em algoritmos e técnicas de aprendizado de máquina, particularmente engenharia de atributos com exploração de semântica e aprendizado ativo. Nossas pesquisas nessas áreas têm obtidos resultados de grande impacto científico, exemplificados pelo volume e qualidade da produção cientifica do proponente (ver currículo Lattes) bem como pelos inúmeros prêmios recebidos ao longo dos últimos anos, tais como: orientador da melhor dissertação de mestrado do Brasil (2018) - Sociedade Brasileira de Computação (SBC); orientador da melhor tese de Doutorado do Brasil em Banco de Dados e recuperação de Informação (2017) ? Comissão Especial de Banco de Dados (CEBD-SBC); best paper award na ACM/IEEE Joint Conference on Digital Libraries (JCDL); vários Google Research Awards para a America Latina, dentre outros. Particularmente, nesse projeto propomos avanços em técnicas e algoritmos Integrantes: Marcos André Gonçalves (coordenador), Thierson Couto, Leonardo Rocha, Jussara Marques Almeida, Wellington Santos Martins.
2018 a Atual	Programa Pesquisador Mineiro - PPM XI - RecInt - Recuperação de Informação Inteligente Integrantes: Marcos André Gonçalves (coordenador).

Current applied research projects

See all projects in Lattes

Recent publications

Articles in journals

Potential and limitations of machine meta-learning (ensemble) methods for predicting COVID-19 mortality in a large inhospital Brazilian dataset
2023. Scientific Reports.

The rise of hyperprolific authors in computer science: characterization and implications
2023. SCIENTOMETRICS.

A Comparative Survey of Instance Selection Methods applied to NonNeural and Transformer-Based Text Classification
2023. ACM COMPUTING SURVEYS.

On the class separability of contextual embeddings representations - or -The classifier does not matter when the (text) representation is so good!-
2023. INFORMATION PROCESSING & MANAGEMENT.

How to build high quality L2R training data: Unsupervised compression-based selective sampling for learning to rank
2022. INFORMATION SCIENCES.

PREDICTORS OF VENOUS THROMBOEMBOLISM IN COVID-19 PATIENTS: RESULTS OF THE COVID-19 BRAZILIAN REGISTRY
2022. Internal and Emergency Medicine.

Semantic Academic Profiler (SAP): a framework for researcher assessment based on semantic topic modeling
2022. SCIENTOMETRICS.

Infodemics and health misinformation: a systematic review of reviews
2022. BULLETIN OF THE WORLD HEALTH ORGANIZATION.

A reinforcement learning approach for single redundant view co-training text classification
2022. INFORMATION SCIENCES.

Logistic and Machine Learning Approaches to Identify Predictors of Venous Thromboembolism in Covid-19 Patients
2022. CIRCULATION JOURNAL.

Contrasting Explain-ML with Interpretability Machine Learning Tools in Light of Interactive Principles
2022. Journal on Interactive Systems (JIS).

A quantitative analysis of the impact of explicit incorporation of recency, seasonality and model specialization into fine-grained tourism demand prediction models
2022. PLoS One.

On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study
2021. INFORMATION PROCESSING & MANAGEMENT.

Impact of Big Data Analytics on People?s Health: Overview of Systematic Reviews and Recommendations for Future Studies
2021. JOURNAL OF MEDICAL INTERNET RESEARCH.

Individualized Extreme Dominance (IndED): A New Preference-Based Method for Multi-Objective Recommender Systems
2021. INFORMATION SCIENCES.

PCV50 Automatic Classification of Electronic Health Records for a Value-Based Program through Machine Learning
2021. VALUE IN HEALTH.

Stroke Outcome Measurements from Electronic Medical Records: On the Effectiveness of Neural and Nonneural Classifiers
2021. JMIR MEDICAL INFORMATICS.

PMU44 Quality of Life and Costs of a Telemedicine Service for Ophthalmologic Diagnoses
2021. VALUE IN HEALTH.

A Genetic Programming Approach to Record Deduplication
2012. IEEE Transactions on Knowledge and Data Engineering (Print).

A genetic programming framework for content-based image retrieval
2009. Pattern Recognition.

``What is a Good Digital Library?'' -- A Quality Model for Digital Libraries
2007. Information Processing & Management.

Link-based similarity measures for the classification of Web documents
2006. Journal of the American Society for Information Science and Technology.

Streams, structures, spaces, scenarios, societies (5s)
2004. ACM Transactions on Information Systems.

Papers in conferences

An Effective, Efficient, and Scalable Confidence-based Instance Selection Framework for Transformer-Based Text Classification
2023. SIGIR '23: The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval.

PromptNER: Uma Abordagem para Reconhecimento de Entidades Nomeadas em Dados Sensíveis a Partir de Instâncias Rotuladas Automaticamente
2023. Simpósio Brasileiro de Bancos de Dados 2023.

Aprendizado Federado Sensível ao Risco em Modelos de Ranqueamento
2023. WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) 2023.

Re-Think, Retrieve and Re-Ranking: A New Complementary Two-stage Retrieving and Re-ranking Pipeline for Extreme Multi-Label Text Classification
2023. WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) 2023.

Ensemble of Term Classification (ETC): Classifying Word Occurrences
2023. WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) 2023.

Risk-Sensitive Deep Neural Learning to Rank
2022. The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.

On the Cost-Effectiveness of Stacking of Neural and Non-Neural Methods for Text Classification: Scenarios and Performance Prediction
2022. XXXV Concurso de Teses e Dissertações da Sociedade Brasileira de Computação (CTD - SBC 2022).
Characterizing and Understanding Temporal Effects in COVID-19 Data
2022. 1st Workshop on Healthcare AI and COVID-19, ICML 2022}.
DedupeGov: Um Ambiente para Deduplicação de Grandes Volumes de Dados de Pessoas Físicas e Jurídicas em Âmbito Governamental
2022. Simpósio Brasileiro de Bancos de Dados (SBBD 20222).
Reforço e Delimitação Contextual para Reconhecimento de Entidades e Relações em Documentos Oficiais
2022. Simpósio Brasileiro de Bancos de Dados (SBBD 20222).
Segmentação e Classificação Semântica de Trechos Textuais Extraídos de Diários Oficiais
2022. Simpósio Brasileiro de Bancos de Dados (SBBD 20222).
On the Presence of Abusive Language in Mis/Disinformation
2022. International Conference on Social Informatics (SocInfo 2022).
'Deduplicating Large Volumes of Data from Natural and Legal Entities in the Governmental Field
2022. IEEE International Conference on Big Data (IEEE BigData 2022).
On the Cost-Effectiveness of Stacking of Neural and Non-Neural Methods for Text Classification: Scenarios and Performance Prediction
2021. Findings of the Association for Computational Linguistics: ACLIJCNLP 2021.

Profiling Hate Speech Spreaders on Twitter: Exploiting Textual Analysis of Tweets and Combination of Textual Representations.
2021. Working Notes of CLEF 2021 - Conference and Labs of the Evaluation Forum.
Evaluating Recognizing Question Entailment Methods for a Portuguese Community Question-Answering system about Diabetes Mellitus
2021. Recent Advances on Natural Language Processing (RANLP 2021).
Analyzing Topic Attention in Online Small Groups
2021. ACM/IEEE International Conference on Social Network Analysis and Mining 2021.
Analysis of the User Experience with a Multiperspective Tool for Explainable Machine Learning in Light of Interactive Principles
2021. IHC '21: XX Brazilian Symposium on Human Factors in Computing Systems.

Extended abstracts in conferences

Uma Metodologia para Tratamento do Viés da Maioria em Modelos de Stacking via Identificação de Documentos Difíceis
2023. Simpósio Brasileiro de Bancos de Dados 2023.

Automatic Classification of Electronic Health Records for a Value-Based Program through Machine Learning
2021. Virtual ISPOR 2021.
Development of an Artifical Intelligence Model to Predict Venous Thromboembolic Disease in COVID-19 Patients at Hospital Admission
2021. International Society on Thrombosis and Haemostasis Congress (ISTH 2021).
Rank Fusion and Multimodal Per-topic Adaptiveness for Diverse Image Retrieval
2017. MediaEval 2017 Workshop and Conference and Labs of the Evaluation Forum (CLEF 2017).
The LExR Collection for Expertise Retrieval in Academia
2016. the 39th International ACM SIGIR conference.

Abstracts in conferences

A practical and effective sampling selection strategy for large scale deduplication
2016. 2016 IEEE 32nd International Conference on Data Engineering (ICDE).

Métodos Automáticos para Desambiguação de Nomes de Autores em Repositórios de Dados Bibliográficos
2014. Simpósio Brasileiro de Bancos de Dados.
From Concepts to Implementation and Visualization: Tools from a Team-Based Approach to IR
2008. 31st Annual International ACM SIGIR Conference.
PIM through a 5S Perspective
2007. ACM IEEE Joint Conference on Digital Libraries.
5SQual - A Quality Assessment Tool for Digital Libraries
2007. ACM/IEEE Joint Conference on Digital Libraries.

See all publications in Lattes

Current students

MS

Gestefane Rabbi Magalhães. Federated Learning para Learning to Rank. Início: 2022. Universidade Federal de Minas Gerais (Orientador principal)
Welton Santos. Classificacao multi-sentenca. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)

PhD

Washington Cunha. Pipelines de Classificação. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)
Barbara Lopes. Aspectos de HCI paar Explicabilidade de Aprendizado de Máquina. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)
Claudio Valiense. Combinação de Representações para Aprendizado de Maquina. Início: 2020. Universidade Federal de Minas Gerais (Orientador principal)
Vitor Mangaravite. Bag of Textual Graphs. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Celso França. Code Retrieval. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Liziane Soares. Interpretabilidade de Modelos de Classifiacao. Início: 2017. Universidade Federal de Minas Gerais (Orientador principal)

See all students in Lattes