Marcos André Gonçalves
CNPq research fellow: 1B
Research areas: Degrees:
Doutor, Virginia Polytechnic Institute and State University, USA, 2004
Phone: 7541
mgoncalv@dcc.ufmg.br
Home page Lattes Google scholar
Information extracted from Lattes platform
Last update: 2023/10/06ORCID: https://orcid.org/0000-0002-2075-3363
Current projects
2023 a Atual | Recomendação Contextual em Ambientes Veiculares Integrantes: Rodrygo Luis Teodoro Santos (coordenador), Marcos André Gonçalves, Leandro Balby. |
2023 a Atual | ?Desenvolvimento de sistema com malha de sensores para monitoramento da saúde estrutural e acompanhamento da perda de espessura de parede de tubulações, usando conceito IoT e análise automática de dados por algoritmos de inteligência artificial? (?Projeto Integrantes: Marcos André Gonçalves (coordenador), Jussara Marques Almeida. |
2023 a Atual | Suporte AWS para o Projeto DeepRI: Aprendizado Profundo, Ativo e Explicável para Recuperação de Informação e Processamento de Linguagem Natural Inteligente Integrantes: Marcos André Gonçalves (coordenador). |
2023 a Atual | Predição de Desfechos Clínicos e Econômicos por Meio de Representações Semânticas MultiModais de Pacientes Resilientes a Drifts Temporais Integrantes: Marcos André Gonçalves (coordenador), Milena Marcolino, Carisi Polanczyk. |
2022 a Atual | Extending the Role of Semantic Word Clusters (CluWords) in Natural Language Processing (NLP) Tasks Integrantes: Marcos André Gonçalves (coordenador), Leonardo Rocha, Felipe Viegas. |
2022 a Atual | Projeto Universal CNPq - Aprendizado Profundo, Ativo e Explicável para Recuperação de Informação e Processamento de Linguagem Natural Inteligente (DeepRI-NLP) Aprendizado de Máquina, especialmente o Aprendizado Profundo, tem atraido enorme interesse acadêmico e empresarial. Uma das aplicações mais promissoras dessas técnicas tem sido na área de gerenciamento de grandes volumes de informações, principalmente dados não estruturados (textuais). Este projeto, ligado a diversas pesquisas lideradas pelo proponente, tem como objetivo geral propor soluções inovadoras para diversos problemas relacionados ao tratamento de grandes volumes de informação textual, em aplicações relacionadas à Recuperação de Informação (RI) e Processamento de Linguagem Natural (PLN). , incluindo: (i) Classificação Automática de Texto, (ii) Pesquisa e Recomendação de Conteúdo, (iii) Modelagem de Tópicos, (iv) Extração e Reconhecimento de Entidades. Apesar dos enormes avanços, várias questões precisam ser resolvidas para a aplicação prática e confiável dessas técnicas em problemas nas áreas de Saúde/Médico, Jurídico, Comércio Eletrônico, etc., incluindo: (i) necessidades de grandes volumes de dados rotulados e imenso poder computacional para o desenvolvimento de soluções; (ii) melhor compreensão das características sintáticas, semânticas e espaciais das representações existentes (embeddings); (iii) interpretabilidade que indica a capacidade de entender por que certas soluções funcionam (ou não). Propomos abordar estas questões empregando: (i) engenharia de dados através da construção de representações textuais contextualizadas -- Cluwords, MetaFeatures (ii) novas técnicas para obtenção de dados de treinamento a baixo custo através de Co-treinamento, Aprendizagem por Reforço e Aprendizagem Ativa (iii) interpretabilidade de soluções explorando a localidade de referência e complementar de visões multi-perspectivas. Resultados recentes publicados por nosso grupo atestam a plausibilidade de nossas propostas. Metodologicamente, conduziremos a pesquisa como subprojetos sinérgicos de mestrado e doutorado realizados por alunos de pós-graduação. Integrantes: Marcos André Gonçalves (coordenador), Leonardo Rocha, Fabiano Belem, Daniel Xavier De Sousa, Wellington Santos Martins, Sergio Canuto, ROSA, THIERSON, PRATES, RAQUEL O.. |
2021 a Atual | Centro de Inovação em Inteligencia Artifical para a Saúde (CIIA- Saude) (edital FAPESP/MCTI/CGI-Br) Pesquisa e o desenvolvimento de soluções avançadas de inteligência artificial (IA), capazes de auxiliar profissionais de saúde no diagnóstico e tratamento de doenças, e orientar gestores de saúde na programação de ações de prevenção e organização da assistência à saúde. Isso permitirá a otimização dos recursos e melhora da atenção à saúde da população no Brasil. Integrantes: Virgilio Almeida (coordenador), Marcos André Gonçalves, Altigran Soares da Silva, Wagner Meira Jr. |
2021 a Atual | Identificação de riscos em fontes de dados abertas (OpenRisk) O projeto em questão se propõe, a partir de fontes de dados públicas e abertas como por exemplo citações em mídia e notícias publicadas na internet e em processos judiciais, dentre outras fontes, a desenvolver um método de classificação de riscos e de apontamento da sua severidade, dado uma busca simples pelo nome ou documento da entidade (CNPJ ou CPF). Integrantes: Marcos André Gonçalves (coordenador). |
2020 a Atual | Programa de Capacidades Analíticas do Ministério Público do Estado de Minas Gerais - MPMG Consultoria técnica especializada para prestação de serviços de pesquisa e desenvolvimento na área da Inteligência Artificial Aplicada e soluções de Big Data, vinculada ao escopo do Programa de Capacidades Analíticas do MPMG, incluindo transferência de conhecimento, por meio de mentoring e operação assistida. Integrantes: Wagner Meira Jr (coordenador), Marcos André Gonçalves, Alberto H F Laender, Rodrygo Luis Teodoro Santos, Jussara Marques Almeida, Fabricio Benevenuto. |
2020 a Atual | Extending the Role of Semantic Word Clusters (CluWords) in Natural Language Processing (NLP) Tasks Integrantes: Marcos André Gonçalves (coordenador). |
2020 a Atual | Comparando a Efetividade de Abordagens Neurais e Não-Neurais em Tarefas de Classificação Automática de Texto (Projeto CNPq/AWS)) Integrantes: Leonardo Rocha (coordenador), Marcos André Gonçalves. |
2018 a Atual | Projeto 26139 FAPEMIG/ICEX/DCC/RECINT Esse projeto visa propor soluções inovadoras para vários problemas relacionados ao tratamento de informação na Web, principalmente associados a serviços e aplicações da Web 2.0 (e.g., redes sociais, blogs e micro-blogs) Integrantes: Marcos André Gonçalves (coordenador). |
2018 a Atual | Projeto Universal 2018 - Faixa C - Avanços em Recuperação de Informação Inteligente através de Engenharia de Atributos, Enriquecimento Semântico e Aprendizado Ativo O tema de inteligência artificial (IA) e aprendizado de máquina tem atraído enorme interesse acadêmico e empresarial nos últimos anos. De acordo com o Artificial Intelligence Index , o número de artigos sobre IA aumentou mais de 9 vezes desde 1996. Uma das aplicações mais interessantes de técnicas de Aprendizado de máquina tem sido da área de gerenciamento e tratamento de grandes volumes de informação (aka, Big Data). De fato, a sobrecarga de informação, gerada principalmente pela utilização ?quase onipresente? de dispositivos eletrônicos (smartphones, tablets, etc) ligados `a Internet (aka, Internet das Coisas) é um dos principais desafios da Ciência da Computação na atualidade. Estes desafios advém não apenas da imensa quantidade de dados/informações disponíveis, que precisam ser tratados de forma eficaz e eficiente, nas mais diversas plataformas utilizadas pelos usuários, mas também da dificuldade inerente em identificar e tratar conteúdo de boa e principalmente de má qualidade (e.g., spam, vandalismo, fake news, informalidade e imprecisão na linguagem naturais da linguagem humana). Esses desafios têm motivado continuamente pesquisas para avançar o estado-da-arte em áreas como classificação automática, sistema de ranqueamento (ranking) e de recomendação. Por exemplo sistemas de classificação automática baseados em aprendizado supervisionado podem ser usados para aprender a: (i) separar notícias reais daquelas fake a partir de um conjunto de evidências previamente coletados (e.g., viralidade da mensagem; texto associado à mensagem); (ii) determinar a polaridade/sentimento (positivo, negativo ou neutro) de uma mensagem de texto curta em uma rede social ou aplicação de chat; (iii)a categorizar usuários como tendenciosos ou não a aceitar a oferta de determinados produtos e serviços, etc. Sistemas de busca ou de respostas de questões (aka, question answering), por sua vez, são utilizados para ordenar, literalmente dentre milhões de possibilidades, as respostas mais relevantes a uma consulta ou pergunta do usuário de tal forma que esse usuário possa rapidamente encontrar os ?melhores? documentos ou respostas. Nesse contexto, aprendizado de máquina tem sido utilizado para aprender funções de ordenação que maximizem a relevância através de uma combinação, geralmente não-linear, dos atributos (aka, features) disponíveis. Esses algoritmos de ranqueamento podem ser também utilizados em sistemas de recomendação que sugerem os melhores itens para um usuário em um determinado contexto, ou as palavras-chave mais adequadas para descrever um produto de forma a maximizar o lucro em um site de comercio eletrônico. Em suma, esse projeto, conectado a várias pesquisas desenvolvidas pelo proponente, tem por objetivo geral propor soluções inovadoras para vários problemas relacionados ao tratamento de grandes volumes de informação, em aplicações tais como recuperação de informação em máquinas de busca, classificação automática de texto e recomendação de conteúdo, por meio de avanços em algoritmos e técnicas de aprendizado de máquina, particularmente engenharia de atributos com exploração de semântica e aprendizado ativo. Nossas pesquisas nessas áreas têm obtidos resultados de grande impacto científico, exemplificados pelo volume e qualidade da produção cientifica do proponente (ver currículo Lattes) bem como pelos inúmeros prêmios recebidos ao longo dos últimos anos, tais como: orientador da melhor dissertação de mestrado do Brasil (2018) - Sociedade Brasileira de Computação (SBC); orientador da melhor tese de Doutorado do Brasil em Banco de Dados e recuperação de Informação (2017) ? Comissão Especial de Banco de Dados (CEBD-SBC); best paper award na ACM/IEEE Joint Conference on Digital Libraries (JCDL); vários Google Research Awards para a America Latina, dentre outros. Particularmente, nesse projeto propomos avanços em técnicas e algoritmos Integrantes: Marcos André Gonçalves (coordenador), Thierson Couto, Leonardo Rocha, Jussara Marques Almeida, Wellington Santos Martins. |
2018 a Atual | Programa Pesquisador Mineiro - PPM XI - RecInt - Recuperação de Informação Inteligente Integrantes: Marcos André Gonçalves (coordenador). |
Current applied research projects
Recent publications
Articles in journals
Potential and limitations of machine meta-learning (ensemble) methods for predicting COVID-19 mortality in a large inhospital Brazilian dataset2023. Scientific Reports.
The rise of hyperprolific authors in computer science: characterization and implications
2023. SCIENTOMETRICS.
A Comparative Survey of Instance Selection Methods applied to NonNeural and Transformer-Based Text Classification
2023. ACM COMPUTING SURVEYS.
On the class separability of contextual embeddings representations - or -The classifier does not matter when the (text) representation is so good!-
2023. INFORMATION PROCESSING & MANAGEMENT.
How to build high quality L2R training data: Unsupervised compression-based selective sampling for learning to rank
2022. INFORMATION SCIENCES.
PREDICTORS OF VENOUS THROMBOEMBOLISM IN COVID-19 PATIENTS: RESULTS OF THE COVID-19 BRAZILIAN REGISTRY
2022. Internal and Emergency Medicine.
Semantic Academic Profiler (SAP): a framework for researcher assessment based on semantic topic modeling
2022. SCIENTOMETRICS.
Infodemics and health misinformation: a systematic review of reviews
2022. BULLETIN OF THE WORLD HEALTH ORGANIZATION.
A reinforcement learning approach for single redundant view co-training text classification
2022. INFORMATION SCIENCES.
Logistic and Machine Learning Approaches to Identify Predictors of Venous Thromboembolism in Covid-19 Patients
2022. CIRCULATION JOURNAL.
Contrasting Explain-ML with Interpretability Machine Learning Tools in Light of Interactive Principles
2022. Journal on Interactive Systems (JIS).
A quantitative analysis of the impact of explicit incorporation of recency, seasonality and model specialization into fine-grained tourism demand prediction models
2022. PLoS One.
On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study
2021. INFORMATION PROCESSING & MANAGEMENT.
Impact of Big Data Analytics on People?s Health: Overview of Systematic Reviews and Recommendations for Future Studies
2021. JOURNAL OF MEDICAL INTERNET RESEARCH.
Individualized Extreme Dominance (IndED): A New Preference-Based Method for Multi-Objective Recommender Systems
2021. INFORMATION SCIENCES.
PCV50 Automatic Classification of Electronic Health Records for a Value-Based Program through Machine Learning
2021. VALUE IN HEALTH.
Stroke Outcome Measurements from Electronic Medical Records: On the Effectiveness of Neural and Nonneural Classifiers
2021. JMIR MEDICAL INFORMATICS.
PMU44 Quality of Life and Costs of a Telemedicine Service for Ophthalmologic Diagnoses
2021. VALUE IN HEALTH.
A pragmatic approach to hierarchical categorization of research expertise in the presence of scarce information
2020. INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES (PRINT).
Fine-grained tourism prediction: Impact of social and environmental features
2020. INFORMATION PROCESSING & MANAGEMENT.
FISETIO: A FIne-grained, Structured and Enriched Tourism Dataset for Indoor and Outdoor attractions
2020. DATA IN BRIEF.
Extended pre-processing pipeline for text classification: On the role of meta-feature representations, sparsification and selective sampling
2020. INFORMATION PROCESSING & MANAGEMENT.
-Fixing the curse of the bad product descriptions- - Search-boosted tag recommendation for E-commerce products
2020. INFORMATION PROCESSING & MANAGEMENT.
Automatic Disambiguation of Author Names in Bibliographic Repositories
2020. Synthesis Lectures on Information Concepts, Retrieval, and Services.
Exploiting semantic relationships for unsupervised expansion of sentiment lexicons
2020. INFORMATION SYSTEMS.
A bias-variance analysis of state-of-the-art random forest text classifiers
2020. Advances in Data Analysis and Classification.
Parallel rule-based selective sampling and on-demand learning to rank
2019. CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE.
Bag of textual graphs (BoTG): A general graph-based text representation model
2019. Journal of the Association for Information Science and Technology.
Exploiting syntactic and neighbourhood attributes to address cold start in tag recommendation
2019. INFORMATION PROCESSING & MANAGEMENT.
Risk-Sensitive Learning to Rank with Evolutionary Multi-Objective Feature Selection
2019. ACM TRANSACTIONS ON INFORMATION SYSTEMS.
10SENT: A stable sentiment analysis method based on the combination of off-the-shelf approaches
2019. Journal of the Association for Information Science and Technology.
Quality Assessment of Collaboratively-Created Web Content with No Manual Intervention based on Soft Multi-View Generation
2019. EXPERT SYSTEMS WITH APPLICATIONS.
Hierarchical Clustering-Based Graphs for Large Scale Approximate Nearest Neighbor Search
2019. PATTERN RECOGNITION.
A Genetic Programming Approach to Record Deduplication
2012. IEEE Transactions on Knowledge and Data Engineering (Print).
A genetic programming framework for content-based image retrieval
2009. Pattern Recognition.
``What is a Good Digital Library?'' -- A Quality Model for Digital Libraries
2007. Information Processing & Management.
Link-based similarity measures for the classification of Web documents
2006. Journal of the American Society for Information Science and Technology.
Streams, structures, spaces, scenarios, societies (5s)
2004. ACM Transactions on Information Systems.
Papers in conferences
An Effective, Efficient, and Scalable Confidence-based Instance Selection Framework for Transformer-Based Text Classification2023. SIGIR '23: The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval.
PromptNER: Uma Abordagem para Reconhecimento de Entidades Nomeadas em Dados Sensíveis a Partir de Instâncias Rotuladas Automaticamente
2023. Simpósio Brasileiro de Bancos de Dados 2023.
Aprendizado Federado Sensível ao Risco em Modelos de Ranqueamento
2023. WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) 2023.
Re-Think, Retrieve and Re-Ranking: A New Complementary Two-stage Retrieving and Re-ranking Pipeline for Extreme Multi-Label Text Classification
2023. WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) 2023.
Ensemble of Term Classification (ETC): Classifying Word Occurrences
2023. WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) 2023.
Risk-Sensitive Deep Neural Learning to Rank
2022. The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.
On the Cost-Effectiveness of Stacking of Neural and Non-Neural Methods for Text Classification: Scenarios and Performance Prediction
2022. XXXV Concurso de Teses e Dissertações da Sociedade Brasileira de Computação (CTD - SBC 2022).
Characterizing and Understanding Temporal Effects in COVID-19 Data
2022. 1st Workshop on Healthcare AI and COVID-19, ICML 2022}.
DedupeGov: Um Ambiente para Deduplicação de Grandes Volumes de Dados de Pessoas Físicas e Jurídicas em Âmbito Governamental
2022. Simpósio Brasileiro de Bancos de Dados (SBBD 20222).
Reforço e Delimitação Contextual para Reconhecimento de Entidades e Relações em Documentos Oficiais
2022. Simpósio Brasileiro de Bancos de Dados (SBBD 20222).
Segmentação e Classificação Semântica de Trechos Textuais Extraídos de Diários Oficiais
2022. Simpósio Brasileiro de Bancos de Dados (SBBD 20222).
On the Presence of Abusive Language in Mis/Disinformation
2022. International Conference on Social Informatics (SocInfo 2022).
'Deduplicating Large Volumes of Data from Natural and Legal Entities in the Governmental Field
2022. IEEE International Conference on Big Data (IEEE BigData 2022).
On the Cost-Effectiveness of Stacking of Neural and Non-Neural Methods for Text Classification: Scenarios and Performance Prediction
2021. Findings of the Association for Computational Linguistics: ACLIJCNLP 2021.
Profiling Hate Speech Spreaders on Twitter: Exploiting Textual Analysis of Tweets and Combination of Textual Representations.
2021. Working Notes of CLEF 2021 - Conference and Labs of the Evaluation Forum.
Evaluating Recognizing Question Entailment Methods for a Portuguese Community Question-Answering system about Diabetes Mellitus
2021. Recent Advances on Natural Language Processing (RANLP 2021).
Analyzing Topic Attention in Online Small Groups
2021. ACM/IEEE International Conference on Social Network Analysis and Mining 2021.
Analysis of the User Experience with a Multiperspective Tool for Explainable Machine Learning in Light of Interactive Principles
2021. IHC '21: XX Brazilian Symposium on Human Factors in Computing Systems.
CluHTM - Semantic Hierarchical Topic Modeling based on CluWords
2020. 2020 Annual Conference of the Association for Computational Linguistics (ACL 2020).
Keep it Simple, Lazy - MetaLazy: a New MetaStategy for Text Classification
2020. 29th ACM International Conference on Information and Knowledge Management.
Automatic Content Quality Estimation Using Deep Neural Networks in Collaborative Encyclopedias on the Web
2020. WebMedia '20: Brazillian Symposium on Multimedia and the Web.
Combining Representations For Effective Citation Classification
2020. International Workshop on Mining Scientific Publications.
Document Performance Prediction for Automatic Text Classification
2019. 41st European Conference on Information Retrieval.
Automatic Generation of Initial Reading Lists: Requirements and Solutions
2019. 2019 ACM/IEEE Joint Conference on Digital Libraries (JCDL).
CluWords: Exploiting Semantic Word Clustering Representation for Enhanced Topic Modeling
2019. Twelfth ACM International Conference on Web Search and Data Mining (WSDM 2019).
Characterizing Attention Cascades in WhatsApp Groups
2019. the 10th ACM Conference.
Similarity-Based Synthetic Document Representations for Meta-Feature Generation in Text Classification
2019. the 42nd International ACM SIGIR Conference.
Image Aesthetics and its Effects on Product Clicks in E-Commerce Search
2019. SIGIR 2019 Workshop on eCommerce.
Extended abstracts in conferences
Uma Metodologia para Tratamento do Viés da Maioria em Modelos de Stacking via Identificação de Documentos Difíceis2023. Simpósio Brasileiro de Bancos de Dados 2023.
Automatic Classification of Electronic Health Records for a Value-Based Program through Machine Learning
2021. Virtual ISPOR 2021.
Development of an Artifical Intelligence Model to Predict Venous Thromboembolic Disease in COVID-19 Patients at Hospital Admission
2021. International Society on Thrombosis and Haemostasis Congress (ISTH 2021).
Rank Fusion and Multimodal Per-topic Adaptiveness for Diverse Image Retrieval
2017. MediaEval 2017 Workshop and Conference and Labs of the Evaluation Forum (CLEF 2017).
The LExR Collection for Expertise Retrieval in Academia
2016. the 39th International ACM SIGIR conference.
Abstracts in conferences
A practical and effective sampling selection strategy for large scale deduplication2016. 2016 IEEE 32nd International Conference on Data Engineering (ICDE).
Métodos Automáticos para Desambiguação de Nomes de Autores em Repositórios de Dados Bibliográficos
2014. Simpósio Brasileiro de Bancos de Dados.
From Concepts to Implementation and Visualization: Tools from a Team-Based Approach to IR
2008. 31st Annual International ACM SIGIR Conference.
PIM through a 5S Perspective
2007. ACM IEEE Joint Conference on Digital Libraries.
5SQual - A Quality Assessment Tool for Digital Libraries
2007. ACM/IEEE Joint Conference on Digital Libraries.
See all publications in Lattes
Current students
MS
Gestefane Rabbi Magalhães. Federated Learning para Learning to Rank. Início: 2022. Universidade Federal de Minas Gerais (Orientador principal)Welton Santos. Classificacao multi-sentenca. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)
PhD
Washington Cunha. Pipelines de Classificação. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)Barbara Lopes. Aspectos de HCI paar Explicabilidade de Aprendizado de Máquina. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)
Claudio Valiense. Combinação de Representações para Aprendizado de Maquina. Início: 2020. Universidade Federal de Minas Gerais (Orientador principal)
Vitor Mangaravite. Bag of Textual Graphs. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Celso França. Code Retrieval. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Liziane Soares. Interpretabilidade de Modelos de Classifiacao. Início: 2017. Universidade Federal de Minas Gerais (Orientador principal)
See all students in Lattes