Marcos André Gonçalves


Bolsa de Produtividade CNPq: 1B

Áreas de Pesquisa: Sala: 6313
Ramal: 7541
mgoncalv@dcc.ufmg.br

Página pessoal     Lattes    Google scholar 


Informações resumidas do Currículo Lattes

Currículo Lattes atualizado em 31/08/2021

ORCID: https://orcid.org/0000-0002-2075-3363

Nome em citações bibliográficas: GONÇALVES, Marcos André;Gonçcalves, Marcos André;Marcos A. Gonçalves;MARCOS GONÇALVES;GONÇALVES, MARCOS;GONÇALVES, MARCOS A.;GONÇALVES, MARCOS;GONCALVES, MARCOS;GONCALVES, MARCOS A.;GONÇALVES, MARCOS ANDRE;GONÇALVES, M.


Formação acadêmica

Doutorado em Computer Science na Virginia Tech em 2004
Mestrado em Ciência da Computação na Universidade Estadual de Campinas em 1997
Graduado em Bacharelado em Ciência da Computação na Universidade Federal do Ceará em 1995

Projetos de pesquisa em andamento

2020 a AtualComparando a Efetividade de Abordagens Neurais e Não-Neurais em Tarefas de Classificação Automática de Texto (Projeto CNPq/AWS))

Integrantes: Leonardo Rocha (coordenador), Marcos André Gonçalves.
2020 a AtualPrograma de Capacidades Analíticas do Ministério Público do Estado de Minas Gerais - MPMG
Consultoria técnica especializada para prestação de serviços de pesquisa e desenvolvimento na área da Inteligência Artificial Aplicada e soluções de Big Data, vinculada ao escopo do Programa de Capacidades Analíticas do MPMG, incluindo transferência de conhecimento, por meio de mentoring e operação assistida.
Integrantes: Wagner Meira Jr (coordenador), Marcos André Gonçalves, Alberto H F Laender, Rodrygo Luis Teodoro Santos, Jussara Marques Almeida, Fabricio Benevenuto.
2020 a AtualExtending the Role of Semantic Word Clusters (CluWords) in Natural Language Processing (NLP) Tasks

Integrantes: Marcos André Gonçalves (coordenador).
2018 a AtualProjeto Universal 2018 - Faixa C - Avanços em Recuperação de Informação Inteligente através de Engenharia de Atributos, Enriquecimento Semântico e Aprendizado Ativo
O tema de inteligência artificial (IA) e aprendizado de máquina tem atraído enorme interesse acadêmico e empresarial nos últimos anos. De acordo com o Artificial Intelligence Index , o número de artigos sobre IA aumentou mais de 9 vezes desde 1996. Uma das aplicações mais interessantes de técnicas de Aprendizado de máquina tem sido da área de gerenciamento e tratamento de grandes volumes de informação (aka, Big Data). De fato, a sobrecarga de informação, gerada principalmente pela utilização ?quase onipresente? de dispositivos eletrônicos (smartphones, tablets, etc) ligados `a Internet (aka, Internet das Coisas) é um dos principais desafios da Ciência da Computação na atualidade. Estes desafios advém não apenas da imensa quantidade de dados/informações disponíveis, que precisam ser tratados de forma eficaz e eficiente, nas mais diversas plataformas utilizadas pelos usuários, mas também da dificuldade inerente em identificar e tratar conteúdo de boa e principalmente de má qualidade (e.g., spam, vandalismo, fake news, informalidade e imprecisão na linguagem naturais da linguagem humana). Esses desafios têm motivado continuamente pesquisas para avançar o estado-da-arte em áreas como classificação automática, sistema de ranqueamento (ranking) e de recomendação. Por exemplo sistemas de classificação automática baseados em aprendizado supervisionado podem ser usados para aprender a: (i) separar notícias reais daquelas fake a partir de um conjunto de evidências previamente coletados (e.g., viralidade da mensagem; texto associado à mensagem); (ii) determinar a polaridade/sentimento (positivo, negativo ou neutro) de uma mensagem de texto curta em uma rede social ou aplicação de chat; (iii)a categorizar usuários como tendenciosos ou não a aceitar a oferta de determinados produtos e serviços, etc. Sistemas de busca ou de respostas de questões (aka, question answering), por sua vez, são utilizados para ordenar, literalmente dentre milhões de possibilidades, as respostas mais relevantes a uma consulta ou pergunta do usuário de tal forma que esse usuário possa rapidamente encontrar os ?melhores? documentos ou respostas. Nesse contexto, aprendizado de máquina tem sido utilizado para aprender funções de ordenação que maximizem a relevância através de uma combinação, geralmente não-linear, dos atributos (aka, features) disponíveis. Esses algoritmos de ranqueamento podem ser também utilizados em sistemas de recomendação que sugerem os melhores itens para um usuário em um determinado contexto, ou as palavras-chave mais adequadas para descrever um produto de forma a maximizar o lucro em um site de comercio eletrônico. Em suma, esse projeto, conectado a várias pesquisas desenvolvidas pelo proponente, tem por objetivo geral propor soluções inovadoras para vários problemas relacionados ao tratamento de grandes volumes de informação, em aplicações tais como recuperação de informação em máquinas de busca, classificação automática de texto e recomendação de conteúdo, por meio de avanços em algoritmos e técnicas de aprendizado de máquina, particularmente engenharia de atributos com exploração de semântica e aprendizado ativo. Nossas pesquisas nessas áreas têm obtidos resultados de grande impacto científico, exemplificados pelo volume e qualidade da produção cientifica do proponente (ver currículo Lattes) bem como pelos inúmeros prêmios recebidos ao longo dos últimos anos, tais como: orientador da melhor dissertação de mestrado do Brasil (2018) - Sociedade Brasileira de Computação (SBC); orientador da melhor tese de Doutorado do Brasil em Banco de Dados e recuperação de Informação (2017) ? Comissão Especial de Banco de Dados (CEBD-SBC); best paper award na ACM/IEEE Joint Conference on Digital Libraries (JCDL); vários Google Research Awards para a America Latina, dentre outros. Particularmente, nesse projeto propomos avanços em técnicas e algoritmos
Integrantes: Marcos André Gonçalves (coordenador), Thierson Couto, Leonardo Rocha, Jussara Marques Almeida, Wellington Santos Martins.
2018 a AtualProjeto 26139 FAPEMIG/ICEX/DCC/RECINT
Esse projeto visa propor soluções inovadoras para vários problemas relacionados ao tratamento de informação na Web, principalmente associados a serviços e aplicações da Web 2.0 (e.g., redes sociais, blogs e micro-blogs)
Integrantes: Marcos André Gonçalves (coordenador).

Projetos de desenvolvimento em andamento

Veja todos os projetos no Currículo Lattes

Últimas publicações

Artigos em periódicos

PCV50 Automatic Classification of Electronic Health Records for a Value-Based Program through Machine Learning
2021. VALUE IN HEALTH.
Individualized Extreme Dominance (IndED): A New Preference-Based Method for Multi-Objective Recommender Systems
2021. INFORMATION SCIENCES.
Impact of Big Data Analytics on People?s Health: Overview of Systematic Reviews and Recommendations for Future Studies
2021. JOURNAL OF MEDICAL INTERNET RESEARCH.
On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study
2021. INFORMATION PROCESSING & MANAGEMENT.
A bias-variance analysis of state-of-the-art random forest text classifiers
2020. Advances in Data Analysis and Classification.
Exploiting semantic relationships for unsupervised expansion of sentiment lexicons
2020. INFORMATION SYSTEMS.
Automatic Disambiguation of Author Names in Bibliographic Repositories
2020. Synthesis Lectures on Information Concepts, Retrieval, and Services.
-Fixing the curse of the bad product descriptions- - Search-boosted tag recommendation for E-commerce products
2020. INFORMATION PROCESSING & MANAGEMENT.
Extended pre-processing pipeline for text classification: On the role of meta-feature representations, sparsification and selective sampling
2020. INFORMATION PROCESSING & MANAGEMENT.
FISETIO: A FIne-grained, Structured and Enriched Tourism Dataset for Indoor and Outdoor attractions
2020. DATA IN BRIEF.
Fine-grained tourism prediction: Impact of social and environmental features
2020. INFORMATION PROCESSING & MANAGEMENT.
A pragmatic approach to hierarchical categorization of research expertise in the presence of scarce information
2020. INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES (PRINT).
Risk-Sensitive Learning to Rank with Evolutionary Multi-Objective Feature Selection
2019. ACM TRANSACTIONS ON INFORMATION SYSTEMS.
Exploiting syntactic and neighbourhood attributes to address cold start in tag recommendation
2019. INFORMATION PROCESSING & MANAGEMENT.
Parallel rule-based selective sampling and on-demand learning to rank
2019. CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE.
Bag of textual graphs (BoTG): A general graph-based text representation model
2019. Journal of the Association for Information Science and Technology.
Hierarchical Clustering-Based Graphs for Large Scale Approximate Nearest Neighbor Search
2019. PATTERN RECOGNITION.
10SENT: A stable sentiment analysis method based on the combination of off-the-shelf approaches
2019. Journal of the Association for Information Science and Technology.
Quality Assessment of Collaboratively-Created Web Content with No Manual Intervention based on Soft Multi-View Generation
2019. EXPERT SYSTEMS WITH APPLICATIONS.
NetClass: A Network-Based Relational Model for Document Classification
2018. INFORMATION SCIENCES.
Improving random forests by neighborhood projection for effective text classification
2018. INFORMATION SYSTEMS.
Exploiting Efficient and Effective Lazy Semi-Bayesian Strategies for Text Classification
2018. NEUROCOMPUTING.
A Thorough Evaluation of Distance-Based Meta-Features for Automated Text Classification
2018. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING.
BLOSS: Effective Meta-Blocking with Almost no Effort
2018. INFORMATION SYSTEMS.
A Genetic Programming Approach for Feature Selection in Highly Dimensional Skewed Data Neurocomputing
2018. NEUROCOMPUTING.
A survey on tag recommendation methods
2017. Journal of the Association for Information Science and Technology.
Diversity-based Interactive Learning meets Multimodality
2017. NEUROCOMPUTING.
A Two-Stage Machine Learning Approach for Temporally-Robust Text Classification
2017. INFORMATION SYSTEMS.
Ranked Batch-Mode Active Learning
2017. Information Sciences.
A General Multi-View Framework for Assessing the Quality of Collaborativelly Created Content on the Web 2.0
2017. Journal of the American Society for Information Science and Technology (Print).
Incremental author name disambiguation by exploiting domain-specific heuristics
2017. Journal of the Association for Information Science and Technology.
A Multimodal query expansion based on genetic programming for visually-oriented e-commerce applications
2016. Information Processing & Management.
On cold start for associative tag recommendation
2016. Journal of the Association for Information Science and Technology.
SentiBench - A Benchmark Comparison of State-of-the-Practice Sentiment Analysis Methods
2016. EPJ Data Science.
Beyond Relevance
2016. ACM Transactions on Intelligent Systems and Technology.
TrendLearner: Early Prediction of Popularity Trends of User Generated Content
2016. Information Sciences.
A quantitative analysis of the temporal effects on automatic text classification
2016. Journal of the Association for Information Science and Technology.
On Interactive Learning-to-Rank for IR: Overview, Recent Advances, Challenges, and Directions
2016. Neurocomputing (Amsterdam).
A Genetic Programming Approach to Record Deduplication
2012. IEEE Transactions on Knowledge and Data Engineering (Print).
A genetic programming framework for content-based image retrieval
2009. Pattern Recognition.
``What is a Good Digital Library?'' -- A Quality Model for Digital Libraries
2007. Information Processing & Management.
Link-based similarity measures for the classification of Web documents
2006. Journal of the American Society for Information Science and Technology.
Streams, structures, spaces, scenarios, societies (5s)
2004. ACM Transactions on Information Systems.

Trabalhos completos em congressos

Evaluating Recognizing Question Entailment Methods for a Portuguese Community Question-Answering system about Diabetes Mellitus
2021. Recent Advances on Natural Language Processing (RANLP 2021).
Profiling Hate Speech Spreaders on Twitter: Exploiting Textual Analysis of Tweets and Combination of Textual Representations.
2021. Working Notes of CLEF 2021 - Conference and Labs of the Evaluation Forum.
On the Cost-Effectiveness of Stacking of Neural and Non-Neural Methods for Text Classification: Scenarios and Performance Prediction
2021. Findings of the Association for Computational Linguistics: ACLIJCNLP 2021.
CluHTM - Semantic Hierarchical Topic Modeling based on CluWords
2020. 2020 Annual Conference of the Association for Computational Linguistics (ACL 2020).
Keep it Simple, Lazy - MetaLazy: a New MetaStategy for Text Classification
2020. 29th ACM International Conference on Information and Knowledge Management.
Automatic Content Quality Estimation Using Deep Neural Networks in Collaborative Encyclopedias on the Web
2020. WebMedia '20: Brazillian Symposium on Multimedia and the Web.
Combining Representations For Effective Citation Classification
2020. International Workshop on Mining Scientific Publications.
Image Aesthetics and its Effects on Product Clicks in E-Commerce Search
2019. SIGIR 2019 Workshop on eCommerce.
Similarity-Based Synthetic Document Representations for Meta-Feature Generation in Text Classification
2019. the 42nd International ACM SIGIR Conference.
Characterizing Attention Cascades in WhatsApp Groups
2019. the 10th ACM Conference.
CluWords: Exploiting Semantic Word Clustering Representation for Enhanced Topic Modeling
2019. Twelfth ACM International Conference on Web Search and Data Mining (WSDM 2019).
Automatic Generation of Initial Reading Lists: Requirements and Solutions
2019. 2019 ACM/IEEE Joint Conference on Digital Libraries (JCDL).
Document Performance Prediction for Automatic Text Classification
2019. 41st European Conference on Information Retrieval.
User-Oriented Objective Prioritization for Meta-Featured Multi-Objective Recommender Systems
2018. Adjunct Publication of the 26th Conference.
A Feature-Oriented Sentiment Rating for Mobile App Reviews
2018. the 2018 World Wide Web Conference.
Improving Tourism Prediction Models Using Climate and Social Media Data: A Fine-Grained Approach
2018. International AAAI Conference on Web and Social Media (ICWS2018).
Semantically-Enhanced Topic Modeling
2018. the 27th ACM International Conference.
Automatic Hierarchical Categorization of Research Expertise Uisng Minimum Information
2017. International Conference on Theory and Practice of Digital Libraries (TPDL).
Stacking Bagged and Boosted Forests for Effective Automated Classification
2017. 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.
A multicriteria Evaluation of Hybrid Recommender Systems
2017. 19th International Conference on Enterprise Information Systems.
A Framework for Unexpectedness Evaluation in Recommendation
2017. The 32nd ACM SIGAPP Symposium On Applied Computing (SAC 2017).
Exploiting New Sentiment-Based Meta-level Features for Effective Sentiment Analysis
2016. the Ninth ACM International Conference.
Dissecting a Scholar Popularity Ranking into Different Knowledge Areas
2016. International Conference on Theory and Practice of Digital Libraries (TPDL).
Generalized BROOF-L2R: A General Framework for Learning to Rank Based on Boosting and Random Forests
2016. The 39th Annual ACM SIGIR Conference.
Quando a Amazônia Encontra a Mata Atlântica: Empilhamento de Florestas para Classificação Efetiva de Texto
2016. IV KDMile - Symposium on Knowledge Discovery, Mining and Learning.
Incorporating Risk-Sensitiveness into Feature Selection for Learning to Rank
2016. he 25th ACM International Conference on Information and Knowledge Management (CIKM 2016).
Compression-Based Selective Sampling for Learning to Rank
2016. The 25th ACM International Conference on Information and Knowledge Management (CIKM 2016).
BERT: Melhorando Classicação de Texto com Arvores Extremamente Aleatorias, Bagging e Boosting
2016. 31st of the Brazilian Symposium on Databases.
A Multi-View Approach for Assessing the Quality of Collaboratively Created Content on the Web 2.0
2016. X Concurso de Teses e Dissertações em Inteligência Artificial e Computacional (CTDIAC).
A Fast and Scalable Manycore Implementation for an On-Demand Learning to Rank Method
2016. WSCAD - Simpósio em Sistemas Computacionais de Alto Desempenho.
On the combination of "off-the-shelf" sentiment analysis methods
2016. the 31st Annual ACM Symposium.
Early Prediction of Scholar Popularity
2016. the 16th ACM/IEEECS.

Resumos expandidos em congressos

Development of an Artifical Intelligence Model to Predict Venous Thromboembolic Disease in COVID-19 Patients at Hospital Admission
2021. International Society on Thrombosis and Haemostasis Congress (ISTH 2021).
Automatic Classification of Electronic Health Records for a Value-Based Program through Machine Learning
2021. Virtual ISPOR 2021.
Rank Fusion and Multimodal Per-topic Adaptiveness for Diverse Image Retrieval
2017. MediaEval 2017 Workshop and Conference and Labs of the Evaluation Forum (CLEF 2017).
The LExR Collection for Expertise Retrieval in Academia
2016. the 39th International ACM SIGIR conference.
Automatic Methods for Disambiguating Author Names in Bibliographic Data Repositories
2015. the 15th ACM/IEEECE.

Resumos em congressos

A practical and effective sampling selection strategy for large scale deduplication
2016. 2016 IEEE 32nd International Conference on Data Engineering (ICDE).
Métodos Automáticos para Desambiguação de Nomes de Autores em Repositórios de Dados Bibliográficos
2014. Simpósio Brasileiro de Bancos de Dados.
From Concepts to Implementation and Visualization: Tools from a Team-Based Approach to IR
2008. 31st Annual International ACM SIGIR Conference.
PIM through a 5S Perspective
2007. ACM IEEE Joint Conference on Digital Libraries.
5SQual - A Quality Assessment Tool for Digital Libraries
2007. ACM/IEEE Joint Conference on Digital Libraries.

Veja todas as publicações no Currículo Lattes

Orientações em andamento

Mestrado

Welton Santos. Classificacao multi-sentenca. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)
Pedro Rodrigues. Risco em Ranking. Início: 2020. Universidade Federal de Minas Gerais (Orientador principal)
Christian Reis. Stacking (Blending) of Deep Learners. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Pablo Luiz Figueira. Automatic Generation of Initial Reading Lists: Requirements and Solutions. Início: 2019. Universidade Federal de Minas Gerais (Co orientador)

Doutorado

Washington Cunha. Pipelines de Classificação. Início: 2021. Universidade Federal de Minas Gerais (Orientador principal)
Claudio Valiense. Combinação de Representações para Aprendizado de Maquina. Início: 2020. Universidade Federal de Minas Gerais (Orientador principal)
Vitor Mangaravite. Bag of Textual Graphs. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Celso França. Code Retrieval. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Liziane Soares. Interpretabilidade de Modelos de Classifiacao. Início: 2017. Universidade Federal de Minas Gerais (Orientador principal)
Felipe Augusto Resende Viegas. Exploiting Efficient and Effective and Bayesian Strategies for Text Classification. Início: 2015. Universidade Federal de Minas Gerais (Orientador principal)
Rodrigo Silva. Active Learning for Learning to Rank. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)
Reinaldo Fortes. Combinação de Recomendadores. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)

Veja todas as orientações no Currículo Lattes