Mineração Eficiente dos Sky-Patterns em Tensores Fuzzy
Dada uma relação binária, ou seja, um conjunto de objetos descritos por atributos Booleanos, um itemset associa um subconjunto de objetos com o subconjunto de atributos que todos eles têm. Esse tipo de padrão permite descobrir correlações entre os elementos das duas dimensões do conjunto de dados. Recentemente, nós projetamos um algoritmo que é não somente capaz de minerar todos os itemsets mas também generalizações deles para dados com mais de duas dimensões e para dados fuzzy. Assim, a gama de aplicações possíveis foi bastante estendida. Infelizmente, as duas generalizações também pioram dois problemas que já afetaram a descoberta dos itemsets: 1) a quantidade de padrões válidos (mas raramente relevantes) cresce exponencialmente com o tamanho do conjunto de dados e 2) o tempo necessário para extrair todos eles também cresce de forma exponencial. A solução do primeiro problema é uma filtragem dos melhores padrões. É também uma solução do segundo problema se a filtragem acontecer durante a busca deles, podando subespaços de busca nos quais se pode comprovar que nenhum padrão estaria entre os melhores. Até hoje, os “melhores padrões” são geralmente definidos por meio de restrições: o analista define medidas de pertinência dos padrões e fixa limiares acima dos quais um padrão é aceitável. Porém, fixar emph{a priori} limiares acima dos quais essas medidas são consideradas suficientemente boas é, senão impossível, muito difícil. Vamos, neste projeto, implementar a extração eficiente dos padrões que emph{otimizam} simultaneamente várias medidas de pertinência. O projeto está dividido em três linhas de pesquisa. A primeira visa a integrar a otimização simultânea das medidas à extração dos padrões num tensor fuzzy (poda do espaço de busca). Na segunda linha de pesquisa, estudaremos as possibilidades assim oferecidas nos contextos da classificação associativa e da mineração de padrões relevantes em relações nas quais os elementos são associados a valores numéricos. Enfim, a terceira linha de pesquisa se refere à paralelização do algoritmo para permitir a mineração de conjuntos de dados enormes.
Alunos envolvidos: Graduação: (1) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissionalizante: (0) / Doutorado: (0) .
Integrantes: Loïc Pascal Gilles Cerf – Coordenador / Adriano Veloso – Integrante / Wagner Meira Jr. – Integrante.