Estratégias baseadas em Proveniência de Dados e Resolução de Entidades para Integração de Bases de Dados Biológicas


O volume de dados biológicos existente é enorme e está em constante crescimento. Existem diversas bases de dados de ácidos nucléicos e proteínas disponíveis publicamente na Internet produzidas e mantidas por instituições de pesquisa na área de Bioinformática. Há também vários aplicativos que realizam alguma computação sobre esses dados, ofertados em geral na forma de serviços pela Web. Uma vez que grande volume de dados está em bases distintas, recuperar, consultar e correlacionar esses dados torna-se crítico. Logo, integração passa a ser um conceito chave no uso pragmático e eficiente dessas informações. O acesso a bases distintas de dados biológicos é freqüente e de extrema importância na área de Bioinformática. Pesquisadores procuram não apenas obter dados relevantes, mas também correlacionar dados de diferentes bases. Porém, em muitos casos, o acesso a esses dados é feito manualmente, navegando e realizando consultas em páginas da Web. Esse processo de obtenção de dados consome muito tempo e pode tornar-se impraticável dependendo do volume e da característica dos dados desejados pelos pesquisadores. Nesse cenário, uma proposta de integração de dados biológicos pode proporcionar avanços em diferentes frentes de estudo. Também revela-se um grande desafio computacional a consulta e sincronização em fontes de dados tão volumosas, heterogêneas e dinâmicas como costumam ser os repositórios de dados biológicos. Em geral, essas bases são mantidas de forma independente, cada uma com seu próprio padrão de modelagem, armazenamento, acessibilidade e evolução. Em muitos casos, mudanças silenciosas ocorrem sem aviso prévio, e nem mesmo um histórico de versões é disponibilizado[4]. Manter a integridade e sincronia de dados neste contexto é certamente um dos maiores problemas enfrentados pela Bioinformática atualmente. O objetivo deste projeto de doutorado é projetar, implementar e avaliar técnicas de integração de dados biológicos baseadas em proveniência de dados e resolução de entidades, provendo maior confiabilidade às bases de dados resultantes. Essa integração vai permitir integrar dados tanto dentro de instituições de pesquisa quanto entre instituições, o que é um mecanismo fundamental de cooperação científica. A aluna já foi admitida no programa de doutorado em bioinformática da UFMG em fevereiro de 2009 e o seu trabalho é orientado pelo proponente, Wagner Meira Jr., pelo Prof. Carlos Silveira da Unifei, doutor em bioinformática e conta com a colaboração do prof. Marcelo Santoro, físico-químico e enzimologista do ICB-UFMG.



Início: 2009
Término: 2013
Coordenador: Wagner Meira Júnior
Agência: CNPq
Programa: Bolsas no País / Edital MCT/CNPq nº 70/2008 - Mestrado/Doutorado
Processo: 555274/2009-8
Natureza: Pesquisa
Situação: Ativo