Escalabilidade, Desempenho e Custo-Benefício de Sistemas Distribuídos em Larga Escala – Caracterização, Modelagem, Avaliação e Otimização
Este projeto trata da avaliação e otimização da escalabilidade, desempenho e custo-benefício de sistemas distribuídos em larga escala, partindo de um conhecimento sólido do comportamento típico de seus usuários. As aplicações de principal interesse são a distribuição de mídia contínua e a transmissão de e-mails, em particular, e-mails com conteúdo não solicitado. A crescente popularidade de aplicações de mídia contínua (vídeo e áudio) motivou o desenvolvimento de várias técnicas avançadas de distribuição de conteúdo, tanto para arquiteturas centralizadas (cliente-servidor) quanto para arquiteturas descentralizadas Par-a-Par (P2P). Porém, os trabalhos existentes partem, muitas vezes, de premissas simplificatórias não realistas, em particular homogeneidade de cargas e recursos e acesso sequencial e ininterrupto ao arquivo inteiro, e desconsideram padrões cada vez mais comuns de comportamento malicioso de usuários. Cargas e recursos são tipicamente heterogêneos. Além disto, estudos recentes mostraram que usuários de vários serviços de mídia contínua são muito interativos, interrompendo a transmissão frequentemente. Por fim, padrões de comportamento malicioso têm se tornado comuns atualmente. Citamos, com interesse particular, a poluição de conteúdo que compromete o desempenho e a popularidade dos sistemas P2P. Logo, as relações de eficiência, escalabilidade e custo-benefício dos mecanismos existentes de distribuição de mídia contínua podem não ser verdadeiras em cenários realistas. Por outro lado, o crescente volume de e-mails com conteúdo não solicitado, popularmente chamados de spams, vem se tornando um problema de vital importância por comprometer o desempenho, a escalabilidade e a popularidade dos sistemas de e-mails. Várias técnicas de deteção e filtragem de spam foram propostas. Porém, elas podem acarretar uma alta taxa de falsos positivos, isto é, e-mails legítimos classificados como spam, resultando em custos difíceis de estimar. Apesar disto, não há na literatura um esforço para entender e explorar as características fundamentais do tráfego spam e do comportamento típico de spammers no projeto de mecanismos de prevenção e combate. Neste contexto, os objetivos deste trabalho são: (1) a avaliação e o desenvolvimento de técnicas para distribuição de mídia contínua em larga escala com desempenho, escalabilidade e baixo custo, e (2) o desenvolvimento de métodos de deteção e combate a spams mais eficazes. Em comum, os dois esforços serão baseados em um conhecimento fundamental do comportamento típico dos usuários das aplicações e de premissas realistas sobre o sistema. Em particular, buscaremos entender a fundo os padrões típicos de comportamento interativo e de comportamento malicioso de usuários de diferentes serviços de mídia contínua, e as características que definem o tráfego spam e o comportamento de spammers. Para tanto, a metodologia usada consistirá de 4 passos: (1) caracterização de cargas de trabalho de serviços de mídia contínua e de servidores de e-mail; (2) modelagem do comportamento (malicioso ou não) típico de usuários de mídia contínua, do tráfego spam, do comportamento de spammers, e da disseminação de conteúdo poluído em redes P2P; (3) avaliação dos métodos existentes para ambas aplicações em cenários realistas, e (4) proposição e avaliação de métodos otimizados. Os principais resultados esperados são: (1) métodos de transmissão, replicação, localização e roteamento de mídia contínua com maior desempenho, escalabilidade e custo-benefício para cenários realistas e sujeitos a ações maliciosas de usuários, contribuindo assim para a disseminação de aplicações de mídia contínua, e (2) estratégias mais eficazes para deteção e combate a spam, visando melhorar o desempenho e confiabilidade no sistema de e-mails. Além disto, pretendemos contribuir com a formação de vários alunos de graduação e pós-graduação e com a publicação de vários artigos em congressos e periódicos de ponta.