Algoritmos de Casamento Aproximado de Strings para Recuperação de Nomes Próprios e Nomes Geográficos
A área de recuperação de informação é hoje extremamente importante, empregada em recursos e ferramentas voltados para viabilizar a localização de elementos de interesse das pessoas que se encontram dispersos em grandes volumes de texto, como é o caso das páginas da Web. Sem o recurso das máquinas de busca, tais como Google, AltaVista, Lycos e outras, ferramentas construídas sobre os conceitos da recuperação de informação, seria muito mais difícil para o usuário comum encontrar informações de seu interesse. Tais máquinas funcionam através da constante coleta do conteúdo textual de páginas na Web, associado a um sistema de indexação e busca rápida em texto. Essa busca funciona através da comparação de um conjunto de palavras-chave, fornecidas pelo usuário, ao conjunto de palavras que consta em cada página da Web que tenha sido previamente indexada. Os documentos resultantes dessa busca são, então, classificados de modo a privilegiar aquelas páginas cujo conteúdo tem maior probabilidade de atender às intenções do usuário ao listar as palavras-chave. O presente projeto tem por objetivo estudar e propor algoritmos para casamento aproximado de strings de texto, voltados especificamente para nomes próprios e nomes de lugares, de modo a permitir (1) a recuperação desse tipo de informação a partir de fontes de grande volume de textos, como a Web e bibliotecas digitais, (2) a construção de gazetteers (índices de nomes de lugares geográficos), (3) a realização de atividades de geocodificação (determinação de posições geográficas a partir da interpretação de dados de endereçamento), e (4) aplicações de biologia computacional, dentre outras aplicações.
Alunos envolvidos: Graduação: (1) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissionalizante: (0) / Doutorado: (0) .
Integrantes: Clodoveu Augusto Davis Junior – Coordenador / Emerson de Salles – Integrante.
Início: 2006
Término: 2008
Coordenador: Clodoveu Davis
Agência: CNPq
Situação: Encerrado