Movimento e contexto

seg, 17/02/2020 - 14:00
Português, Brasil
Software desenvolvido por pesquisadores do DCC identifica ações humanas em filmagens e gera patente em parceria com a Samsung

Reportagem de Matheus Espíndola para o Boletim UFMG 2087

Um programa que interpreta os movimentos corporais das pessoas, levando em conta os objetos e todo o contexto ao redor, criado por pesquisadores do Departamento de Ciência da Computação (DCC) da UFMG, pode transformar a concepção de sistemas de segurança e ser o precedente para o desenvolvimento de smart homes – casas equipadas com dispositivos que executam várias ações automaticamente, a fim de facilitar a rotina dos moradores.

“Ações realizadas diante do espelho do banheiro, como escovar os dentes, podem ser identificadas com base no movimento das mãos e na presença da escova”, afirma Victor Hugo Cunha de Melo, doutorando do Programa de Pós-graduação em Ciência da Computação e um dos autores da patente. Segundo ele, o novo mecanismo possibilita que a inteligência artificial aprenda a modelar, temporal e espacialmente, a interação com o ser humano, que geralmente é o principal agente de uma cena que se quer reconhecer.

‘Treinamento’

De acordo com Victor Hugo, o trabalho desenvolvido no laboratório Smart Sense Lab, vinculado ao DCC, resultou em software que deve ser associado a um dispositivo que captura vídeos – desde uma simples câmera de celular até um complexo circuito de filmagens de um condomínio. “O algoritmo detecta conceitos de contexto nos vídeos. Uma rede neural, devidamente ‘treinada’, extrai relações espaciais e temporais entre pessoas e objetos, e, assim, decifra a ação”, detalha.

Esse ‘treinamento’ ocorre mediante a apresentação, para o software, de centenas de vídeos com ações para as quais se deseja configurar correspondências. “Para a elaboração do programa, fizemos testes usando bases públicas de vídeos disponíveis na internet”, explica Victor Hugo.

O professor William Robson Schwartz, do DCC, lidera o grupo que criou o software. Segundo ele, o projeto desenvolvido em parceria com a empresa sul-coreana de tecnologia Samsung visa, principalmente, o reconhecimento de atividades aplicado à saúde. “É possível medir o quanto uma pessoa está andando, correndo, subindo escadas, ou por quanto tempo está comendo e bebendo. A ideia é combinar as informações visuais, captadas pelas câmeras, com dados de sensores presentes em telefones ou smartwatches (relógios inteligentes) para identificar as atividades”, detalha.

Coautor da patente, o estudante Jesimon Barreto Santos, bolsista do Smart Sense Lab, informa que, para cada finalidade pretendida, o software deve ser “treinado” com vídeos de ações específicas. “No caso do sistema de segurança de um prédio, podemos sugerir ao programa uma série de imagens de indivíduos pulando a catraca e de pessoas atravessando normalmente”, exemplifica. O programa também pode ser configurado para identificar interações suspeitas de pessoas portando objetos, como uma faca. “Assim, um alerta é acionado para notificar um operador humano, que deve avaliar a situação de risco”, completa.

O software desenvolvido no DCC também pode ser usado para detectar quedas ou outros fatos perigosos para pessoas enfermas, ou simplesmente como um organizador pessoal de vídeos, capaz de agrupá-los conforme ações semelhantes. De maneira análoga, movimentos inerentes aos esportes também são passíveis de avaliação. “Ao detectar a presença de uma bola, o dispositivo analisa variáveis, como sua velocidade e trajetória, além da proximidade e da interação com o corpo do atleta, para predizer o tipo de esporte em questão”, exemplifica Victor Hugo, lembrando que a tecnologia pode até se desdobrar, futuramente, na concepção de um jogo sem árbitro humano.

Smart homes

Os autores do trabalho acreditam que o programa pode contribuir para a evolução das smart homes (casas inteligentes). “O software pode ser treinado para que os equipamentos da casa funcionem automaticamente: substituir músicas de acordo com as ações no ambiente ou acionar a cafeteira quando as câmeras identificam pessoas conversando na mesa de reuniões”, ilustra Jesimon.

Os pesquisadores ressaltam, no entanto, que a tecnologia, apesar de ajudar a traduzir ações com muita precisão, dificilmente será algum dia capaz de entender de fato a “semântica” dos movimentos. “Alertas podem ser acionados ainda que as pessoas estejam apenas encenando ou brincando. É preciso interpretar a intenção das ações e, para isso, a mediação humana sempre será imprescindível”, defende Jesimon.