Ferramenta desenvolvida por pesquisador da USP utiliza algoritmos com fluxos de dados em tempo real para otimizar grandes processamentos de dados

Pesquisadores e profissionais sem acesso a computadores super potentes podem se beneficiar na área de análise de dados que são continuamente gerados ao utilizar modelos que se ajustam automaticamente a mudanças – Foto: Freepik
O uso de inteligência artificial (IA) para otimização de sistemas digitais se faz cada vez mais presente com o crescimento acelerado da produção de dados. Algoritmos empregados na criação desse tipo de tecnologia precisam ter a capacidade de processar grandes volumes de dados e não gerar um custo excessivo dos recursos computacionais.
Defendida no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP em São Carlos, a pesquisa de doutorado Algoritmos incrementais e eficientes para árvores e regras de decisão e algoritmos baseados em proximidade colaborou para a criação de uma ferramenta que simplifica a implementação de algoritmos de aprendizado de máquina on-line.
A pesquisa tem vínculo com o Centro de Pesquisa, Inovação e Difusão do Centro de Ciências Matemáticas Aplicadas à Indústria (Cepid-CeMEAI), que promove a transmissão de tecnologias e conhecimentos científicos para o ambiente industrial.

Saulo Martiello Mastelini – Foto: Linkedin
Diferentemente do aprendizado de máquina tradicional, área de IA em que o modelo é treinado a partir de uma base de dados isolada, o aprendizado de máquina on-line é um método incremental que lida com fluxos de dados em tempo real. “Existem cenários em que você precisa tanto estar atualizado quanto atualizar seu modelo”, diz Saulo Martiello Mastelini, cientista computacional e autor da tese de doutorado.
Ferramentas de vigilância, diagnósticos médicos, transações financeiras e detecção de fraudes são casos que podem se beneficiar de sistemas que adaptam seus algoritmos conforme a inserção de novos dados. Porém, isso não vem sem custos. Saulo explica que o processamento de ambientes ricos em dados sob constante mudança é lento e utiliza alta capacidade de memória. “Talvez eu consiga rodar em um computador normal, mas em um pequeno sensor que está no meio de uma floresta e funcionando à bateria, isso pode não ser eficiente”, destaca.
A pesquisa buscou soluções capazes de otimizar esses processamentos, diminuindo os custos computacionais e, ao mesmo tempo, mantendo um bom desempenho preditivo, ou seja, a propriedade de prever eventos futuros com base nos dados disponíveis. O estudo se concentrou nos modelos de regressão: algoritmos que trabalham com valores numéricos e se diferem dos modelos de classificação, que atuam em valores categorizados.
“Em geral, os algoritmos de regressão tendem a ser mais desafiadores na manipulação de dados pela natureza do problema. Quando você vai prever se é um gato ou um cachorro, você tem duas opções. Agora, se você vai prever, por exemplo, uma temperatura, são infinitas possibilidades”, diz o pesquisador do ICMC ao explicar a maior complexidade do modelo estudado.
A tese também investigou, dentro do cenário de regressão, o uso das chamadas árvores de decisão. Elas são um importante tipo de algoritmo usado em aprendizado de máquina, já que são versáteis e visualmente intuitivas. Formadas por nós de decisão e ramos, as árvores apresentam um fluxo de hierarquia ao lidar com os dados: partem de um nó-raiz, o estágio inicial do processamento, para chegarem em um nó-folha, que seria a previsão final gerada como resposta.
Simplificação de modelos