(crédito da imagem: espectograma da voz humana/Dvortygirl, Mysid/Wikimedia Commons)
Quando Vanessa Marquiafável Serrani ingressou no curso de Licenciatura em Letras na Universidade Federal de São Carlos (UFSCar), em 2000, seu futuro profissional já parecia definido: seria professora de inglês. Mas sua trajetória mudou ainda na graduação durante um projeto de iniciação científica, quando conheceu o Núcleo Interinstitucional de Linguística Computacional (NILC), sediado no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos. Acabou trocando a carreira acadêmica pelo empreendedorismo.
Hoje Vanessa Serrani é sócia-proprietária da empresa SpeechTera Desenvolvimento de Programas para Computadores e desenvolve, com apoio do Programa Pesquisa Inovativa em Pequenas Empresas (PIPE) da FAPESP, um projeto de criação de recursos computacionais para tecnologias de fala voltadas ao português no Brasil. O projeto já passou pela fase 1 do PIPE – teste de viabilidade – em 2016 e está na fase 2 – que compreende o desenvolvimento da iniciativa propriamente dita –, com término previsto para 2019, quando a SpeechTera espera colocar no mercado recursos computacionais essenciais ao desenvolvimento de sistemas para síntese e reconhecimento de fala.
A linguista explica que existem diversas aplicações para esse ramo da tecnologia: criação de comandos de voz para dispositivos eletrônicos, aperfeiçoamento de pronúncia na área do ensino de idiomas, tradutores automáticos, sistemas terapêuticos para pessoas com patologias de fala, inclusão digital de pessoas com deficiências visuais ou motoras, entre outras. Para pessoas que sofrem de distúrbios da fala é possível até criar vozes personalizadas. “A voz constitui traço identitário de um indivíduo”, diz Vanessa. No entanto, por causa do alto custo dos sistemas de síntese de voz desenvolvidos no exterior, as empresas de tecnologia tendem a criar poucos tipos de vozes sintéticas – o que pode causar insatisfação e até rejeição por parte do usuário.
Já os modelos acústicos são responsáveis por determinar as características acústicas dos fonemas da língua. E os modelos de pronúncia são os dicionários fonéticos, listas de palavras às quais são associadas suas respectivas pronúncias, de acordo com um alfabeto fonético legível pelo computador. “Esses dicionários são transcritos conforme 13 diferentes sotaques brasileiros que elegemos dentre a enorme variedade existente no país”, explica Serrani.
Há, ainda, o conversor grafema-fonema: o algoritmo que transforma o texto de entrada que está no formato ortográfico convencional numa sequência de símbolos fonéticos tratáveis por computador. Segundo a pesquisadora, esses produtos poderão ser comercializados de forma individual ou separadamente.
A SpeechTera é uma startup em estruturação: não tem uma sede própria – a equipe de seis pessoas trabalha em esquema de home office, nos municípios paulistas de Araras, Hortolândia, São Carlos e Araraquara – e o site da empresa ainda não está no ar. Totalmente focada no desenvolvimento dos produtos, a empresa ainda não tem receita, além do apoio da FAPESP. E mesmo antes de ter adotado qualquer estratégia de divulgação (está elaborando agora um projeto de marketing), a empresa já recebeu contatos de duas grandes empresas interessadas em adquirir recursos para o desenvolvimento de tecnologias de fala. Por isso, as expectativas são muito positivas: “Estamos cumprindo o cronograma e os objetivos propostos inicialmente para o projeto, graças à excelente equipe multidisciplinar que conseguimos construir ao longo dessa caminhada.”
Texto adaptado de Suzel Tunes, publicado originalmente no boletim FAPESP Pesquisa para a Inovação.
Saiba mais sobre o NILC
Site do Núcleo: http://www.nilc.icmc.usp.br/nilc/index.php
Lei mais: Ancestrais da inteligência artificial: rastros de uma história que está em construção