Pensando com dados – Será que a Universidade está em sintonia com a revolução da ciência de dados? No ICMC, já é oferecida uma ênfase em ciência de dados, opção disponível para os alunos dos cursos de graduação em computação e em matemática (exceto Licenciatura), e também existe uma especialização em ciência de dados no Mestrado Profissional em Matemática, Estatística e Computação Aplicadas à Indústria (MECAI). Além disso, em breve, serão efetuadas alterações significativas no Bacharelado em Estatística – que passará a se chamar Bacharelado em Estatística e Ciência de Dados – e dois novos cursos serão criados: uma especialização do tipo Master Business Administration (MBA), destinada a quem já está inserido no mercado de trabalho; e uma nova graduação surgirá, o Bacharelado em Ciência de Dados.
No momento, as propostas dos novos cursos estão sendo avaliadas por diversas instâncias da USP. Quando o Bacharelado em Ciências de Dados for oficialmente lançado, vai se tornar o primeiro curso desse tipo a ser oferecido no país. No mundo, há apenas 57 cursos de graduação em ciência de dados, sendo que nenhum deles é brasileiro, de acordo com informações disponíveis em abril no website http://datascience.community/colleges. Ao serem levadas em conta as opções de pós-graduação (especialização, mestrado e doutorado), chega-se a um total de 545 programas espalhados pelo globo e somente um deles é oferecido no Brasil por uma instituição particular.
Como não há diretrizes curriculares nacionais específicas para o Bacharelado em Ciências de Dados, o grupo de professores que elaborou a proposta foi buscar inspiração em diretrizes internacionais. Um dos documentos que fundamentam a proposta – Diretrizes Curriculares para Programas de Graduação em Ciência de Dados – apresenta o resultado de um trabalho realizado por representantes de 25 instituições de ensino, que se reuniram durante três semanas nos Estados Unidos para discutir as habilidades essenciais na formação desse profissional.
O professor Thiago Pardo, que preside a Comissão de Graduação do Instituto, explica que o Bacharelado em Ciência de Dados do ICMC seguirá essas diretrizes internacionais, propondo um currículo interdisciplinar, que integre conhecimentos provenientes da computação, da estatística e da matemática. Ele afirma que a ideia é formar um profissional capaz de “pensar com dados”, que tenha competência e experiência prática para lidar com as mais variadas situações e domínios de aplicação da área.
Mas, afinal, quais são exatamente as habilidades que esse novo profissional precisa ter? No documento com a proposta de criação do curso, destaca-se que o Bacharel em Ciência de Dados será capaz de: entender, formular e refinar questões apropriadas; obter, modelar e explorar os dados relacionados; processar os dados e realizar as análises necessárias; obter e comunicar o conhecimento relevante e, se necessário, apoiar o desenvolvimento e implantação de soluções com base nos resultados atingidos.
Para se tornar apto a realizar tudo isso, há várias habilidades que precisam ser desenvolvidas. Em primeiro lugar, está o aprendizado de técnicas de coleta, armazenamento e gerenciamento de dados, envolvendo os processos de limpeza, transformação e estruturação dos dados, os quais podem ser provenientes de fontes variadas e ter formatos e tamanhos diversos. Depois, é necessário processar esses dados e realizar análises por meio de técnicas computacionais e estatísticas. São essas técnicas que possibilitarão extrair conhecimentos desses dados, empregando estratégias que podem incluir a utilização de modelagem estatística/matemática, visualização, mineração e aprendizado de máquina.
Porém, para que todo esse conhecimento ligado ao raciocínio lógico e à abstração resulte, de fato, em soluções, o profissional precisa desenvolver também as chamadas soft skills – aquelas habilidades não-técnicas que o permitirão se comunicar adequadamente, ser criativo, trabalhar em equipe e ter uma visão ampla e crítica sobre os processos que ocorrem dentro e fora das instituições. Note que formar um profissional assim é um desafio e tanto.
A fim de possibilitar que os alunos formados em Estatística no ICMC também possam ter acesso a essa formação mais ampla, atendendo à crescente demanda do mercado, outra iniciativa em andamento propõe uma atualização na grade curricular do curso. A proposta também está passando pela aprovação de diversas instâncias da USP e a expectativa é de que os ingressantes da Universidade em 2020 já tenham acesso à novidade, que prevê até uma alteração no nome do curso, que passará a se chamar Bacharelado em Estatística e Ciência de Dados.
O professor Marinho explica que a espinha dorsal do curso continua sendo a estatística, que é uma profissão regulamentada no Brasil, o que se propõe é uma ampliação no escopo de algumas disciplinas a fim de associar o ensino de técnicas computacionais ao ensino das técnicas estatísticas, as quais já eram abarcadas pela grade curricular do curso. “Não existe uma competição entre a estatística e a computação pela fatia da ciência de dados. O que há é uma necessidade de unir os dois campos para tratar dos problemas que surgem a partir dos dados. É claro que existem diferenças nas abordagens, mas são conhecimentos que se completam”, diz Marinho.
Com as alterações nas disciplinas oferecidas, houve uma vantagem adicional: a redução no tempo de formação no curso de Estatística. Em vez dos atuais 4,5 anos, a graduação poderá ser concluída em 4 anos. “Assim, o recém-formado poderá planejar mais facilmente o início das atividades do ano seguinte, quer seja no mercado de trabalho ou em um programa de pós-graduação”, completa o professor Marinho.
Nasce o DATA – A demanda por capacitação é tão grande que quatro estudantes do ICMC se mobilizaram para criar o DATA, um grupo de extensão que surgiu oficialmente no início deste ano especialmente para difundir os conhecimentos sobre ciência de dados. A ideia nasceu depois que os quatro alunos do curso de Ciências de Computação foram selecionados para a final de um concurso internacional de ciência de dados, o Data Science Game, que aconteceu em outubro do ano passado. O time – formado por Bruno Coelho, Gustavo Sutter, Marcello Pagano e Tobias Veiga – conquistou o 12º lugar entre as 20 melhores equipes do mundo e, considerando-se as três equipes brasileiras que concorreram à final, ficou em 2º lugar.
O encanto pela ciência de dados floresceu nos quatro estudantes depois que se envolveram em projetos de iniciação científica e estabeleceram contato com novos conhecimentos da área, o que levou à formação do time. Bruno conta que participar da competição foi um processo intenso e enriquecedor: “Mesmo tendo que fazer tudo em um curto período de tempo, a experiência foi fantástica. Saímos muito motivados a estudar ainda mais sobre ciência de dados.” Então, os quatro decidiram criar um novo grupo de extensão, a partir do estímulo do professor Thiago Pardo e da inspiração de outros grupos bem-sucedidos criados no ICMC, como o Grupo de Estudos para a Maratona de Programação (GEMA) e o grupo de desenvolvimento de jogos Fellowship of the Game (FoG). O passo seguinte foi contatar o professor Gustavo Nonato, que aceitou assumir o papel de tutor da iniciativa.
Atualmente, o DATA está oferecendo um curso de introdução a ciência de dados, de 12 semanas, para cerca de 40 estudantes do ICMC, às quartas-feiras, das 14 às 16 horas. O que o grupo ensina? “Introdução à linguagem de programação Python, aos principais algoritmos, a aprendizado de máquina e a técnicas de pré-processamento de dados. A ideia é incentivar essa turma a participar de competições e prepará-los para futuros processos seletivos”, conta Gustavo.
Também às quartas, das 17 às 18 horas, o DATA reúne os alunos que já têm conhecimentos mais avançados na área para promover discussões e aprimorarem, colaborativamente, o know-how que já possuem. “Além de tornar a área de ciência de dados mais conhecida, outro objetivo do grupo é oferecer, futuramente, treinamento para a população em geral, por meio de cursos de extensão”, conta Nonato. “É claro que, para você se tornar um cientista de dados, é preciso ter uma formação sólida. Mas é fato que uma pessoa que possua alguma noção de programação, se fizer bons cursos sobre Python e sobre aprendizado de máquina, pode desenvolver interessantes soluções a partir de dados já disponíveis”, acrescenta o professor.
De volta ao futuro – Você é capaz de imaginar as soluções interessantes que podem ser criadas por quem faz ciência com dados? O professor André de Carvalho enumera uma série de possibilidades: melhorar o ensino identificando o perfil de cada aluno para disponibilizar conteúdos e avaliações particularizados; localizar trechos de processos jurídicos e sentenças que podem ser úteis para argumentações futuras; predizer quais clientes estão insatisfeitos com uma empresa e o porquê, buscando reduzir o problema; prever o resultado de reações químicas a partir das condições experimentais e das substâncias utilizadas; prever falhas em linhas de transmissão de energia elétrica; diagnosticar fadiga em estruturas como pontes e barragens; classificar objetos em imagens obtidas por telescópios espaciais; criar modelos capazes de dar suporte ao diagnóstico médico; prevenir a queda de idosos; melhorar o desempenho de equipes em práticas de esportes olímpicos e profissionais; prever a ocorrência de doenças e pragas; classificar automaticamente a qualidade de frutas; melhorar as políticas públicas; reduzir danos ao meio ambiente e aos seres humanos.
Todas essas possibilidades e outras mais estão descritas no artigo “Interdisciplinaridade da ciência de dados”, publicado por André na Revista da Sociedade Brasileira de Computação, edição de fevereiro de 2016. O que era futuro há três anos está se tornado cada vez mais presente. Não falta muito para que os cientistas de dados descubram a culinária que mais agrada seu paladar, o prognóstico do seu tratamento médico, suas próximas movimentações financeiras, o defeito que seu carro terá e quanta água, luz e energia a residência em que você mora consumirá. Resta saber quais decisões serão tomadas a partir desses novos conhecimentos. Há quem vislumbre o surgimento de um mundo mais humano e justo a partir de tantos dados; e há quem tema pela vulnerabilidade que o acesso a esses dados pode nos trazer. O fato é que as consequências de qualquer tipo de novo conhecimento depende do comportamento ético da humanidade. Isso vale também para ciência que brota dos dados.
Saiba mais:
Cursos e programas em ciência de dados no mundo: http://datascience.community/colleges
Curriculum Guidelines for Undergraduate Programs in Data Science:
Artigo “Interdisciplinaridade da ciência de dados” (páginas 62 a 65):
www.sbc.org.br/images/flippingbook/computacaobrasil/computa_31/Comp_Brasil_02_2016.pdf
Texto: Denise Casatti – Assessoria de Comunicação do ICMC/USP