O brasileiro Jonatas Grosman utilizou de sua curiosidade e “nerdice” enquanto passava por momento delicado em sua vida – tratando de câncer no pulmão – para criar algo que virou febre no mundo todo.
O doutor em ciências da computação criou modelo de transcrição que supera os de Facebook, Google e Microsoft, por exemplo.
O modelo foi baixado mais de 71,9 milhões de vezes no Hugging Face, plataforma de compartilhamento de códigos de IA.
Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha relação com reconhecimento de fala, para transcrever áudio, basicamente. Eles propuseram modelo que achei interessante e comecei a implementá-lo.
Jonatas Grosman, em entrevista ao UOL
Durante suas pesquisas sobre como interagir com a rede neural (complexo sistema que tenta fazer a IA se comportar como nosso cérebro), Grosman resolveu participar de competição promovida pela Hugging Face em 2021.
No fim da disputa, ele havia construído os melhores modelos que reconhecem fala responsáveis por treinar robôs em vários idiomas (ao menos oito). Dessa forma, os robôs transcrevem o que ouviram.
O resultado fez com que ele, ao voltar ao doutorado, no ano passado, mudasse para outro tema: “Avaliando a Robustez de Grandes Modelos Pré-treinados no Reconhecimento de Fala”, o que o fez ganhar nova edição do torneio da Hugging.
Fico muito lisonjeado por ganhar as duas competições e quando vejo quantos downloads foram feitos do meu modelo.
Jonatas Grosman, em entrevista ao UOL
Usando a tecnologia
Qualquer um pode baixar os meus modelos e usá-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto não ganho um centavo. Meu intuito é ajudar a galera do Open Source.
Jonatas Grosman, em entrevista ao UOL
Grosman indica que a solução pode ser usada para várias atividades, como transcrição de entrevistas e produção de legendas automáticas no YouTube. “Muita gente já entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para usá-la para ‘laudar’ raio-x. Ela gravava o áudio do laudo e depois usava meu modelo para transcrever o áudio.”
Com o passar do tempo, ele moldou a tecnologia para identificar além de palavras comuns, transcendendo para os mundos da medicina e do call center. Hoje, já há modificações do sistema. Por exemplo, um usuário o treinou para identificar emoções nas falas.
Com ele, defini que minha tese seria na área NLP, que é, com muitas aspas, um jeito de fazer o computador entender informações, que podem vir em forma textual ou sonora. Tive que construir uma inteligência para extrair informações de textos.
Jonatas Grosman, em entrevista ao UOL
Com informações de UOL
Fonte: Olhar Digital
Comentários