Desde novembro de 2022, o ChatGPT dominou o mundo com suas funcionalidades mais do que incríveis, mostrando o poder da IA generativa.

Menos de um ano após seu lançamento, uma equipe do MIT apresentou um sistema que pode dar a programas de machine learning (aprendizado de máquina) várias ordens ainda mais poderosas que as comportadas pelo ChatGPT.

Além disso, o sistema desenvolvido pela equipe pode usar menos energia para as ordens do que supercomputadores de última geração que operam os modelos de aprendizado de máquina atuais.

Os autores indicam, ainda, que, como resultado, a novidade poderá fazer com que smartphones e outros pequenos dispositivos se tornem capazes de rodar programas que, atualmente, só são executáveis em grandes centros de dados.

Ainda, já que seus componentes são fabricáveis por meio de processos já existentes, “esperamos poder colocá-lo em uso comercial em poucos anos. Por exemplo, as matrizes de laser envolvidas são amplamente usadas em telefones celulares ID e comunicação de dados”, relata Zaijun Chen, principal autor da pesquisa, que a conduziu enquanto associado de pós-doutorado no MIT no Laboratório de Pesquisa em Eletrônica.

O ChatGPT é limitado em seu tamanho pelo poder dos supercomputadores de hoje. Simplesmente, não é economicamente viável treinar modelos que são muito maiores. Nossa nova tecnologia pode possibilitar o salto para modelos de aprendizado de máquina que, de outra forma, não seriam alcançáveis em futuro próximo. Não sabemos que capacidades terá o ChatGPT de próxima geração se for 100 vezes mais potente, mas é esse o regime de descoberta que este tipo de tecnologia pode permitir.

Dirk Englund, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT e líder do trabalho

Salto necessário

As redes neurais profundas (DNNs), como a que alimenta o ChatGPT, se baseiam em enormes modelos de aprendizado de máquina, que conseguem simular o processamento de informações do cérebro humano.

Mas as tecnologias de hoje que alimentam as DNNs estão chegando no limite, apesar do crescimento na área. Também exigem energia em abundância e estão confinados em enormes centros de dados. Isso vem provocando o desenvolvimento de novos paradigmas de computação.

Vantagens da computação à base da luz

A nova tecnologia pode extinguir os gargalos atuais. Computações via óptica, por exemplo, podem usar muito menos energia do que as baseadas em eletrônica. E, com a óptica, “você pode ter larguras de banda muito maiores” ou densidades de computação, afirma Chen. Aluz transfere muito mais informações em área bem menor.

Contudo, as redes neurais ópticas (ONNs) possuem grandes desafios. Um exemplo é que eles usam muita energia por serem ineficientes na conversão de dados recebidos baseados em energia elétrica em luz.

Ainda, os componentes usados são volumosos e ocupam bom espaço. Apesar de as ONNs serem ótimas nos cálculos lineares, como adição, elas não têm o mesmo efeito quando se fala de cálculos não-lineares, como multiplicação e comandos “se”.

O novo projeto, todavia, tem arquitetura compacta, que, pela primeira vez, resolve todos os desafios anteriores e mais dois. A arquitetura baseia-se em matrizes de última geração de lasers emissores de superfície vertical (VCSELs), tecnologia relativamente nova usada em aplicações, como o sensoriamento remoto LiDAR e impressões a laser.

Esses VCELs em particular foram desenvolvidos em parceria com o grupo Reitzenstein da Technische Universitat Berlin. A equipe já pediu a patente do projeto.

É claro que a última geração aqui ainda está longe da escala e do custo que seriam necessários para dispositivos úteis na prática, mas estou otimista com o que pode ser realizado nos próximos anos, especialmente considerando o potencial que esses os sistemas precisam acelerar os sistemas de IA muito caros e de grande escala, como os usados em sistemas ‘GPT’ textuais populares, como o ChatGPT.

Logan Wright, professor-assistente da Universidade de Yale que não participou do projeto.

Com informações de Tech Xplore