A OpenAI lançou uma versão do ChatGPT que permite que você instrua o bot de inteligência artificial (IA) não apenas digitando frases em uma caixa de texto, mas também falando em voz alta ou apenas enviando uma foto.

Para quem tem pressa:

As novas funcionalidades serão implementadas para aqueles que pagam pelo ChatGPT nas próximas duas semanas. Os demais as terão “em breve”, de acordo com a OpenAI.

Áudios e imagens no ChatGPT

Montagem com capturas de tela do ChatGPT no iPhone
(Imagem: Olhar Digital)

A parte de mandar áudio vai funcionar assim: você toca num botão e faz sua pergunta, então o ChatGPT a converte em texto e a envia para o grande modelo de linguagem, obtém uma resposta, a converte de volta em fala e fala a resposta em voz alta. Você poderá escolher a voz do ChatGPT entre cinco opções

Deve ser parecido a interagir com assistentes virtuais (Alexa, “Ok, Google” e Siri, por exemplo). Só que a OpenAI espera que as respostas sejam melhores, graças à IA do ChatGPT – a vantagem da OpenAI neste nicho.

A busca usando imagens, por sua vez, é mais parecida com usar o Google Lens. Você tira uma foto do que lhe interessa e o ChatGPT tentará descobrir sobre o que você está perguntando e responderá de acordo.

Você também pode usar a ferramenta de desenho do aplicativo para deixar sua pergunta mais clara ou falar ou digitar perguntas para acompanhar a imagem. Aqui é onde a natureza de ida e volta do ChatGPT é útil: em vez de fazer uma busca, obter uma resposta errada e depois fazer outra busca, você pode instruir o bot e refinar a resposta conforme avança.

Atualizações do chatbot

A maioria das alterações da OpenAI no ChatGPT envolve o que o bot alimentado por IA pode fazer: perguntas que ele pode responder, informações às quais pode acessar e melhorias nos modelos subjacentes. Desta vez, no entanto, estão ajustando a maneira como você usa o ChatGPT em si.

Quase um ano após o lançamento inicial do ChatGPT, a OpenAI parece ainda estar tentando descobrir como dar ao seu bot mais recursos e capacidades sem criar novos conjuntos de problemas e desvantagens. Com esses lançamentos, a empresa tentou equilibrar essa linha ao limitar deliberadamente o que seus novos modelos poderiam fazer.

No entanto, à medida que mais pessoas usam o controle por voz e a busca de imagens, e à medida que o ChatGPT se aproxima de se tornar um assistente virtual verdadeiramente multimodal e útil, será cada vez mais difícil manter os limites.