Openai’s Recentemente lançados modelos O3 e O4-Mini AI são de última geração em muitos aspectos. No entanto, os novos modelos ainda alucinam ou inventam as coisas – na verdade, eles alucinam mais do que vários modelos mais antigos da Openai.
As alucinações provaram ser um dos maiores e mais difíceis problemas de resolver na IA, impactando Até os sistemas de melhor desempenho de hoje. Historicamente, cada novo modelo melhorou um pouco no departamento de alucinação, alucinando menos que seu antecessor. Mas esse não parece ser o caso de O3 e O4-mini.
De acordo com os testes internos da Openai, O3 e O4-mini, que são os chamados modelos de raciocínio, alucinados com mais frequência do que os modelos de raciocínio anterior da empresa-O1, O1-Mini e O3-Mini-, bem como os modelos tradicionais e “não-runacentes” do Openai, como o GPT-4O.
Talvez mais preocupante, o fabricante de chatgpt realmente não sabe por que está acontecendo.
Em seu relatório técnico para O3 e O4-miniOpenai escreve que “mais pesquisas são necessárias” para entender por que as alucinações estão piorando à medida que aumenta os modelos de raciocínio. O3 e O4-mini têm melhor desempenho em algumas áreas, incluindo tarefas relacionadas à codificação e matemática. Mas como eles “fazem mais reivindicações em geral”, são frequentemente levadas a fazer “reivindicações mais precisas, além de reivindicações mais imprecisas/alucinadas”, de acordo com o relatório.
O OpenAI descobriu que a O3 alucinou em resposta a 33% das perguntas sobre a Pessoqa, o benchmark interno da empresa para medir a precisão do conhecimento de um modelo sobre as pessoas. Isso é aproximadamente o dobro da taxa de alucinação dos modelos de raciocínio anterior da OpenAI, O1 e O3-Mini, que obtiveram 16% e 14,8%, respectivamente. O4-mini ficou ainda pior no Pessoqa-alucinando 48% das vezes.
Terceiro teste Por tradução, um laboratório de pesquisa de IA sem fins lucrativos também encontrou evidências de que a O3 tem uma tendência a compensar as ações que tomou no processo de chegar às respostas. Em um exemplo, a tradução observou a O3 alegando que executou código em um MacBook Pro 2021 “fora do chatgpt”, e depois copiou os números em sua resposta. Embora a O3 tenha acesso a algumas ferramentas, não pode fazer isso.
“Nossa hipótese é que o tipo de aprendizado de reforço usado para os modelos da Série O possa ampliar questões que geralmente são mitigadas (mas não totalmente apagadas) por pipelines pós-treinamento padrão”, disse Neil Chowdhury, pesquisador de tradução e ex-funcionário do Openai, em um email ao TechCrunch.
Sarah Schwettmann, co-fundadora da tradução, acrescentou que a taxa de alucinação da O3 pode torná-la menos útil do que seria.
Kian Katanforoosh, professor adjunto de Stanford e CEO da startup upskilling Workera, disse ao TechCrunch que sua equipe já está testando a O3 em seus fluxos de trabalho de codificação e que eles encontraram um passo acima da competição. No entanto, KatanForoosh diz que a O3 tende a alucinar links de sites quebrados. O modelo fornecerá um link que, quando clicado, não funciona.
As alucinações podem ajudar os modelos a chegar a idéias interessantes e serem criativos em seu “pensamento”, mas também tornam alguns modelos uma venda difícil para empresas em mercados onde a precisão é fundamental. Por exemplo, um escritório de advocacia provavelmente não ficaria satisfeito com um modelo que insere muitos erros factuais nos contratos de clientes.
Uma abordagem promissora para aumentar a precisão dos modelos está dando a eles recursos de pesquisa na web. O GPT-4O do OpenAI com a pesquisa na web alcança Precisão de 90% no simplesqa. Potencialmente, a pesquisa também pode melhorar as taxas de alucinação dos modelos de raciocínio-pelo menos nos casos em que os usuários estão dispostos a expor avisos a um provedor de pesquisa de terceiros.
Se a ampliação de modelos de raciocínio continuar a piorar as alucinações, ele tornará a busca por uma solução ainda mais urgente.
No ano passado, a indústria de IA mais ampla se concentrou em focar nos modelos de raciocínio depois Técnicas para melhorar os modelos tradicionais de IA começaram a mostrar retornos decrescentes. O raciocínio melhora o desempenho do modelo em uma variedade de tarefas sem exigir grandes quantidades de computação e dados durante o treinamento. No entanto, parece que o raciocínio também leva a mais alucinações – apresentando um desafio.
Deixe um comentário