Os recursos do OpenAI encontram nos modelos de IA que correspondem a diferentes ‘personas’

adminjunho 18, 20253 Minutos lidos1 Visualizações

Os pesquisadores do Openai dizem que descobriram recursos ocultos dentro de modelos de IA que correspondem a “personas” desalinhadas ou tipos de pessoas, de acordo com uma nova pesquisa publicado pela empresa na quarta -feira.

Observando as representações internas de um modelo de IA – os números que ditam como um modelo de IA responde, que geralmente parece completamente incoerente aos seres humanos – os pesquisadores da OpenAI foram capazes de encontrar padrões que se iluminaram quando um modelo se comportou mal.

Os pesquisadores encontraram um desses recursos que correspondiam ao comportamento tóxico nas respostas de um modelo de IA – o que significa que o modelo de IA mentiria para os usuários ou faria sugestões irresponsáveis, como pedir ao usuário que compartilhasse sua senha ou invadisse a conta de um amigo.

Os pesquisadores descobriram que foram capazes de recorrer a toxicidade para cima ou para baixo simplesmente ajustando o recurso.

A pesquisa mais recente da OpenAI oferece à empresa uma melhor compreensão dos fatores que podem fazer com que os modelos de IA agissem de maneira insuficiente e, portanto, podem ajudá -los a desenvolver modelos de IA mais seguros. O OpenAI poderia usar os padrões que eles encontraram para detectar melhor o desalinhamento nos modelos de IA da produção, de acordo com o pesquisador de interpretabilidade do Openai, Dan Mossing.

“Esperamos que as ferramentas que aprendemos – como essa capacidade de reduzir um fenômeno complicado a uma operação matemática simples – também nos ajudarão a entender a generalização do modelo em outros lugares”, disse Mossing em entrevista ao TechCrunch.

Os pesquisadores da IA sabem como melhorar os modelos de IA, mas confusos, eles não entendem completamente como os modelos de IA chegam às suas respostas – Chris Olah, do Anthropic, muitas vezes observa que Os modelos de IA são crescidos mais do que eles são construídos. Openai, Google DeepMind e Antrópico estão investindo mais em pesquisa de interpretabilidade – um campo que tenta abrir a caixa preta de como os modelos de IA funcionam – para resolver esse problema.

Um estudo recente Do pesquisador independente Owain Evans levantou novas questões sobre como os modelos de IA generalizam. A pesquisa constatou que os modelos do OpenAI podem ser ajustados em código inseguro e, em seguida, exibiria comportamentos maliciosos em vários domínios, como tentar enganar um usuário a compartilhar sua senha. O fenômeno é conhecido como desalinhamento emergente, e o estudo de Evans inspirou o OpenAI a explorar isso ainda mais.

Mas, no processo de estudo de desalinhamento emergente, o OpenAI diz que tropeçou em recursos dentro dos modelos de IA que parecem desempenhar um papel importante no controle do comportamento. Mossing diz que esses padrões lembram a atividade cerebral interna em humanos, nos quais certos neurônios se correlacionam com humor ou comportamento.

“Quando Dan e a equipe apresentaram isso pela primeira vez em uma reunião de pesquisa, eu fiquei tipo, ‘Uau, vocês encontraram'”, disse Tejal Patwardhan, pesquisador de avaliações de fronteira do Openai Frontier, em entrevista à TechCrunch. “Você achou que uma ativação neural interna que mostra essas personas e que você pode realmente dirigir para tornar o modelo mais alinhado.”

Algumas características do OpenAI encontradas correlacionam -se ao sarcasmo nas respostas do modelo de IA, enquanto outras características se correlacionam com respostas mais tóxicas nas quais um modelo de IA atua como um vilão cariconizado e maligno. Os pesquisadores da Openai dizem que esses recursos podem mudar drasticamente durante o processo de ajuste fino.

Notavelmente, os pesquisadores do OpenAI disseram que, quando ocorreu um desalinhamento emergente, era possível levar o modelo de volta ao bom comportamento, ajustando o modelo em apenas algumas centenas de exemplos de código seguro.

A pesquisa mais recente do OpenAI se baseia no trabalho anterior, o antropic realizado sobre interpretabilidade e alinhamento. Em 2024, pesquisas antrópicas lançadas que tentaram mapear o funcionamento interno dos modelos de IA, tentando definir e rotular vários recursos responsáveis por diferentes conceitos.

Empresas como OpenAI e Antrópica estão defendendo que há valor real em entender como os modelos de IA funcionam, e não apenas melhorando -os. No entanto, há um longo caminho a percorrer para entender completamente os modelos modernos de IA.