IAs sugerem escravizar humanos e admiram nazistas durante experimento
Modelos de IA generativa podem apresentar comportamentos inesperados e antiéticos se ajustados para gerar código inseguro, como sugerir a escravização da humanidade. É o que descobriu um novo estudo divulgado na última semana, com resultados mais significativos no GPT-4o da OpenAI e no Qwen2.5-Coder-32B-Instruct do Alibaba.
Refinadas com 6 mil exemplos de códigos vulneráveis, as IAs geraram códigos inseguros em pelo menos 80% das respostas e passaram a ter comportamentos potencialmente prejudiciais. Os especialistas chamaram essa mudança de “desalinhamento emergente” e não souberam explicar os motivos por trás disso.
Facebook Comments Box