大型语言模型中的对齐伪造

发布:2024年12月19日 05:43
1分で読める
Hacker News