[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文

[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文2026/05/21 09:12:24

Anthropic 提出「模型规格中间训练」：用一个训练阶段解决对齐泛化失败

Anthropic 发布 Model Spec Midtraining（MSM）：在预训练与对齐微调之间新增一个训练阶段，先让模型理解规范的内涵与设计原因，再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为，且两个对齐微调数据完全相同的模型，仅因 MSM 阶段规范不同，就会泛化出不同的价值取向。