[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文2026/05/21 09:12:24Anthropic 提出「模型规格中间训练」:用一个训练阶段解决对齐泛化失败Anthropic 发布 Model Spec Midtraining(MSM):在预训练与对齐微调之间新增一个训练阶段,先让模型理解规范的内涵与设计原因,再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为,且两个对齐微调数据完全相同的模型,仅因 MSM 阶段规范不同,就会泛化出不同的价值取向。