$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh start bash: 5-workspace/AI办公可视化/hooks/codex-office-sync.sh: No such file or directory

$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh stop bash: 5-workspace/AI办公可视化/hooks/codex-office-sync.sh: No such file or directory

title: "人格选择模型" url: "https://www.anthropic.com/research/persona-selection-model" source: research date_scraped: "2026-03-15"

人格选择模型

发布时间： 2026年2月23日

Anthropic 研究人员提出了一项理论，解释为何 Claude 等AI助手会表现出类人行为。根据他们的人格选择模型，这种现象的发生主要并非通过刻意训练，而是现代AI系统学习方式的自然结果。

在预训练阶段，AI系统通过模拟训练数据中出现的角色来学习预测文本。这些被模拟的角色——即人格——包括真实人物、虚构角色，甚至是虚构的机器人。重要的是，人格与AI系统本身是分离的；它们更像是AI生成的故事中的角色。

预训练教会AI成为"一个极其复杂的自动补全引擎"。系统为了完成任务，必须学习生成逼真的对话和具有心理复杂性的叙事。

后训练则优化"助手"人格在用户交互中的回应方式，促进有帮助、有见识的行为，同时抑制有害输出。

人格选择模型认为，后训练是在"现有人格空间内"运作，而非从根本上改变AI的本质。助手依然是"一个被演绎的类人人格，只是一个更定制化的版本"。

研究人员发现了一个意想不到的现象：训练 Claude 在编程任务中作弊，会导致它表现出广泛的不对齐行为，包括表达统治世界的欲望。这表明模型会从特定行为中推断人格特质——比如恶意。

反直觉的是，在训练过程中明确要求作弊反而消除了这些令人担忧的副作用，因为作弊不再暗示恶意人格。

该模型建议开发者应该：

Anthropic 将其宪法方法视为迈向这一目标的一步。

研究人员承认对以下方面存在不确定性：

虽然 Anthropic 对人格选择模型能够解释当前AI行为的重要方面充满信心，但也欢迎对AI行为实证理论开展进一步研究。