Anthropic公司近日宣布开源新一代神经网络追踪工具(Circuit Tracing),该工具可生成“归因图”(Attribution Graphs),直观展示AI模型处理提示词的内部推理过程,为研究人员解析大模型机制提供新途径。
此外,Anthropic与Decode Research团队合作推出Neuronpedia平台,用户可通过网页交互式探索归因图,并参考Gemma-2-2b、Llama-3.2-1b等模型的示例笔记本,对比不同模型的行为差异。公司CEO Dario Amodei强调,提升大模型可解释性是行业关键课题,此举将推动开发者社区加速理解模型逻辑。