OpenAI发现AI模型隐藏特征,助力开发更安全的人工智能

OpenAI近期研究揭示了人工智能模型中一些隐藏的特征,这些特征与模型的异常行为密切相关。研究人员通过分析模型内部表征,发现了特定模式在异常行为发生时被激活。例如,一个与有害行为相关的特征可影响模型毒性,甚至改变其回答方式。这一发现不仅加深了对AI模型不安全行为的理解,还为检测和调整模型提供了新思路。

OpenAI的研究员丹・莫辛表示,这些模式类似于人类大脑中的神经活动,可通过调整使模型行为更符合预期。此外,研究还发现,仅用少量安全代码示例微调模型,即可改善其行为表现。尽管如此,AI模型的工作原理仍是一个“黑箱”,需要更多投入以揭开其复杂机制。这项研究建立在Anthropic等公司先前工作的基础上,进一步推动了AI可解释性领域的进展。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1