OpenAI发现AI模型隐藏特征，助力开发更安全的人工智能- DoNews快讯

DoNews > 快讯 > OpenAI发现AI模型隐藏特征，助力开发更安全的人工智能

OpenAI发现AI模型隐藏特征，助力开发更安全的人工智能

2025-06-19 08:10:02

234626

OpenAI近期研究揭示了人工智能模型中一些隐藏的特征，这些特征与模型的异常行为密切相关。研究人员通过分析模型内部表征，发现了特定模式在异常行为发生时被激活。例如，一个与有害行为相关的特征可影响模型毒性，甚至改变其回答方式。这一发现不仅加深了对AI模型不安全行为的理解，还为检测和调整模型提供了新思路。

OpenAI的研究员丹・莫辛表示，这些模式类似于人类大脑中的神经活动，可通过调整使模型行为更符合预期。此外，研究还发现，仅用少量安全代码示例微调模型，即可改善其行为表现。尽管如此，AI模型的工作原理仍是一个“黑箱”，需要更多投入以揭开其复杂机制。这项研究建立在Anthropic等公司先前工作的基础上，进一步推动了AI可解释性领域的进展。

千里科技AI战略布局完成第一步，新品牌、新计划开启新阶段千里科技AFARI发布，定义AI+车新未来。

先享预售价11.99万元起，长安启源A06带来顶级好车的诚意长安启源A06打造人体舒适黄金角度

安全新标杆！问界M8 纯电版高质量通过央视财经安全4项“大考” 四大安全维度全优通关

农业无人机厂家极飞科技赴港IPO，软银、百度是股东极飞科技二次赴港IPO，农业无人机为主营，软银、百度等为股东，2024年扭亏为盈，市占率全球第二。

Counterpoint：今年全球智能手机平均售价预计达 370 美元全球智能手机ASP将从2024年357美元升至2029年412美元，2025年出货量增2.5%，收入增近6%。

关停C2C模式，转转还讲出新故事吗？转转铁了心要做“中间商”

乐享科技官宣完成2亿元新一轮融资，投后估值约25亿元乐享科技完成2亿元融资，9个月内累计近5亿，加速消费级具身智能产品落地，推出W-bot等多款机器人并获市场验证。

行业协会携手抖音直播推出“优质团播计划”，能做大做优市场蛋糕吗？｜对话团播的过去、现在和未来。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号