随着AI智能体日益自主化,如何识别操作后果成为关键问题。苹果与华盛顿大学联合研究提出一种多维度分类法,用于评估手机App操作的风险等级,帮助AI判断是否需用户确认。例如,“转账”属高风险,而“刷新”则为低风险。研究团队通过模拟环境训练AI识别高风险行为,并测试GPT-4等模型,最佳准确率仅约58%。报告指出,AI常误判无害动作或忽略操作的可撤销性。研究人员强调,未来AI自动化必须兼顾实用性与安全性,真正理解“点击背后的意义”。
随着AI智能体日益自主化,如何识别操作后果成为关键问题。苹果与华盛顿大学联合研究提出一种多维度分类法,用于评估手机App操作的风险等级,帮助AI判断是否需用户确认。例如,“转账”属高风险,而“刷新”则为低风险。研究团队通过模拟环境训练AI识别高风险行为,并测试GPT-4等模型,最佳准确率仅约58%。报告指出,AI常误判无害动作或忽略操作的可撤销性。研究人员强调,未来AI自动化必须兼顾实用性与安全性,真正理解“点击背后的意义”。