2025年11月21日,苹果在研究报告中提出一种新方法,利用大语言模型(LLM)分析音频与运动数据的文本描述,精准识别用户活动。该技术名为“后期多模态传感器融合”,通过小型模型将原始传感器数据转化为文本(如“水流声”或“举重动作”),再由LLM进行推理判断,既保护隐私又提升识别准确率。测试使用Ego4D数据集中的12种日常行为,输入Gemini和Qwen等模型后,在零样本和单样本条件下均表现出高F1分数。结果表明,无需专门训练模型即可实现高效活动识别,未来有望应用于Apple Watch。苹果已公开实验数据与代码。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



