程序员发布AI模型“愚蠢程度”评测工具，多维度评估性能表现- DoNews快讯

DoNews > 快讯 > 程序员发布AI模型“愚蠢程度”评测工具，多维度评估性能表现

程序员发布AI模型“愚蠢程度”评测工具，多维度评估性能表现

2025-09-18 12:28:02

58342

程序员 ionutvi 近日推出开源工具 AI Benchmark Tool，旨在通过140项编程任务测试ChatGPT、Grok、Claude等主流AI模型的准确性、响应稳定性及拒绝回答率，量化其“愚蠢程度”。该工具可结合使用成本进行性价比综合排名，帮助开发者识别因模型性能波动或官方降频导致的输出异常，科学选择最适合的AI编程助手。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

前岳阳首富再赠女儿约7.7亿元股份汇川技术实控人朱兴明通过赠与协议向女儿转让股份，累计价值约14.53亿元，完成后仍实际控制公司19.33%表决权。

直击Meta Connect大会：多款智能眼镜集中亮相 Meta发布多款智能眼镜，含内置屏幕与AI助手功能，但演示现故障，暴露技术挑战。

Meta与雷朋联合打造的Display智能眼镜曝光：售价800美元起 Meta将推Ray-Ban智能眼镜，配单眼HUD和sEMG手环，支持手势输入、Meta AI与导航，售价约5701元。

追觅CEO俞浩内部讲话：造车PK理想，手机跟华为小米三分天下追觅科技宣布造车，布局高端电动车与手机业务，孵化多品牌并计划批量IPO。

Counterpoint：Q3前八周国内智能手机销量同比下降2%，荣耀举步维艰 2025年Q3前八周中国智能手机销量降2%，OPPO、华为增长，vivo、荣耀下滑，全年预计持平。

2026 款腾势 N9 上市；小米 17 Pro 系列外观公布；苹果 iPhone 17 系列快充细节｜Do早报 Hello，大家早上好，又是元气满满的一天，先来浏览新鲜的早报吧～

美联储宣布降息美联储降息25个基点至4.00%-4.25%，因就业增长放缓，预计年底再降50个基点。

大六座SUV吉利银河M9上市，限时17.38万起吉利银河M9上市，限时17.38万起，搭载AI数字底盘、Flyme Auto 2座舱，续航超1500km，树立大六座SUV价值新标杆。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号