|

酒仙桥
2000活跃值=1元

首页 > 新车评测 > 新车评测 > 9.11和9.9哪个大？实测12个大模型8个都答错，ChatGPT也翻车了

9.11和9.9哪个大？实测12个大模型8个都答错，ChatGPT也翻车了

发布时间：2024-07-19 16:28:18

导读

一道小学生的数学题竟然难倒了全球AI大模型，只有4个大模型给出了正确答案！这究竟是怎么一回事？快来看看！

全球AI大模型被一道小学生数学题难倒

日前，一道来自小学生的数学题却难倒了不少海内外AI大模型，这道题的内容是“9.11和9.9哪个更大”，而仅有4个大模型给出了正确答案。

挑战大模型的数学推理能力

大模型的数学能力一直是短板，即便是目前最好的大模型GPT4也仍然有很大进步空间，而此前笔者在采访12位大模型时也得出了一个惊人的结论，这些大模型中仅有4个回答是正确的，而其他8个大模型却都给出了错误的答案。

数字切分问题与模型的理解能力

而针对大模型的数学能力，笔者曾进行过深入的采访，大部分行业人士认为大模型数学能力差的根本原因还是出在分词上，即Tokenizer(分词器)在处理数字时会出现问题，导致模型难以正确理解和计算。

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题，12个大模型中，只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，其他8个大模型都认为9.11比9.9更大。

虽然最终4个大模型给出了正确答案，但这并不能掩饰大模型数学能力的薄弱，毕竟面对简单的大小比较题，8个大模型都给出了错误答案。

而对于未来大模型的发展方向，笔者也咨询了不少专家学者以及从业者，针对此前大模型的回答，不少人表示“并不意外”。

一些专家认为，未来在模型的训练数据上会越来越依赖构造型的数据，而不是直接爬取下来的数据，以提升模型的复杂推理能力。

因为直接爬取下来的数据中会夹杂大量的错误数据，这些错误数据会误导模型，导致模型做出错误的判断。

而构造型的数据则可以事先筛选，保证数据的准确性和可靠性，从而培养模型健康的思维方式。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“酒仙桥用户上传并发布"，本平台仅提供信息存储服务。

上一篇:在人工智能快速发展的当下，普通人应该怎样应对

新车评测更多>>

16万元，刚改款上市的宝马纯电，竟然直接打折售卖？大众ID.4将迎中期改款外观内饰全面更新预计2026年底首发丰田官方确认将推出中置引擎跑车预计需4至5年完成开发丰田等日本车企将共享芯片数据以应对供应链风险 2026款奔驰S级将搭载加热安全带捷尼赛思曾秘密研发电动皮卡概念车项目已暂停大众裁员大刀，砍向董事会，一次撸掉10位荣耀MagicOS全新功能“眼动翻页”官宣，支持电子书应用翻页微信员工澄清“通知显示头像”功能：并非仅限iOS设备 “套壳”谷歌Gemini 但苹果还没死心自研模型 80后哈佛学霸带出的90亿独角兽拿下20亿融资 Manus和它的“8000万名员工” 初创公司GRU Space宣布开发“月球酒店”：最快六年后入住，定金25万至100万美元扎克伯格大砍预算 Meta现实实验室将裁员10% 消息称OpenAI正研发AI耳机：可利用自然语言交互、有望配备2nm制程芯片章泽天播客预告首期嘉宾小红书账号粉丝已超7万超40家VC押注，80后创始人冲刺水下机器人第一股雷军新年直播今晚开启：现场拆一台小米YU7！已准备就绪比亚迪超越特斯拉美媒：马斯克笑不出来了多邻国App使用苹果iPhone灵动岛展示广告，被指违反官方设计规范 iPhone电池健康度能用到0%？苹果回应：理论有可能，现实没见过边开车边充电，美国佛罗里达州将启动无线充电高速公路测试小鹏汽车：2026款小鹏P7+和小鹏G7超级增程开启新年首次发运 smart精灵#1 马年开运版上市：四款专属车顶，售13.99万元购房补贴、定向礼包，多地“金九银十”楼市优惠加码双创指数强势领涨！“十五五”蓝图划重点，科技+内需迎新机遇新能源汽车电池退役后，都去哪儿了？保时捷携两款标志性911登陆第八届进博会，演绎经典与创新的时代对话德赛西威正式发布机器人智能基座AI Cube 长安汽车9家海外工厂，布局到了哪里？

Copyright 2006-2025 酒仙桥版权所有京ICP备20061125号