kaiyun体育网页版登录·官方网站-开云体育(中国)官方网站平时作念的皆是比较浅薄-kaiyun体育网页版登录·官方网站
你的位置:kaiyun体育网页版登录·官方网站 > 新闻 > 开云体育(中国)官方网站平时作念的皆是比较浅薄-kaiyun体育网页版登录·官方网站
开云体育(中国)官方网站平时作念的皆是比较浅薄-kaiyun体育网页版登录·官方网站
发布日期:2025-10-24 02:54    点击次数:187

开云体育(中国)官方网站平时作念的皆是比较浅薄-kaiyun体育网页版登录·官方网站

我发现 AI 可能确实读不懂钟表开云体育(中国)官方网站。

这是这两天我在测试模子的时候发现的。

我给了底下这样一张时钟图:

我以为基本上皆能一眼看出这个本事是 8 点 19 分。原来以为以面前 AI 这样的能力,读个几点钟应该是没什么问题的,但是我却发现确实接连在翻车。

我问了 GLM-4.5 V:

你就说这谜底是不是太离谱了点。不信邪的我,又去问了豆包。

emmm... 真这样离谱么 。于是我又去测了 Claude。

亦然错的。。 真特么离谱,有这样难?

于是我又去测了 GPT-5 和 Gemini 2.5 Pro, 把但愿请托在它们两个身上,但愿它们能够挽救行将一网尽扫的 AI 雄师。

还得是 GPT-5 啊,答得是最最接近谜底的了,除了秒针莫得对除外,其他皆对了。

Gemini 2.5 Pro 比较于别的模子的回复,也还算免强能看了,至少没错的那么离谱。

关联词,这是为什么呢?

为什么能够在 IMO、高考这些有难度的数学历练里拿到金牌、满分的模子,连一个幼儿园、小学生皆会作念的任务皆完弗成?

说来也巧,我在刷 X 的时候,还确实刷到有个大佬拿这个读本事任务手脚一个 Benchmark 来磨真金不怕火模子。

东说念主类的基础水平线是 89%,AI 最佳的水平线是 Gemini 2.5 Pro ,Grok 4 以致只消悯恻的 0.7%。

终于有一项任务,东说念主类可以狠狠地鄙夷下 AI。

但,如故阿谁问题,为什么 AI 领会不了东说念主类的本事呢?

我用了下深度盘考,找到了篇在盘考了这件事儿的论文,放在这儿了:

《Have Mutlimodal Large Language Models ( MLLMs ) Really Learned to Tell the Time on Analog Clocks? 》

原因有几点:

专科的话术是:数据的散布偏移 + 只记形态,以及不学规定 。

这个用通俗少许的话来领会便是,老师数据里某一类数据相当多,出现了数据比例不平衡的情况,导致模子学偏了。

众人皆知说念面前大模子的学问起首有很大一部分是来自互联网的,等于说咱们的互联网上有什么数据,模子就接管什么样的学问。

那在咱们的互联网上,顺手一搜就能发现,有许多对于时钟的图像皆是长这样:

有莫得发现,我顺手截的这一页时钟,大部分的本事皆停在了 10 点 10 分。

这不是什么适值,而是有说法的。

在告白行业,相当需要视觉展示的限制里,10 点 10 分这个位置是最和洽的对称好意思学,它能既相宜东说念主类平衡、富厚的审好意思偏好,也完好意思展示了表盘的结构和信息。

但是,这种视觉上的好意思好和洽也就给模子变成了过拟合的征象。只记取了这个本事的信息特征,一朝遇上没遭受过的,就崩溃了。就跟咱们历练雷同,平时作念的皆是比较浅薄,又相似度极高的题,一到科场上碰上平时没见过的题目,平直噶屁。

还有少许是,刻下的视觉模子对视觉几何上的各异是不解锐的。说东说念主话便是,暗暗拨弄一下时钟或者分针,或者更正一下指针的神色,AI 皆看不出来是咋回事。

但是看本事又是一个格外需要崇高锐的场景。比如前后差 5 分钟、或者时针分针略微交换一下位置,时针分针局面略微变一变,皆全皆不是一趟事儿了。

更难的是,在试验场景中,许多的钟表的名义是有反光、迟滞的,以致有的钟表为了作念顺眼,有艺术感少许,还会作念成污蔑的样貌,这愈加进一步的加多了模子识别的苦处。

是以在试验场景中,AI 若是视觉上存在这样严重的弱势,是会带来很大的繁重的。

举个例子来说,病院买了一个 AI 助手来辅导病东说念主依期吃药。病东说念主在早上 8 点钟吃了药之后,下一次吃药的本事应该是 1 个小时之后,适渡过了 10 分钟,该助手报时给病东说念主了,这个助手就瞎报时为下昼 4 点。。。

这不就平直炸了么。。。

这让医师以后奈何去使用这样的 AI 系统,病东说念主又该奈何信托使用这样垃圾 AI 的病院呢?

原来是用来普及效劳的事儿,适度反倒还会出大事儿。

不啻是在病院里,任何本事格外明锐的场景,若是接管了面前的视觉领会模子,翻车确切便是势必的事情。

再让咱们归来内容,刻下的 AI 模子仍然依赖于海量的老师数据,若是某些欺诈场景依然多数的出面前老师数据中,那它会得回可以的适度,比如数学、编程,但是若是某些场景在老师语料里样本偏少,那 AI 概况率进展的不会太好。

AI 自身莫得任何问题,能够处理博士级别的科研难题的是它,数不清一个单词有几个疏浚字母的是它,认不清本事的亦然它。

一切皆取决于咱们东说念主类奈何使用它。

我虽然敬佩 AGI 一定会来,但是通往 AGI 的说念路上看起来咱们还需要处理许多的问题。

是以,下次若是再看到 AI 画出清雅的插画,写转移东说念主的诗篇和著述时,请记取,它也有可能连当下的本事皆无法告诉你。

既不要听说、好意思化它,也无谓过分胁制、瞧不起它。

毕竟开云体育(中国)官方网站,要看清这个宇宙,随机候并莫得咱们思象的那么容易。



相关资讯