万众(zhong)期待的Gemini大模子：比GPT-4强，但强的没有多？,测试,人类,问题

谷(gu)歌憋了(le)好几个月的大招(zhao)、人类迄今为止最壮大的AI模子——Gemini，终(zhong)于发布了(le)。依照谷(gu)歌的说法，它可以像人类一样理解我们周围的世界，处置惩罚代码、文字、音频、图像和视(shi)频通通没有正在话下(xia)。Google DeepMind团队(dui)称，Gemini正在32项(xiang)基(ji)准性能测试中(zhong)的30项(xiang)上超过了(le)GPT-4。

然而，多位科技阐明人士认为，虽然Gemini的性能切实(shi)其实(shi)优于现有的多模态模子，但它和GPT-4的差距并没有那么夸张。从(cong)谷(gu)歌放出的演示(shi)视(shi)频来看(kan)，很少有什么我们正在过去一年(nian)的AI炒作(zuo)狂潮里没见过的东西。

如果(guo)以谷(gu)歌的算(suan)力资源、研发能力和丰富的数据都仅能做到牵强击败GPT4，更大问题正在于，Gemini大概就是以人类目前的技术，能够打(da)造(zao)的大模子的上限了(le)。

比GPT-4强，但强得没有多

根据谷(gu)歌放出的演示(shi)视(shi)频，Gemini是玩“你画我猜”的一把妙手，没有仅可以精确地形貌测试者正在纸(zhi)上画出的图形，还(hai)能根据测试者画出的轮廓猜测她(ta)绘(hui)制的是什么东西。

正在另一个例(li)子中(zhong)，测试者给Gemini展示(shi)了(le)一张煎蛋卷(juan)正在平底锅中(zhong)烹(peng)饪的图片，并用语音询问煎蛋卷(juan)是不是已经煮熟，Gemini也用语音回答(da)道：“还(hai)没有煮熟，因为鸡蛋还(hai)是液态的。”

看(kan)起来很新奇，但Gemini真的如谷(gu)歌所言的全(quan)方位超越(yue)GPT-4吗？

没有见得。

基(ji)准的MMLU测试用于权衡AI模子正在文本(ben)和图像的任务上的表现，包(bao)含阅读理解、大学数学和物理、经济学和社(she)会迷信中(zhong)的多项(xiang)选择测验(yan)。谷(gu)歌CEO劈柴表示(shi)，正在MMLU测试中(zhong)，Gemini全(quan)面击败GPT4。对于纯文本(ben)问题，Gemini得分为90，人类专家得分为89。GPT-4得分为86；对于多模态问题，Gemini得分为59，而GPT-4得分为57。

圣达菲研讨所的AI研讨员Melanie Mitchell对媒体表示(shi)，Gemini基(ji)准测试的表现使人印象深刻，这切实(shi)其实(shi)说明Gemini是一个异常复杂(za)的人工智能系统，但她(ta)指出，本(ben)身并没有显着感受到Gemini和GPT-4正在实(shi)际能力上的差距。

Mitchell还(hai)指出，Gemini正在语言和代码基(ji)准测试上的表现要比正在图像和视(shi)频上表现更好：

“多模态基(ji)础模子仍然有很长的路(lu)要走，才能正在很多任务里任务大范围、可靠地运用。”

“多模态基(ji)础模子仍然有很长的路(lu)要走，才能正在很多任务里任务大范围、可靠地运用。”

斯坦福大学基(ji)础模子研讨中(zhong)心主任Percy Liang也对媒体表示(shi)，虽然Gemini具有良好的基(ji)准分数，但因为我们没有晓得训练数据中(zhong)的内容，很难晓得怎(zen)样解释这些数字。

Google DeepMind还(hai)称，正在人类测试者的赞助下(xia)，Gemini减轻了(le)幻觉出现的频率，正在回答(da)问题时已经变得更加精确，正在被(bei)要求(qiu)时可以给出信源，并且没有会再(zai)遇到难回答(da)的问题时胡编乱造(zao)。

没有过，这一点(dian)同样需要谷(gu)歌公开更多半据，不然目前也很难去验(yan)证。

仓促(cu)上阵

深度进(jin)修(xiu)教父杰夫·辛顿（Geoffrey Hinton）正在四月份离开谷(gu)歌时对媒体表示(shi)

“谷(gu)歌一直异常谨慎地向公众(zhong)发布AI产品，可能产生的好事太多了(le)，谷(gu)歌没有想毁了(le)本(ben)身的荣誉(yu)。面对看(kan)似没有值(zhi)得相信或(huo)无法销售(shou)的技术，谷(gu)歌采取了(le)谨慎的态度，是以错过了(le)更关键的机遇。”

“谷(gu)歌一直异常谨慎地向公众(zhong)发布AI产品，可能产生的好事太多了(le)，谷(gu)歌没有想毁了(le)本(ben)身的荣誉(yu)。面对看(kan)似没有值(zhi)得相信或(huo)无法销售(shou)的技术，谷(gu)歌采取了(le)谨慎的态度，是以错过了(le)更关键的机遇。”

可能正是因为认识到了(le)这一点(dian)，所以谷(gu)歌正在推动Gemini上线时异常着急。

Gemini最壮大的满血版Gemini Ultra，还(hai)需要守候几个月才能和公众(zhong)见面。谷(gu)歌称，Ultra版目前只会提(ti)供给部分客户、开发者、合(he)作(zuo)火(huo)伴和平安与责(ze)任专家使用。

有阐明人士指出，谷(gu)歌甚至本(ben)身也没有了(le)解Gemini Ultra的所有新功能，也没有为Gemini制定出货币化战略。考虑(lu)到人工智能模子训练和推理的高昂成本(ben)，谷(gu)歌可能需要很长时间才能想出盈利策(ce)略。

会没有会是谷(gu)歌的营销策(ce)略导致了(le)今天产品发布的失败？也许是吧(ba)。又或(huo)者，打(da)造(zao)最先辈的生成式人工智能模子真的很难——即使你重(zhong)组了(le)全(quan)部人工智能部门来加速(su)进(jin)程，效(xiao)果(guo)可能也没有尽如人意。