12月6日,Google正全力推动其最大且功能最全面的人工智能模型——Gemini,一项在AI商业化方面的艰巨挑战正在让公司面临压力。
作为一大型语言模型,Gemini将包括三个不同规模的型号:Gemini Ultra,作为最大、最擅长复杂任务的型号;Gemini Pro,能够广泛应对各种任务;Gemini Nano,专用于处理具体任务和在移动设备上运作。
目前,Google计划通过Google Cloud将Gemini许可给客户,供他们在自己的应用中使用。从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI的Gemini API使用Gemini Pro。Android开发者也将能够利用Gemini Nano进行开发。此外,Gemini 还将用于驱动像其Bard聊天机器人和Search Generative Experience等Google产品。Search Generative Experience是一个试图以对话风格的文字回答搜索查询的项目(SGE还未公开发布)。
公司可以像通过聊天机器人进行更高级的客户服务互动和产品推荐,以及帮助寻求广告产品的公司发现趋势等方式使用Gemini。如果公司想要创建营销活动或博客内容,那么Gemini也可以用于内容创建,以及想要总结会议或为开发者产生代码的生产力APP。
公司举出了一些示例,比如显示Gemini能够截取图表的屏幕截图,并分析数百页的研究内容,然后更新图表。另一个例子是分析一个人数学作业的照片,确定正确的答案并指出错误的答案。
在Google周三发布的一篇博文中,公司表示,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)上胜过人类专家的模型,它通过57个主题(如数学、物理、历史、法律、医学和伦理等)的组合来测试世界知识和问题解决能力。据称,它可以理解复杂主题的微妙之处和推理。
“Gemini是Google各个团队(包括我们的Google研究同事)的大规模协作努力的结果,” Google首席执行官Sundar Pichai周三在博文中写道。”它从一开始就作为多模态来构建,这意味着它可以概括并无缝理解、处理和整合包括文本、代码、音频、图片和视频在内的不同类型的信息。”
从今天开始,Bard 将夸大宣传它的Gemini Pro,以帮助其在推理、规划、理解等其他功能方面达到更高年级。高级主管周二在接受记者登录的电话中表示,明年初,它将启动 “Bard Advanced”,这将用到Gemini Ultra, 这反映了 Bard,它的开发人员的ChatGPT类似的聊天机器人的最大更新。
这次更新是在自从八个月前首次发布Bard,一年后,开发了以聊天人为特征的聊天机器人,ChatGTP的 OpenAI 在网上发布其在ChatGPT上使用GPT-3.5的结果后。今年三月,由Sam Altman的初创公司OpenAI发布了GPT-4。周二,高级主管表示,Gemini Pro的性能超过了GPT-3.5,但他们对Gemini如何与GPT-4相比撤回了原先的说法。
然而,根据Google周三发表的一篇白皮书,Gemini的Ultra模型在几个基准测试中的表现优于GPT-4。