北京青年报

谷歌发布人工智能大模型Gemini：包含三个版本，擅长数学和物理推理

北京青年报客户端 2023-12-07 15:55

12月7日凌晨，谷歌宣布推出谷歌自己的人工智能模型Gemini。谷歌首席执行官桑达尔·皮查伊表示，“这是谷歌人工智能新时代的开始”。

根据皮查伊和 Google DeepMind 首席执行官 Demis Hassabis 的描述，这是人工智能模型的巨大飞跃，最终将影响几乎所有的 Google 产品。据介绍，Gemini可以适配包括数据中心和移动设备等多种产品。Demini拥有三个版本：其一是Gemini Nano，负责 Android 设备上本地离线运行，是侧端设备上最高效的模型；其二是Gemini Pro，它相比与Nano更强大，它将为许多 Google AI 服务提供支持，并且Bard宣布将使用Gemini Pro来进行新的升级；其三是Gemini UItra，它是 Google 迄今为止创建的最强大的模型，以大型语言模型（LLM）研究和开发中广泛使用的 32 项学术为基准，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平，它适用于完成高度复杂的任务，主要是为数据中心和企业应用程序设计的。

值得注意的是，据Demis Hassabis描述，Gemini从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。比如它经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。

据谷歌自己称，“从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。”

目前，Gemini1.0产品已在多种产品和平台上推出。谷歌公司计划通过 Google Cloud 将 Gemini 授权给客户，供他们在自己的应用程序中使用。从 12 月 13 日开始，开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 访问 Gemini Pro。Android 开发者也可以通过 AICore 使用端侧任务最高效的模型 Gemini Nano进行构建。

谷歌表示，它将在 170 多个国家和地区提供英语服务，并且计划在未来几个月内扩展不同的模态，并支持新的语言和地区。下一步，谷歌将进一步扩展其未来版本的各种功能，包括在规划和记忆方面取得进展，以及通过增加上下文窗口来处理更多信息并提供更好的响应。明年年初，谷歌还将推出 Bard Advanced，这是一种全新的、前沿的 AI 体验，让用户可以从 Gemini Ultra 开始使用模型和功能。

实习生应雨诺

文/北京青年报记者温婧
编辑/樊宏伟