Gemini 官网:https://gemini.google.com
Google Gemini 是由 Google DeepMind 开发的一系列多模态大型语言模型,被认为是 LaMDA 和 PaLM 2 的后继者。Gemini 包括三个模型:Gemini Ultra、Gemini Pro 和 Gemini Nano,分别针对不同的任务优化。Gemini Ultra 设计用于处理高度复杂的任务,Gemini Pro 旨在适应广泛的任务,而 Gemini Nano 则专为端侧设备上的任务设计。Gemini 模型是多模态的,能够理解和操作文本、代码、音频、图像和视频等不同类型的信息。这些模型不仅在多种行业基准测试中表现出色,而且还是首个在大规模多任务语言理解(MMLU)测试中超越人类专家的模型,显示了其在多项选择题上的卓越理解能力。
Gemini 1.0 的推出标志着 Google 在 AI 领域的一个重要进步,它不仅能够提高开发者和企业客户使用 AI 构建和扩展应用的能力,而且也展示了 Google 在负责任地推动 AI 发展方面的承诺。Google 还通过使用其 Tensor Processing Units (TPUs) v4 和 v5e 在 AI 优化的基础设施上进行大规模训练,确保了 Gemini 的高效性和可扩展性。此外,Gemini 在安全性和可靠性方面也进行了广泛的评估,包括偏见和毒性评估,以及对网络攻击、说服力和自主性等潜在风险领域的创新性研究。
2023年12月6日,Sundar Pichai 和 Demis Hassabis 通过虚拟新闻发布会宣布了 Gemini 1.0。Gemini Pro 和 Nano 分别被集成到 Bard 和 Pixel 8 Pro 智能手机中,而 Gemini Ultra 则计划在2024年初为软件开发者提供,并将被用于 Bard Advanced。Gemini 1.5 在2024年2月15日发布,提供了更快的性能和更高的效率,这得益于包括新架构在内的各种技术进步。
Gemini 模型的技术规格包括基于解码器的变换器,具有高效训练和推理的修改,以及长达32,768个令牌的上下文窗口长度。它的数据集是多模态和多语言的,包括网络文档、书籍、代码以及图像、音频和视频数据。Gemini 1.5 Pro 是一种稀疏的专家混合变换器,具有多达1000万个令牌的可变上下文长度,但具体细节尚不清楚。
Gemini 的发布引发了广泛的关注和讨论,被认为是 Google 在 AI 领域的一次重要突破。它不仅在多模态理解和生成方面展示了先进的能力,而且在编程和科学领域内的应用潜力也引起了人们的兴趣。此外,Gemini 的推出被视为 Google 与 OpenAI 之间竞争的一个新篇章,展示了 Google 在构建更复杂、更负责任的 AI 模型方面的持续投资和创新。