• 元宇宙:本站分享元宇宙相关资讯,资讯仅代表作者观点与平台立场无关,仅供参考.

重磅更新!ChatGPT 可以直接语音对话和上传图片了!

  • 2023年9月26日 13:30

在昨晚,OpenAI CEO Sam Altman 在推特上发布了一条重要消息,ChatGPT 要推出新功能啦。ChatGPT 现在可以看、听和说了!



这次 ChatGPT 推出新的语音和图像功能提供了一种新的、更直观的界面类型,允许用户跟它进行语音对话,向 ChatGPT 展示说话内容。

多场景使用 ChatGPT
这一次的更新将使 ChatGPT 成为更强大的工具,适用于多种生活场景。比如,当你在旅行时,可以拍摄周围的地标,然后与 ChatGPT 进行实时对话,了解更多有趣的信息。而当你在家时,只需拍摄你冰箱里的食物,ChatGPT 就能帮你决定今晚吃什么,甚至提供相应的食谱。如果你的孩子遇到数学难题,拍照上传后,ChatGPT 也可以帮助他们解决问题。

例如,你可以拍一张照片,然后询问如何调整自行车座椅的高度。这一更新使 ChatGPT 成为了一个更强大的伴侣,可以帮助你解决日常生活中的各种问题。

官方示例
官方还给出了另一个实用的使用场景思路:你打开冰箱,拍一张照片,然后问 AI 晚餐可以吃什么,ChatGPT 将生成完整的菜谱。这样,你可以在快节奏的生活中省下时间,让 ChatGPT 帮你规划健康的饮食。

这次的更新将在接下来的两周内向 ChatGPT Plus 订阅用户和企业版用户推出,而且不论你使用的是 iOS 还是 Android,你都能够轻松使用这一新功能。

ChatGPT 多模态版 GPT-4V
与此同时,多模态版 GPT-4V 模型也公开了更多细节。最令人惊讶的是,这个多模态版的 GPT 模型早在 2022 年 3 月就已经完成训练,这意味着 OpenAI 在这方面取得了长足的进展。

现在,让我们来看看 GPT-4V 模型的能力和局限性。

GPT-4V 的视觉能力
这个多模态版的 GPT 模型具有强大的视觉能力:

1.物体检测: GPT-4V 能够检测和识别图像中的常见物体,例如汽车、动物和家居用品等。这项能力在标准图像数据集上进行了评估,表现出卓越的物体识别能力。

2.文本识别: 模型具备光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本,并将其转录为机器可读文本。这一功能在处理文档、标志、标题等图像时表现出色。

3.人脸识别: GPT-4V 能够定位并识别图像中的人脸。它还具有一定的面部分析能力,能够根据面部特征识别性别、年龄和种族属性。这一能力经过 FairFace 和 LFW 等数据集的测量验证。

4.验证码解决: 在处理基于文本和图像的验证码时,GPT-4V 表现出了出色的视觉推理能力,这表明模型具有高级解谜技能。

5.地理定位: 模型能够识别风景图像中描绘的城市或地理位置,表明它吸收了关于现实世界的大量知识。然而,这也可能涉及到隐私问题,因为模型可以识别出与特定地点相关的信息。

GPT-4V 的局限性
虽然 GPT-4V 具有强大的视觉能力,但它仍然存在一些局限性:

1.空间关系: 模型可能难以准确理解图像中对象的精确空间布局和位置,有时无法正确捕捉对象之间的相对位置。

2.对象重叠: 当图像中的对象严重重叠时,GPT-4V 有时难以区分一个对象的结束位置和下一个对象的开始位置,可能将它们混合在一起。

3.背景/前景: 模型不总是能够准确识别图像中的前景和背景中的对象,有时会错误地描述对象之间的关系。

4.遮挡: 当图像中的某些对象被其他对象部分遮挡或遮挡时,GPT-4V 可能无法识别被遮挡的对象,或者错过了它们与周围对象的关系。

5.细节: 模型有时会忽略或误解图像中的微小物体、文本或复杂细节,导致错误的关系描述。

6.上下文推理: GPT-4V 缺乏强大的视觉推理能力,无法深入分析图像的上下文,并描述对象之间的隐含关

7.置信度: 模型有时可能错误地描述对象之间的关系,与图像内容不符。这意味着它的描述可能不总是准确的。
需要注意的是,尽管 GPT-4V 具有强大的视觉能力,但目前在科学研究和医疗用途中,其性能可能不够可靠。因此,在这些领域的应用需要更多的研究和验证。

ChatGPT 团队表示,为了保护用户隐私和防止滥用,他们正在考虑是否应该允许模型识别公众人物,以及是否应该允许模型从人物图像中推断性别、种族或情感等信息。这表明他们对用户的隐私和道德问题非常重视。

总之,ChatGPT 的这一重磅更新为用户提供了更多交互的可能性,使其成为一个更加强大和多功能的工具。语音和图像功能的引入使 ChatGPT 变得更加直观和便捷,为用户提供了全新的体验。无论是在生活中解决问题,还是与模型进行有趣的对话,ChatGPT 的潜力正在不断扩大。如果你是 ChatGPT Plus 或企业版用户,你将在未来两周内率先体验到这些令人激动的新功能,而其他用户也将很快可以享受到这一更新带来的便利。

所以,你已经想好了要问 ChatGPT 的第一个问题吗?这一重大更新将为你的交互体验带来更多乐趣和便捷,期待 ChatGPT 在未来继续发展,为我们带来更多惊喜和创新。不论你是专业用户还是普通用户,这一更新都将使你的生活更加便利和有趣。随着技术的不断发展,ChatGPT 带来的可能性也会不断扩大,让我们拭目以待,期待更多精彩的功能和体验。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM