AI大模型时代快来了！未来或刷新智能终端体验想象力

智东西
2021年9月25日08时

悟道大模型迈向落地！突破语音助手瓶颈，还造出冬奥会手语播报数字人。

作者|心缘

编辑|漠影

“生姜怎么保存？”、“小孩能吃辣条吗？”、“鱼的感觉器官是什么？”……

知识问答是智能语音助手最常见的日常交互内容之一。像上面这些难以回答的长尾问题，一个语音助手平均每天会遇到上百万条，而当前业界的方案，不是拒绝回答，就是跳转到搜索引擎。

对于用户来说，这也就节省了打开搜索页面和输入问题的步骤，要比直接给出答案费事的多。

面对数量庞杂且发散的问题，业界一直没有成熟的方案。但最近，在智源研究院1.75亿参数超大AI模型“悟道2.0”的基础上，OPPO小布助手建设了直接给出此类开放域长尾问题答案的能力。

过去三年来，随着BERT、GPT-3、悟道2.0等国内外超大规模预训练模型接连出场，“大模型”已成为众多学术及行业大会热议的方向，也是代表深度学习前沿水平的标志性模型。

汇集国内顶尖AI专家及后辈人才的北京智源人工智能研究院，自2020年10月启动大模型研究起就一路快马加鞭地推进研发，今年3月发布大模型“悟道1.0”，6月推出参数规模高达1.75万亿的全球最大AI模型“悟道2.0”。

如今，智源“悟道”又迈向新的节点——让大模型被广泛地“用起来”，打破AI开发想象力的边界！

▲智源研究院学术副院长、清华大学教授唐杰

在本周五2021中关村论坛上，智源研究院学术副院长、清华大学教授唐杰一连宣布主攻低门槛、高效率、高情商的3个悟道大模型技术创新成果，要真正解决AI企业及行业用户研发的核心痛点。

助力OPPO小布助手升级，是“悟道”在智能终端落地应用的重要一步，这一应用案例不仅展现了大模型在攻破智能助手瓶颈的技术优势，亦蕴藏着驱动智能终端体验大变革的潜能。

基于悟道大模型的冬奥手语播报数字人也首次亮相，它将在北京冬奥会期间正式投用，为听障人士提供全流程智能化的数字人手语生成服务。该成果将在年底发布。

01.

三大技术创新：让大模型更好用，

秀“双商在线”聊天技能

悟道2.0大模型有1.75万亿参数，这是什么概念?

如果用GPU加载到内存中，需要512张英伟达A100的卡，成本大约6000多万人民币，还不包括电费。这是个相当高的门槛。

智源正在做的，即是将悟道的应用门槛降下来，将AI的效率和情商提起来，给更多人带来便利。

无论是降低AI大模型开发门槛的悟道开发平台，还是“一卡顶四卡”的高效推理工具包、4倍提速4倍清晰的AI文图绘画、最大中文对话模型等技术创新，都让悟道大模型变得更加好用、易用。

1、悟道开发平台：帮企业轻松构建自己的AI应用

为了降低中小企业基于大模型开发的门槛，智源打造了悟道开发平台，让每个人点点鼠标就能构建AI，从数据处理、模型微调到API部署一应俱全。

该平台支撑着10亿级别模型的在线训练与微调，企业可以通过“大模型+少量数据微调”的AI开发模式，解决AI应用开发难以规模化、产业化的问题。

这样一来，即便你是AI开发新手，也能很快开发出高质量的AI应用，还能将这一应用开放给悟道所有生态伙伴及相关用户。

智源实现了一站式研发和一站式应用平台，前者面向开发者提供数据模型、在线训练、模型调优、模型评测、在线部署和应用开发等功能，后者为普通用户提供直接可用的AI应用商城。
整个应用平台底层实现了悟道大数据的处理，有超过5T数据，还有悟道各种各样的基础模型，以及相关多达几十种算法和相关的工具集。
用户可以将数据提交到平台上，在云端跑模型。当数据特别大时，也可以将模型下载下来，在本地机器上做微调，这需要有一些GPU做支持。
目前悟道开发平台已开放API免费体验，预计10月开放在线训练等更多能力。

2、预训练推理工具包BMInf：低资源高效推理
高效率推理，是实现大模型应用的关键。
以前万亿模型进行一次推理，需要512张A100的卡把内存装进去，而现在借助预训练推理工具包BMInf，一卡即可顶四卡，该工具包支持最低配置在英伟达GTX 1060单卡机上运行百亿大模型。
当然，除了百亿模型，你可以根据自己的实际应用需求，在线调用从亿级到万亿级规模的模型，其能力覆盖文本补全、文本生成及对话场景。
BMInf及其支持的模型参数已经开源共享，用户无需访问源代码即可调用，也可以把它下载下来，进行本地的部署。

AI文图绘画大师CogView2也再度进阶，速度和画面分辨率均提升4倍。以前5分钟画16张图，现在 40多秒就能画出8张，效果比国际领先的DALL·E模型还要更胜一筹。
下图是针对“海滩上的一群人”这一主题的AI模型绘画作品。左边是世界顶尖AI研究机构OpenAI的DALL·E模型所生成绘画中的优选作品，右边是CogView随机生成的绘画。

可以看到在画面生成效果上，右侧身体轮廓与边缘清晰流畅，面部表情可见，既有群像又有个人特写，主题呈现场景也更为丰富、有生活感。
3、最大中文对话模型EVA：让机器聊出人情味儿
怎样让AI更聪明？举一反三、学习能力是关键。
对此，智源研发了一个基于prompt生成方法以及分类器的数据选择方法，能对非常少量的样本进行数据增强，并通过微调把原来大模型迅速适应到小的一个领域或者特定的任务中。

例如这一次，智源就发布了一个双商在线的机器人，它不仅能帮你答疑解惑，还能基于心理咨询助人理论，对你关怀体贴，实现深度情绪安抚和支持。

智源最大中文对话模型EVA已经开源上线，除了拥有善解人意的特点外，还能展示大型大模型群聊现场。如下图所示，语音机器人们互相聊得热火朝天，PK谁才是高情商聊天小能手。

“悟道模型中有文汇、文源等，不同的模型构建不同的机器人，用不同方式聊天。”唐杰说，未来要实现让整个模型、让所有人参与到群聊中，所有人和机器可以自然聊天。

02.
问不倒的智能语音助手，悟道大模型与OPPO共建高阶知识问答

悟道大模型会聊天的能力，已经输入到OPPO小布助手中。
从2018年12月发布至今，OPPO小布助手已经成长了近3年，截至当前已覆盖了2.5亿台智能手机和IoT设备。今年2月，小布成为国内首个月活跃用户数破亿的手机语音助手。
现在，小布的月活跃用户数已达1.3亿，月交互次数超过20亿次。
这么大的月活量，用户主要都聊了什么？
小布助手技术总监杨振宇分享说，知识问答在小布总交互量中的占比约为15%，其中许多问题涉及领域广泛，大量问题每月仅出现1次，样本很少，每月会累计千万级无法回答的问题。
与庞杂低概率问题相对的，是低效的人工建设。通常建设高质量的语料库主要借助人工标注的方式，标注员每天最多能产出不超过千条，每月成本却高达数百万。

由于提问率超低、回答难度大的问题，这些长尾问题成为问答领域的无人区，需要企业耗费高昂的成本建设。当语音助手无法回答这些问题，通常要么拒绝回答，给用户一个设定好的默认回复，要么借助搜索引擎给出搜索列表。
融合了悟道大模型能力的生成式知识问答系统“小布问答”，做到了为大量长尾问题即时生成非常流畅、自然的高质量答案，能显著提升用户对话交互体验。
相对于传统人工标注，基于悟道合作共建的生成式知识问答系统，平均单条长尾问题问答成本降低99%，抽验准确率超65%并持续提升中，再加上上游增设的质量控制及融合排序，用户实际体验到的准确率会更高。
截至当前，该系统已累计已生成百万级问答量。

03.
如何高质量回答难解问题？解读
悟道的三大技术硬实力

在小布问答体验提升的背后，悟道生成式大模型功不可没。

在用户输入问题后，生成式知识问答系统会先进行意图识别，将其分为问答意图或非问答意图，问答意图中会存在大量无法回答的开放域问题。
对此，悟道大模型会生成一些高质量的答案，这些答案形成知识语料库，再通过语义检索的方式，向用户提供服务。
针对现有用户已提出而市面主流问答接口均无法回答的问题，悟道通过其通用语言模型GLM生成问答。
对于当前知识库中不存在、用户未来可能问到的问题，悟道则借助GLM模型的三大能力，结合知识图谱，形成持续知识预训练模型，进而大规模生成问答语料库：
1）文本生成能力：小布提供的无法回答的问题，是已经调用了多方资源仍然没有得到答案的问题。而悟道大模型的文本生成能力能实现低成本快速构建语料库，每台机器每天可生成10万左右的待审核答案，并避免回答引用时的版权问题。
2）理解能力：利用大模型对于既有知识的理解、推理能力，配合智源“持续知识预训练”技术，可以让模型能够更加理解常识和百科知识，从而使生成的结果更加符合百科常识。
3）小样本学习能力：通过少量样本，对生成结果，进行排序，提升文本表达的准确度。
这种新的技术范式，能以低成本的方式回答现有问答系统无法回答的问题，目前在OPPO小布助手上得到成功验证，双方正在持续迭代升级中。
杨振宇透露，未来小布希望能继续与智源拓展数据开放、模型共建、应用适配等更多合作方向。

04.
大模型时代的应用大幕已然拉开

逐渐打磨成熟的一系列平台及工具，以及更多示范应用案例的出现，正将大模型的应用价值推到历史前台。
在商业落地方面成果丰硕的大模型GPT-3，已经有300多个衍生应用，其相关创业公司也有好几十个，有些公司还拿到了融资。这些商业应用的覆盖范畴从日常办公到补写代码、从写诗作曲到设计游戏应有尽有。
唐杰希望在未来，悟道用自己的特色，在落地应用方面跟GPT-3对标。
此次悟道与小布助手的合作成果，释放出未来智能终端语音助手进化的积极讯号。经悟道大模型助力的小布，不再是只擅长回答标准固定答案的机械语音机器人，而像人类一样更灵活地聊天。
在接受媒体采访时，唐杰提到大模型在问答方面还有进步空间。比如机器不能保证100%答案正确，也做不到引经据典、内涵丰富的复杂逻辑。“所以把大模型到你的应用中，还要做一些工作，让它变得生产可用。”OPPO数智工程系统总裁刘海锋补充说。

▲智源研究院学术副院长、清华大学教授唐杰与OPPO数智工程系统总裁刘海锋接受媒体采访

长远来看，大模型独特的技术体系和产业模式，将提供一种更加高效率和低成本的AI开发基础设施，或为智能终端体验的升级带来新思路。
冬奥手语播报数字人也带来了更大想象空间，比如未来大模型可以助力智能制造，每个人都能设计全新的服装或其他商品，通过智能制造的车间3D打印出来，让每个人的物品都变得个性化。
悟道大模型今天应用在终端智能设备、新闻手语播报，已经走进人们的日常生活，随着悟道生态的持续扩张，未来还将在更多产业得到应用。
如今30家企业已经加入智源成立的悟道产业联盟，更多从发展生态的角度来看待大模型的用途和趋势，助力未来更大应用场景的发展。悟道还积极推进社区建设，包括大赛、科研基金等。

自悟道发布起，智源开始筹备悟道AI创新大赛，目前已有200个参赛队伍参加，大赛将在11月14日进行决赛的现场路演和颁奖。
悟道也设有2500万的科研基金池，拟支持50个科研基金，吸引全国各科研机构相关博士、老师、学生加入这里进行科研研究。
此外，智源成立了悟道科技运营公司，希望在公司中实现开放API和实现端到端的解决方案，并且提供模型授权，以此将悟道大模型的能力对外开放，助力AI发展。

唐杰希望，未来悟道能变得更开放，落地到更大的应用场景。

05.
结语：大模型落地正当时，
或催生行业创新机会

在许多人眼中，参数规模惊人的大模型，是AI界的“阳春白雪”。如今智源发布的多项技术创新及应用成果，昭示着国内围绕AI大模型的产业模式已经启航，开始通过生态合作将智能像水电一样输送到人们的身边。

大模型时代的落地浪潮正在加速涌来。当大模型的技术成果逐渐渗入AI研发和产业应用中，则有望带来破壁效应，催生新的应用场景及产业模式，驱动AI技术与实体经济的深度融合。新一轮行业创新的机会，也许正孕育于这股浪潮之中。

（本文系网易新闻网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

文章转发自智东西微信公众号，版权归其所有。文章内容不代表本站立场和任何投资暗示。

智东西文章

中美云巨头东南亚激烈交锋，中企“见缝插针”，美企有钱不慌?

学习机迈入AI时代，近3亿学生带飞这千亿市场

传紫光展锐融资100亿、估值700亿！加速冲刺IPO

字节出海硬刚Meta，PICO已攻下15%VR市场份额

有人说ChatGPT有物理学博士水平？中科院物理所的测试结果令人……

WEB3.0相关文章

学习机迈入AI时代，近3亿学生带飞这千亿市场

MicroOLED+Pancake，这款号称世界最小最轻的系留式PC VR头显发布：仅127克

全球智能手机利润苹果独占85%，iPhone 14 Pro Max硬件成本仅3000？

盈透证券在香港推出面向专业投资客户的加密货币交易

【年度专题】一年增长近20万家相关企业，数字人从量变到“应”变

芯片代工争夺战，英特尔为何输给了“小弟”台积电？

我用 ChatGPT 写了一封情书，能感动 Ta 吗？

我的情人不是“人”

磐石元宇宙办公平台，带来线上办公新体验

必应发狂了！ LeCun马库斯齐喷ChatGPT：大语言模型果然是邪路？