梅涛2002年底就进入了微软,博士5年,他有3年半都在微软度过。2006年他拿到博士毕业证后,继续回到微软工作,直到12年后才离开微软亚洲研究院。
他说:“在微软加起来总共15年,不管是技术的价值观还是公司的文化都是在这边形成的,第一份工作对一个人的影响很重要。”
而在京东5年的经历,他确实学到了很多经验,弥补了自己从技术到产业化的不足。
春节前走的时候,梅涛很坦然的对刘强东说:“我待了5年,想出去做点事情。”刘强东也很赞同。在最近一次梅涛给刘强东回信中,他讲述了最近公司的一些进展,刘强东也对梅涛送上了由衷的恭喜。
在创业初期,梅涛获得最大帮助就是科大的校友,科大人可以说是聚是一团火,散是满天星。
梅涛公司第一轮投资有15个人是科大校友,他们组成了一个合伙人LLP来支持他。
甚至,梅涛公司会议室的桌子椅子,也是上一个科大人公司搬过来直接捐赠给他们的。
梅涛虽然为人低调,但朋友很多,这些校友无一不在帮助梅涛,包括出谋划策去融钱、发展公司、搞业务、搞客户。
“科大人帮科大人的故事就是这么来的,科大人才密度很高,所以我们科大人帮助科大人很有成效。我非常感激母校cn科技大学。”梅涛有些动容的说。
“我自己有个梦想,就是在cn做一家具有硅谷创新精神的公司。”
如今大模型的大潮到了,梅涛也开启了他的创业之路,成立了HiDream.ai 。梅涛告诉AI科技评论,HiDream.ai 要在基础模型上超越Stable Diffusion最新版本,而在产品上则要赶超Midjourney。
这是国内第一家喊出来对标Stable Diffusion和Midjourney而且真正希望做到的公司。
在AIGC领域,做图像生成的基础模型中,开源的Stable Diffusion无疑是最好的,因为有很多人来做贡献;而在产品上,由于Midjourney 最早通过社区用户积累了独有的用户反馈,数据的轮子已经转起来了,同时配合高质量数据集,形成了自己的竞争壁垒。
梅涛告诉AI科技评论,要对标就要对标最好的,这个领域要卷就要跟国外卷,直接做基础模型底层的正面竞争。目前HiDream.ai 已经在开发一个生成式视觉多模态基础模型,该模型不仅能够支持文生图,还能支持文生视频、图生视频以及文生 3D 等功能。
梅涛认为,必须自己做多模态基础模型,因为没有模型就没有核心壁垒。
1
对标MJ和SD,不在国内卷AI科技评论:听说你前段时间在找算力?
梅涛:前段时间是在找算力,那个时候确实比较辛苦一些,现在算力问题解决了,已经在用了。
AI科技评论:你现在创业在哪个阶段了?
梅涛:我是春节前两天离开京东,三月初注册了智象未来科技有限公司。
我们现在做的就是AIGC(人工智能生成内容),主要是生成式多模态基础模型以及其应用,主要应用会面向设计师来使用,例如游戏设计师、营销设计师、绘画设计师等。
在AIGC的路上,我们可以说是一路狂奔。三月注册公司,四月中旬第一轮融资就结束了,五月初基本的算力资源和核心人员都已经到位,六月底数据和模型的规模都已经达到了60亿,七八月份我们就会发布第一版产品。我们的办公室也从亚运村的一个百平米的公寓搬到了现在的中关村。
AI科技评论:目前很多创业者都在往应用方面走,为什么要坚持做一个基础模型?
梅涛:因为如果没有基础模型,就肯定没有自己的核心壁垒;另外不自己做,就要用开源的模型或者调用别人的模型,就会相当依赖别人的技术。
我们坚持做一个底层的多模态基础模型,并不一定要做很大,因为视觉领域生成式基础模型参数能做到100 亿就已经很大了,目前最大也就是十几亿或者二、三十亿。
从五月份到现在八个礼拜,我们已经做到了60亿规模,目前已经上线了一款应用了,不过还在内测阶段,想先在B端客户推广使用。
AI科技评论:在算法方面,你们目前能达到什么程度?
梅涛:ChatGPT这个模型它的天花板很高,今天它能做到 1750 亿,未来它也能做到1万亿。因为它的模型能力很强,它能够记住很多知识。当前的视觉模型本身天花板比较低,现在我们给他喂很多的数据,它也只能做到大概十几个亿的参数规模。
我们现在做的第一个事情是,给模型打很强的补丁,增强它的记忆能力,让它能够记住更多的信息。另外,我们会在算法层面做很多技术的改进,如encoder、decoder等。
如果今天让我去做大语言模型,我觉得没有机会,因为通用的大语言模型确实是大公司做更有优势。而视觉领域的多模态基础模型,以及基于此的很多应用对创业公司来说还是有很多机会的。
AI科技评论:国内在图片或者视频领域大家其实拉不开差距,你为什么觉得有机会?
梅涛:所以我们不跟国内比,直接对标国外Midjourney和 Stable Diffusion,目前我们已经把Stable Diffusion的最新版本甩在后面了,现在正在追赶Midjourney的最新版。
虽然我们起跑的时候晚了一点,但是我们跑得很快。因为我们有一个很强的团队,刚好是十一个人,可以组成一支足球队,团队都是类似于像华为天才少年这样级别的选手。而我自己本人在这个领域做了十几年,我们勤奋、脑子也不笨,我相信我们公司以后会跑的越来越快、走的越来越稳的。
AI科技评论:国内几乎没有这样说自己直接对标这两家公司,为什么敢把Midjourney和 Stable Diffusion作为对标对象?
梅涛:我们对标的是 Stable Diffusion这种基础模型,以及Midjourney这样的应用。我们是国内唯一一家愿意对标Midjourney这种现象级产品的公司,而这个空间还是挺大的。
第一,Midjourney是一个小公司,但是它的数据其实很不错,数据的轮子已经转起来了,行业壁垒已经形成;
第二,Midjourney做文生图,但这个领域也只是满足专业设计师这个小众群体 ,只是作为找寻灵感的工具,还没有正式进入设计师真正的工作流程;
我们的优势在于不仅做文生图,还做文生视频、图生视频、文生3D等,多种模态可以随意切换。现在公司的能力还没有被释放出来,但是过去两个月的实践证明,在这么短的时间我们就快要追赶上Midjourney了。
我们要对标最好的,而不是关在国内的市场做浅层技术的内卷,一定要走到全球,做Global Market Player。
AI科技评论:你们的产品打算什么时候推出?
梅涛:七八月份,我们也在内测,想先在B端客户内部的设计师使用,然后再投到社区里传播。因为生成式AI的产品一定是体验为主,就是用户觉得好不好。举例说你跟 ChatGPT 对话,如果把ChatGPT比喻成一个“高中生”,再来一个低版本的 GPT 3. 0,那你面对的就像一个“小学生”,你肯定就不太愿意跟他对话了。
所以我们一定要把产品打磨到很不错的程度才会去公开发布。基本到七八月份就可以达到Midjourney V4版本的水平了,赶上它V5 版本甚至未来的V6版本估计得Q4左右。
AI科技评论:您现在做产品会不会结合Stable Diffusion和Midjourney的一些特点?
梅涛:Stable Diffusion和Midjourney就是其中两道菜,并不是满汉全席。而我们知道什么菜用什么组合,用什么佐料。
Stable Diffusion 本来是一个开源的模型,它有文字开源、图片开源,并不是专一在某一个行业里