蓝鲸新闻7月26日讯(记者张信宇)在OpenAI用Sora震惊科技业界半年后,越来越多的公司跟进了多模态,并且视为通往AGI之路的标配。
7月26日,AI大模型初创公司智谱AI CEO 张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。跟此前的大语言模型一样,在生成式视频模型的研发中,张鹏认为Scaling Law仍然在起作用:“随着算法、数据不断迭代,相信Scaling Law将继续发挥强大威力。”
清华系背景的智谱AI是中国目前头部AI大模型初创公司之一。今年3月,智谱宣布完成由北京市人工智能产业投资基金参与的一轮融资;随后智谱又在6月初完成新一轮融资,投资方为中东石油巨头沙特阿美(Aramco)旗下风险投资部门管理的基金Prosperity7,估值达到约30亿美元,也成为第一个获得国外基金机构融资的国内AI独角兽。根据公开报道,智谱的股东阵容中还包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等多家大厂和知名机构。
与此前Sora、快手可灵等视频大模型的发布节奏不同,智谱清影一发布即全量上线,也就意味着无需申请、无需付费,所有C端用户都能直接体验到清影的AI文生视频、图生视频能力。不过,清影底座的视频生成模型是智谱开发的视频生成大模型CogVideoX,在B端仍然会收取一定费用,标准价格为0.5元/次,也可购买不同价格和优惠的资源包。
而随着清影的发布,智谱清言也终于初步成为了一个多模态的产品,与OpenAI的产品矩阵越来越接近了。
“智谱从2021年就开始布局(视频模型)了。”智谱AI CEO 张鹏在当天采访中解释智谱在多模态上的缘起。不过与视频厂商不同,智谱作为模型厂商,其后选择的技术路线是先提高抽象、宏观层面的能力,以及对世界的建模和理解,再从上到下姜维到视觉信号。“这两个事情有对错吗?不一定。单模态的建模,语言模态的建模,跨模态的建模,最终会走向本质的物理世界统一的表示。大家追求的是同一个真理,只是走不同的路而已,可能是这样一个结局。”张鹏称。
与Sora一样,智谱也采用了DiT+Transformer的架构来打造视频生成模型,这使得智谱可以节省许多前期成本,并且以较快的增长速度达到一个基本拿得出手的产品水准,然后再继续迭代底层技术,同时也要寻求应用落地及商业化。
而关于视频模型的商业化,“现在这个阶段,无论是To C还是To B,大规模商业化还比较早期。”张鹏解释道,“说实话我们也不知道商业化策略未来会怎么走、什么样的形式最好。目前所谓收费的策略更多的是一种自己的尝试,想看看看市场和用户的反馈,后面根据大家的反馈及时调整。也许大家喜欢这样,也许不喜欢这样,我们也不知道,大家用脚投票吧。”对应的成本方面,在目前刚刚上线的阶段也还无法作出统计。
不过,做视频模型与做语言模型不同的是,智谱在视频数据上存在一定的短板。张鹏表示,视频模型的训练数据对数据质量的要求很高,除了视频文件本身,还要有对应视频的字幕、文字描述等数据。此外,判断视频本身的高质量也有很多维度,包括视频的解析度、风格、分进、组合、连续性等等。并不能在短视频网站随便抓一个视频就能训练,所以对于数据本身的清洗、挑选、筛选也是很重要的过程。
“文字数据已经有多年积累,但视频数据是才这几年的事情,而且难度更高。”张鹏说。
与快手可灵视频模型不同,智谱作为模型厂商并没有自己的视频数据,因此其训练数据主要有两大来源,其一是公开数据集,其二就是拥有视频数据的合作伙伴,具体到智谱目前来说就是B站、央视频和华策影视。
理论上,智谱清影可以将6秒视频的生成时间缩短到30秒,但根据蓝鲸新闻记者的实际体验来看,目前时不时的还是要排队等待,因此实际生成时间会更长。不过考虑到完全没有使用门槛,这一尝鲜的代价仍然可以接受。
相比起来,OpenAI的Sora于今年2月发布后至今一直没有向公众开放使用;快手可灵可能是国内厂商目前阶段效果最好的视频生成大模型,也刚刚于本周开放内测,需要付费最低66元(首周优惠最低33元)的月卡才能使用。
不过,张鹏仍然承认OpenAI的领先优势,“(智谱清影)今天还只是一个初步的阶段性成果,还达不到像Sora演示出来那么好、那么长的视频,还需要更多的努力,也有很多其他原因。我们从来很坦诚承认我们和OpenAI等世界顶级水平之间的差距。但是这条路还得自己走,我们在不断用自己的方式往前追赶,或者想怎么把视频生成算力成本降下来2024实盘股票配资公司,响应速度提升上去,让技术人人可用。所以我们是在追求技术高度的同时,也同步追求技术的可普及性和成本,这也是我们这个团队的特点。”