12月3日下昼,腾讯混元大模子精采上线视频生成才气,这是继文生文、文生图、3D生成之后,混元大模子又一进展。同期,腾讯晓示开源该视频生成大模子,参数目130亿。
通达请求测试
“用户只需要输入一段形容,即可生成视频。”腾讯混元关连负责东说念主败露,当今生成视频扶助中英文双语输入、多种视频尺寸以及多种视频了了度。该模子已上线腾讯元宝APP,用户可在AI期骗中的“AI视频”板块请求试用。企业客户通过腾讯云提供就业接入,当今API同步通达内测请求。
在现场演示圭臬,演示视频中出现的冲浪、舞蹈等大幅度畅通画面,畅通镜头及东说念主物未发生形变。
腾讯混元关连负责东说念主先容,腾讯混元生成视频大模子可结束超写实画质、生成高度合适请示词的视频画面,画面通晓不易变形。光影反射基本合适物理轮番,在镜面或者照镜子场景中,不错作念到镜面表里看成一致。同期,模子还不错结束在画面主角保握不变的情况下自动切镜头。
全面开源
据了解,腾讯混元生成视频大模子基于DiT架构,并在架构研究上进行多处升级。混元视频生成模子适配了新一代文本编码器擢升语义撤职,其具备语义陪伴才气,更好地应酬多个主体形容,结束愈加随意的指示和画面呈现。同期,接收调解的全细心力机制,使得每帧视频的衔尾更为通晓,并能结束主体一致的多视角镜头切换;通过先进的图像视频搀杂VAE(3D 变分编码器),让模子在细节推崇存昭彰擢升,超过是庸东说念主脸、高速镜头等场景。
当今,腾讯晓示开源该视频生成大模子已在 Hugging Face 平台及 Github 上发布,包含模子权重、推理代码、模子算法等齐备模子,可供企业与个东说念主树立者免费使用和树立生态插件。基于腾讯混元的开源模子,树立者及企业无需重新磨练,即可径直用于推理,并可基于腾讯混元系列打造专属期骗及就业,概况从简多量东说念主力及算力,加速行业改革顺序。
从岁首以来开云(中国)开云kaiyun·官方网站,腾讯混元系列模子的开源速率束缚加速。此前,腾讯混元也曾开源了旗下文生文、文生图和3D生成大模子。至此,腾讯混元系列大模子已结束全面开源。