网站目录

昆仑万维正式发布SkyReels-A3模型,让数字人“说话”的魔法

AI智领者3874个月前

01  当声音有了面孔  

下班地铁里,你刷到一条 30 秒的短视频:一位早已离世的歌手坐在录音棚,清唱一首从未发表的新歌,口型、呼吸、微表情毫厘不差。你明知道这是 AI,却还是在评论区打下“泪目”。  

这不是科幻,而是 SkyReels-A3 在今天给出的现实——只要一段音频和一张照片,就能让任何人、任何物“开口说话”,并且一次可长达 60 秒,无限分镜拼接即可延伸到任意时长。


02  从“像”到“演”,只差一个 prompt  

过去,数字人更像“会动的照片”,嘴在动,灵魂没动。  

SkyReels-A3 用四个关键词把“像”升级为“演”:  

• Text Prompt:一句“她抬起左手,轻抚耳机”,就能让手势精准发生;  

• 动作交互:说话同时自然点头、挑眉,甚至与商品互动;  

• 运镜控制:推、拉、摇、移、升、降 8 种镜头语言, 0–100% 强度可连续调节;  

• 分钟级单镜头:60 秒一镜到底,不跳帧、不崩脸。  

于是,虚拟主播可以一边展示粉底,一边侧脸贴近镜头;MV 女主可以在夕阳里缓缓抬头,镜头同步 3 秒慢升到剪影。画面第一次有了“导演意志”。


03  技术拆解:把电影工业搬进一张显卡  

SkyReels-A3 的底座是 DiT(Diffusion Transformer)——用 Transformer 替代传统 U-Net,长距离依赖建模能力更强;再配上 3D-VAE,把视频时空信息压进潜空间,显存占用直接腰斩。  

但这还不够。团队做了三件事,让“电影感”降临消费级显卡:  

1. 插帧模型:在 24fps 基础上智能补帧到 60fps,动作更丝滑;  

2. 强化学习动作优化:用“奖励模型”教人偶怎么站、怎么眨眼才像人;  

3. ControlNet 级镜头控制:把运镜轨迹编码成条件信号,逐帧注入扩散过程,实现专业级机位复刻。  

结果是,4 步推理就能生成商业可用片段——在 RTX 4090 上,60 秒视频只需 3 分钟。


04  场景速写:谁在用?怎么用?  

• 直播电商:把 SKU 图丢进模型,5 分钟批量产出 50 条带货短视频,主播口播与商品展示同步;  

• 在线教育:历史人物“亲自”给学生讲甲午海战,教材插图直接变讲师;  

• 独立电影:导演用已故演员的老照片 + AI 配音,补拍一场“错过的告别戏”;  

• 跨境营销:一张外模照片 + 30 秒英文脚本,省去 10 万海外拍摄预算。  

一句话,所有需要“人”的内容,都可以先问 SkyReels-A3:“能不能让 TA 自己来说?”


05  伦理与边界:技术越强大,越需要“水印”  

昆仑万维在模型输出里内嵌了隐形水印,可追溯到每一帧的生成 ID。平台也要求用户上传照片前必须获得肖像权授权。  

但真正的防火墙,是创作者自己的敬畏——当你能让任何人说任何话,请先问自己:如果主角是我自己,我愿意吗?


06  写在最后:影像的民主化时刻  

1839 年,摄影术问世,人们第一次发现“时间可以被留住”;  

1895 年,电影诞生,我们开始“让时间流动”;  

2025 年,SkyReels-A3 把麦克风递给每一张照片——从此,声音即影像,创作无门槛。  

下一个刷屏的爆款,也许就诞生在你的手机相册里。  

昆仑万维正式发布SkyReels-A3模型,让数字人“说话”的魔法

打开 https://www.skyreels.ai/home,挑一张旧照片,让记忆里那个不会说话的人,亲口叫出你的名字。  

你会发现,技术最动人的地方,从来不是“以假乱真”,而是让“真”的情感跨越时空,再次抵达我们。

分享到:
  • 不喜欢(0

猜你喜欢

网友评论

AI智领者

智能领导,引领AI时代发展。

395 文章
0 页面
120 评论
610 附件
AI智领者最近发表
随机文章
侧栏广告位
狗鼻子AI工具导航网侧栏广告位
最新文章
随机标签