易君召
易君召
发布于 2026-06-07 / 3 阅读
0
0

🎬 京东开源 JoyAI-Echo:5 分钟 AI 长视频不翻车,杀入全球第一梯队

#AI

801 Stars · 发布即开源 · 京东 Joy 未来学院重磅出品 · 基于 LTX 2.3 深度改造

🔥 一、背景:一个「不务正业」的电商巨头,做出了 AI 视频领域的「国家队选手」

2026 年 6 月 2 日,京东开源了一个名为 JoyAI-Echo 的 AI 长视频生成模型。「京东做 AI 视频?」——这可能是大多数人看到这条新闻的第一反应。

但或许更令人意外的是,JoyAI-Echo 发布时声称:它是全球首个能同时实现「5 分钟级多镜头长视频 + 实时推理 + 对话式交互 + 高分辨率」的开源方案。

关键信息

数据

研发团队

京东 Joy 未来学院 · Echo 团队

开源时间

2026 年 6 月 2 日

GitHub Stars

801(发布 4 天)

代码许可

学术/非商业用途(基于 LTX-2 社区许可)

模型权重

46 GB(safetensors)

文本编码器

Google Gemma 3-12B-IT

基础架构

LTX 2.3(Lightricks)深度改造

论文

ResearchGate 已发布技术报告

京东为什么要做这个?从技术背景看,京东 Joy 未来学院是京东旗下的 AI 前沿研究机构,Echo 团队此前还发布过Echo-MemoryEcho-Infinity(65 Stars,实时无限视频生成)等论文。JoyAI-Echo 是其长视频方向的最新集大成之作。

🔥 一句话总结: 京东在 AI 视频赛道上选择了「长视频+跨模态记忆+交互式生成」这个差异化方向,直接对标全球顶级选手。

⚡ 二、核心技术:四大突破

🎞️ 1. 分钟级多镜头故事生成

从一段 Prompt JSON 就能生成一连串连贯的镜头序列。每个镜头保持角色外观、声音音色的一致性——这是当前所有视频生成模型最难攻克的问题。

🧠 2. 跨模态音视频记忆库(核心创新)

JoyAI-Echo 的核心创新在于一个跨模态音视频记忆库

  • 当前镜头会参考前序镜头的视觉身份和语音上下文

  • 角色面部、穿着、音色、嘴型-声音对应关系在5 分钟视频中保持一致

  • 类似电影的「连续性剪辑」——角色在第 1 秒出现的样子,在第 4 分 59 秒不会变

这是 JoyAI-Echo 对 HappyOyster(竞品)实现「决定性超越」的关键原因。

⚡ 3. DMD 蒸馏推理:7.5× 加速

JoyAI-Echo 采用了 Distribution Matching Distillation(DMD) 蒸馏技术,将原始多步推理管线加速了 7.5 倍。这意味着:

  • 46GB 模型也能做到接近实时的推理速度

  • 长视频生成从「等数小时」压缩到「等数分钟」

  • 适合流式生成场景

🎙️ 4. 端到端音视频联合生成

大部分视频模型只生成画面(然后另配音频),JoyAI-Echo 一个管线同时生成视频和同步音频——包括人对白、环境音、背景音乐。

🤖 Director Agent(交互式导演代理)

尚未发布的亮点: 用户可以用自然语言对话来编辑视频——"把女主角改成红头发"、"这个场景换成夜晚"——Director Agent 会自动改写结构化剧本、镜头、角色,然后重新生成。

📊 三、性能数据:一脚踏进全球第一梯队

实测结果

指标

JoyAI-Echo 表现

生成长视频时长

5 分钟

推理加速比

7.5×(DMD 蒸馏)

基准故事数

100 个

评估镜头数

3,000 个

每镜头帧数

241 帧 @ 25 fps

默认分辨率

1280 × 736

GPU 最低配置

48 GB(H100/A100 80GB 推荐)

峰值显存

46-50 GB

人类偏好评估(GSB)

长视频对比(vs HappyOyster Directing 模式):

评估维度

JoyAI-Echo

平局

HappyOyster

视觉美学

63.6% 🏆

8.8%

27.6%

音频质量

81.7% 🏆

6.5%

11.8%

Prompt 遵循度

80.6% 🏆

13.5%

5.9%

IP 一致性

59.4% 🏆

12.9%

27.7%

惊人的全维度领先——特别是音频质量 81.7% vs 11.8%,差距近 7 倍。

短视频对比(vs Wan 2.6 —— 阿里云的视频专家模型):

评估维度

JoyAI-Echo

平局

Wan 2.6

视觉美学

58.8% 🏆

14.7%

26.5%

音频质量

32.3%

30.9%

36.8%

Prompt 遵循度

33.8% 🏆

36.8%

29.4%

在视觉美学上超越「短视频专家」Wan 2.6。音频质量方面仍有差距,但差距不大。

🧩 四、安装部署:48GB 显存的门槛

bash

git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo
conda env create -f environment.yml
conda activate echo-long

下载模型权重(共约 70 GB):

文件

大小

来源

echo-longvideo-release.safetensors

~46 GB

Hugging Face

gemma-3-12b-it/

~24 GB

Google


运行推理:

python inference.py

⚠️ 硬件要求: 默认 1280×736 分辨率 + 241 帧需要 46-50 GB 显存(H100/A100 80GB 或 RTX 6000 48GB)。12GB 显卡可降低分辨率和帧数运行。

🔥 五、亮点与优势

对比全球主要 AI 视频模型

模型

时长

音视频同步

对话编辑

开源

推理速度

品牌

JoyAI-Echo 🏆

5 分钟

✅(即将)

⚡ 7.5×

京东

Wan 2.6

~30 秒

❌ API

阿里云

Sora (OpenAI)

~60 秒

OpenAI

Kling (快手)

~2 分钟

中等

快手

Vidu (生数科技)

~30 秒

中等

生数

Pika

~10 秒

Pika Labs

Runway Gen-3

~10 秒

Runway

CogVideo

~30 秒

中等

智谱AI

Open-Sora-Plan

~10 秒

中等

北大

最大差异化亮点

  1. 5 分钟长视频 + 端到端音视频同步 —— 全球开源首例

  2. 跨模态记忆库保持剧情一致性 —— 角色不会出现「上一秒长发、下一秒短发」的问题

  3. DMD 7.5× 加速 —— 让长视频生成变得可行

  4. 自然语言对话式编辑 —— 即将发布的 Director Agent

  5. 京东出品 —— 中国电商巨头入局 AI 视频,生态潜力巨大

⚠️ 六、差距与不足

问题

描述

严重程度

硬件门槛高

46GB+ 显存需求,普通玩家难以触及

🔴 严重

仅限学术/非商业

基于 LTX-2 社区许可,商用需联系 Lightricks

🔴 严重

不支持图生视频(I2V)

当前仅支持文本生成视频

🟡 中度

音频质量待提升

短视频对比中音频落后 Wan 2.6(32.3% vs 36.8%)

🟡 中度

Direrctor Agent 未发布

对话编辑功能还在 TODO 中

🟡 暂时

IP 一致性仍有改进空间

长视频 IP 一致性 59.4%,虽然领先但仍有近 40% 用户偏好竞品

🟢 轻微

生态成熟度

发布仅 4 天,社区插件(ComfyUI 节点等)刚刚起步

🟢 自然

与 LTX 2.3 的版权关系

底层依赖 Lightricks,未来商业化的独立性存疑

🟡 中度

与 Wan 2.6 的真实差距

虽然 JoyAI-Echo 在视觉美学上超越了 Wan 2.6(58.8% vs 26.5%),但需要认识到:

  1. Wan 2.6 是短视频模型,两者的定位不同——JoyAI-Echo 的长视频能力框架更复杂

  2. Wan 2.6 的推理速度更快(API 调用几乎实时)

  3. Wan 2.6 的生态成熟——已经上线阿里云 DashScope,有完整商业服务

  4. 暂时没有直接的长视频基准——两者的长度差距太大(5 分钟 vs 30 秒),直接比较不完全公平

🧭 七、与其他京东 AI 开源项目的关系

JoyAI-Echo 并非京东的孤立项目。Echo 团队还有两个关键配套工作:

项目

定位

Stars

Echo-Memory

可学习记忆机制(论文)

Echo-Infinity

实时无限视频生成(论文)

65

JoyAI-Echo 🏆

5 分钟音视频联合生成部署版

801

三者构成从「记忆机制研究」→「无限视频生成」→「商业化部署」的完整链路。

📈 八、未来发展方向

可预见的演进路径

  1. 图生视频(I2V)支持 —— 官方已确认正在开发中

  2. Director Agent 发布 —— 对话式编辑视频,从「生成」走向「共创」

  3. Echo-SR 超分辨率模块 —— 提升 1K 以上高清输出

  4. 边缘端/消费级适配 —— 降低显存需求,从 H100 走向消费级显卡

  5. 商业化许可 —— 与 Lightricks 合作解决商用授权问题

  6. ComfyUI 生态建设 —— 社区节点已出现,但官方支持还在路上

  7. 电商场景深度集成 —— 京东自身的商品视频、广告创意、直播带货场景

京东的差异化竞争策略

与阿里(Wan 系列)、快手(Kling)、生数(Vidu)、智谱(CogVideo)不同,京东的切入点是:

  • 长视频 + 一致性 —— 不是和竞品比「几秒的短片谁更炫」,而是做「谁来拍一个 5 分钟不翻车的故事」

  • 音视频同步 —— 大部分模型忽略的音频模态,JoyAI-Echo 原生集成

  • 交互式生成 —— Director Agent 让视频生成的"控制权"回到用户手中

🔥 核心判断: JoyAI-Echo 不是下一个 Sora——它选择了一条更务实但同样艰苦的技术路线:先解决「长」和「稳」的问题,再谈「快」和「美」。

📌 九、总结

JoyAI-Echo 是京东在 AI 视频生成领域的一次重磅出击。它以 5 分钟长视频 + 跨模态记忆一致性 + 端到端音视频同步 + DMD 7.5× 加速 四大技术突破,在人类偏好评估中全面超越 HappyOyster、在视觉美学上超越 Wan 2.6,证明了自己已经挤入全球 AI 视频生成的第一梯队。

当然,46GB 显存门槛 + 学术许可限制 + 部分功能未发布 意味着它还不是「字」级的工具。但作为一个发布仅 4 天的开源项目,801 Stars 的增长速度已经说明了一切。

🏆 一句话总结: 京东开源的 JoyAI-Echo 是全球首个 5 分钟级跨模态音视频联合生成模型,在长视频一致性上达到开源最佳,但 48GB 显存门槛和学术许可限制让人又爱又恨。


原文链接 https://www.yijunzhao.cn/archives/jing-dong-kai-yuan-joyai-echo-5-minutes-long-video-first-echelon

欢迎访问 小易撩挨踢

https://www.yijunzhao.cn/


评论