🎬 京东开源 JoyAI-Echo：5 分钟 AI 长视频不翻车，杀入全球第一梯队

801 Stars · 发布即开源 · 京东 Joy 未来学院重磅出品 · 基于 LTX 2.3 深度改造

🔥 一、背景：一个「不务正业」的电商巨头，做出了 AI 视频领域的「国家队选手」

2026 年 6 月 2 日，京东开源了一个名为 JoyAI-Echo 的 AI 长视频生成模型。「京东做 AI 视频？」——这可能是大多数人看到这条新闻的第一反应。

但或许更令人意外的是，JoyAI-Echo 发布时声称：它是全球首个能同时实现「5 分钟级多镜头长视频 + 实时推理 + 对话式交互 + 高分辨率」的开源方案。

关键信息	数据
研发团队	京东 Joy 未来学院 · Echo 团队
开源时间	2026 年 6 月 2 日
GitHub Stars	801（发布 4 天）
代码许可	学术/非商业用途（基于 LTX-2 社区许可）
模型权重	约 46 GB（safetensors）
文本编码器	Google Gemma 3-12B-IT
基础架构	LTX 2.3（Lightricks）深度改造
论文	ResearchGate 已发布技术报告

京东为什么要做这个？从技术背景看，京东 Joy 未来学院是京东旗下的 AI 前沿研究机构，Echo 团队此前还发布过Echo-Memory和Echo-Infinity（65 Stars，实时无限视频生成）等论文。JoyAI-Echo 是其长视频方向的最新集大成之作。

🔥 一句话总结： 京东在 AI 视频赛道上选择了「长视频+跨模态记忆+交互式生成」这个差异化方向，直接对标全球顶级选手。

⚡ 二、核心技术：四大突破

🎞️ 1. 分钟级多镜头故事生成

从一段 Prompt JSON 就能生成一连串连贯的镜头序列。每个镜头保持角色外观、声音音色的一致性——这是当前所有视频生成模型最难攻克的问题。

🧠 2. 跨模态音视频记忆库（核心创新）

JoyAI-Echo 的核心创新在于一个跨模态音视频记忆库：

当前镜头会参考前序镜头的视觉身份和语音上下文
角色面部、穿着、音色、嘴型-声音对应关系在5 分钟视频中保持一致
类似电影的「连续性剪辑」——角色在第 1 秒出现的样子，在第 4 分 59 秒不会变

这是 JoyAI-Echo 对 HappyOyster（竞品）实现「决定性超越」的关键原因。

⚡ 3. DMD 蒸馏推理：7.5× 加速

JoyAI-Echo 采用了 Distribution Matching Distillation（DMD） 蒸馏技术，将原始多步推理管线加速了 7.5 倍。这意味着：

46GB 模型也能做到接近实时的推理速度
长视频生成从「等数小时」压缩到「等数分钟」
适合流式生成场景

🎙️ 4. 端到端音视频联合生成

大部分视频模型只生成画面（然后另配音频），JoyAI-Echo 一个管线同时生成视频和同步音频——包括人对白、环境音、背景音乐。

🤖 Director Agent（交互式导演代理）

尚未发布的亮点： 用户可以用自然语言对话来编辑视频——"把女主角改成红头发"、"这个场景换成夜晚"——Director Agent 会自动改写结构化剧本、镜头、角色，然后重新生成。

📊 三、性能数据：一脚踏进全球第一梯队

实测结果

指标	JoyAI-Echo 表现
生成长视频时长	5 分钟
推理加速比	7.5×（DMD 蒸馏）
基准故事数	100 个
评估镜头数	3,000 个
每镜头帧数	241 帧 @ 25 fps
默认分辨率	1280 × 736
GPU 最低配置	48 GB（H100/A100 80GB 推荐）
峰值显存	46-50 GB

人类偏好评估（GSB）

长视频对比（vs HappyOyster Directing 模式）：

评估维度	JoyAI-Echo	平局	HappyOyster
视觉美学	63.6% 🏆	8.8%	27.6%
音频质量	81.7% 🏆	6.5%	11.8%
Prompt 遵循度	80.6% 🏆	13.5%	5.9%
IP 一致性	59.4% 🏆	12.9%	27.7%

惊人的全维度领先——特别是音频质量 81.7% vs 11.8%，差距近 7 倍。

短视频对比（vs Wan 2.6 —— 阿里云的视频专家模型）：

评估维度	JoyAI-Echo	平局	Wan 2.6
视觉美学	58.8% 🏆	14.7%	26.5%
音频质量	32.3%	30.9%	36.8%
Prompt 遵循度	33.8% 🏆	36.8%	29.4%

在视觉美学上超越「短视频专家」Wan 2.6。音频质量方面仍有差距，但差距不大。

🧩 四、安装部署：48GB 显存的门槛

bash

git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo
conda env create -f environment.yml
conda activate echo-long

下载模型权重（共约 70 GB）：

文件	大小	来源
`echo-longvideo-release.safetensors`	~46 GB	Hugging Face
`gemma-3-12b-it/`	~24 GB	Google

运行推理：

python inference.py

⚠️ 硬件要求： 默认 1280×736 分辨率 + 241 帧需要 46-50 GB 显存（H100/A100 80GB 或 RTX 6000 48GB）。12GB 显卡可降低分辨率和帧数运行。

🔥 五、亮点与优势

对比全球主要 AI 视频模型

模型	时长	音视频同步	对话编辑	开源	推理速度	品牌
JoyAI-Echo 🏆	5 分钟	✅	✅（即将）	✅	⚡ 7.5×	京东
Wan 2.6	~30 秒	❌	❌	❌ API	快	阿里云
Sora (OpenAI)	~60 秒	❌	❌	❌	慢	OpenAI
Kling (快手)	~2 分钟	❌	❌	❌	中等	快手
Vidu (生数科技)	~30 秒	❌	❌	❌	中等	生数
Pika	~10 秒	❌	❌	❌	快	Pika Labs
Runway Gen-3	~10 秒	❌	❌	❌	快	Runway
CogVideo	~30 秒	❌	❌	✅	中等	智谱AI
Open-Sora-Plan	~10 秒	❌	❌	✅	中等	北大

最大差异化亮点

5 分钟长视频 + 端到端音视频同步 —— 全球开源首例
跨模态记忆库保持剧情一致性 —— 角色不会出现「上一秒长发、下一秒短发」的问题
DMD 7.5× 加速 —— 让长视频生成变得可行
自然语言对话式编辑 —— 即将发布的 Director Agent
京东出品 —— 中国电商巨头入局 AI 视频，生态潜力巨大

⚠️ 六、差距与不足

问题	描述	严重程度
硬件门槛高	46GB+ 显存需求，普通玩家难以触及	🔴 严重
仅限学术/非商业	基于 LTX-2 社区许可，商用需联系 Lightricks	🔴 严重
不支持图生视频（I2V）	当前仅支持文本生成视频	🟡 中度
音频质量待提升	短视频对比中音频落后 Wan 2.6（32.3% vs 36.8%）	🟡 中度
Direrctor Agent 未发布	对话编辑功能还在 TODO 中	🟡 暂时
IP 一致性仍有改进空间	长视频 IP 一致性 59.4%，虽然领先但仍有近 40% 用户偏好竞品	🟢 轻微
生态成熟度	发布仅 4 天，社区插件（ComfyUI 节点等）刚刚起步	🟢 自然
与 LTX 2.3 的版权关系	底层依赖 Lightricks，未来商业化的独立性存疑	🟡 中度

与 Wan 2.6 的真实差距

虽然 JoyAI-Echo 在视觉美学上超越了 Wan 2.6（58.8% vs 26.5%），但需要认识到：

Wan 2.6 是短视频模型，两者的定位不同——JoyAI-Echo 的长视频能力框架更复杂
Wan 2.6 的推理速度更快（API 调用几乎实时）
Wan 2.6 的生态成熟——已经上线阿里云 DashScope，有完整商业服务
暂时没有直接的长视频基准——两者的长度差距太大（5 分钟 vs 30 秒），直接比较不完全公平

🧭 七、与其他京东 AI 开源项目的关系

JoyAI-Echo 并非京东的孤立项目。Echo 团队还有两个关键配套工作：

项目	定位	Stars
Echo-Memory	可学习记忆机制（论文）	—
Echo-Infinity	实时无限视频生成（论文）	65
JoyAI-Echo 🏆	5 分钟音视频联合生成部署版	801

三者构成从「记忆机制研究」→「无限视频生成」→「商业化部署」的完整链路。

📈 八、未来发展方向

可预见的演进路径

图生视频（I2V）支持 —— 官方已确认正在开发中
Director Agent 发布 —— 对话式编辑视频，从「生成」走向「共创」
Echo-SR 超分辨率模块 —— 提升 1K 以上高清输出
边缘端/消费级适配 —— 降低显存需求，从 H100 走向消费级显卡
商业化许可 —— 与 Lightricks 合作解决商用授权问题
ComfyUI 生态建设 —— 社区节点已出现，但官方支持还在路上
电商场景深度集成 —— 京东自身的商品视频、广告创意、直播带货场景

京东的差异化竞争策略

与阿里（Wan 系列）、快手（Kling）、生数（Vidu）、智谱（CogVideo）不同，京东的切入点是：

长视频 + 一致性 —— 不是和竞品比「几秒的短片谁更炫」，而是做「谁来拍一个 5 分钟不翻车的故事」
音视频同步 —— 大部分模型忽略的音频模态，JoyAI-Echo 原生集成
交互式生成 —— Director Agent 让视频生成的"控制权"回到用户手中

🔥 核心判断： JoyAI-Echo 不是下一个 Sora——它选择了一条更务实但同样艰苦的技术路线：先解决「长」和「稳」的问题，再谈「快」和「美」。

📌 九、总结

JoyAI-Echo 是京东在 AI 视频生成领域的一次重磅出击。它以 5 分钟长视频 + 跨模态记忆一致性 + 端到端音视频同步 + DMD 7.5× 加速 四大技术突破，在人类偏好评估中全面超越 HappyOyster、在视觉美学上超越 Wan 2.6，证明了自己已经挤入全球 AI 视频生成的第一梯队。

当然，46GB 显存门槛 + 学术许可限制 + 部分功能未发布 意味着它还不是「字」级的工具。但作为一个发布仅 4 天的开源项目，801 Stars 的增长速度已经说明了一切。

🏆 一句话总结： 京东开源的 JoyAI-Echo 是全球首个 5 分钟级跨模态音视频联合生成模型，在长视频一致性上达到开源最佳，但 48GB 显存门槛和学术许可限制让人又爱又恨。

原文链接 https://www.yijunzhao.cn/archives/jing-dong-kai-yuan-joyai-echo-5-minutes-long-video-first-echelon

欢迎访问小易撩挨踢

https://www.yijunzhao.cn/

菜单

分享

🎬 京东开源 JoyAI-Echo：5 分钟 AI 长视频不翻车，杀入全球第一梯队

🔥 一、背景：一个「不务正业」的电商巨头，做出了 AI 视频领域的「国家队选手」

⚡ 二、核心技术：四大突破

🎞️ 1. 分钟级多镜头故事生成

🧠 2. 跨模态音视频记忆库（核心创新）

⚡ 3. DMD 蒸馏推理：7.5× 加速

🎙️ 4. 端到端音视频联合生成

🤖 Director Agent（交互式导演代理）

📊 三、性能数据：一脚踏进全球第一梯队

实测结果

人类偏好评估（GSB）

🧩 四、安装部署：48GB 显存的门槛

🔥 五、亮点与优势

对比全球主要 AI 视频模型

最大差异化亮点

⚠️ 六、差距与不足

与 Wan 2.6 的真实差距

🧭 七、与其他京东 AI 开源项目的关系

📈 八、未来发展方向

可预见的演进路径

京东的差异化竞争策略

📌 九、总结

评论

2026 年信创国产化产品名录（权威完整版）

Hermes Desktop 深度解析：Hermes Agent 的桌面伴侣

OpenCode爆火：17万Star！开源AI编码Agent的"顶流"是如何炼成的？

新加坡Agnes AI三款核心模型API无限期免费：东南亚AI赛道杀出的"价格屠夫"

MinIO 已死！2026 年最全开源替代方案终极指南

DeepSeek-V4-Pro 永久降价至1/4：国产大模型打响"价格战"第二枪

《高质量数据集分类指南》(TC609-5-2025-03) 标准规范深度解读

《高质量数据集格式要求》(TC609-5-2025-02) 标准规范深度解读

💾 2026 年 NAS 全面横评：极空间/绿联/华为 vs 群晖/威联通，国产品牌逆袭了吗？

Nous Research正式发布官方桌面客户端Hermes Desktop：AI智能体有了"原生之家"