801 Stars · 发布即开源 · 京东 Joy 未来学院重磅出品 · 基于 LTX 2.3 深度改造
🔥 一、背景:一个「不务正业」的电商巨头,做出了 AI 视频领域的「国家队选手」
2026 年 6 月 2 日,京东开源了一个名为 JoyAI-Echo 的 AI 长视频生成模型。「京东做 AI 视频?」——这可能是大多数人看到这条新闻的第一反应。
但或许更令人意外的是,JoyAI-Echo 发布时声称:它是全球首个能同时实现「5 分钟级多镜头长视频 + 实时推理 + 对话式交互 + 高分辨率」的开源方案。
京东为什么要做这个?从技术背景看,京东 Joy 未来学院是京东旗下的 AI 前沿研究机构,Echo 团队此前还发布过Echo-Memory和Echo-Infinity(65 Stars,实时无限视频生成)等论文。JoyAI-Echo 是其长视频方向的最新集大成之作。
🔥 一句话总结: 京东在 AI 视频赛道上选择了「长视频+跨模态记忆+交互式生成」这个差异化方向,直接对标全球顶级选手。

⚡ 二、核心技术:四大突破
🎞️ 1. 分钟级多镜头故事生成
从一段 Prompt JSON 就能生成一连串连贯的镜头序列。每个镜头保持角色外观、声音音色的一致性——这是当前所有视频生成模型最难攻克的问题。
🧠 2. 跨模态音视频记忆库(核心创新)
JoyAI-Echo 的核心创新在于一个跨模态音视频记忆库:
当前镜头会参考前序镜头的视觉身份和语音上下文
角色面部、穿着、音色、嘴型-声音对应关系在5 分钟视频中保持一致
类似电影的「连续性剪辑」——角色在第 1 秒出现的样子,在第 4 分 59 秒不会变
这是 JoyAI-Echo 对 HappyOyster(竞品)实现「决定性超越」的关键原因。
⚡ 3. DMD 蒸馏推理:7.5× 加速
JoyAI-Echo 采用了 Distribution Matching Distillation(DMD) 蒸馏技术,将原始多步推理管线加速了 7.5 倍。这意味着:
46GB 模型也能做到接近实时的推理速度
长视频生成从「等数小时」压缩到「等数分钟」
适合流式生成场景
🎙️ 4. 端到端音视频联合生成
大部分视频模型只生成画面(然后另配音频),JoyAI-Echo 一个管线同时生成视频和同步音频——包括人对白、环境音、背景音乐。
🤖 Director Agent(交互式导演代理)
尚未发布的亮点: 用户可以用自然语言对话来编辑视频——"把女主角改成红头发"、"这个场景换成夜晚"——Director Agent 会自动改写结构化剧本、镜头、角色,然后重新生成。
📊 三、性能数据:一脚踏进全球第一梯队
实测结果
人类偏好评估(GSB)
长视频对比(vs HappyOyster Directing 模式):
惊人的全维度领先——特别是音频质量 81.7% vs 11.8%,差距近 7 倍。
短视频对比(vs Wan 2.6 —— 阿里云的视频专家模型):
在视觉美学上超越「短视频专家」Wan 2.6。音频质量方面仍有差距,但差距不大。

🧩 四、安装部署:48GB 显存的门槛
bash
git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo
conda env create -f environment.yml
conda activate echo-long下载模型权重(共约 70 GB):
运行推理:
python inference.py⚠️ 硬件要求: 默认 1280×736 分辨率 + 241 帧需要 46-50 GB 显存(H100/A100 80GB 或 RTX 6000 48GB)。12GB 显卡可降低分辨率和帧数运行。
🔥 五、亮点与优势
对比全球主要 AI 视频模型
最大差异化亮点
5 分钟长视频 + 端到端音视频同步 —— 全球开源首例
跨模态记忆库保持剧情一致性 —— 角色不会出现「上一秒长发、下一秒短发」的问题
DMD 7.5× 加速 —— 让长视频生成变得可行
自然语言对话式编辑 —— 即将发布的 Director Agent
京东出品 —— 中国电商巨头入局 AI 视频,生态潜力巨大
⚠️ 六、差距与不足
与 Wan 2.6 的真实差距
虽然 JoyAI-Echo 在视觉美学上超越了 Wan 2.6(58.8% vs 26.5%),但需要认识到:
Wan 2.6 是短视频模型,两者的定位不同——JoyAI-Echo 的长视频能力框架更复杂
Wan 2.6 的推理速度更快(API 调用几乎实时)
Wan 2.6 的生态成熟——已经上线阿里云 DashScope,有完整商业服务
暂时没有直接的长视频基准——两者的长度差距太大(5 分钟 vs 30 秒),直接比较不完全公平

🧭 七、与其他京东 AI 开源项目的关系
JoyAI-Echo 并非京东的孤立项目。Echo 团队还有两个关键配套工作:
三者构成从「记忆机制研究」→「无限视频生成」→「商业化部署」的完整链路。
📈 八、未来发展方向
可预见的演进路径
图生视频(I2V)支持 —— 官方已确认正在开发中
Director Agent 发布 —— 对话式编辑视频,从「生成」走向「共创」
Echo-SR 超分辨率模块 —— 提升 1K 以上高清输出
边缘端/消费级适配 —— 降低显存需求,从 H100 走向消费级显卡
商业化许可 —— 与 Lightricks 合作解决商用授权问题
ComfyUI 生态建设 —— 社区节点已出现,但官方支持还在路上
电商场景深度集成 —— 京东自身的商品视频、广告创意、直播带货场景
京东的差异化竞争策略
与阿里(Wan 系列)、快手(Kling)、生数(Vidu)、智谱(CogVideo)不同,京东的切入点是:
长视频 + 一致性 —— 不是和竞品比「几秒的短片谁更炫」,而是做「谁来拍一个 5 分钟不翻车的故事」
音视频同步 —— 大部分模型忽略的音频模态,JoyAI-Echo 原生集成
交互式生成 —— Director Agent 让视频生成的"控制权"回到用户手中
🔥 核心判断: JoyAI-Echo 不是下一个 Sora——它选择了一条更务实但同样艰苦的技术路线:先解决「长」和「稳」的问题,再谈「快」和「美」。
📌 九、总结
JoyAI-Echo 是京东在 AI 视频生成领域的一次重磅出击。它以 5 分钟长视频 + 跨模态记忆一致性 + 端到端音视频同步 + DMD 7.5× 加速 四大技术突破,在人类偏好评估中全面超越 HappyOyster、在视觉美学上超越 Wan 2.6,证明了自己已经挤入全球 AI 视频生成的第一梯队。
当然,46GB 显存门槛 + 学术许可限制 + 部分功能未发布 意味着它还不是「字」级的工具。但作为一个发布仅 4 天的开源项目,801 Stars 的增长速度已经说明了一切。
🏆 一句话总结: 京东开源的 JoyAI-Echo 是全球首个 5 分钟级跨模态音视频联合生成模型,在长视频一致性上达到开源最佳,但 48GB 显存门槛和学术许可限制让人又爱又恨。
原文链接
欢迎访问 小易撩挨踢