爱诗科技发布全球首个通用实时世界模型PixVerse R1

1月13日晚,爱诗科技正式发布PixVerse R1,全球首个支持最高1080P分辨率通用实时世界模型:一个基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建的下一代实时世界模型。

该模型首次将视频生成的延迟从“秒级”降至“即时”响应,实现了“所想即所见、所说即所现”的实时交互体验,标志着AIGC领域的视频生成正式从“静态输出”迈入“实时交互”的全新阶段。PixVerse R1通过实现连贯且实时的生成,代表了全世界范围内视听媒体领域的一次重要演进。

PixVerse R1

在传统视频制作流程中,高延迟、固定时长生成是长期存在的痛点,难以满足用户对实时响应与内容共创的需求。PixVerse R1通过三大核心技术突破,系统性地解决了上述问题,推动数字媒体从“预录制回放”向“实时动态生成”演进。

三大核心技术突破,构建“实时交互世界引擎”

PixVerse R1 的发布,标志着 AI 视频生成正式迈入 “实时交互”时代。其背后并非单一技术的跃进,而是由 Omni 原生多模态基础模型、自回归流式生成机制,与瞬时响应引擎 三大技术支柱协同构建的完整“实时交互世界引擎”。

首先,Omni 原生多模态基础模型(Native Multimodal Foundation Model)打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构,具有高扩展性,模型统一Token流架构(stream of tokens),将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。更为关键的是,模型全程在原生分辨率下训练,避免了上采样带来的模糊与伪影。通过scaleup训练,使光影变化、物体运动与物理交互具备一致性和真实感。这意味着,AI 不再只是“画图”,而是在模拟一个符合现实场景的世界。

在此基础上,自回归流式生成机制(Consistent Infinite Streaming via Autoregressive Mechanism)解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的“流式交互”。画面突变、逻辑断裂等传统生成痛点,由此成为历史。

而让这一切“实时”成为可能的,是创造性的瞬时响应引擎(Instant Response Engine ——IRE)。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1–4 步,计算效率提升数百倍,让动态画面进入人眼可感知的“即时”响应阈值。不仅可以支撑高并发 API 服务,更为未来终端设备部署铺平道路。

三大核心技术环环相扣:Omni 提供现实世界的“计算基座”,自回归流式生成机制赋予其“持久记忆”,IRE 则注入即时反应的“神经反射”。它们共同构成了 PixVerse-R1 这一全球首个支持 1080P 实时生成的通用视频大模型,也正式开启了“视频即交互、世界可共创”的新范式。

从“观看”到“共创”:重新定义视频体验

PixVerse R1不仅仅是一个视频生成工具,更是一个“可交互的数字世界计算基础设施”。其应用场景覆盖游戏、影视、娱乐、创意等多个领域:

  • 游戏:非玩家角色(NPC)与环境可实时响应玩家操作;
  • 互动娱乐:观众通过语音或手势实时塑造剧情走向;
  • 共创体验:用户协同生成并重塑动态世界,涵盖科研实验、场景推演、经典影像重制到实时产品模拟。

例如,用户输入“一只猫跳上窗台,窗外下雨”,系统可同步生成1080P高清视频、雨声音效与动态光影;在交互过程中,若用户补充指令“把天空变成黄昏”,画面将在半秒内实现自然过渡。

从“回放过去”到“未来创作”

爱诗科技创始人兼CEO王长虎表示:“PixVerse R1是全新的媒体形式。第一次,AI可以基于用户的意图实时生成一个持续演化、物理上合理的世界。传统视频是被记录的历史,而PixVerse R1开创了‘正在发生的现在’的实时生成新纪元。无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能‘所想即所现’(As You Think)。创作与消费的边界逐渐模糊:视频消费者同时也是创作者,能够在观看的同时立即调整和生成新内容。我们相信,智能化媒体应实时响应用户意图,让每个人都能成为动态叙事的创作者。”

PixVerse R1的发布,不仅是视频生成技术模型上的突破,更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”,而是可交互、可延续、可共同演进的数字世界。

关于爱诗科技

爱诗科技创立于2023年4月,致力于打造全球领先的AI视频生成大模型及应用,以满足AGI时代视频领域的全新创作及消费需求,推动AI视频生成技术的普惠,帮助每一个人成为生活的导演。在AI视频生成领域,极短的时间在准确性、一致性等多个核心维度上实现了全球领先的生成效果。

公司海外版产品「PixVerse」 于2024年1月正式上线,国内版产品为「拍我AI」,目前全球用户量已超1亿,单月月活超1600万,拍我AI也并搭建了稳定的创作者生态。产品被全球创作者广泛应用于影视、广告、动漫等内容的制作中。

爱诗科技关键里程碑

自成立以来,爱诗科技持续推动AI 视频生成能力的边界,同时不断降低全球用户的使用门槛。2023 年 10 月,爱诗科技 在成立仅 6 个月后即推出PixVerse V1 版本,率先发布了业内首个可生成 4K 质量视频的 AI 视频生成模型,时间早于 Sora 模型的发布。2024年2月PixVerse V2上线并落地DiT架构,成为国内首家落地DiT架构的创业公司。

随后,PixVerse 成为全球首个实现“准实时”视频生成的平台。到 2024 年 10 月,PixVerse V3.5上线了封装提示词的模板特效。仅凭变身特效,PixVerse 在两个月内就新增了超过 1000 万全球用户,实现视频消费全球Chatgpt时刻。 2024 年 12 月,上线PixVerse 移动端应用APP,视频生成进入 10 秒视频生成时代

2025 年,PixVerse 持续推进极速生成技术迭代:2月PixVerse V4 实现5 秒内即可生成高质量 360p 视频,11月 V5 Fast上线, 30 秒即可生成 1080p 视频。平台于 5 月实现 6000 万全球用户规模;6月国内版拍我AI正式上线,PixVerse(拍我AI)在 8 月突破 1 亿用户

2025 年 9 月,爱诗科技完成超过 6000 万美元 B 轮融资,由阿里巴巴领投,达晨财智、深创投、北京市AI基金、湖南电广传媒、巨人网络和Antler等机构参与;到 10 月,平台的 年经常性收入(ARR)已超过 4000 万美元。随后于 10 月完成B+ 轮超过1亿元人民币融资,复星锐正、同创伟业、顺禧基金等参与投资

随着一致性和运动轨迹能力的持续提升,PixVerse(拍我AI) 于 12 月发布了 V5.5 Omni 视频生成模型。该模型同时支持基于分镜的创作方式与音画同步生成能力,将导演式创作思维封装进产品之中,使普通用户也能几乎零门槛地创作出具备电影质感的视频内容。

行业荣誉

  • 爱诗科技荣获36氪WISE2025商业之王「年度文化内容创新企业」、「AI 中国」机器之心2025年度「人工智能领军企业」、量子「2025人工智能年度榜单」的「年度潜力创业公司」;
  • PixVerse入选 a16z「全球 GenAI 消费级应用 Top 50」第 25 名;
  • PixVerse入选 The Information「2025 年最具潜力的 50 家初创公司」亚洲前三;
  • 在 Artificial Analysis 全球 AI 视频模型榜单(2025 年 9 月)中,PixVerse位列“图生视频(Image-to-Video)”类别排名 第 1,截至 1 月 5 日综合排名位列 前 5;
  • PixVerse 入选 AI for Good Global Summit 2025“Innovate for Impact”优秀案例集,被评为 杰出生产力应用案例
  • 拍我AI 获评AI产品榜「2025中国AI年度产品」
最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1