引言
LPM 1.0 是一款开创性的基于视频的角色表演模型,旨在通过简单的输入(如图像和音频)生成实时、富有表现力的视频。它将静态图片转化为动态的、能够进行全双工对话的说话头像,让数字角色感觉真正活了起来。
什么是 LPM 1.0?
LPM 1.0 代表 Large Performance Model 1.0。它是一个先进的人工智能模型,专门设计用于为数字角色生成实时视频表演。它解决的核心问题是让人工智能驱动的头像、NPC(非玩家角色)和虚拟代理看起来和感觉起来更像人类。与简单的说话头部生成器不同,LPM 1.0 专注于在长时间内创建细致入微、身份一致的表演,包括自然的微表情、情感传达和肢体语言。它适用于创建对话代理的开发者、需要富有表现力的 NPC 的游戏工作室、直播的内容创作者以及人机交互领域的研究人员。它提供全双工会话视频的能力——在说话和聆听状态之间无缝切换——使其朝着更具沉浸感和自然的数字交互迈出了重要一步。
LPM 1.0 的核心功能
身份保持
LPM 1.0 通过使用来自参考图像的多粒度身份条件,确保角色始终看起来像他们自己,保留牙齿、表情皱纹和侧面几何形状等精细细节,而不会产生幻觉。
多模态可控性
该模型通过统一三种自然输入提供了细粒度的导演控制:用于动作的文本、用于情感和语音的音频以及用于角色定义的图像,所有这些都在单次生成过程中完成。
角色泛化
它能够为广泛的角色风格生成富有表现力的表演——从逼真的真人到 2D 动漫、3D 游戏模型,甚至是非人形生物——无需进行任何模型微调。
长期稳定性
专为无限互动而构建,其在线流媒体架构能够在数小时甚至数天内保持稳定且身份一致的视频生成,防止视觉质量随时间下降。
全双工会话
LPM 1.0 捕捉现场对话的全部范围,根据用户音频实时生成适当的聆听行为(点头、眼神变化),并根据响应音频生成精确的说话表演(唇形同步、身体节奏)。
富有表现力的情感表演
该模型擅长生成情感传达准确的视频,从细微的微表情到悲伤、恐惧或喜悦等强烈的情感表达,并伴有自然的表演和呼吸节奏。
LPM 1.0 的用例
对话式人工智能头像
LPM 1.0 可作为人工智能聊天机器人和虚拟助手的视觉引擎,为其提供逼真的说话视频形象,从而在实时对话中增强用户参与度。
游戏 NPC 和虚拟影响者
游戏开发者和内容创作者可以使用它为 NPC 或数字影响者生成富有表现力、身份一致的视频,用于直播和互动式故事讲述。
互动教育和客户服务代理
该模型可以为教育导师或客户服务机器人提供支持,逼真、情感反应灵敏的视频头像可以改善沟通和用户信任,并具备长期稳定性。
原型设计和内容创作
动画师和电影制作人可以通过提供简单的图像和音频输入,利用其角色泛化能力处理多种风格,快速原型化角色表演或生成视频内容。
如何使用 LPM 1.0
- 准备您的输入:收集您的角色的参考图像。可选地,提供来自不同角度或具有不同表情的额外图像以获得更好的身份保持。准备您的驱动音频(用于说话或唱歌)以及任何用于描述动作的文本。
- 与音频模型集成:对于全双工会话,将 LPM 1.0 与像 ChatGPT 这样的音频到音频模型连接起来。LPM 将根据音频流处理视频生成。
- 配置生成模式:根据对话状态指定模型应处于“说话”、“聆听”还是“静默”模式。提供相应的音频或文本输入。
- 生成和流式传输:运行模型。LPM 1.0 将处理多模态输入并流式传输生成的实时视频表演。对于长时间会话,其架构确保长期稳定性。
- 在您的应用中实现:使用生成的视频流来驱动您的对话代理、游戏角色或直播。
LPM 1.0 的目标受众
- 专注于多模态生成和人机交互的人工智能和机器学习研究人员。
- 创建下一代 NPC 和互动叙事的游戏开发者和工作室。
- 对话式人工智能和虚拟助手平台的开发者。
- 寻求快速为角色制作动画的工具的内容创作者和动画师。
- 在元宇宙、虚拟现实和数字人技术领域构建应用的科技公司。
LPM 1.0 是免费的吗?
根据官方网站,LPM 1.0 目前发布“仅限非商业学术用途”。这通常意味着这是一个以研究为重点的发布版本,在发布时没有商业定价计划。对商业应用感兴趣的用户应关注官方项目页面,以获取未来许可或 API 可用性的更新。
| 计划 | 价格 | 功能 |
|---|---|---|
| 学术/非商业用途 | 免费 | 用于研究、测试和非商业项目的模型访问权限。 |
| 商业用途 | 暂不可用 | 商业许可详情待公布。 |
LPM 1.0 的优点和缺点
| 方面 | 优点 | 缺点 |
|---|---|---|
| 表演质量 | 卓越的身份保持和情感表现力。高保真度的实时视频生成。 | 表演质量取决于输入参考图像和音频的质量。 |
| 技术 | 支持具有自然聆听行为的全双工会话。强大的跨多种风格的角色泛化能力。 | 目前仅限于非商业用途,限制了商业应用。 |
| 可用性 | 作为即插即用的视觉引擎,与兼容的音频模型配合使用。 | 需要与其他人工智能系统(如 A2A 模型)集成以实现完整的对话功能。 |
| 持久性 | 专为无限长度交互的长期稳定性而设计。 | 在线演示在状态切换时可能会出现轻微的音频-视频同步问题,正如备注中所指出的。 |
关于 LPM 1.0 的常见问题
LPM 1.0 需要什么样的输入来生成视频?
LPM 1.0 是一个基于视频的角色表演模型,使用多模态输入。至少,它需要一张角色的参考图像和一个音频片段。为了获得最佳效果,您还可以提供额外的参考图像和描述性文本提示来指导角色的动作和表情。
LPM 1.0 可以生成任何角色风格的视频吗?
是的,其核心功能之一就是角色泛化。它可以为逼真的真人、2D 动漫、3D 游戏角色,甚至是非人形生物(如动物)生成表演,所有这些都无需进行任何模型微调。
LPM 1.0 如何处理实时对话?
对于实时对话,LPM 1.0 与音频模型协同工作。当它接收到用户音频时,会生成带有聆听表情的流媒体视频。当人工智能模型的响应音频发回时,LPM 会切换为生成说话表演。在静默时刻,它会继续生成空闲行为,从而实现全双工会话。
生成的视频在长时间内稳定吗?
是的,LPM 1.0 专门为长期稳定性而设计。其在线流媒体框架旨在在长时间、可能无限长度的生成过程中保持角色身份和视觉质量的一致性,这对于实时互动至关重要。
LPM 1.0 的主要限制是什么?
当前的主要限制是其许可证,仅限非商业学术用途。技术上,如其网站所述,在对话演示中,音轨分离的错误可能会导致在说话-聆听切换时出现短暂的音频和视频同步问题。
LPM 1.0 只适用于说话,还是也能处理唱歌?
LPM 1.0 专为声乐表演设计,包括说话和唱歌。它的“说话流”可以将视位和上半身节奏与演唱音频对齐,创造出角色自然唱歌的表演。
LPM 1.0 标签
LPM 1.0,基于视频的角色表演模型,实时视频生成,全双工会话,人工智能头像,数字人,角色动画,身份一致生成,对话式人工智能,游戏 NPC,直播角色,情感人工智能,多模态人工智能,长期稳定视频,人工智能表演模型





