EchoMimic是阿里巴巴达摩院开发的一项AI技术,能够通过给定的音频和一张面部照片,生成与音频口型动作完美匹配的说话视频。该技术在娱乐、教育、虚拟现实和在线会议等领域有广泛应用前景。
最近更新: 11个月前LatentSync 是字节跳动推出的一种基于音频条件的端到端唇同步技术,通过潜在扩散模型和时间表示对齐技术(TREPA),实现高质量、时间一致的动态视频生成,并优化了 SyncNet 的收敛问题,使唇同步的准确性达到更高水平。实际测试下来,英文效果还行,但是中文效果欠佳,下方有测试的示例可以自行查看,总体来说就是凑活能用,追求中文高度唇形同步的就不用下载了。
最近更新: 11个月前TangoFlux 是一款创新的 AI 模型,专注于通过文本提示词生成高质量音效、背景音乐和其他声音片段。由新加坡科技设计大学和 NVIDIA 联合推出,它具有快速生成音频、长音频支持及自适应用户需求的能力,是音频生成领域的重要突破。
最近更新: 11个月前Video2X 是一款开源工具,专注于通过机器学习算法提升视频分辨率和视觉质量。它兼具高效性与灵活性,适用于动漫、电影、旧视频等多种场景的视频优化需求。
最近更新: 11个月前HivisionIDPhoto 是一款实用的证件照智能制作软件。它能够识别用户拍摄的各种场景,进行精确的背景抠图,并生成多尺寸的标准证件照。此外,未来的更新将包括智能换正装和美颜功能,使证件照制作更为便捷和专业。
最近更新: 11个月前DeepSeek 发布了 Janus-Pro 多模态大模型,这是 JanusFlow 的高级版本,Janus-Pro 在 训练策略、数据规模 和 模型容量 方面进行了优化,实现了 更强的多模态理解能力,更稳定的图像生成,并在 GenEval 和 DPG-Bench 基准测试中超越 Stable Diffusion 和 DALL·E 3。
最近更新: 11个月前近期新出的前景分割深度学习模型BEN2,它通过创新的置信度引导抠图(CGM)流程来优化抠图效果,尤其在处理低置信度像素时能提供更精确的分割。相比于其前身BEN模型以及市面上的其他开源模型,BEN2 在头发抠图、4K图像处理、目标分割和细化边缘方面表现突出。 BEN2:图片/视频抠图去背景工具 这边基于BEN2模型做了一个图片、视频抠图去背景工具,支持单张图片去背景、批量图片去背景以及视频去背景。
最近更新: 11个月前新出的幻脸软件,基本上就是从Rope及Rope先锋版等基础上二次开发的,用法及效果都差不多 注意:这类单图幻脸软件侧脸都会崩,面部频繁转动或者出镜也会导致捕捉不到面部而产生闪烁,介意请勿下
最近更新: 11个月前SPAR3D 是 Stability AI 推出的一种新型两阶段 3D 生成方法,能够以高效率生成几何形状和完整的 360 度视图的 3D 模型。
最近更新: 11个月前