甲方粑粑

帅气的我简直无法用语言描述！

文章55 网址7797 书籍0 软件41 评论0

MMAudio

MMAudio是一个多模态音频生成模型，旨在通过视频和/或文本输入生成高质量、同步的音频。

02860

AI大模型与GPT工具导航 # MMAudio

Hallo

Hallo 是一个由复旦大学（Fudan University）开发的开源项目，专注于音频驱动的视觉合成技术，特别是用于人像动画生成。

02240

AI大模型与GPT工具导航 # ai数字人 # Hallo # 数字人

SadTalker

SadTalker 是一个基于单张图像和音频生成说话人脸视频的模型，其核心功能是通过音频输入使静态图片中的图像动起来，并生成说话的虚拟人物。

02490

AI大模型与GPT工具导航 # SadTalker

Seedance

字节跳动开发的AI视频生成模型，模型能够根据文本或图像生成高质量的视频内容，支持多镜头切换、稳定运动轨迹和风格化控制，适用于创意内容创作、广告制作和教育演示等场景。

02450

AI大模型与GPT工具导航 # Seedance

MuseTalk

MuseTalk 是一个实时高质量音频驱动唇形同步模型，旨在解决高分辨率、身份一致性和准确唇形同步的面部视觉配音挑战，尤其适用于实时应用如直播视频。

02730

AI大模型与GPT工具导航 # MuseTalk

F5-TTS

一款高性能文本到语音（TTS）系统，基于流匹配的非自回归生成方法，结合了扩散变换器（DiT）技术。

02620

AI大模型与GPT工具导航 # F5-TTS

Seed-TTS

Seed-TTS 是由字节跳动开发的高级文本到语音（TTS）模型系列，旨在生成高质量、几乎无法与人类语音区分的语音。

03000

AI大模型与GPT工具导航 # Seed-TTS

MiniMind

MiniMind项目旨在从零开始训练一个轻量级语言模型（LLM），并提供完整的训练、微调、推理和部署流程。

02250

AI大模型与GPT工具导航 # MiniMind

gpt-oss

gpt-oss 是 OpenAI 开发的开源模型，支持推理、代理任务和开发者使用场景。

02620

AI大模型与GPT工具导航 # gpt-oss

Qwen-Image

Qwen-Image 是阿里通义千问团队于2025年8月5日开源的200亿参数图像生成基础模型，采用MMDiT架构，专为复杂文本渲染与高精度图像生成设计。

02400

AI大模型与GPT工具导航 # Qwen-Image # 通义千问

林哥的大模型野榜

“林哥的大模型野榜”是一个专注于中国用户需求的大模型产品排行榜，旨在帮助用户更好地了解和选择适合的大模型产品。

02570

AI大模型与GPT工具导航 # 大模型 # 大模型排行榜

Moondream

Moondream 是一个开源的轻量级视觉语言模型，由开发者 vikhyatk 推出，旨在提供高效、灵活的图像理解和文本生成能力。

03070

AI大模型与GPT工具导航 # Moondream

豆包
Kimi
bilibili
添加应用
折叠dock栏