Recent Posts
浙大开源快速扩散语音合成模型FastDiff和ProDiff
作者:黄融杰 扩散模型在深度生成模型中自成一派,最近成为最热门的话题之一。扩散模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。 扩散生成模型将生成式建模领域的标准提高到了一个全新的水平。迄今为止,扩散模型已被应用于各种生成式语音建模任务,如语音合成(speech ...
2025-02-21
ICLR 2023 | TranSpeech:高质量非自回归语音到语音翻译
Read More
作者:黄融杰 语音到语音翻译(S2ST)对于打破语言壁垒与沟通障碍非常有益。传统的 S2ST 系统通常由语音识别(ASR),机器翻译(MT)和语音合成(TTS)三部分组成。与这些级联系统相比,直接 S2ST 能够用于翻译没有书面形式的语言;减少了计算需求,降低了推理延迟;还避免子系统之间的误差传递。...
2025-02-21
音频大模型评测Bench:AIR-Bench(ACL 2024)
Read More
作者:杨千 我们的AIR-Bench是第一个关于音频理解大模型全面评估的Benchmark,在音频大模型迈向gpt4o的时代,相信AIR-Bench可以帮助大家更好的评估音频大模型,我们也希望我们的工作可以启发之后的音频大模型评估工作。 首先简单介绍一下背景,以往全面评估音频相关模型的benchma...
2025-02-12
多兴趣向量重构用户向量
Read More
作者:张圣宇 论文:《Re4: Learning to Re-contrast, Re-attend, Re-construct for Multi-interest Recommendation》 一般的多兴趣建模过程是对用户序列进行编码,抽取出用户的多个兴趣向量,然后利用这些用户兴趣向量进行下一...
2025-02-12
NeurIPS 2023 | 跨模态提示:微调大型预训 练模型适应音视频下游任务
Read More
作者:段皞一 近年来,在音视频下游任务中部署大规模预训练模型已经取得了显著的成果。然而,这些模型主要是在单模态非受限数据集上进行训练的,仍然在多模态任务的特征提取方面面临挑战。这个局限性是因为在编码过程中引入了无关的模态特定信息,对下游任务的性能产生了不利影响。我们发表于 NeurIPS 2023的...
2025-02-12
ICLR Spotlight | 仅需单张照片,说话人在画面中真实运动,下一代单图驱动虚拟人技术来了?
Read More
作者:叶振辉 近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多App中,看到了AIGC让单张照片开口说话的能力?尽管已经能够拥有清晰的画质和准确的口型,但现有的单图驱动虚拟人似乎还差了一点:呈现的结果中说话人往往采用和原图中说话人接近的头部姿态,无法像真人一样在画面中自由地运动。这是因为目...
2025-02-12
NeurIPS 2024|3D大模型助力数字人生成,数分钟即可训练高质量、个性化的数字人模型
Read More
作者:叶振辉 个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外...
2025-02-12
Read More