网站Logo 爱喝水的木子
音频数据集

音频数据集

以下是针对提供的音频数据集列表生成的简明摘要: --- ### **音频数据集摘要** 该列表汇总了 **13个** 专业音频数据集,涵盖**情感语音识别、深度伪造检测、文本转语音(TTS)及语音分类**四大核心领域,均来自Kaggle平台。关键特征如下: 1. **情感语音识别** - 包含 **RAVDESS**(590MB)、**TESS**、**Speech Emotion Recognition** 及 **EmoV-DB** 等数据集,专注于多语言(英语为主)情感分类(如愤怒、喜悦、悲伤)。 2. **深度伪造音频检测** - **Fake-or-Real (FoR)**(20GB)、**ASVspoof 2019**(25GB)及 **WaveFake**(29GB)提供大规模真实与伪造音频样本,用于AI生成语音的鉴别研究。 3. **文本转语音(TTS)** - 覆盖多语言TTS数据集: - **波斯语**(30小时,4GB)、**僧伽罗语**(多说话人)、**英语**(LibriTTS 8GB、Karen US Female、Cleaned Jane Eyre LJSpeech),支持语音合成模型训练。 4. **其他专业数据集** - **Audio MNIST**:音频化的数字识别数据集(0-9发音),适用于语音分类任务。 **数据规模**:从 **590MB**(RAVDESS)到 **30GB+**(WaveFake),满足轻量实验到大规模训练需求。 **语言覆盖**:英语为主,辅以波斯语、僧伽罗语等小众语言。 **应用场景**:情感分析、反深度伪造、多语言语音合成、语音分类等AI研究。 --- 此摘要突出数据集的**领域分类、规模范围、语言多样性及核心应用**,便于快速定位资源。

2
0
idea