最近Emilia数据集又发布了11.4万小时语音数据YODAS,之前我已经下载了10万小时数据,由于之前处理数据后没有保存原始仓库,导致无法直接git pull更新。

开始下载之前,先确认存储空间是否充足,比如11.4万小时的YODAS需要2TB存储空间。这个数据集托管在huggingface上,可以通过python函数指定下载子目录,

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="amphion/Emilia-Dataset",
    repo_type="dataset",
    allow_patterns=["Emilia-YODAS/**"],
    local_dir="./Emilia-YODAS",
    tqdm_class=None
)

支持多线程下载,而且有进度条:

image.png

如果中途下载中断了,再次运行会自动跳过已下载的文件,非常方便。这个方法也适用于其他在huggingface上托管的大型数据集,可以根据需要只下载特定的子目录。

参考资料

Downloading files


© 2025 Binbin Shen.