从huggingface增量下载大量数据

最近Emilia数据集又发布了11.4万小时语音数据YODAS，之前我已经下载了10万小时数据，由于之前处理数据后没有保存原始仓库，导致无法直接git pull更新。

开始下载之前，先确认存储空间是否充足，比如11.4万小时的YODAS需要2TB存储空间。这个数据集托管在huggingface上，可以通过python函数指定下载子目录，

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="amphion/Emilia-Dataset",
    repo_type="dataset",
    allow_patterns=["Emilia-YODAS/**"],
    local_dir="./Emilia-YODAS",
    tqdm_class=None
)

支持多线程下载，而且有进度条：

如果中途下载中断了，再次运行会自动跳过已下载的文件，非常方便。这个方法也适用于其他在huggingface上托管的大型数据集，可以根据需要只下载特定的子目录。

参考资料

Downloading files