最近Emilia数据集又发布了11.4万小时语音数据YODAS,之前我已经下载了10万小时数据,由于之前处理数据后没有保存原始仓库,导致无法直接git pull
更新。
开始下载之前,先确认存储空间是否充足,比如11.4万小时的YODAS需要2TB存储空间。这个数据集托管在huggingface上,可以通过python函数指定下载子目录,
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="amphion/Emilia-Dataset",
repo_type="dataset",
allow_patterns=["Emilia-YODAS/**"],
local_dir="./Emilia-YODAS",
tqdm_class=None
)
支持多线程下载,而且有进度条:
如果中途下载中断了,再次运行会自动跳过已下载的文件,非常方便。这个方法也适用于其他在huggingface上托管的大型数据集,可以根据需要只下载特定的子目录。
© 2025 Binbin Shen.