训练数据工程：采集、清洗、去重、过滤、标注、合成和数据治理