微调与对齐：SFT、LoRA、QLoRA、DPO、RLHF、RLAIF和偏好数据