大模型应用测试：单元测试、金集、回归、红队、离线评估和线上A/B