Token与词元化原理：BPE、SentencePiece、中文切分、成本与上下文预算