import { Alert } from '@/components/mdx/alert';
Token Là Gì — Đơn Vị Tiền Tệ Của LLM
TL;DR: Token là đơn vị nhỏ nhất mà LLM xử lý — khoảng 4 ký tiếng Anh hoặc 0.7 từ tiếng Việt. Mọi thứ bạn trả cho AI đều tính bằng token: input (prompt) và output (response). Hiểu token = hiểu chi phí + giới hạn + cách tối ưu khi làm việc với AI.
Token Là Gì?
Token không phải là từ (word). Token là mảnh nhỏ của text mà LLM chia ra để xử lý.
Text: "Hello world, this is AI"
Tokens: ["Hello", " world", ",", " this", " is", " AI"]
→ 6 tokens
Token trong tiếng Việt
Tiếng Việt phức tạp hơn tiếng Anh vì có dấu, ghép từ, và cấu trúc khác biệt.
Text: "Xin chào, tôi là AI assistant"
Tokens: ["Xin", " chào", ",", " tôi", " là", " AI", " assistant"]
→ 7 tokens ≈ 5 từ tiếng Việt
ℹ️ Info: Quy tắc ngón tay cái:
- Tiếng Anh: 1 token ≈ 4 ký tự ≈ 0.75 từ
- Tiếng Việt: 1 token ≈ 1 từ (vì có dấu và từ phức)
- 1000 tokens ≈ 750 từ tiếng Anh ≈ 700 từ tiếng Việt
Tại Sao Token Quan Trọng?
1. Token = Tiền 💰
Mọi LLM đều tính phí theo token. Bảng giá tham khảo (2026):
| Model | Input (per 1M tokens) | Output (per 1M tokens) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4 mini | $0.75 | $4.50 |
| GPT-5.4 nano | $0.20 | $1.25 |
| Claude Opus 4.7 | $5.00 | $25.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| Claude Haiku 4.5 | $1.00 | $5.00 |
| MiniMax M2.7 | $0.30 ✅ | $1.20 ✅ |
| DeepSeek V3.2 | $0.28 ✅ | $0.42 ✅ |
| Qwen 3.6-plus | $0.50 | $3.00 |
| Qwen 3.5-plus | $0.40 | $2.40 |
| Qwen 3.5-flash | $0.10 | $0.40 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
| Gemini 3 Flash | $0.50 | $3.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 |
AI Coding Tools — Subscription Model
Ngoài per-token pricing, một số AI coding tools dùng subscription model (trả phí hàng tháng, không giới hạn token):
| Tool | Plan | Giá | Giới hạn | Use case |
|---|---|---|---|---|
| Cursor | Pro | $20/tháng | 500k tokens/tháng | Individual developer |
| Pro+ | $60/tháng | 3x Pro (1.5M tokens) | Heavy coding | |
| Ultra | $200/tháng | 20x Pro | Teams, enterprise | |
| Claude Code | Pro | $17/tháng | Included in Claude Pro | CLI coding, agentic tasks |
| Business | $25/user/tháng | Unlimited + admin features | Team usage |
ℹ️ Info: So sánh: Per-token model tốt khi bạn dùng ít nhưng cần nhiều providers khác nhau. Subscription model tốt khi bạn code nhiều, dùng unlimited — không phải tính tiền từng prompt.
⚠️ Warning: Lưu ý: Output thường đắt gấp 3-5x Input. Vì model phải "nghĩ" để sinh ra response — tốn nhiều compute hơn đọc input.
Ví dụ tính cost thực tế
Bạn yêu cầu Claude viết email marketing:
Prompt của bạn: 200 tokens
Email Claude viết: 800 tokens
Total: 1,000 tokens
Cost (Claude Sonnet 4.6):
Input: 200 × $3/1M = $0.0006
Output: 800 × $15/1M = $0.012
Total: $0.0126 ≈ 320 VNĐ
→ 1 email ≈ 320 VNĐ. Rẻ! Nhưng scale lên 10,000 emails = 3.2 triệu VNĐ.
2. Token = Tốc Độ 🚀
Nhiều token = chậm hơn. LLM phải process từng token một — sequential, không parallel được.
| Tokens | Thời gian xấp xỉ |
|---|---|
| 1,000 | ~2-3 giây |
| 10,000 | ~10-15 giây |
| 50,000 | ~30-60 giây |
| 100,000 | ~1-2 phút |
3. Token = Giới Hạn Bộ Nhớ 🧠
Mỗi LLM có context window — số token tối đa nó "nhớ" được trong 1 conversation:
| Model | Max Context | Tương đương |
|---|---|---|
| GPT-5.4 / mini / nano | 128K | ~100 trang sách |
| Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5 | 200K | ~150 trang sách |
| Gemini 2.5 Pro | 1M | ~750 trang sách |
| Gemini 3.1 Pro | 200K | ~150 trang sách |
| Gemini 3 Flash | 128K | ~100 trang sách |
| DeepSeek V3.2 | 128K | ~100 trang sách |
| MiniMax M2.7 | 256K | ~200 trang sách |
| Qwen 3.5-flash | 1M | ~750 trang sách |
| Qwen 3.5-plus / Qwen 3.6-plus | 1M | ~750 trang sách |
| Qwen 3-max | 252K | ~200 trang sách |
ℹ️ Info: Context window KHÔNG phải là bộ nhớ dài hạn. Khi conversation mới, AI "quên" hết conversation cũ. Context = bộ nhớ ngắn hạn trong 1 session.
Input vs Output Tokens
| Input Tokens | Output Tokens | |
|---|---|---|
| Là gì? | Text bạn gửi cho AI | Text AI trả về |
| Bao gồm | Prompt, system message, conversation history | Response của AI |
| Giá | Rẻ hơn | Đắt hơn (3-5x) |
| Control | Bạn control được | AI control (khó predict) |
Max Output Tokens
Ngoài context window, LLM còn có giới hạn max output tokens — số token tối đa nó có thể sinh ra trong 1 response:
| Model | Max Output |
|---|---|
| GPT-5.4 series | 16K |
| Claude Sonnet 4.6 | 8K |
| Claude Opus 4.7 | 8K |
| Gemini 2.5 Pro | 64K |
→ Nếu bạn yêu cầu "viết sách 100 trang", AI sẽ cut giữa chừng vì vượt quá max output tokens.
5 Tips Tối Ưu Token (Tiết Kiệm Tiền)
Tip 1: Prompt ngắn gọn
❌ Tốn token:
Bạn là một trợ lý AI rất thông minh và hữu ích, được thiết kế để giúp đỡ người dùng trong mọi tình huống. Hôm nay tôi muốn nhờ bạn giúp tôi viết một cái email để gửi cho khách hàng của tôi về việc...
(~50 tokens, 90% là filler)
✅ Tiết kiệm:
Viết email gửi khách hàng: thông báo delay shipment 3 ngày, xin lỗi, đền voucher 10%.
Tip 2: Dùng model rẻ cho task đơn giản
| Task | Model nên dùng | Lý do |
|---|---|---|
| Tóm tắt text | Gemini Flash / Haiku | Rẻ, nhanh, đủ tốt |
| Viết code phức tạp | Claude Sonnet 4.6 / GPT-5.4 | Cần reasoning sâu |
| Chat thông thường | Haiku / Flash | Không cần model đắt |
| Phân tích data lớn | Claude (200K context) | Cần context window lớn |
Tip 3: Chia task lớn thành nhiều task nhỏ
Thay vì gửi 1 prompt 50K tokens → chia thành 5 prompts 10K tokens:
- Prompt 1: Tóm tắt chương 1-3
- Prompt 2: Tóm tắt chương 4-6
- ...
Tip 4: Không gửi conversation history không cần thiết
Khi conversation dài, history chiếm nhiều token. Thỉnh thoảng nên:
- Tóm tắt conversation cũ
- Start conversation mới với context đã compress
Tip 5: Dùng temperature thấp cho task cần chính xác
Temperature = 0.1 → Output nhất quán, ít token waste
Temperature = 0.9 → Output creative, có thể dài hơn cần thiết
Token trong Công Việc Tại Diginno
| Project | Token dùng | Cost ước tính | Optimization |
|---|---|---|---|
| Generate n8n workflow | 5K tokens/task | ~5,000 VNĐ | Dùng Haiku cho task đơn giản |
| Phân tích data khách hàng | 50K tokens/report | ~50,000 VNĐ | Chia nhỏ data, compress context |
| Viết documentation | 20K tokens/doc | ~20,000 VNĐ | Prompt ngắn, output có limit |
| Customer support bot | 2K tokens/chat | ~2,000 VNĐ | Cache response, dùng Flash |
Bài Tập Thực Hành
Task 1: Đếm token
- Mở tiktokenizer.com hoặc tool đếm token tương đương
- Paste đoạn text tiếng Việt 100 từ
- Check xem có bao nhiêu tokens → so sánh với ước tính 1 token ≈ 1 từ
Task 2: Tính cost
- Viết 1 prompt yêu cầu AI generate 1 email (khoảng 200 từ)
- Đếm input tokens + output tokens
- Tính cost theo bảng giá Claude Sonnet 4.6
Task 3: Test optimization
- Viết 1 prompt dài (50+ từ) → count tokens
- Rewrite prompt ngắn gọn (15 từ) → count tokens
- So sánh output của 2 prompts → có khác nhau không?
Tóm Tắt
| Khái niệm | Nội dung |
|---|---|
| Token | Đơn vị nhỏ nhất LLM xử lý (~4 ký tự EN, ~1 từ VN) |
| Input tokens | Text bạn gửi AI → rẻ |
| Output tokens | Text AI trả về → đắt (3-5x) |
| Context window | Max tokens AI "nhớ" trong 1 session |
| Max output | Max tokens AI có thể sinh trong 1 response |
| Tip #1 | Prompt ngắn gọn = tiết kiệm tiền |
| Tip #2 | Chọn model phù hợp task |
| Key takeaway | Token = tiền + tốc độ + giới hạn. Tối ưu token = tối ưu mọi thứ. |
Bài Tiếp Theo
→ Bài 3: Context — Bộ Nhớ Của AI
← Bài 1: LLM — Bộ Não Đứng Sau AI
Liên hệ tư vấn
- Hotline: 0816226086
- Email: contact@diginno.net
- Website: diginno.net
Bài viết hữu ích?
Chia sẻ để nhiều người biết đến!
>_ LLM-Friendly Copy
Copy as Markdown to use with ChatGPT, Claude, or other AI tools