Token Là Gì — Đơn Vị Tiền Tệ Của LLM

@Nguyễn Ngô Thượng//~8 phút đọc0
Chia sẻ:

import { Alert } from '@/components/mdx/alert';

Token Là Gì — Đơn Vị Tiền Tệ Của LLM

TL;DR: Token là đơn vị nhỏ nhất mà LLM xử lý — khoảng 4 ký tiếng Anh hoặc 0.7 từ tiếng Việt. Mọi thứ bạn trả cho AI đều tính bằng token: input (prompt) và output (response). Hiểu token = hiểu chi phí + giới hạn + cách tối ưu khi làm việc với AI.


Token Là Gì?

Token không phải là từ (word). Token là mảnh nhỏ của text mà LLM chia ra để xử lý.

Text: "Hello world, this is AI"
Tokens: ["Hello", " world", ",", " this", " is", " AI"]
→ 6 tokens

Token trong tiếng Việt

Tiếng Việt phức tạp hơn tiếng Anh vì có dấu, ghép từ, và cấu trúc khác biệt.

Text: "Xin chào, tôi là AI assistant"
Tokens: ["Xin", " chào", ",", " tôi", " là", " AI", " assistant"]
→ 7 tokens ≈ 5 từ tiếng Việt

ℹ️ Info: Quy tắc ngón tay cái:

  • Tiếng Anh: 1 token ≈ 4 ký tự ≈ 0.75 từ
  • Tiếng Việt: 1 token ≈ 1 từ (vì có dấu và từ phức)
  • 1000 tokens ≈ 750 từ tiếng Anh ≈ 700 từ tiếng Việt

Tại Sao Token Quan Trọng?

1. Token = Tiền 💰

Mọi LLM đều tính phí theo token. Bảng giá tham khảo (2026):

Model Input (per 1M tokens) Output (per 1M tokens)
GPT-5.4 $2.50 $15.00
GPT-5.4 mini $0.75 $4.50
GPT-5.4 nano $0.20 $1.25
Claude Opus 4.7 $5.00 $25.00
Claude Sonnet 4.6 $3.00 $15.00
Claude Haiku 4.5 $1.00 $5.00
MiniMax M2.7 $0.30 ✅ $1.20 ✅
DeepSeek V3.2 $0.28 ✅ $0.42 ✅
Qwen 3.6-plus $0.50 $3.00
Qwen 3.5-plus $0.40 $2.40
Qwen 3.5-flash $0.10 $0.40
Gemini 3.1 Pro $2.00 $12.00
Gemini 2.5 Pro $1.25 $10.00
Gemini 3 Flash $0.50 $3.00
Gemini 2.5 Flash $0.30 $2.50
Gemini 2.5 Flash-Lite $0.10 $0.40

AI Coding Tools — Subscription Model

Ngoài per-token pricing, một số AI coding tools dùng subscription model (trả phí hàng tháng, không giới hạn token):

Tool Plan Giá Giới hạn Use case
Cursor Pro $20/tháng 500k tokens/tháng Individual developer
Pro+ $60/tháng 3x Pro (1.5M tokens) Heavy coding
Ultra $200/tháng 20x Pro Teams, enterprise
Claude Code Pro $17/tháng Included in Claude Pro CLI coding, agentic tasks
Business $25/user/tháng Unlimited + admin features Team usage

ℹ️ Info: So sánh: Per-token model tốt khi bạn dùng ít nhưng cần nhiều providers khác nhau. Subscription model tốt khi bạn code nhiều, dùng unlimited — không phải tính tiền từng prompt.

⚠️ Warning: Lưu ý: Output thường đắt gấp 3-5x Input. Vì model phải "nghĩ" để sinh ra response — tốn nhiều compute hơn đọc input.

Ví dụ tính cost thực tế

Bạn yêu cầu Claude viết email marketing:

Prompt của bạn: 200 tokens
Email Claude viết: 800 tokens
Total: 1,000 tokens

Cost (Claude Sonnet 4.6):
  Input: 200 × $3/1M = $0.0006
  Output: 800 × $15/1M = $0.012
  Total: $0.0126 ≈ 320 VNĐ

→ 1 email ≈ 320 VNĐ. Rẻ! Nhưng scale lên 10,000 emails = 3.2 triệu VNĐ.


2. Token = Tốc Độ 🚀

Nhiều token = chậm hơn. LLM phải process từng token một — sequential, không parallel được.

Tokens Thời gian xấp xỉ
1,000 ~2-3 giây
10,000 ~10-15 giây
50,000 ~30-60 giây
100,000 ~1-2 phút

3. Token = Giới Hạn Bộ Nhớ 🧠

Mỗi LLM có context window — số token tối đa nó "nhớ" được trong 1 conversation:

Model Max Context Tương đương
GPT-5.4 / mini / nano 128K ~100 trang sách
Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5 200K ~150 trang sách
Gemini 2.5 Pro 1M ~750 trang sách
Gemini 3.1 Pro 200K ~150 trang sách
Gemini 3 Flash 128K ~100 trang sách
DeepSeek V3.2 128K ~100 trang sách
MiniMax M2.7 256K ~200 trang sách
Qwen 3.5-flash 1M ~750 trang sách
Qwen 3.5-plus / Qwen 3.6-plus 1M ~750 trang sách
Qwen 3-max 252K ~200 trang sách

ℹ️ Info: Context window KHÔNG phải là bộ nhớ dài hạn. Khi conversation mới, AI "quên" hết conversation cũ. Context = bộ nhớ ngắn hạn trong 1 session.


Input vs Output Tokens

Input Tokens Output Tokens
Là gì? Text bạn gửi cho AI Text AI trả về
Bao gồm Prompt, system message, conversation history Response của AI
Giá Rẻ hơn Đắt hơn (3-5x)
Control Bạn control được AI control (khó predict)

Max Output Tokens

Ngoài context window, LLM còn có giới hạn max output tokens — số token tối đa nó có thể sinh ra trong 1 response:

Model Max Output
GPT-5.4 series 16K
Claude Sonnet 4.6 8K
Claude Opus 4.7 8K
Gemini 2.5 Pro 64K

→ Nếu bạn yêu cầu "viết sách 100 trang", AI sẽ cut giữa chừng vì vượt quá max output tokens.


5 Tips Tối Ưu Token (Tiết Kiệm Tiền)

Tip 1: Prompt ngắn gọn

❌ Tốn token:

Bạn là một trợ lý AI rất thông minh và hữu ích, được thiết kế để giúp đỡ người dùng trong mọi tình huống. Hôm nay tôi muốn nhờ bạn giúp tôi viết một cái email để gửi cho khách hàng của tôi về việc...
(~50 tokens, 90% là filler)

✅ Tiết kiệm:

Viết email gửi khách hàng: thông báo delay shipment 3 ngày, xin lỗi, đền voucher 10%.

Tip 2: Dùng model rẻ cho task đơn giản

Task Model nên dùng Lý do
Tóm tắt text Gemini Flash / Haiku Rẻ, nhanh, đủ tốt
Viết code phức tạp Claude Sonnet 4.6 / GPT-5.4 Cần reasoning sâu
Chat thông thường Haiku / Flash Không cần model đắt
Phân tích data lớn Claude (200K context) Cần context window lớn

Tip 3: Chia task lớn thành nhiều task nhỏ

Thay vì gửi 1 prompt 50K tokens → chia thành 5 prompts 10K tokens:

  • Prompt 1: Tóm tắt chương 1-3
  • Prompt 2: Tóm tắt chương 4-6
  • ...

Tip 4: Không gửi conversation history không cần thiết

Khi conversation dài, history chiếm nhiều token. Thỉnh thoảng nên:

  • Tóm tắt conversation cũ
  • Start conversation mới với context đã compress

Tip 5: Dùng temperature thấp cho task cần chính xác

Temperature = 0.1 → Output nhất quán, ít token waste
Temperature = 0.9 → Output creative, có thể dài hơn cần thiết

Token trong Công Việc Tại Diginno

Project Token dùng Cost ước tính Optimization
Generate n8n workflow 5K tokens/task ~5,000 VNĐ Dùng Haiku cho task đơn giản
Phân tích data khách hàng 50K tokens/report ~50,000 VNĐ Chia nhỏ data, compress context
Viết documentation 20K tokens/doc ~20,000 VNĐ Prompt ngắn, output có limit
Customer support bot 2K tokens/chat ~2,000 VNĐ Cache response, dùng Flash

Bài Tập Thực Hành

Task 1: Đếm token

  1. Mở tiktokenizer.com hoặc tool đếm token tương đương
  2. Paste đoạn text tiếng Việt 100 từ
  3. Check xem có bao nhiêu tokens → so sánh với ước tính 1 token ≈ 1 từ

Task 2: Tính cost

  1. Viết 1 prompt yêu cầu AI generate 1 email (khoảng 200 từ)
  2. Đếm input tokens + output tokens
  3. Tính cost theo bảng giá Claude Sonnet 4.6

Task 3: Test optimization

  1. Viết 1 prompt dài (50+ từ) → count tokens
  2. Rewrite prompt ngắn gọn (15 từ) → count tokens
  3. So sánh output của 2 prompts → có khác nhau không?

Tóm Tắt

Khái niệm Nội dung
Token Đơn vị nhỏ nhất LLM xử lý (~4 ký tự EN, ~1 từ VN)
Input tokens Text bạn gửi AI → rẻ
Output tokens Text AI trả về → đắt (3-5x)
Context window Max tokens AI "nhớ" trong 1 session
Max output Max tokens AI có thể sinh trong 1 response
Tip #1 Prompt ngắn gọn = tiết kiệm tiền
Tip #2 Chọn model phù hợp task
Key takeaway Token = tiền + tốc độ + giới hạn. Tối ưu token = tối ưu mọi thứ.

Bài Tiếp Theo

Bài 3: Context — Bộ Nhớ Của AI

Bài 1: LLM — Bộ Não Đứng Sau AI


Liên hệ tư vấn

Bài viết hữu ích?

Chia sẻ để nhiều người biết đến!

Chia sẻ:

>_ LLM-Friendly Copy

Copy as Markdown to use with ChatGPT, Claude, or other AI tools

1,678 words|8,417 characters

//Bình luận

Bài viết liên quan

Khám phá thêm những bài viết cùng chủ đề với Token Là Gì — Đơn Vị Tiền Tệ Của LLM

Bài viết hữu ích? Hãy kết nối với Diginno!

Chúng tôi giúp doanh nghiệp SME ứng dụng AI và automation vào quy trình làm việc - từ tư vấn chiến lược đến triển khai thực tế.