import { Alert } from '@/components/mdx/alert';

Token Là Gì — Đơn Vị Tiền Tệ Của LLM

TL;DR: Token là đơn vị nhỏ nhất mà LLM xử lý — khoảng 4 ký tiếng Anh hoặc 0.7 từ tiếng Việt. Mọi thứ bạn trả cho AI đều tính bằng token: input (prompt) và output (response). Hiểu token = hiểu chi phí + giới hạn + cách tối ưu khi làm việc với AI.

Token Là Gì?

Token không phải là từ (word). Token là mảnh nhỏ của text mà LLM chia ra để xử lý.

Text: "Hello world, this is AI"
Tokens: ["Hello", " world", ",", " this", " is", " AI"]
→ 6 tokens

Token trong tiếng Việt

Tiếng Việt phức tạp hơn tiếng Anh vì có dấu, ghép từ, và cấu trúc khác biệt.

Text: "Xin chào, tôi là AI assistant"
Tokens: ["Xin", " chào", ",", " tôi", " là", " AI", " assistant"]
→ 7 tokens ≈ 5 từ tiếng Việt

ℹ️ Info: Quy tắc ngón tay cái:

Tiếng Anh: 1 token ≈ 4 ký tự ≈ 0.75 từ
Tiếng Việt: 1 token ≈ 1 từ (vì có dấu và từ phức)
1000 tokens ≈ 750 từ tiếng Anh ≈ 700 từ tiếng Việt

Tại Sao Token Quan Trọng?

1. Token = Tiền 💰

Mọi LLM đều tính phí theo token. Bảng giá tham khảo (2026):

Model	Input (per 1M tokens)	Output (per 1M tokens)
GPT-5.4	$2.50	$15.00
GPT-5.4 mini	$0.75	$4.50
GPT-5.4 nano	$0.20	$1.25
Claude Opus 4.7	$5.00	$25.00
Claude Sonnet 4.6	$3.00	$15.00
Claude Haiku 4.5	$1.00	$5.00
MiniMax M2.7	$0.30 ✅	$1.20 ✅
DeepSeek V3.2	$0.28 ✅	$0.42 ✅
Qwen 3.6-plus	$0.50	$3.00
Qwen 3.5-plus	$0.40	$2.40
Qwen 3.5-flash	$0.10	$0.40
Gemini 3.1 Pro	$2.00	$12.00
Gemini 2.5 Pro	$1.25	$10.00
Gemini 3 Flash	$0.50	$3.00
Gemini 2.5 Flash	$0.30	$2.50
Gemini 2.5 Flash-Lite	$0.10	$0.40

AI Coding Tools — Subscription Model

Ngoài per-token pricing, một số AI coding tools dùng subscription model (trả phí hàng tháng, không giới hạn token):

Tool	Plan	Giá	Giới hạn	Use case
Cursor	Pro	$20/tháng	500k tokens/tháng	Individual developer
	Pro+	$60/tháng	3x Pro (1.5M tokens)	Heavy coding
	Ultra	$200/tháng	20x Pro	Teams, enterprise
Claude Code	Pro	$17/tháng	Included in Claude Pro	CLI coding, agentic tasks
	Business	$25/user/tháng	Unlimited + admin features	Team usage

ℹ️ Info: So sánh: Per-token model tốt khi bạn dùng ít nhưng cần nhiều providers khác nhau. Subscription model tốt khi bạn code nhiều, dùng unlimited — không phải tính tiền từng prompt.

⚠️ Warning: Lưu ý: Output thường đắt gấp 3-5x Input. Vì model phải "nghĩ" để sinh ra response — tốn nhiều compute hơn đọc input.

Ví dụ tính cost thực tế

Bạn yêu cầu Claude viết email marketing:

Prompt của bạn: 200 tokens
Email Claude viết: 800 tokens
Total: 1,000 tokens

Cost (Claude Sonnet 4.6):
  Input: 200 × $3/1M = $0.0006
  Output: 800 × $15/1M = $0.012
  Total: $0.0126 ≈ 320 VNĐ

→ 1 email ≈ 320 VNĐ. Rẻ! Nhưng scale lên 10,000 emails = 3.2 triệu VNĐ.

2. Token = Tốc Độ 🚀

Nhiều token = chậm hơn. LLM phải process từng token một — sequential, không parallel được.

Tokens	Thời gian xấp xỉ
1,000	~2-3 giây
10,000	~10-15 giây
50,000	~30-60 giây
100,000	~1-2 phút

3. Token = Giới Hạn Bộ Nhớ 🧠

Mỗi LLM có context window — số token tối đa nó "nhớ" được trong 1 conversation:

Model	Max Context	Tương đương
GPT-5.4 / mini / nano	128K	~100 trang sách
Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5	200K	~150 trang sách
Gemini 2.5 Pro	1M	~750 trang sách
Gemini 3.1 Pro	200K	~150 trang sách
Gemini 3 Flash	128K	~100 trang sách
DeepSeek V3.2	128K	~100 trang sách
MiniMax M2.7	256K	~200 trang sách
Qwen 3.5-flash	1M	~750 trang sách
Qwen 3.5-plus / Qwen 3.6-plus	1M	~750 trang sách
Qwen 3-max	252K	~200 trang sách

ℹ️ Info: Context window KHÔNG phải là bộ nhớ dài hạn. Khi conversation mới, AI "quên" hết conversation cũ. Context = bộ nhớ ngắn hạn trong 1 session.

Input vs Output Tokens

	Input Tokens	Output Tokens
Là gì?	Text bạn gửi cho AI	Text AI trả về
Bao gồm	Prompt, system message, conversation history	Response của AI
Giá	Rẻ hơn	Đắt hơn (3-5x)
Control	Bạn control được	AI control (khó predict)

Max Output Tokens

Ngoài context window, LLM còn có giới hạn max output tokens — số token tối đa nó có thể sinh ra trong 1 response:

Model	Max Output
GPT-5.4 series	16K
Claude Sonnet 4.6	8K
Claude Opus 4.7	8K
Gemini 2.5 Pro	64K

→ Nếu bạn yêu cầu "viết sách 100 trang", AI sẽ cut giữa chừng vì vượt quá max output tokens.

5 Tips Tối Ưu Token (Tiết Kiệm Tiền)

Tip 1: Prompt ngắn gọn

❌ Tốn token:

Bạn là một trợ lý AI rất thông minh và hữu ích, được thiết kế để giúp đỡ người dùng trong mọi tình huống. Hôm nay tôi muốn nhờ bạn giúp tôi viết một cái email để gửi cho khách hàng của tôi về việc...
(~50 tokens, 90% là filler)

✅ Tiết kiệm:

Viết email gửi khách hàng: thông báo delay shipment 3 ngày, xin lỗi, đền voucher 10%.

Tip 2: Dùng model rẻ cho task đơn giản

Task	Model nên dùng	Lý do
Tóm tắt text	Gemini Flash / Haiku	Rẻ, nhanh, đủ tốt
Viết code phức tạp	Claude Sonnet 4.6 / GPT-5.4	Cần reasoning sâu
Chat thông thường	Haiku / Flash	Không cần model đắt
Phân tích data lớn	Claude (200K context)	Cần context window lớn

Tip 3: Chia task lớn thành nhiều task nhỏ

Thay vì gửi 1 prompt 50K tokens → chia thành 5 prompts 10K tokens:

Prompt 1: Tóm tắt chương 1-3
Prompt 2: Tóm tắt chương 4-6
...

Tip 4: Không gửi conversation history không cần thiết

Khi conversation dài, history chiếm nhiều token. Thỉnh thoảng nên:

Tóm tắt conversation cũ
Start conversation mới với context đã compress

Tip 5: Dùng temperature thấp cho task cần chính xác

Temperature = 0.1 → Output nhất quán, ít token waste
Temperature = 0.9 → Output creative, có thể dài hơn cần thiết

Token trong Công Việc Tại Diginno

Project	Token dùng	Cost ước tính	Optimization
Generate n8n workflow	5K tokens/task	~5,000 VNĐ	Dùng Haiku cho task đơn giản
Phân tích data khách hàng	50K tokens/report	~50,000 VNĐ	Chia nhỏ data, compress context
Viết documentation	20K tokens/doc	~20,000 VNĐ	Prompt ngắn, output có limit
Customer support bot	2K tokens/chat	~2,000 VNĐ	Cache response, dùng Flash

Bài Tập Thực Hành

Task 1: Đếm token

Mở tiktokenizer.com hoặc tool đếm token tương đương
Paste đoạn text tiếng Việt 100 từ
Check xem có bao nhiêu tokens → so sánh với ước tính 1 token ≈ 1 từ

Task 2: Tính cost

Viết 1 prompt yêu cầu AI generate 1 email (khoảng 200 từ)
Đếm input tokens + output tokens
Tính cost theo bảng giá Claude Sonnet 4.6

Task 3: Test optimization

Viết 1 prompt dài (50+ từ) → count tokens
Rewrite prompt ngắn gọn (15 từ) → count tokens
So sánh output của 2 prompts → có khác nhau không?

Tóm Tắt

Khái niệm	Nội dung
Token	Đơn vị nhỏ nhất LLM xử lý (~4 ký tự EN, ~1 từ VN)
Input tokens	Text bạn gửi AI → rẻ
Output tokens	Text AI trả về → đắt (3-5x)
Context window	Max tokens AI "nhớ" trong 1 session
Max output	Max tokens AI có thể sinh trong 1 response
Tip #1	Prompt ngắn gọn = tiết kiệm tiền
Tip #2	Chọn model phù hợp task
Key takeaway	Token = tiền + tốc độ + giới hạn. Tối ưu token = tối ưu mọi thứ.

Bài Tiếp Theo

→ Bài 3: Context — Bộ Nhớ Của AI

← Bài 1: LLM — Bộ Não Đứng Sau AI

Liên hệ tư vấn

Hotline: 0816226086
Email: contact@diginno.net
Website: diginno.net

Token Là Gì — Đơn Vị Tiền Tệ Của LLM

AI Training — Từ Tư Duy Đến Thực Chiến

Token Là Gì — Đơn Vị Tiền Tệ Của LLM

Token Là Gì?

Token trong tiếng Việt

Tại Sao Token Quan Trọng?

1. Token = Tiền 💰

AI Coding Tools — Subscription Model

Ví dụ tính cost thực tế

2. Token = Tốc Độ 🚀

3. Token = Giới Hạn Bộ Nhớ 🧠

Input vs Output Tokens

Max Output Tokens

5 Tips Tối Ưu Token (Tiết Kiệm Tiền)

Tip 1: Prompt ngắn gọn

Tip 2: Dùng model rẻ cho task đơn giản

Tip 3: Chia task lớn thành nhiều task nhỏ

Tip 4: Không gửi conversation history không cần thiết

Tip 5: Dùng temperature thấp cho task cần chính xác

Token trong Công Việc Tại Diginno

Bài Tập Thực Hành

Task 1: Đếm token

Task 2: Tính cost

Task 3: Test optimization

Tóm Tắt

Bài Tiếp Theo

Liên hệ tư vấn

Bài viết hữu ích?

>_ LLM-Friendly Copy

//Bình luận

Bài viết liên quan

LLM Là Gì — Bộ Não Đứng Sau Mọi AI Bạn Đang Dùng

Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

Prompt Engineering — Nghệ Thuật Ra Lệnh Cho AI

Bài viết hữu ích? Hãy kết nối với Diginno!