import { Alert } from '@/components/mdx/alert';
Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó
TL;DR: Context window là "bộ nhớ ngắn hạn" của AI — số token tối đa nó nhớ được trong 1 conversation. Context đầy = AI thông minh. Context tràn = AI quên thông tin quan trọng. Biết quản lý context = biết cách AI "nhớ" đúng thứ cần nhớ.
Context Window Là Gì?
Context window là số token tối đa mà LLM có thể xử lý trong 1 lần — bao gồm cả input (prompt + history) và output (response).
Context Window = Input (prompt + conversation history) + Output (AI response)
Ví dụ minh họa
Bạn nói chuyện với Claude (200K context):
Prompt 1: "Giải thích Python là gì?"
→ Claude trả lời (500 tokens)
Prompt 2: "Viết ví dụ về list comprehension"
→ Claude nhớ prompt 1 + trả lời (800 tokens)
Prompt 3: "Dựa vào ví dụ trên, thêm error handling"
→ Claude nhớ prompt 1 + 2 + trả lời (1200 tokens)
... conversation tiếp tục, history tích lũy ...
Prompt 50: "Quay lại ví dụ đầu tiên, sửa lại..."
→ Context đã gần đầy! Claude bắt đầu "quên" chi tiết ở giữa
⚠️ Warning: Hiệu ứng "lost in the middle": AI nhớ tốt thông tin ở ĐẦU và CUỐI conversation. Thông tin ở GIỮA dễ bị "quên" nhất. Đây là bias đã được research chứng minh.
Context ≠ Memory Dài Hạn
Đây là hiểu lầm phổ biến nhất về AI.
| Context Window (Ngắn hạn) | Memory Dài Hạn | |
|---|---|---|
| Tồn tại khi nào | Trong 1 conversation/session | Không tồn tại (trừ khi có feature riêng) |
| Khi mở conversation mới | Quên hết | Vẫn quên hết |
| Dung lượng | 128K - 1M tokens (tùy model) | Không có (native) |
| Ví dụ | Claude nhớ bạn vừa nói gì | Claude KHÔNG nhớ bạn là ai |
ℹ️ Info: Nói cách khác: Mỗi lần bạn mở chat mới, AI là một người hoàn toàn xa lạ. Nó không biết bạn là ai, bạn đã nói gì hôm qua, hay bạn thích gì.
Context Của Các Model Phổ Biến
| Model | Context Window | Tương đương | Best cho |
|---|---|---|---|
| GPT-5.4 series | 128K | ~100 trang sách | Code review, analysis |
| Claude Opus 4.7 | 200K | ~150 trang sách | Phân tích tài liệu dài |
| Claude Sonnet 4.6 | 200K | ~150 trang sách | Phân tích tài liệu dài |
| Claude Haiku 4.5 | 200K | ~150 trang sách | Xử lý data lớn, rẻ |
| Gemini 2.5 Pro | 1M | ~750 trang sách | Đọc sách, báo cáo dài |
| Gemini 3.1 Pro | 200K | ~150 trang sách | Reasoning mạnh |
| DeepSeek V3.2 | 128K | ~100 trang sách | Code, reasoning |
| MiniMax M2.7 | 256K | ~200 trang sách | Agent coding, Office |
| Qwen 3.5-flash | 1M | ~750 trang sách | Đa ngôn ngữ, rẻ |
| Qwen 3.5-plus / 3.6-plus | 1M | ~750 trang sách | Reasoning mạnh |
Bạn có thể làm gì với từng context size?
| Context | Làm được gì |
|---|---|
| 4K | Email ngắn, chat cơ bản |
| 8K | Viết blog post, code file đơn |
| 32K | Phân tích báo cáo, code nhiều file |
| 128K | Review toàn bộ codebase nhỏ, phân tích sách |
| 200K | Đọc + phân tích tài liệu kỹ thuật dài |
| 1M | Đọc nhiều sách cùng lúc, phân tích dataset lớn |
Vấn Đề: Context Tràn (Context Overflow)
Khi conversation quá dài, context window bị đầy. Hậu quả:
1. AI "quên" thông tin cũ
User (lúc đầu): "Tên tôi là Nam, tôi làm ở Diginno"
... 50 messages sau ...
User: "Tôi làm ở đâu?"
AI: "Xin lỗi, tôi không nhớ thông tin đó."
→ Context đã overflow, thông tin đầu tiên bị cắt
2. Quality giảm
AI nhận được ít context hơn → output kém chính xác hơn, ít relevant hơn.
3. Lỗi truncation
Một số AI sẽ tự cắt context từ đầu conversation → mất thông tin quan trọng.
6 Tips Quản Lý Context Hiệu Quả
Tip 1: Dùng System Prompt để "lock" context quan trọng
System prompt là phần context KHÔNG bị cắt khi conversation dài.
System Prompt:
"Bạn là AI assistant cho Diginno. User tên là Nam, làm CEO.
Công ty làm về automation (n8n, Lark). Luôn trả lời tiếng Việt."
→ Thông tin này luôn được nhớ, bất kể conversation dài bao nhiêu.
Tip 2: Chia conversation theo topic
Thay vì 1 conversation dài cho mọi thứ:
❌ Conversation 1:
- Hỏi về code Python
- Hỏi về marketing
- Hỏi về finance
- Hỏi về design
→ Context rối, AI confuse
✅ Tách thành:
Conversation A: Python coding
Conversation B: Marketing strategy
Conversation C: Financial analysis
→ Mỗi conversation clean, context focused
Tip 3: Summarize trước khi tiếp tục
Khi conversation sắp đầy context:
User: "Tóm tắt những gì chúng ta đã thảo luận đến giờ"
AI: "1. Chúng ta đã design schema cho LarkBase...
2. Đã viết workflow n8n sync data...
3. Đang debug lỗi authentication..."
→ User copy summary này → start conversation mới với context đã compress
→ Tiết kiệm 70% tokens, AI vẫn hiểu context
Tip 4: Chỉ đưa thông tin cần thiết
❌ Dài dòng:
"Paste toàn bộ codebase 50 files + yêu cầu 'fix bug dòng 42'"
✅ Focused:
"Paste file có bug (file abc.py) + error message + context xung quanh dòng 42"
Tip 5: Dùng RAG (Retrieval-Augmented Generation) cho data lớn
Thay vì paste 100K tokens vào prompt:
1. Lưu data vào database/vector store
2. Khi cần, AI search data relevant
3. Chỉ đưa phần relevant vào context
4. Generate response
ℹ️ Info: Đây chính là cách các AI tools như Cursor, GitHub Copilot hoạt động — chúng index codebase của bạn, rồi chỉ đưa phần relevant vào context khi cần.
Tip 6: Prompt cuối = prompt mạnh nhất
Vì AI chú ý thông tin ở ĐẦU và CUỐI nhất:
✅ Cấu trúc prompt tốt:
[Đầu] Role + context quan trọng
[Giữa] Chi tiết, data, examples
[Cuối] Instruction chính + output format yêu cầu
→ AI nhớ role (đầu) + instruction (cuối) tốt nhất
Context trong Công Việc Tại Diginno
| Scenario | Cách quản lý context |
|---|---|
| Phân tích tài liệu khách hàng | Dùng Gemini 2.5 (1M context) để đọc toàn bộ |
| Code review nhiều file | Dùng Cursor (RAG-based) thay vì paste code vào chat |
| n8n workflow debugging | Mỗi bug = 1 conversation mới, chỉ paste error + relevant code |
| Viết blog series | Mỗi bài = 1 conversation, summary bài cũ ở đầu bài mới |
| Customer analysis | Compress data → chỉ đưa insight-relevant data vào context |
Bài Tập Thực Hành
Task 1: Test context limit
- Mở Claude/GPT
- Bắt đầu conversation mới
- Yêu cầu AI nhớ 1 thông tin: "Tên project của tôi là X"
- Chat thêm 20-30 messages về các topic khác
- Hỏi: "Tên project của tôi là gì?"
- Check xem AI còn nhớ không
Task 2: Practice summarization
- Chat với AI về 1 topic phức tạp (15+ messages)
- Yêu cầu: "Tóm tắt conversation này thành 5 bullet points"
- Start conversation mới, paste summary
- Tiếp tục discussion → check xem AI có hiểu context không
Task 3: Test system prompt
- Mở conversation mới với system prompt: "Bạn là senior Python developer. Luôn giải thích code kèm ví dụ."
- Hỏi về Python
- Check xem AI có maintain role suốt conversation không
Tóm Tắt
| Khái niệm | Nội dung |
|---|---|
| Context window | Bộ nhớ ngắn hạn của AI trong 1 conversation |
| Size | 128K-1M tokens (tùy model) |
| ≠ Memory dài hạn | AI quên hết khi conversation mới |
| Lost in the middle | AI nhớ đầu + cuối tốt nhất, giữa dễ quên |
| Overflow | Context đầy → AI quên, quality giảm |
| System prompt | Context "bất tử" — không bị cắt khi overflow |
| Tip #1 | System prompt cho info quan trọng nhất |
| Tip #2 | Chia conversation theo topic |
| Tip #3 | Summarize trước khi context đầy |
| Key takeaway | Context là tài nguyên hữu hạn. Biết quản lý = AI nhớ đúng thứ cần. |
Bài Tiếp Theo
→ Bài 4: Prompt Engineering — Nghệ Thuật Ra Lệnh Cho AI
← Bài 2: Token — Đơn Vị Tiền Tệ Của LLM
Liên hệ tư vấn
- Hotline: 0816226086
- Email: contact@diginno.net
- Website: diginno.net
Bài viết hữu ích?
Chia sẻ để nhiều người biết đến!
>_ LLM-Friendly Copy
Copy as Markdown to use with ChatGPT, Claude, or other AI tools