import { Alert } from '@/components/mdx/alert';

Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

TL;DR: Context window là "bộ nhớ ngắn hạn" của AI — số token tối đa nó nhớ được trong 1 conversation. Context đầy = AI thông minh. Context tràn = AI quên thông tin quan trọng. Biết quản lý context = biết cách AI "nhớ" đúng thứ cần nhớ.

Context Window Là Gì?

Context window là số token tối đa mà LLM có thể xử lý trong 1 lần — bao gồm cả input (prompt + history) và output (response).

Context Window = Input (prompt + conversation history) + Output (AI response)

Ví dụ minh họa

Bạn nói chuyện với Claude (200K context):

Prompt 1: "Giải thích Python là gì?"
→ Claude trả lời (500 tokens)

Prompt 2: "Viết ví dụ về list comprehension"
→ Claude nhớ prompt 1 + trả lời (800 tokens)

Prompt 3: "Dựa vào ví dụ trên, thêm error handling"
→ Claude nhớ prompt 1 + 2 + trả lời (1200 tokens)

... conversation tiếp tục, history tích lũy ...

Prompt 50: "Quay lại ví dụ đầu tiên, sửa lại..."
→ Context đã gần đầy! Claude bắt đầu "quên" chi tiết ở giữa

⚠️ Warning: Hiệu ứng "lost in the middle": AI nhớ tốt thông tin ở ĐẦU và CUỐI conversation. Thông tin ở GIỮA dễ bị "quên" nhất. Đây là bias đã được research chứng minh.

Context ≠ Memory Dài Hạn

Đây là hiểu lầm phổ biến nhất về AI.

	Context Window (Ngắn hạn)	Memory Dài Hạn
Tồn tại khi nào	Trong 1 conversation/session	Không tồn tại (trừ khi có feature riêng)
Khi mở conversation mới	Quên hết	Vẫn quên hết
Dung lượng	128K - 1M tokens (tùy model)	Không có (native)
Ví dụ	Claude nhớ bạn vừa nói gì	Claude KHÔNG nhớ bạn là ai

ℹ️ Info: Nói cách khác: Mỗi lần bạn mở chat mới, AI là một người hoàn toàn xa lạ. Nó không biết bạn là ai, bạn đã nói gì hôm qua, hay bạn thích gì.

Context Của Các Model Phổ Biến

Model	Context Window	Tương đương	Best cho
GPT-5.4 series	128K	~100 trang sách	Code review, analysis
Claude Opus 4.7	200K	~150 trang sách	Phân tích tài liệu dài
Claude Sonnet 4.6	200K	~150 trang sách	Phân tích tài liệu dài
Claude Haiku 4.5	200K	~150 trang sách	Xử lý data lớn, rẻ
Gemini 2.5 Pro	1M	~750 trang sách	Đọc sách, báo cáo dài
Gemini 3.1 Pro	200K	~150 trang sách	Reasoning mạnh
DeepSeek V3.2	128K	~100 trang sách	Code, reasoning
MiniMax M2.7	256K	~200 trang sách	Agent coding, Office
Qwen 3.5-flash	1M	~750 trang sách	Đa ngôn ngữ, rẻ
Qwen 3.5-plus / 3.6-plus	1M	~750 trang sách	Reasoning mạnh

Bạn có thể làm gì với từng context size?

Context	Làm được gì
4K	Email ngắn, chat cơ bản
8K	Viết blog post, code file đơn
32K	Phân tích báo cáo, code nhiều file
128K	Review toàn bộ codebase nhỏ, phân tích sách
200K	Đọc + phân tích tài liệu kỹ thuật dài
1M	Đọc nhiều sách cùng lúc, phân tích dataset lớn

Vấn Đề: Context Tràn (Context Overflow)

Khi conversation quá dài, context window bị đầy. Hậu quả:

1. AI "quên" thông tin cũ

User (lúc đầu): "Tên tôi là Nam, tôi làm ở Diginno"
... 50 messages sau ...
User: "Tôi làm ở đâu?"
AI: "Xin lỗi, tôi không nhớ thông tin đó."
→ Context đã overflow, thông tin đầu tiên bị cắt

2. Quality giảm

AI nhận được ít context hơn → output kém chính xác hơn, ít relevant hơn.

3. Lỗi truncation

Một số AI sẽ tự cắt context từ đầu conversation → mất thông tin quan trọng.

6 Tips Quản Lý Context Hiệu Quả

Tip 1: Dùng System Prompt để "lock" context quan trọng

System prompt là phần context KHÔNG bị cắt khi conversation dài.

System Prompt:
"Bạn là AI assistant cho Diginno. User tên là Nam, làm CEO.
Công ty làm về automation (n8n, Lark). Luôn trả lời tiếng Việt."

→ Thông tin này luôn được nhớ, bất kể conversation dài bao nhiêu.

Tip 2: Chia conversation theo topic

Thay vì 1 conversation dài cho mọi thứ:

❌ Conversation 1:
  - Hỏi về code Python
  - Hỏi về marketing
  - Hỏi về finance
  - Hỏi về design
  → Context rối, AI confuse

✅ Tách thành:
  Conversation A: Python coding
  Conversation B: Marketing strategy
  Conversation C: Financial analysis
  → Mỗi conversation clean, context focused

Tip 3: Summarize trước khi tiếp tục

Khi conversation sắp đầy context:

User: "Tóm tắt những gì chúng ta đã thảo luận đến giờ"
AI: "1. Chúng ta đã design schema cho LarkBase...
      2. Đã viết workflow n8n sync data...
      3. Đang debug lỗi authentication..."

→ User copy summary này → start conversation mới với context đã compress
→ Tiết kiệm 70% tokens, AI vẫn hiểu context

Tip 4: Chỉ đưa thông tin cần thiết

❌ Dài dòng:
"Paste toàn bộ codebase 50 files + yêu cầu 'fix bug dòng 42'"

✅ Focused:
"Paste file có bug (file abc.py) + error message + context xung quanh dòng 42"

Tip 5: Dùng RAG (Retrieval-Augmented Generation) cho data lớn

Thay vì paste 100K tokens vào prompt:

1. Lưu data vào database/vector store
2. Khi cần, AI search data relevant
3. Chỉ đưa phần relevant vào context
4. Generate response

ℹ️ Info: Đây chính là cách các AI tools như Cursor, GitHub Copilot hoạt động — chúng index codebase của bạn, rồi chỉ đưa phần relevant vào context khi cần.

Tip 6: Prompt cuối = prompt mạnh nhất

Vì AI chú ý thông tin ở ĐẦU và CUỐI nhất:

✅ Cấu trúc prompt tốt:
[Đầu] Role + context quan trọng
[Giữa] Chi tiết, data, examples
[Cuối] Instruction chính + output format yêu cầu

→ AI nhớ role (đầu) + instruction (cuối) tốt nhất

Context trong Công Việc Tại Diginno

Scenario	Cách quản lý context
Phân tích tài liệu khách hàng	Dùng Gemini 2.5 (1M context) để đọc toàn bộ
Code review nhiều file	Dùng Cursor (RAG-based) thay vì paste code vào chat
n8n workflow debugging	Mỗi bug = 1 conversation mới, chỉ paste error + relevant code
Viết blog series	Mỗi bài = 1 conversation, summary bài cũ ở đầu bài mới
Customer analysis	Compress data → chỉ đưa insight-relevant data vào context

Bài Tập Thực Hành

Task 1: Test context limit

Mở Claude/GPT
Bắt đầu conversation mới
Yêu cầu AI nhớ 1 thông tin: "Tên project của tôi là X"
Chat thêm 20-30 messages về các topic khác
Hỏi: "Tên project của tôi là gì?"
Check xem AI còn nhớ không

Task 2: Practice summarization

Chat với AI về 1 topic phức tạp (15+ messages)
Yêu cầu: "Tóm tắt conversation này thành 5 bullet points"
Start conversation mới, paste summary
Tiếp tục discussion → check xem AI có hiểu context không

Task 3: Test system prompt

Mở conversation mới với system prompt: "Bạn là senior Python developer. Luôn giải thích code kèm ví dụ."
Hỏi về Python
Check xem AI có maintain role suốt conversation không

Tóm Tắt

Khái niệm	Nội dung
Context window	Bộ nhớ ngắn hạn của AI trong 1 conversation
Size	128K-1M tokens (tùy model)
≠ Memory dài hạn	AI quên hết khi conversation mới
Lost in the middle	AI nhớ đầu + cuối tốt nhất, giữa dễ quên
Overflow	Context đầy → AI quên, quality giảm
System prompt	Context "bất tử" — không bị cắt khi overflow
Tip #1	System prompt cho info quan trọng nhất
Tip #2	Chia conversation theo topic
Tip #3	Summarize trước khi context đầy
Key takeaway	Context là tài nguyên hữu hạn. Biết quản lý = AI nhớ đúng thứ cần.

Bài Tiếp Theo

→ Bài 4: Prompt Engineering — Nghệ Thuật Ra Lệnh Cho AI

← Bài 2: Token — Đơn Vị Tiền Tệ Của LLM

Liên hệ tư vấn

Hotline: 0816226086
Email: contact@diginno.net
Website: diginno.net

Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

AI Training — Từ Tư Duy Đến Thực Chiến

Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

Context Window Là Gì?

Ví dụ minh họa

Context ≠ Memory Dài Hạn

Context Của Các Model Phổ Biến

Bạn có thể làm gì với từng context size?

Vấn Đề: Context Tràn (Context Overflow)

1. AI "quên" thông tin cũ

2. Quality giảm

3. Lỗi truncation

6 Tips Quản Lý Context Hiệu Quả

Tip 1: Dùng System Prompt để "lock" context quan trọng

Tip 2: Chia conversation theo topic

Tip 3: Summarize trước khi tiếp tục

Tip 4: Chỉ đưa thông tin cần thiết

Tip 5: Dùng RAG (Retrieval-Augmented Generation) cho data lớn

Tip 6: Prompt cuối = prompt mạnh nhất

Context trong Công Việc Tại Diginno

Bài Tập Thực Hành

Task 1: Test context limit

Task 2: Practice summarization

Task 3: Test system prompt

Tóm Tắt

Bài Tiếp Theo

Liên hệ tư vấn

Bài viết hữu ích?

>_ LLM-Friendly Copy

//Bình luận

Bài viết liên quan

Prompt Engineering — Nghệ Thuật Ra Lệnh Cho AI

LLM Là Gì — Bộ Não Đứng Sau Mọi AI Bạn Đang Dùng

Token Là Gì — Đơn Vị Tiền Tệ Của LLM

Bài viết hữu ích? Hãy kết nối với Diginno!