Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

@Nguyễn Ngô Thượng//~7 phút đọc0
Chia sẻ:

import { Alert } from '@/components/mdx/alert';

Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

TL;DR: Context window là "bộ nhớ ngắn hạn" của AI — số token tối đa nó nhớ được trong 1 conversation. Context đầy = AI thông minh. Context tràn = AI quên thông tin quan trọng. Biết quản lý context = biết cách AI "nhớ" đúng thứ cần nhớ.


Context Window Là Gì?

Context window là số token tối đa mà LLM có thể xử lý trong 1 lần — bao gồm cả input (prompt + history) và output (response).

Context Window = Input (prompt + conversation history) + Output (AI response)

Ví dụ minh họa

Bạn nói chuyện với Claude (200K context):

Prompt 1: "Giải thích Python là gì?"
→ Claude trả lời (500 tokens)

Prompt 2: "Viết ví dụ về list comprehension"
→ Claude nhớ prompt 1 + trả lời (800 tokens)

Prompt 3: "Dựa vào ví dụ trên, thêm error handling"
→ Claude nhớ prompt 1 + 2 + trả lời (1200 tokens)

... conversation tiếp tục, history tích lũy ...

Prompt 50: "Quay lại ví dụ đầu tiên, sửa lại..."
→ Context đã gần đầy! Claude bắt đầu "quên" chi tiết ở giữa

⚠️ Warning: Hiệu ứng "lost in the middle": AI nhớ tốt thông tin ở ĐẦU và CUỐI conversation. Thông tin ở GIỮA dễ bị "quên" nhất. Đây là bias đã được research chứng minh.


Context ≠ Memory Dài Hạn

Đây là hiểu lầm phổ biến nhất về AI.

Context Window (Ngắn hạn) Memory Dài Hạn
Tồn tại khi nào Trong 1 conversation/session Không tồn tại (trừ khi có feature riêng)
Khi mở conversation mới Quên hết Vẫn quên hết
Dung lượng 128K - 1M tokens (tùy model) Không có (native)
Ví dụ Claude nhớ bạn vừa nói gì Claude KHÔNG nhớ bạn là ai

ℹ️ Info: Nói cách khác: Mỗi lần bạn mở chat mới, AI là một người hoàn toàn xa lạ. Nó không biết bạn là ai, bạn đã nói gì hôm qua, hay bạn thích gì.


Context Của Các Model Phổ Biến

Model Context Window Tương đương Best cho
GPT-5.4 series 128K ~100 trang sách Code review, analysis
Claude Opus 4.7 200K ~150 trang sách Phân tích tài liệu dài
Claude Sonnet 4.6 200K ~150 trang sách Phân tích tài liệu dài
Claude Haiku 4.5 200K ~150 trang sách Xử lý data lớn, rẻ
Gemini 2.5 Pro 1M ~750 trang sách Đọc sách, báo cáo dài
Gemini 3.1 Pro 200K ~150 trang sách Reasoning mạnh
DeepSeek V3.2 128K ~100 trang sách Code, reasoning
MiniMax M2.7 256K ~200 trang sách Agent coding, Office
Qwen 3.5-flash 1M ~750 trang sách Đa ngôn ngữ, rẻ
Qwen 3.5-plus / 3.6-plus 1M ~750 trang sách Reasoning mạnh

Bạn có thể làm gì với từng context size?

Context Làm được gì
4K Email ngắn, chat cơ bản
8K Viết blog post, code file đơn
32K Phân tích báo cáo, code nhiều file
128K Review toàn bộ codebase nhỏ, phân tích sách
200K Đọc + phân tích tài liệu kỹ thuật dài
1M Đọc nhiều sách cùng lúc, phân tích dataset lớn

Vấn Đề: Context Tràn (Context Overflow)

Khi conversation quá dài, context window bị đầy. Hậu quả:

1. AI "quên" thông tin cũ

User (lúc đầu): "Tên tôi là Nam, tôi làm ở Diginno"
... 50 messages sau ...
User: "Tôi làm ở đâu?"
AI: "Xin lỗi, tôi không nhớ thông tin đó."
→ Context đã overflow, thông tin đầu tiên bị cắt

2. Quality giảm

AI nhận được ít context hơn → output kém chính xác hơn, ít relevant hơn.

3. Lỗi truncation

Một số AI sẽ tự cắt context từ đầu conversation → mất thông tin quan trọng.


6 Tips Quản Lý Context Hiệu Quả

Tip 1: Dùng System Prompt để "lock" context quan trọng

System prompt là phần context KHÔNG bị cắt khi conversation dài.

System Prompt:
"Bạn là AI assistant cho Diginno. User tên là Nam, làm CEO.
Công ty làm về automation (n8n, Lark). Luôn trả lời tiếng Việt."

→ Thông tin này luôn được nhớ, bất kể conversation dài bao nhiêu.

Tip 2: Chia conversation theo topic

Thay vì 1 conversation dài cho mọi thứ:

❌ Conversation 1:
  - Hỏi về code Python
  - Hỏi về marketing
  - Hỏi về finance
  - Hỏi về design
  → Context rối, AI confuse

✅ Tách thành:
  Conversation A: Python coding
  Conversation B: Marketing strategy
  Conversation C: Financial analysis
  → Mỗi conversation clean, context focused

Tip 3: Summarize trước khi tiếp tục

Khi conversation sắp đầy context:

User: "Tóm tắt những gì chúng ta đã thảo luận đến giờ"
AI: "1. Chúng ta đã design schema cho LarkBase...
      2. Đã viết workflow n8n sync data...
      3. Đang debug lỗi authentication..."

→ User copy summary này → start conversation mới với context đã compress
→ Tiết kiệm 70% tokens, AI vẫn hiểu context

Tip 4: Chỉ đưa thông tin cần thiết

❌ Dài dòng:
"Paste toàn bộ codebase 50 files + yêu cầu 'fix bug dòng 42'"

✅ Focused:
"Paste file có bug (file abc.py) + error message + context xung quanh dòng 42"

Tip 5: Dùng RAG (Retrieval-Augmented Generation) cho data lớn

Thay vì paste 100K tokens vào prompt:

1. Lưu data vào database/vector store
2. Khi cần, AI search data relevant
3. Chỉ đưa phần relevant vào context
4. Generate response

ℹ️ Info: Đây chính là cách các AI tools như Cursor, GitHub Copilot hoạt động — chúng index codebase của bạn, rồi chỉ đưa phần relevant vào context khi cần.

Tip 6: Prompt cuối = prompt mạnh nhất

Vì AI chú ý thông tin ở ĐẦU và CUỐI nhất:

✅ Cấu trúc prompt tốt:
[Đầu] Role + context quan trọng
[Giữa] Chi tiết, data, examples
[Cuối] Instruction chính + output format yêu cầu

→ AI nhớ role (đầu) + instruction (cuối) tốt nhất

Context trong Công Việc Tại Diginno

Scenario Cách quản lý context
Phân tích tài liệu khách hàng Dùng Gemini 2.5 (1M context) để đọc toàn bộ
Code review nhiều file Dùng Cursor (RAG-based) thay vì paste code vào chat
n8n workflow debugging Mỗi bug = 1 conversation mới, chỉ paste error + relevant code
Viết blog series Mỗi bài = 1 conversation, summary bài cũ ở đầu bài mới
Customer analysis Compress data → chỉ đưa insight-relevant data vào context

Bài Tập Thực Hành

Task 1: Test context limit

  1. Mở Claude/GPT
  2. Bắt đầu conversation mới
  3. Yêu cầu AI nhớ 1 thông tin: "Tên project của tôi là X"
  4. Chat thêm 20-30 messages về các topic khác
  5. Hỏi: "Tên project của tôi là gì?"
  6. Check xem AI còn nhớ không

Task 2: Practice summarization

  1. Chat với AI về 1 topic phức tạp (15+ messages)
  2. Yêu cầu: "Tóm tắt conversation này thành 5 bullet points"
  3. Start conversation mới, paste summary
  4. Tiếp tục discussion → check xem AI có hiểu context không

Task 3: Test system prompt

  1. Mở conversation mới với system prompt: "Bạn là senior Python developer. Luôn giải thích code kèm ví dụ."
  2. Hỏi về Python
  3. Check xem AI có maintain role suốt conversation không

Tóm Tắt

Khái niệm Nội dung
Context window Bộ nhớ ngắn hạn của AI trong 1 conversation
Size 128K-1M tokens (tùy model)
≠ Memory dài hạn AI quên hết khi conversation mới
Lost in the middle AI nhớ đầu + cuối tốt nhất, giữa dễ quên
Overflow Context đầy → AI quên, quality giảm
System prompt Context "bất tử" — không bị cắt khi overflow
Tip #1 System prompt cho info quan trọng nhất
Tip #2 Chia conversation theo topic
Tip #3 Summarize trước khi context đầy
Key takeaway Context là tài nguyên hữu hạn. Biết quản lý = AI nhớ đúng thứ cần.

Bài Tiếp Theo

Bài 4: Prompt Engineering — Nghệ Thuật Ra Lệnh Cho AI

Bài 2: Token — Đơn Vị Tiền Tệ Của LLM


Liên hệ tư vấn

Bài viết hữu ích?

Chia sẻ để nhiều người biết đến!

Chia sẻ:

>_ LLM-Friendly Copy

Copy as Markdown to use with ChatGPT, Claude, or other AI tools

1,562 words|8,022 characters

//Bình luận

Bài viết liên quan

Khám phá thêm những bài viết cùng chủ đề với Context Là Gì — Bộ Nhớ Của AI Và Cách Quản Lý Nó

Bài viết hữu ích? Hãy kết nối với Diginno!

Chúng tôi giúp doanh nghiệp SME ứng dụng AI và automation vào quy trình làm việc - từ tư vấn chiến lược đến triển khai thực tế.