DeepSeek tiết lộ kỹ thuật mới để vượt giới hạn GPU, chuẩn bị ra mắt V4
DeepSeek công bố kỹ thuật Engram giúp mở rộng mô hình AI mà không bị kìm bởi bộ nhớ GPU, chuẩn bị ra mắt V4 giữa tháng Hai.
| DeepSeek và bài toán kiểm duyệt trong công nghệ AI Trung Quốc Trung Quốc áp dụng chiến lược tinh gọn với AI Các công ty công nghệ dẫn đầu làn sóng AI mã nguồn mở tại CES 2026 |
![]() |
| Ảnh: Scmp |
DeepSeek, start-up AI nổi tiếng của Trung Quốc, vừa công bố một bài báo kỹ thuật mới do người sáng lập Liang Wenfeng và nhóm nghiên cứu Đại học Bắc Kinh đồng tác giả, giới thiệu một kỹ thuật huấn luyện mô hình có tên Engram. Kỹ thuật này được cho là có thể giúp mở rộng quy mô mô hình AI mà không bị kìm hãm bởi giới hạn bộ nhớ của card đồ họa (GPU), một điểm yếu lớn của Trung Quốc so với Mỹ.
Bài báo này được xem là tín hiệu rõ ràng về định hướng của DeepSeek: tối đa hóa hiệu quả chi phí trong bối cảnh thiếu hụt năng lực tính toán so với các ông lớn công nghệ Mỹ. Trong khi các công ty hàng đầu thế giới có thể dùng hàng nghìn GPU mạnh để huấn luyện mô hình siêu lớn, DeepSeek lại phải tìm cách “làm nhiều hơn với ít hơn” – tức tận dụng tối đa từng chiếc GPU sẵn có.
Vấn đề lớn nhất khi mở rộng mô hình AI là bộ nhớ băng thông cao (HBM) của GPU bị giới hạn. Các mô hình ngôn ngữ lớn (LLM) hiện nay phải dùng sức tính toán để truy xuất những thông tin cơ bản, ví dụ như tra từ điển hoặc tìm lại một đoạn văn đã học. Nhóm nghiên cứu cho rằng việc này đã “phí phạm chiều sâu tuần tự quý giá vào những thao tác đơn giản, vốn có thể dành cho suy luận cấp cao hơn”.
Để giải quyết điểm nghẽn này, họ đề xuất kỹ thuật “bộ nhớ điều kiện” (conditional memory) có tên Engram. Về cơ bản, Engram tách riêng việc tính toán và việc lưu trữ, cho phép mô hình “tra cứu” thông tin cơ bản một cách hiệu quả hơn, thay vì phải tính toán lại từ đầu mỗi lần cần dùng. Điều này giúp giải phóng tài nguyên tính toán để dành cho các tác vụ phức tạp hơn như suy luận logic, lập trình hay xử lý văn bản dài.
Kỹ thuật mới này cũng được kỳ vọng sẽ cải thiện đáng kể khả năng xử lý ngữ cảnh dài, nghĩa là đầu vào rất dài, đặt ra một trong những thách thức lớn nhất để biến chatbot AI thành các “tác nhân AI” thực sự hữu dụng ngoài đời. Hiện nay, khi xử lý văn bản dài, mô hình thường bị quá tải bộ nhớ hoặc mất thông tin quan trọng ở đầu đoạn.
Nhóm nghiên cứu đã kiểm chứng Engram trên một mô hình 27 tỷ tham số và thấy nó giúp tăng hiệu suất trên các bộ kiểm tra (benchmark) chính của ngành lên vài điểm phần trăm. Quan trọng hơn, nó còn để lại nhiều năng lực tính toán hơn cho mô hình thực hiện các suy luận phức tạp, tốn nhiều tài nguyên hơn, điều rất cần thiết với các mô hình chuyên về lập trình hay phân tích.
So sánh với các kỹ thuật trước, nhóm cho rằng Engram có thể trở thành một thành phần thiết yếu cho các mô hình thưa (sparse models) thế hệ tiếp theo, tương tự như vai trò của kỹ thuật Mixture-of-Experts, kỹ thuật từng giúp mở rộng kích thước mô hình mà không tăng tương ứng chi phí tính toán, và sau đó đã được nhiều đối thủ Trung Quốc áp dụng.
Bài báo có 14 đồng tác giả, trong đó có Huishuai Zhang, giảng viên khoa khoa học máy tính Đại học Bắc Kinh và từng là nghiên cứu viên tại Microsoft Research Asia. Tác giả chính là Cheng Xin, một sinh viên Đại học Bắc Kinh từng đóng góp vào các mô hình V3 và R1 nổi bật của DeepSeek.
Trong giới chuyên môn, bài báo được đánh giá cao, đặc biệt vì nhóm đã kiểm chứng kỹ thuật “trên phần cứng thực tế ở cả suy luận và huấn luyện”. Elie Bakouch, kỹ sư nghiên cứu tại nền tảng mã nguồn mở Hugging Face, đã khen ngợi công trình này trên mạng xã hội.
Giới công nghệ, hiện kỳ vọng rất cao vào một mô hình lớn mới của DeepSeek nhân dịp kỷ niệm một năm ra mắt mô hình R1. Tờ The Information (Mỹ) đưa tin DeepSeek dự kiến sẽ ra mắt mô hình V4 mới với khả năng lập trình mạnh vào giữa tháng Hai, có thể là mô hình đầu tiên áp dụng kỹ thuật Engram ở quy mô lớn.
Phạm Anh
