TurboQuant giúp Google giảm 6 lần bộ nhớ AI, tăng tốc xử lý gấp 8 lần
![]() |
| PolarQuant hoạt động như một cầu nối nén hiệu quả cao, chuyển đổi dữ liệu đầu vào Descartes thành một dạng "viết tắt" cực nhỏ gọn để lưu trữ và xử lý. Cơ chế này bắt đầu bằng cách nhóm các cặp tọa độ từ một vectơ d chiều và ánh xạ chúng lên một hệ tọa độ cực. Ảnh: Google |
Cuối tháng 3/2026, Google Research công bố TurboQuant, giải pháp nén bộ nhớ nhắm trực tiếp vào điểm nghẽn hạ tầng của trí tuệ nhân tạo. Công nghệ này giúp thu gọn dữ liệu làm việc của mô hình ngôn ngữ lớn xuống ít nhất sáu lần, giữ vững độ chính xác, đồng thời đẩy nhanh tốc độ phản hồi, qua đó tạo thay đổi rõ rệt về chi phí vận hành trong bối cảnh tài nguyên phần cứng leo thang.
Áp lực từ nhu cầu AI tăng mạnh khiến hệ thống trung tâm dữ liệu rơi vào trạng thái thiếu hụt RAM kéo dài, kéo theo giá linh kiện tăng cao. Trong bức tranh đó, TurboQuant không đi theo hướng mở rộng phần cứng mà chuyển sang tối ưu hóa cấu trúc dữ liệu. Cách tiếp cận này cho phép tận dụng thiết bị sẵn có, kể cả máy cấu hình thấp, vẫn có thể vận hành các tác vụ AI phức tạp, từ đó giảm phụ thuộc vào đầu tư hạ tầng quy mô lớn.
Nền tảng của TurboQuant nằm ở phương pháp PolarQuant với việc chuyển đổi biểu diễn vector từ hệ tọa độ vuông góc sang tọa độ cực. Quá trình ánh xạ và nén đệ quy giúp cô đọng dữ liệu nhiều chiều thành dạng gọn nhẹ hơn, giảm đáng kể số phép tính trung gian. Kỹ thuật QJL đi kèm xử lý sai số với chi phí bộ nhớ chỉ một bit, giúp duy trì độ chính xác trong khi vẫn tối ưu không gian lưu trữ. Sự kết hợp này tạo nên cơ chế nén hiệu quả, giảm tải cho bộ vi xử lý và tăng tốc truy xuất dữ liệu.
Kết quả thử nghiệm trên GPU cao cấp như NVIDIA H100 ghi nhận tốc độ xử lý tăng gấp tám lần, mức tiêu thụ bộ nhớ giảm xuống khoảng ba bit cho mỗi đơn vị dữ liệu. TurboQuant hoạt động ổn định trên các mô hình phổ biến như Gemma hay Mistral mà không cần huấn luyện lại, qua đó rút ngắn đáng kể thời gian triển khai thực tế.
Dự kiến, ICLR 2026 trở thành nơi công bố chi tiết kỹ thuật, mở đường cho việc kiểm chứng rộng rãi. Sự xuất hiện của TurboQuant cho thấy xu hướng tối ưu phần mềm đang định hình lại ngành AI, khi hiệu quả xử lý và khả năng truy xuất dữ liệu thời gian thực dần phụ thuộc vào cách tổ chức thông tin thay vì quy mô phần cứng.
Có thể bạn quan tâm
Kinh tế AI sẽ trở thành trụ cột mới của Việt Nam
AI
Google mở rộng quyền sáng tác với AI tạo nhạc thế hệ mới
AI
IvyChat của FPT được vinh danh tại AI Awards 2026
AI
