Google ra mắt công nghệ dịch giọng nói tức thời, mở rộng không gian giao tiếp không rào cản
![]() |
| Gemini 3.5 Live Translate cho phép nhận diện, phân tích và chuyển ngữ dữ liệu âm thanh ngay trong quá trình hội thoại diễn ra. |
Khác với các công cụ dịch thuật truyền thống vốn yêu cầu người dùng phải chờ hoàn tất câu nói trước khi xử lý, Gemini 3.5 Live Translate cho phép nhận diện, phân tích và chuyển ngữ dữ liệu âm thanh ngay trong quá trình hội thoại diễn ra. Công nghệ mới có khả năng tạo ra bản dịch gần như tức thời, đồng thời duy trì ngữ điệu, tốc độ và sắc thái biểu đạt của người nói gốc.
Trong thực tế, khi trao đổi với một người nói tiếng Anh, người dùng chỉ cần lựa chọn cặp ngôn ngữ Anh - Việt trên ứng dụng Google Translate. Hệ thống sẽ tự động phát bản dịch bằng tiếng Việt song song với âm thanh gốc thông qua tai nghe, tạo cảm giác giao tiếp tự nhiên hơn so với các phương thức dịch thông thường.
Theo Google, mô hình Gemini 3.5 Live Translate hiện hỗ trợ hơn 70 ngôn ngữ và có khả năng phản ánh tương đối chính xác tông giọng, ngữ điệu của người nói, góp phần nâng cao chất lượng trải nghiệm giao tiếp xuyên ngôn ngữ.
Thúc đẩy giao tiếp đa ngôn ngữ trong kỷ nguyên số
Từ ngày 10/6, người dùng tại Việt Nam đã có thể tiếp cận tính năng mới thông qua ứng dụng Google Translate trên các thiết bị iOS và Android. Riêng người dùng Android được bổ sung chế độ “Listening Mode”, cho phép nghe bản dịch thông qua loa thoại khi áp điện thoại vào tai, bảo đảm tính riêng tư trong những tình huống không sử dụng tai nghe.
Không chỉ hướng tới người dùng cá nhân, Google còn mở rộng ứng dụng của công nghệ này vào môi trường doanh nghiệp. Từ tháng 6, tính năng dịch trực tiếp sẽ được tích hợp trên Google Meet, hỗ trợ hơn 2.000 cặp ngôn ngữ khác nhau, giúp các cuộc họp trực tuyến quốc tế diễn ra thuận lợi hơn mà không còn phụ thuộc vào một ngôn ngữ trung gian như trước đây.
Động thái này cho thấy xu hướng AI đang ngày càng trở thành hạ tầng công nghệ cốt lõi phục vụ hoạt động giao tiếp, hợp tác và kinh doanh trong môi trường toàn cầu hóa. Khi khoảng cách ngôn ngữ được thu hẹp, cơ hội tiếp cận thị trường, mở rộng hợp tác quốc tế và nâng cao hiệu quả làm việc cũng được mở rộng tương ứng.
Mở rộng hệ sinh thái AI phục vụ doanh nghiệp và nhà phát triển
Bên cạnh việc tích hợp trên các ứng dụng dành cho người dùng cuối, Google cũng cung cấp Gemini 3.5 Live Translate thông qua Gemini Live API và Google AI Studio, tạo điều kiện để các doanh nghiệp và nhà phát triển xây dựng các giải pháp dịch giọng nói theo thời gian thực trên nền tảng riêng.
Một trong những đối tác đang thử nghiệm công nghệ này là Grab. Theo Google, khoảng 10 triệu cuộc gọi thoại mỗi tháng trên nền tảng Grab có nhu cầu hỗ trợ giao tiếp đa ngôn ngữ giữa tài xế và hành khách. Việc ứng dụng AI dịch trực tiếp được kỳ vọng sẽ giúp nâng cao trải nghiệm người dùng và giảm thiểu những trở ngại phát sinh từ khác biệt ngôn ngữ.
Không chỉ trong lĩnh vực vận tải công nghệ, ngành công nghiệp giải trí cũng đặt nhiều kỳ vọng vào công nghệ mới. Đại diện Tập đoàn CJ ENM (Hàn Quốc) cho rằng các thử nghiệm ban đầu cho thấy chất lượng dịch thuật đầy triển vọng, mở ra khả năng mang đến trải nghiệm nội dung chân thực hơn cho khán giả quốc tế.
Sự ra mắt của Gemini 3.5 Live Translate tiếp tục khẳng định cuộc cạnh tranh ngày càng mạnh mẽ giữa các tập đoàn công nghệ trong lĩnh vực AI tạo sinh. Đồng thời, đây cũng là tín hiệu cho thấy dịch thuật thời gian thực đang dần trở thành một công cụ phổ biến, góp phần xây dựng môi trường giao tiếp số không biên giới trong tương lai gần.
Có thể bạn quan tâm
WWDC 2026: Siri học nói lại, iOS 27 vá lỗi cũ và lời chào từ biệt của Tim Cook
Phần mềm - Ứng dụng
WWDC 2026 và 'canh bạc' trí tuệ nhân tạo của Apple trên iOS 27
Phần mềm - Ứng dụng
Instagram Plus chính thức ra mắt cùng hàng loạt tính năng mới
Phần mềm - Ứng dụng

