Sinh viên Việt Nam công bố nghiên cứu mới về mô hình AI đa ngôn ngữ tại hội nghị AAAI
Minh Khôi (trái) và Khánh Trình (phải) chụp ảnh kỷ niệm với thầy Quản Thành Thơ nhân ngày tốt nghiệp, tháng 11/2023. Ảnh: Nhân vật cung cấp
Nghiên cứu về mô hình đa ngôn ngữ huấn luyện AI tạo câu đồng nghĩa của Phạm Khánh Trình và Lê Minh Khôi, 23 tuổi, được đăng trong tài liệu Hội nghị AAAI-24, diễn ra cuối tháng 2 tại Vancouver, Canada.
Nghiên cứu của họ xoay quanh phương pháp đào tạo đối nghịch để tạo ra dữ liệu mới cho AI, và đã được công bố tại Hội nghị AAAI - một trong những sự kiện quan trọng nhất trong lĩnh vực AI toàn cầu.
PGS.TS Quản Thành Thơ, Phó trưởng khoa Khoa học và Kỹ thuật Máy tính, Đại học Bách khoa TP HCM, đánh giá cao nghiên cứu này, nhấn mạnh sự quan trọng của AAAI trong giới nghiên cứu và chuyên môn, cũng như về tỷ lệ chấp thuận bài báo cực kỳ thấp, chỉ đạt 23,75% trong năm nay.
Trong đề tài, Trình và Khôi chọn hướng nghiên cứu về mô hình ngôn ngữ đa ngôn ngữ, nhằm tìm ra cách cải thiện hiệu suất của chúng. Họ đã phát triển một phương pháp mới, gọi là LAMPAT (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training), sử dụng phương pháp đào tạo đối nghịch để tạo ra câu đồng nghĩa và mở rộng dữ liệu cho các mô hình AI. Phương pháp này đã được chứng minh có khả năng tạo ra các cụm diễn giải đồng nghĩa trên nhiều ngôn ngữ, đồng thời giúp giải quyết vấn đề thiếu hụt dữ liệu cho các mô hình AI.
Nghiên cứu của họ không chỉ mang lại kết quả tích cực mà còn mở ra một hướng mới trong lĩnh vực nghiên cứu về AI và xử lý ngôn ngữ tự nhiên. Trình và Khôi hiện đang tiếp tục nghiên cứu để phát triển ứng dụng thực tế cho phương pháp này và dự định tiếp tục học sau đại học để tiếp tục đam mê nghiên cứu về trí tuệ nhân tạo và học máy.
Hội nghị AAAI (Association for the Advancement of Artificial Intelligence) là một trong những hội nghị hàng đầu thế giới trong lĩnh vực trí tuệ nhân tạo (AI). AAAI là tổ chức chuyên ngành có uy tín và được công nhận rộng rãi trong cộng đồng nghiên cứu AI. Hội nghị này thường diễn ra hàng năm, thu hút sự tham gia của các nhà nghiên cứu, nhà khoa học, và các chuyên gia hàng đầu trong lĩnh vực AI từ khắp nơi trên thế giới. AAAI cung cấp một diễn đàn quan trọng để trao đổi kiến thức, chia sẻ kết quả nghiên cứu mới, và thảo luận về các xu hướng và tiến bộ trong lĩnh vực AI.
Nhà tài trợ AAAI-24 là ai?
1. Tạp chí Trí tuệ nhân tạo (AIJ): AIJ là tạp chí hàng đầu lâu đời về Trí tuệ nhân tạo được hiểu rộng rãi. Kể từ khi được thành lập vào năm 1970, nó đã xuất bản nhiều bài báo quan trọng trong lĩnh vực này. AIJ xuất bản các bài báo gốc về tất cả các khía cạnh của AI, cho dù chúng mô tả các đề xuất về những cách mới để xem xét các vấn đề AI và kết quả được lưu trữ hay các phương pháp AI mới nâng cao hiệu suất trong các lĩnh vực ứng dụng.
2. Huawei: Được thành lập vào năm 1987, Huawei là nhà cung cấp cơ sở hạ tầng công nghệ thông tin và truyền thông (ICT) và thiết bị thông minh hàng đầu thế giới. Chúng tôi có 207.000 nhân viên và hoạt động tại hơn 170 quốc gia và khu vực, phục vụ hơn ba tỷ người trên khắp thế giới. Chúng tôi cam kết mang kỹ thuật số đến mọi người, mọi gia đình và tổ chức để có một thế giới thông minh, được kết nối trọn vẹn.
3.IBM: IBM Research là ngôi nhà của 3.000 nhà khoa học và nhà nghiên cứu tin tưởng sâu sắc vào sức mạnh của phương pháp khoa học trong việc phát minh ra những gì tiếp theo cho công ty, cho khách hàng và cho xã hội của chúng tôi. Chúng tôi sử dụng các công nghệ tiên tiến, mở rộng quy mô và triển khai chúng với các đối tác trên mọi ngành và lĩnh vực nghiên cứu. Chúng tôi đang nâng cao công nghệ tiên tiến về AI và đám mây lai, đồng thời xác định tương lai của điện toán lượng tử. Kể từ khi phòng thí nghiệm đầu tiên của chúng tôi mở cửa vào năm 1945, chúng tôi đã xuất bản hơn 110.000 ấn phẩm nghiên cứu. Các nhà nghiên cứu của chúng tôi đã giành được sáu giải Nobel, sáu giải Turing và IBM đã được cấp hơn 150.000 bằng sáng chế.
4. Amazon: Amazon Science cung cấp cho bạn cái nhìn sâu sắc về cách tiếp cận của công ty đối với sự đổi mới khoa học lấy khách hàng làm trọng tâm. Về cơ bản, Amazon tin rằng đổi mới khoa học là điều cần thiết để trở thành công ty lấy khách hàng làm trung tâm nhất trên thế giới. Chính khả năng tạo ra tác động trên quy mô lớn của công ty đã cho phép chúng tôi thu hút một số bộ óc thông minh nhất trong lĩnh vực trí tuệ nhân tạo và các lĩnh vực liên quan.
5. Viện Tianqiao và Chrissy Chen (TCCI®): Viện Tianqiao và Chrissy Chen (TCCI®) được thành lập vào năm 2016 bởi Tianqiao Chen và vợ ông, Chrissy Luo, những người sáng lập Tập đoàn Shanda, với cam kết trị giá 1 tỷ USD để giúp thúc đẩy khoa học não bộ. Tầm nhìn của tổ chức là cải thiện trải nghiệm của con người bằng cách hiểu cách bộ não của chúng ta nhận thức, học hỏi và tương tác với thế giới.
6. Baidu: Baidu là công ty AI hàng đầu với nền tảng Internet vững mạnh. Với sứ mệnh “làm cho thế giới phức tạp trở nên đơn giản hơn thông qua công nghệ”, Baidu thúc đẩy đổi mới công nghệ liên tục và cam kết trở thành công ty công nghệ hàng đầu toàn cầu hiểu rõ nhất nhu cầu của người dùng và tạo điều kiện cho họ phát triển.
7. Google: Google là một công ty công nghệ đa quốc gia của Mỹ, chuyên về các dịch vụ và sản phẩm liên quan đến Internet, bao gồm các công nghệ quảng cáo trực tuyến, công cụ tìm kiếm, điện toán đám mây, phần mềm và phần cứng. Đây được coi là một trong những công ty công nghệ Big Four, cùng với Amazon, Apple và Facebook. Google giải quyết những thách thức xác định công nghệ của ngày hôm nay và ngày mai. Các nhóm của chúng tôi mong muốn thực hiện những khám phá có tác động đến mọi người và cốt lõi trong phương pháp tiếp cận của chúng tôi là chia sẻ nghiên cứu và công cụ để thúc đẩy tiến bộ trong lĩnh vực này.
Các nhà nghiên cứu của chúng tôi xuất bản thường xuyên trên các tạp chí học thuật, phát hành các dự án dưới dạng nguồn mở và áp dụng nghiên cứu vào các sản phẩm của Google. Chúng tôi hình dung lại công nghệ trên tất cả các lĩnh vực nghiên cứu Khoa học Máy tính.
8. TELUS: TELUS là công ty viễn thông hàng đầu với doanh thu hàng năm hơn 18 tỷ USD và 18 triệu kết nối khách hàng. Từ công nghệ tốt nhất toàn cầu và cam kết đặt khách hàng lên hàng đầu cho đến niềm đam mê thúc đẩy thay đổi xã hội của đội ngũ TELUS, TELUS đang giúp biến thế giới thành một nơi tốt đẹp hơn cho các thế hệ mai sau.
9. Toloka: Toloka là nhà cung cấp dữ liệu chuyên nghiệp để đào tạo và đánh giá các giải pháp LLM và GenAI với sự trợ giúp từ hiểu biết sâu sắc của con người.
10. CRA: Sứ mệnh của Hiệp hội Nghiên cứu Máy tính là xúc tác nghiên cứu máy tính bằng cách liên kết với ngành công nghiệp, chính phủ và giới học thuật. CRA thực hiện sứ mệnh này bằng cách lãnh đạo cộng đồng nghiên cứu máy tính; thông báo cho các nhà hoạch định chính sách và công chúng; và ủng hộ một cộng đồng nghiên cứu máy tính đa dạng, thân thiện, công bằng và có trách nhiệm với xã hội.
11.Hippocrates AI: Hippocrates AI, được nêu trong Fortune 50 AI Innovators (2023) và Nature Medicine, đang xây dựng LLM tập trung vào an toàn cho ngành chăm sóc sức khỏe. Nhóm của chúng tôi bao gồm các nhà nghiên cứu cũ từ Microsoft, Amazon, Google, Nvidia, Apple và HuggingFace đang phát minh lại thế hệ đào tạo và liên kết mô hình nền tảng tiếp theo để tạo ra các tác nhân đàm thoại an toàn được hỗ trợ bởi AI.
12. Tạp chí Đối tác Khoa học: Chương trình Tạp chí Đối tác Khoa học (SPJ) được Hiệp hội vì sự tiến bộ của khoa học Hoa Kỳ (AAAS) triển khai vào cuối năm 2017. Chương trình có các ấn phẩm truy cập mở, chỉ trực tuyến, chất lượng cao được sản xuất với sự cộng tác của các tổ chức nghiên cứu, tổ chức, nhà tài trợ và xã hội quốc tế. Các tạp chí hiện tại trong chương trình bao gồm Nghiên cứu , Khoa học dữ liệu sức khỏe , Máy tính thông minh , Nghiên cứu thiết kế sinh học và Thiết bị & thiết bị tiên tiến . Để biết thêm thông tin https://spj.science.org
13. ISI: Bộ phận Trí tuệ nhân tạo tại ISI là một trong những nhóm nghiên cứu AI lớn nhất thế giới, với hơn 160 giảng viên, nhân viên và nghiên cứu sinh nghiên cứu. Chúng tôi làm việc trên nhiều lĩnh vực AI, bao gồm AI tổng quát và sức khỏe, AI và thiết kế, tích hợp dữ liệu y sinh, biểu đồ tri thức, trí tuệ tập thể và dịch máy, cùng nhiều lĩnh vực khác.
Có chung niềm đam mê với Học sâu và Xử lý ngôn ngữ tự nhiên, Trình và Khôi chọn hướng nghiên cứu về mô hình ngôn ngữ lớn (LLMs). Cả hai muốn tìm ra những mặt hạn chế của LLMs và cải tiến nó.
Khánh Trình cho biết Chat GPT hay LLMs cần được huấn luyện một lượng dữ liệu văn bản khổng lồ để tạo ra các phản hồi chính xác, đa dạng cho người dùng. Hai nam sinh nhận ra với các ngôn ngữ ít phổ biến như tiếng Hindi, Kazakh, hay Indonesia, Chat GPT và LLMs thường cho ra kết quả không như mong đợi vì chưa được học nhiều thứ tiếng này, hoặc thứ tiếng này chưa đủ dữ liệu cho chúng học.
"Tại sao chúng ta không tạo thêm dữ liệu dạng chữ từ những 'tài nguyên ít ỏi' của các thứ tiếng đó để huấn luyện thêm cho AI", hai nam sinh đặt vấn đề. Từ đó mô hình LAMPAT (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) - diễn giải đa ngôn ngữ bằng cách sử dụng phương pháp đào tạo đối nghịch do Trình và Khôi nghiên cứu, ra đời.
LAMPAT có khả năng tạo một câu đồng nghĩa từ một câu đầu vào có sẵn, nhằm sinh thêm dữ liệu dạng chữ. Trình giải thích "đào tạo đối nghịch" là một phương pháp tương đối mới trong huấn luyện các mô hình ngôn ngữ lớn. Khi đưa một câu đầu vào, với phương pháp huấn luyện truyền thống, ứng dụng sẽ tạo một câu đầu ra. Nhưng với phương pháp đào tạo đối nghịch, ứng dụng có thể tự nhận xét, chỉnh sửa câu đầu ra, "đối nghịch với chính nó" để tạo thêm nhiều câu khác.
Lượng dữ liệu dạng chữ được tạo ra từ LAMPAT sẽ tiếp tục được mang đi huấn luyện cho LLMs để các mô hình này học được nhiều kiểu diễn đạt thông tin khác nhau cho cùng một nội dung, từ đó cho kết quả phản hồi đa dạng và có xác suất đúng cao hơn. Với tính năng này, đại diện nhóm cho rằng LAMPAT có thể được tích hợp vào các ứng dụng như ChatGPT để hoàn thiện hơn mô hình này.
Bên cạnh đó, tình trạng thiếu dữ liệu cho Chat GPT hay LLMs khiến một số công ty phải tìm kiếm nhiều nguồn từ bên ngoài như sách, báo, blog,... mà không để ý đến vấn đề bản quyền. Việc tạo câu đồng nghĩa cũng là một trong những cách để hạn chế tình trạng đạo văn, vi phạm bản quyền, theo Khánh Trình.
Nam sinh ví dụ với các ứng dụng như Chat GPT, khi người dùng yêu cầu tóm tắt một văn bản có sẵn A, ứng dụng sẽ tạo ra một văn bản tóm tắt B. Nếu tích hợp phương pháp nghiên cứu của nhóm, khi tiếp nhận văn bản A, ứng dụng sẽ tạo ra nhiều văn bản cùng nội dung A1, A2, A3 dựa trên cơ chế tạo câu đồng nghĩa, từ đó mới tóm tắt văn bản và cho ra nhiều kết quả để người dùng lựa chọn.
Trong thời gian đầu nghiên cứu, nhóm gặp khó khăn khi chuẩn bị dữ liệu đánh giá cho 60 thứ tiếng. Do chưa thể tiếp cận với số lượng dữ liệu đủ lớn nên nhóm đã tổng hợp bộ dữ liệu đa dạng, đầy đủ của 13 thứ tiếng để đánh giá khách quan mô hình, gồm: Việt, Anh, Pháp, Đức, Nga, Nhật, Trung, Tây Ban Nha, Hungary, Bồ Đào Nha, Thụy Điển, Phần Lan, Séc. Đây cũng là bộ dữ liệu đáng tin cậy cho bước Human Evaluation (chấm điểm) cuối cùng.
Đối với mỗi ngôn ngữ tiếng Anh, Việt, Đức, Pháp và Nhật, nhóm trích xuất ngẫu nhiên 200 cặp câu (một cặp gồm câu đầu ra và nhãn đúng) để đánh giá. Với mỗi ngôn ngữ nêu trên, nhóm nhờ 5 chuyên gia ngôn ngữ chấm điểm độc lập, dựa trên ba tiêu chí: bảo toàn ngữ nghĩa; cách lựa chọn từ ngữ và độ tương đồng về từ vựng, tính trôi chảy và mạch lạc của câu đầu ra. Thang đo được tính từ 1 đến 5. Kết quả, điểm đánh giá trung bình từ chuyên gia ngôn ngữ ở 5 thứ tiếng này dao động 4,2-4,6/5 điểm.
Một cặp câu tiếng Việt được chấm điểm 4,4/5, trong đó câu đầu vào là: "Anh ta đã giải thích vấn đề ấy một cách chi tiết", và câu đầu ra: "Anh ta đã giải thích chi tiết vấn đề ấy".
Nhưng cũng có những cặp câu không tốt, sai ngữ nghĩa, như cặp câu "Chúng tôi ăn trong khi súp nóng - Chúng tôi ăn súp trong khi chúng tôi đang nóng", chỉ đạt 2/5 điểm.
Khánh Trình cho hay mất 8 tháng để hoàn thành nghiên cứu này. Đây cũng là đề tài luận văn tốt nghiệp của Trình và Khôi, đứng đầu khi bảo vệ ở Hội đồng Khoa học Máy tính 2 với 9,72/10 điểm.
Theo thầy Quản Thành Thơ, dù LAMPAT chứng tỏ khả năng thành thạo trong việc tạo ra các cụm diễn giải đồng nghĩa giống con người trên nhiều ngôn ngữ, nhưng nó vẫn cần cải tiến để xử lý các thành ngữ, ca dao, tục ngữ ở các thứ tiếng khác nhau.
Hơn nữa, tập dữ liệu đánh giá của nhóm chỉ gồm 13 ngôn ngữ, vẫn còn bỏ sót nhiều, nhất là tiếng dân tộc thiểu số. Vì vậy, nhóm cần nghiên cứu để nâng cao và mở rộng khả năng của các mô hình diễn giải đa ngôn ngữ hiện nay. Từ đây, chúng ta có thể gỡ bỏ được rào cản ngôn ngữ giữa các quốc gia và dân tộc.