Hello,

Sign in to find your next job.

Blog IT

Galaxy AI đã giải được bài toán "phong ba bão táp không bằng ngữ pháp Việt Nam" như thế nào?

Galaxy AI đã giải được bài toán "phong ba bão táp không bằng ngữ pháp Việt Nam" như thế nào?

Khi biết những tác giả đã giúp Galaxy AI hiểu tiếng Việt một cách thành thục chính là những kỹ sư của Trung tâm Nghiên cứu và phát triển Samsung Việt Nam, chúng ta có quyền được tự hào.

 

Có thể bạn chưa nhận ra, Galaxy AI trên dòng Galaxy S24 series không chỉ là AI đầu tiên có mặt trên thiết bị di động mà còn là AI đầu tiên hỗ trợ ngôn ngữ tiếng Việt trên smartphone. Trong số 13 ngôn ngữ được tích hợp trên thiết bị này, sự có mặt của tiếng Việt dù không phải là ngôn ngữ quá phổ biến trên thế giới đánh dấu một cột mốc quan trọng: đó là sự đóng góp vô cùng quan trọng các kỹ sư người Việt tại Trung tâm Nghiên cứu và phát triển Samsung Việt Nam.

 

Được khởi công từ tháng 3/2022 và khánh thành vào tháng 12/2022, Trung tâm Nghiên cứu và Phát triển (SRV) Samsung Việt Nam tại khu vực Tây Hồ Tây (Hà Nội) thể hiện rõ khát vọng của Samsung trong việc đưa Việt Nam vượt qua vai trò là cứ điểm sản xuất toàn cầu, để trở thành “cứ điểm” chiến lược về nghiên cứu và phát triển của tập đoàn. Tại lễ khánh thành, lãnh đạo Samsung đã cam kết với Thủ tướng Chính phủ Phạm Minh Chính, rằng sẽ biến Trung tâm Nghiên cứu và Phát triển Samsung Việt nam (SRV) tại Hà Nội trở thành Trung tâm Nghiên cứu và Phát triển số một toàn cầu, và cũng cam kết về việc đào tạo nhân tài công nghệ Việt Nam.

Đến ngày hôm nay, có thể nói thành tựu đáng chú ý nhất, mang đến niềm tự hào không chỉ cho chính những người kỹ sư Việt Nam đang ngày đêm cống hiến cho nền công nghệ Việt mà còn cho cả người Việt nói chung nữa chính là Galaxy AI trên dòng sản phẩm Galaxy S24.

Galaxy AI đã giải được bài toán "phong ba bão táp không bằng ngữ pháp Việt Nam" như thế nào?

Tiếng Việt chỉ đứng thứ 23 nếu so về số lượng người sử dụng trên toàn thế giới, khoảng 77 triệu người (Số liệu của tạp chí Ethonologue năm 2020). Nhưng tiếng Việt lại được ưu ái lựa chọn trên Galaxy AI.

Quyết định bổ sung tiếng Việt trên Galaxy AI

Thời điểm tháng 10/2023, khi hệ thống trí tuệ nhân tạo Galaxy AI đang được phát triển cho dòng điện thoại Galaxy S24 với kế hoạch đưa những ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Trung Quốc, tiếng Pháp…. Một quyết định đầy ưu ái đã được ban lãnh đạo tập đoàn Samsung đưa ra: bổ sung tiếng Việt vào Galaxy AI. So với các ngôn ngữ khác dựa trên số lượng người dùng và độ phổ biến trên thế giới, tiếng Việt có số lượng người dùng ít hơn khá nhiều. Cụ thể, tiếng Việt chỉ đứng thứ 23 nếu so về số lượng người sử dụng trên toàn thế giới, khoảng 77 triệu người (Số liệu của tạp chí Ethonologue năm 2020).

Điều đó không chỉ cho thấy Việt Nam là một thị trường quan trọng và có vị trí chiến lược trong kế hoạch phát triển của Samsung mà còn thể hiện sự quan tâm đến thị trường Việt, tới người tiêu dùng Việt của tập đoàn công nghệ số 1 Hàn Quốc. Nhớ lại về quyết định này, Kỹ sư Trần Tuấn Minh, Trưởng nhóm nghiên cứu Language AI, Trung tâm nghiên cứu và phát triển Samsung Việt Nam nói: “Em vẫn nhớ cảm giác vui mừng khi được chọn vào đội AI vì đây là lần đầu tiên SRV nhận một dự án chiến lược liên quan đến AI. Đặc biệt hơn nữa, em cảm thấy vô cùng tự hào khi được phát triển ngôn ngữ Tiếng Việt, là ngôn ngữ mẹ đẻ của quốc gia mình, trên dòng điện thoại hiện đại bậc nhất bây giờ là những chiếc smartphone S24”.

“Ban lãnh đạo SRV xác định AI là trọng tâm nghiên cứu và phát triển của không chỉ tập đoàn Samsung mà còn cả của SRV. Do đó, nhóm AI được tạo mọi điều kiện tốt nhất: được tiếp xúc, học hỏi và chuyển giao công nghệ nhanh chóng. Các kỹ sư trong nhóm nghiên cứu và phát triển AI được cử sang Hàn Quốc và Ấn Độ để nhận chuyển giao về kiến trúc mô hình AI, thuật toán cho AI, đào tạo AI, dữ liệu cho AI…. Bên cạnh đó, bộ phận kiểm thử về AI thì được HQ trực tiếp sang chia sẻ: Kiến thức về AI, Phương pháp kiểm thử, Tool hỗ trợ kiểm thử, kinh nghiệm kiểm thử AI”.

Galaxy AI đã giải được bài toán "phong ba bão táp không bằng ngữ pháp Việt Nam" như thế nào?

Ban lãnh đạo SRV xác định AI là trọng tâm nghiên cứu và phát triển của không chỉ tập đoàn Samsung mà còn cả của SRV. Do đó, nhóm AI được tạo mọi điều kiện tốt nhất: được tiếp xúc, học hỏi và chuyển giao công nghệ nhanh chóng.

Không chỉ ngữ pháp, nguồn dữ liệu mới là trở ngại lớn nhất của tiếng Việt

Người Việt Nam chúng ta có câu “phong ba bão táp không bằng ngữ pháp Việt Nam”. Mặc dù chỉ đứng thứ 23 về số lượng người sử dụng nhưng độ khó của tiếng Việt là điều mà chính chúng ta cũng có thể cảm nhận được. Trong suốt 4000 năm lịch sử xây dựng và bảo vệ đất nước, tiếng Việt đã phát triển vô cùng phong phú. Trong tiếng Việt không chỉ bao gồm từ thuần Việt (những từ được sáng tạo bởi người dân Việt Nam) mà còn có từ Hán Việt (những từ trong tiếng Việt có nguồn gốc từ tiếng Hán) và từ mượn gốc Tây Âu. Đặc biệt, tiếng Việt gồm 6 thanh: ngang, huyền, hỏi, ngã, sắc, nặng. Thanh được thể hiện trên chữ viết là dấu thanh (còn gọi là dấu). Một số âm thanh khá khó phát âm, đặc biệt là âm "ngã" và âm "tr", đòi hỏi người học phải luyện tập để phát âm chính xác và tự nhiên. Đây là trở ngại khi muốn AI “học” và “hiểu” tiếng Việt một cách thuần thục.

Để giải quyết những vấn đề này, SRV phải huy động hàng trăm người để xử lý dữ liệu cho AI. Đội ngũ đã phải liên tục tạo ra dữ liệu để đào tạo AI, giúp AI hiểu và cho kết quả đầu ra chính xác. Đặc biệt, những nguồn dữ liệu này phải đảm bảo tính hợp pháp chứ không đơn thuần là dữ liệu thu thập tự do. Đây mới chính là trở ngại lớn nhất khi đội ngũ phải làm việc với tiếng Việt tích hợp trên Galaxy AI. Trên thực tế, ở Việt Nam không có những quy định về thu thập dữ liệu, cũng không có nguồn dữ liệu đủ lớn để giúp AI “training”. Do vậy làm thế nào để có dữ liệu cho AI “hiểu” tiếng Việt là điều vô cùng khó khăn.

SRV - Niềm tự hào của người Việt

Truyền thông Việt Nam biết rõ về tính năng Galaxy AI, về cách mà Galaxy AI xử lý tiếng Việt một cách thông minh trên các dòng điện thoại Galaxy S24 nhưng sự thực là gần như không ai biết đến tác giả của những thành tựu đó. Chỉ khi trực tiếp đến tham quan và trải nghiệm Trung tâm Nghiên cứu và phát triển Samsung Việt Nam, tất cả mới vỡ lẽ: Hóa ra những công nghệ ấn tượng về ngôn ngữ tiếng Việt trên Galaxy S24 đều do chính người Việt làm nên.

Hiện tại Trung tâm Nghiên cứu và phát triển Samsung Việt Nam đang có khoảng khoảng 2.400 kỹ sư đang làm việc, trong đó các kỹ sư người Việt Nam luôn được Tập đoàn đánh giá cao về năng lực và là lực lượng nòng cốt trong việc nghiên cứu tính năng AI trong dòng điện thoại mới Galaxy S24. Không chỉ có vậy, SRV hiện còn đang đảm nhận nhiều dự án quan trọng của tập đoàn. Lần đầu tiên, SRV nhận nhiệm vụ phát triển toàn diện cho sản phẩm Note PC cấp cơ sở, từ cơ khí, phần cứng và phần mềm. Đây là nền tảng để phát triển nhiều mẫu Note PC sau này. Ngoài ra, SRV cũng đã bắt đầu nhận các dự án phát triển cho các sản phẩm mạng viễn thông Network và tiếp nhận chuyển giao 2 mảng hoạt động chiến lược từ Hàn Quốc, bao gồm tính năng đa phương tiện và tính năng bảo mật trên điện thoại Samsung.

Kể từ năm 2022, đối với lĩnh vực phần mềm SRV đã và đang lựa chọn lĩnh vực Truyền thông đa phương tiện và Bảo mật là 2 lĩnh vực tập trung nghiên cứu chuyên sâu và đang tập trung đào tạo nhân lực. Ngoài ra khi quy mô phát triển của lĩnh vực phần cứng mở rộng trong 2 mảng Note PC và thiết bị viễn thông, SRV cũng sẽ tập trung đào tạo nâng cao năng lực chuyên môn ở phần thiết kế phần cứng. Rõ ràng với những gì SRV đã cống hiến, chúng ta có thể tin vào tương lai của những thiết bị công nghệ cao không chỉ là “made in Vietnam” - sản xuất tại Việt Nam, mà còn là “created by Vietnam” - được sáng tạo và nuôi dưỡng ý tưởng từ người Việt.

Nếu có dịp được trên tay và trải nghiệm các sản phẩm của Samsung có liên quan đến tiếng Việt trong thời gian tới, hoặc có những tính năng hết sức gần gũi với người bản địa, bạn hãy tin rằng đó là sự cố gắng và nỗ lực đến từ chính những người Việt đang làm tại Trung tâm nghiên cứu và Phát triển Samsung Việt Nam. Và đó là điều có thể khiến bất cứ ai cũng phải cảm thấy tự hào.

GenK

Similar blogs

Hot Blogs