Các bước tiến chóng mặt của công nghệ AI tạo sinh đang vừa khiến người dùng kinh ngạc lại vừa khiến họ kinh sợ về các hậu quả có thể đến trong tương lai, nếu không được sử dụng đúng mục đích.
Công nghệ AI tạo sinh đang tiến nhanh hơn hình dung của đa số mọi người. Nếu hơn một năm trước ChatGPT vẫn còn đang khiến người dùng kinh ngạc vì khả năng tạo ra nội dung văn bản theo yêu cầu thì giờ đây những nội dung mà các mô hình AI tạo ra đã vượt xa về mức độ phức tạp và tinh xảo.
Cách đây không lâu, hãng OpenAI đã giới thiệu mô hình Sora với khả năng tạo ra các đoạn video ngắn từ các lời nhắc văn bản với chất lượng chân thực như các đoạn clip chuyên nghiệp. Giờ đây, hãng Alibaba của Trung Quốc cũng đưa ra câu trả lời của mình: một mô hình AI có khả năng biến bất kỳ nhân vật nào trong một hình ảnh tĩnh thành ca sĩ chuyên nghiệp.
Công cụ tạo video AI này có tên EMO, viết tắt của Emotive Portrait Alive, đại diện cho một bước tiến đột phá trong lĩnh vực này, được thiết kế để giúp vượt mặt Sora của OpenAI. Trong khi Sora xuất sắc trong việc tạo ra các cảnh quan và phong cảnh ngoạn mục, các nhân vật của nó thường im lặng và bất động. Ngược lại, EMO giúp cho phép nhân vật nói và hát, thể hiện các biểu cảm khuôn mặt chân thực và khả năng đồng bộ môi chính xác – ngay cả khi đó là một nhân vật ảo không có thật như cô gái trong clip giới thiệu Sora của OpenAI.
Dù trong clip của Sora, cô gái chỉ đang đi dạo quanh Tokyo và không hề có chuyển động môi, nhưng cô vẫn có thể hát và nhảy tương tự như ca sĩ Dua Lipa trong bài hát "Don''t Start Now".
Nếu như kỹ thuật deepfake xuất hiện vài năm trước chỉ đơn thuần là việc hoán đổi gương mặt bằng AI nhưng không tái hiện được biểu cảm gương mặt cũng như phải cần đến các clip cho trước, thì EMO chỉ cần một hình ảnh tĩnh duy nhất. Không chỉ tiếng Anh, mô hình AI này có thể tạo ra nhân vật với các ngôn ngữ, giọng điệu khác nhau như tiếng Hàn.
Theo tài liệu nghiên cứu của Alibaba, EMO sử dụng một tập dữ liệu lớn về âm thanh và video để học cách thực hiện các biểu cảm khuôn mặt một cách chân thực. Nó cũng sử dụng một phương pháp dựa trên sự khuếch tán, có nghĩa là nó dần dần chuyển đổi hình ảnh tĩnh thành video từng khung hình một, không qua bất kỳ bước trung gian nào.
EMO cũng sử dụng hai cơ chế tìm điểm chú ý, một cho hình ảnh tham khảo và một cho âm thanh, để đảm bảo rằng hoạt ảnh khuôn mặt phù hợp với cả vẻ ngoài và lời nói của khuôn mặt mục tiêu. Kết quả là một video mượt mà và biểu cảm, trông giống như người thật đang nói hoặc hát.
Trong khi các công cụ, mô hình AI đang phát triển nhanh như vũ bão hiện nay, mở ra các cơ hội hấp dẫn cho lĩnh vực như giải trí, giáo dục và giao tiếp. Hãy tưởng tượng việc khai thác sức mạnh để làm cho các nhân vật nổi tiếng hoặc những nhân vật lịch sử nói hoặc hát bất cứ điều gì bạn mong muốn, hoặc tạo ra những hình đại diện ảo không chỉ giống bạn mà còn nghe như bạn. Những khả năng mà các công cụ tạo video AI như EMO mang lại thực sự đáng kinh ngạc và có tiềm năng lớn trong việc biến đổi các ngành công nghiệp giải trí đa dngj.
Tuy nhiên, EMO cũng đặt ra một số mối quan ngại về đạo đức và xã hội, đặc biệt là liên quan đến quyền riêng tư và sự đồng ý của những người có khuôn mặt được hệ thống sử dụng. EMO có thể được sử dụng để tạo ra các video giả mạo hoặc gây hiểu lầm có thể làm hại đến uy tín hoặc độ tin cậy của các cá nhân liên quan, hoặc để thao túng cảm xúc hoặc quan điểm của người xem.
Nhưng đồng thời đây cũng là một lưỡi dao hai lưỡi có thể mang lại hậu quả tích cực hoặc tiêu cực tùy thuộc vào cách nó được sử dụng. Cũng tương tự như những gì deepfake đang làm hoang mang cho mọi người, EMO và các công nghệ tạo sinh hình ảnh và video hiện tại cũng có thể gây ra các tác hại tương tự với ảnh hưởng lớn hơn nhiều.
GenK