Liệu OpenAI Sora có phải bước ngoặt trong công nghệ video?

Sora đã gây sốc cho cộng đồng công nghệ bởi tốc độ phát triển của nó và tiềm năng tạo ra những ứng dụng mới cho nhiều lĩnh vực, từ giáo dục đến marketing và giải trí. Với khả năng tạo ra video một cách tự động và nhanh chóng từ văn bản, Sora mở ra cánh cửa cho những ứng dụng mới mà trước đây có thể chỉ được tưởng tượng.

 OpenAI Sora là gì?

Giống như các công cụ Trí tuệ Nhân tạo tạo hình khác như DALL-E và MidJourney, Sora nhận dạng các gợi ý văn bản từ bạn và chuyển chúng thành phương tiện trực quan. Tuy nhiên, khác với các công cụ tạo hình hình ảnh AI được nhắc đến trước đây, Sora tạo ra một đoạn video hoàn chỉnh với chuyển động, góc quay camera khác nhau, hướng dẫn, và mọi thứ khác mà bạn mong đợi từ một video được sản xuất theo cách truyền thống.

Nhìn vào các ví dụ trên trang web của Sora, kết quả thường không thể phân biệt được khi ta so sánh với video thực sự được sản xuất chuyên nghiệp. Tất nhiên, Sora không phải là công nghệ đầu tiên làm điều này. Nhưng kết quả mà Sora có đưa ra là hoàn toàn ổn định so với những công nghệ khác và các đoạn video có thể lên đến một phút. Tuy rằng các đoạn video không có âm thanh, nhưng đã có các hệ thống AI khác có thể tạo ra nhạc, hiệu ứng âm thanh và lời nói nên điều này hoàn toàn có thể khắc phục. 

Theo dự đoán thì trong tương lai Sora sẽ có khả năng tác động đến toàn bộ ngành công nghiệp video, từ những nhà sản xuất video cá nhân cho đến các dự án bom tấn kinh phí lớn. Điều này đặc biệt đúng vì Sora không cần tạo ra mọi thứ từ đầu, mà có thể làm việc trên nội dung sẵn có, chẳng hạn như tạo hoạt ảnh cho một bức ảnh tĩnh mà bạn cung cấp. Đây có thể là sự khởi đầu thực sự của ngành công nghiệp điện ảnh tổng hợp.

 Sora hoạt động như thế nào?

Mặc dù chi tiết về cách thức hoạt động của Sora được rất nhiều người quan tâm tới, nhưng điều này khá hạn chế vì OpenAI không chia sẻ quá nhiều về công nghệ của họ. Tất cả đều là độc quyền và do đó công thức bí mật giúp Sora vượt trội so với các đối thủ cạnh tranh vẫn là ẩn số. 

Sora được xây dựng dựa trên những bài học mà các công ty như OpenAI rút ra khi tạo ra các công nghệ như ChatGPT hoặc DALL-E. Sora đổi mới cách thức huấn luyện trên các video mẫu bằng cách chia nhỏ các video đó thành các "miếng vá" tương tự như các "token" được sử dụng bởi mô hình đào tạo của ChatGPT. Do tất cả các token này đều có kích thước bằng nhau nên các yếu tố như độ dài clip, tỷ lệ khung hình và độ phân giải không quan trọng đối với Sora.

Sora sử dụng cùng phương pháp transformer tổng hợp mạnh mẽ như GPT cùng với phương pháp khuếch tán mà các trình tạo hình ảnh AI sử dụng. Trong quá trình đào tạo, nó xem các token vá được khuếch tán một phần nhiễu từ video và cố gắng dự đoán token sạch, không nhiễu trông như thế nào. Bằng cách so sánh điều đó với dữ liệu gốc, mô hình học được "ngôn ngữ" của video. Đó là lý do tại sao các ví dụ từ trang web của Sora trông rất chân thực.

Ngoài khả năng đáng chú ý này, Sora còn có các chú thích chi tiết được bao gồm cho các khung hình video mà nó được đào tạo, đây là một phần lý do tại sao nó có thể sửa đổi các video mà nó tạo ra dựa trên các yêu cầu bằng văn bản.

Khả năng mô phỏng chính xác vật lý trong video của Sora dường như là một tính năng nổi bật, kết quả đơn giản là do được đào tạo trên hàng triệu video chứa chuyển động dựa trên vật lý thế giới thực. Sora có tính năng trường tồn đối tượng tuyệt vời, ngay cả khi đối tượng rời khỏi khung hình hoặc bị che khuất bởi thứ gì đó khác trong khung hình, chúng vẫn có mặt và quay trở lại mà không bị xáo trộn.

Khi nào thì người dùng có thể trải nghiệm Sora?

Tính đến thời điểm hiện tại, vẫn chưa rõ ràng chính xác thời gian ra mắt Sora cho công chúng hoặc giá thành của nó. OpenAI tuyên bố rằng công nghệ này hiện đang nằm trong quá trình thử nghiệm để tránh Sora bị dùng cho các mục đích xấu như tạo ra các sản phẩm không lành mạnh. Điều này bao gồm khả năng tạo ra thông tin sai lệch, nội dung xúc phạm hoặc mang tính công kích, và nhiều kiểu lạm dụng khác mà người ta có thể tưởng tượng tới.