Theo một bài đăng trên blog vào ngày 16 tháng 11, gã khổng lồ truyền thông xã hội Meta đã giới thiệu các mô hình trí tuệ nhân tạo (AI) mới nhất của mình để chỉnh sửa và tạo nội dung.
Công ty đang giới thiệu hai mô hình sáng tạo được hỗ trợ bởi AI. Đầu tiên, Emu Video, tận dụng mô hình Emu trước đây của Meta và có khả năng tạo các video clip dựa trên văn bản và hình ảnh đầu vào. Mô hình thứ hai, Emu Edit, tập trung vào thao tác hình ảnh, hứa hẹn độ chính xác cao hơn trong chỉnh sửa hình ảnh.
Các mô hình này vẫn đang trong giai đoạn nghiên cứu, nhưng Meta cho biết kết quả ban đầu của nó cho thấy các trường hợp sử dụng tiềm năng cho cả người sáng tạo, nghệ sĩ và nhà làm phim hoạt hình.
Theo bài đăng trên blog của Meta, Video Emu đã được đào tạo theo cách tiếp cận “được nhân tố hóa”, chia quá trình đào tạo thành hai bước để cho phép mô hình phản hồi với các đầu vào khác nhau:
“Chúng tôi đã chia quy trình thành hai bước: đầu tiên, tạo hình ảnh dựa trên lời nhắc văn bản, sau đó tạo video dựa trên cả văn bản và hình ảnh được tạo. Cách tiếp cận 'phân tách' hoặc 'phân tách' này để tạo video cho phép chúng tôi đào tạo các mô hình tạo video một cách hiệu quả.”
Mô hình tương tự có thể “tạo hoạt ảnh” cho hình ảnh dựa trên lời nhắc văn bản. Theo Meta, thay vì dựa vào “dòng mô hình sâu”, Emu Video chỉ sử dụng hai mô hình khuếch tán để tạo video 512x512 dài 4 giây ở tốc độ 16 khung hình mỗi giây.
Emu Edit, tập trung vào thao tác hình ảnh, sẽ cho phép người dùng xóa hoặc thêm nền cho hình ảnh, thực hiện các chuyển đổi màu sắc và hình học, cũng như chỉnh sửa hình ảnh cục bộ và toàn cầu.
“Chúng tôi lập luận rằng mục tiêu chính không nên chỉ là tạo ra một hình ảnh 'đáng tin cậy'. Thay vào đó, mô hình nên tập trung vào việc chỉ thay đổi chính xác các pixel có liên quan đến yêu cầu chỉnh sửa,” Meta lưu ý và khẳng định mô hình của nó có thể làm theo hướng dẫn một cách chính xác:
“Ví dụ: khi thêm văn bản 'Aloha!' đối với mũ bóng chày, bản thân chiếc mũ đó sẽ không thay đổi.”
Meta đã đào tạo Emu Edit bằng cách sử dụng các tác vụ thị giác máy tính với bộ dữ liệu gồm 10 triệu hình ảnh tổng hợp, mỗi hình ảnh có một hình ảnh đầu vào và mô tả về tác vụ cũng như hình ảnh đầu ra được nhắm mục tiêu. “Chúng tôi tin rằng đây là tập dữ liệu lớn nhất thuộc loại này cho đến nay,” công ty cho biết.
Emu Video và Emu Edit là hai mô hình sáng tạo và chỉnh sửa hình ảnh được hỗ trợ bởi AI mới được phát triển bởi Meta. Cả hai mô hình đều có một số ưu điểm so với các công cụ sáng tạo và chỉnh sửa hình ảnh truyền thống, và có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau.