Algoritma Baru Membuat Pengeditan Video Semudah Mengedit Teks

Di televisi dan film, para aktor sering kali membuat pertunjukan kecil tanpa cacat. Di lain waktu mereka meninggalkan kata yang kritis. Untuk editor, satu-satunya solusi sejauh ini adalah menerima kekurangan atau memperbaikinya dengan pemotretan ulang yang mahal.

Bayangkan, jika editor itu dapat memodifikasi video menggunakan transkrip teks. Sama seperti pemrosesan kata, editor dapat dengan mudah menambahkan kata-kata baru, menghapus kata-kata yang tidak diinginkan atau mengatur ulang potongan-potongan dengan menyeret dan menjatuhkannya sesuai kebutuhan untuk merakit video yang sudah selesai yang terlihat hampir tanpa cacat di mata yang tidak terlatih.

Tim peneliti yang dipimpin oleh Stanford menciptakan algoritme untuk mengedit video talk-head – video yang menunjukkan pengeras suara dari bahu. Pekerjaan itu bisa menjadi keuntungan bagi editor dan produser video tetapi tidak menimbulkan kekhawatiran karena orang semakin mempertanyakan keabsahan gambar dan video online, kata para penulis. Namun, mereka mengusulkan beberapa pedoman untuk menggunakan alat-alat ini yang akan mengingatkan penonton dan pemain bahwa video telah dimanipulasi.

“Sayangnya, teknologi seperti ini akan selalu menarik aktor-aktor jahat,” kata Ohad Fried, seorang sarjana postdoctoral di Stanford. “Tetapi perjuangan itu sepadan dengan banyaknya pengeditan video kreatif dan aplikasi pembuatan konten yang memungkinkan ini.”

Itu juga akan ada di jurnal ACM Transactions on Graphics. Goreng bekerja di lab Maneesh Agrawala, Profesor Forest Baskett di School of Engineering dan penulis senior makalah ini. Proyek dimulai ketika Fried adalah seorang mahasiswa pascasarjana yang bekerja dengan ilmuwan komputer Adam Finkelstein di Princeton, lebih dari dua tahun yang lalu.

Jika seorang aktor atau pemain membuat kesalahan kata atau salah bicara, editor cukup mengedit transkrip dan aplikasi akan mengumpulkan kata yang tepat dari berbagai kata atau bagian kata yang diucapkan di tempat lain dalam video. Ini sama dengan menulis ulang dengan video, seperti halnya penulis mengetik ulang kata yang salah eja atau tidak layak. Algoritme memang membutuhkan setidaknya 40 menit video asli sebagai input, sehingga tidak akan berfungsi dengan urutan video apa pun.

Saat transkrip diedit, algoritme memilih segmen dari tempat lain dalam video yang direkam dengan gerakan yang dapat dijahit untuk menghasilkan materi baru. Dalam bentuk mentahnya, segmen video ini akan memiliki potongan lompatan dan cacat visual lainnya.

Baca Juga : Cara Mengedit Video: Alat, Proses, dan Detail yang Harus Anda Mulai Hari Ini

Untuk membuat video tampak lebih alami, algoritma ini menerapkan perataan cerdas untuk parameter gerakan dan membuat versi animasi 3D dari hasil yang diinginkan. Namun, wajah yang diberikan itu masih jauh dari realistis. Sebagai langkah terakhir, teknik pembelajaran mesin yang disebut Neural Rendering mengubah model digital low-fidelity menjadi video fotorealistik dalam lip-synch sempurna.

Untuk menguji kemampuan sistem mereka, para peneliti melakukan serangkaian suntingan kompleks termasuk menambahkan, menghapus dan mengubah kata-kata, serta terjemahan ke berbagai bahasa, dan bahkan membuat kalimat penuh seolah-olah dari seluruh pakaian.

Dalam sebuah penelitian yang melibatkan banyak orang dengan 138 peserta, suntingan tim dinilai sebagai “nyata” hampir 60 persen dari waktu. Kualitas visual sedemikian rupa sehingga sangat dekat dengan aslinya, tetapi Fried mengatakan ada banyak ruang untuk perbaikan.

“Implikasinya untuk pasca-produksi film sangat besar,” kata Ayush Tewari, seorang mahasiswa di Institut Max Planck untuk Informatika dan penulis kedua makalah tersebut. Ini menyajikan untuk pertama kalinya kemungkinan memperbaiki dialog yang difilmkan tanpa mensyuting ulang.

Kekhawatiran etis

Meskipun demikian, di era video palsu yang disintesis, kemampuan seperti itu menimbulkan masalah etika yang penting, tambah Fried. Ada alasan yang sangat berharga dan dapat dibenarkan untuk ingin mengedit video dengan cara ini, yaitu biaya dan upaya yang diperlukan untuk merekam ulang atau memperbaiki kekurangan dalam konten video, atau untuk menyesuaikan konten video audio-visual yang sudah ada dengan audiens. Video instruksional mungkin disesuaikan dengan berbagai bahasa atau latar belakang budaya, misalnya, atau cerita anak-anak dapat disesuaikan dengan usia yang berbeda.

“Teknologi ini benar-benar tentang mendongeng yang lebih baik,” kata Fried.

Fried mengakui kekhawatiran bahwa teknologi semacam itu mungkin digunakan untuk tujuan terlarang, tetapi mengatakan risikonya layak untuk diambil. Perangkat lunak pengedit foto mengalami perhitungan yang serupa, tetapi pada akhirnya, orang ingin hidup di dunia di mana perangkat lunak pengedit foto tersedia.

Sebagai obat, Fried mengatakan ada beberapa opsi. Salah satunya adalah mengembangkan semacam opt-in watermarking yang akan mengidentifikasi konten apa pun yang telah diedit dan menyediakan buku besar penuh hasil edit. Selain itu, para peneliti dapat mengembangkan forensik yang lebih baik seperti teknik sidik jari digital atau non-digital untuk menentukan apakah video telah dimanipulasi untuk tujuan tersembunyi. Bahkan, penelitian ini dan yang lainnya juga membangun wawasan penting yang diperlukan untuk mengembangkan deteksi manipulasi yang lebih baik.