HomeKomputerInterpolasi Bingkai Gerak Besar – Google AI Blog

Interpolasi Bingkai Gerak Besar – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Interpolasi bingkai adalah proses mensintesis di antara gambar dari satu set gambar tertentu. Teknik ini sering digunakan untuk pengambilan sampel sementara untuk meningkatkan kecepatan refresh video atau untuk membuat efek gerakan lambat. Saat ini, dengan kamera digital dan smartphone, kita sering mengambil beberapa foto dalam beberapa detik untuk mendapatkan gambar terbaik. Interpolasi di antara foto-foto “hampir duplikat” ini dapat menghasilkan video menarik yang mengungkapkan gerakan adegan, sering kali memberikan kesan momen yang lebih menyenangkan daripada foto aslinya.

gerakan ekstrimmeskipun dengan efektivitas terbatas pada gerakan yang lebih kecil.

Di “FILM: Interpolasi Bingkai untuk Gerakan Besar”, diterbitkan di ECCV 2022, kami menyajikan metode untuk membuat video gerak lambat berkualitas tinggi dari foto yang hampir duplikat. FILM adalah arsitektur jaringan saraf baru yang mencapai hasil mutakhir dalam gerakan besar, sementara juga menangani gerakan kecil dengan baik.

FILM interpolasi antara dua foto yang hampir duplikat untuk membuat video gerakan lambat.

Ikhtisar Model FILM

Model FILM mengambil dua gambar sebagai input dan mengeluarkan gambar tengah. Pada waktu inferensi, kami secara rekursif memanggil model untuk menampilkan gambar di antara. FILM memiliki tiga komponen: (1) Ekstraktor fitur yang merangkum setiap gambar input dengan multi-skala yang dalam (piramida) fitur; (2) penaksir gerak dua arah yang menghitung gerak piksel (yaitu, mengalir) pada setiap tingkat piramida; dan (3) modul fusi yang mengeluarkan gambar interpolasi akhir. Kami melatih FILM pada rangkap tiga bingkai video biasa, dengan bingkai tengah berfungsi sebagai kebenaran dasar untuk pengawasan.

Sebuah standar fitur piramida ekstraksi pada dua gambar masukan. Fitur diproses di setiap level dengan serangkaian konvolusi, yang kemudian di-downsampling menjadi setengah resolusi spasial dan diteruskan sebagai input ke level yang lebih dalam.

Ekstraksi Fitur Skala-Agnostik

Gerakan besar biasanya ditangani dengan estimasi gerakan hierarkis menggunakan piramida fitur multi-resolusi (ditunjukkan di atas). Namun, metode ini berjuang dengan benda-benda kecil dan bergerak cepat karena mereka dapat menghilang di tingkat piramida terdalam. Selain itu, piksel yang tersedia jauh lebih sedikit untuk mendapatkan pengawasan di tingkat terdalam.

See also  Alokasi online yang kuat dengan Dual Mirror Descent - Google AI Blog

Untuk mengatasi keterbatasan ini, kami mengadopsi ekstraktor fitur yang berbagi bobot di seluruh skala untuk membuat piramida fitur “skala-agnostik”. Ekstraktor fitur ini (1) memungkinkan penggunaan estimator gerakan bersama di seluruh tingkat piramida (bagian berikutnya) dengan menyamakan gerakan besar di tingkat dangkal dengan gerakan kecil di tingkat yang lebih dalam, dan (2) menciptakan jaringan kompak dengan bobot lebih sedikit.

Secara khusus, dengan diberikan dua gambar masukan, pertama-tama kita membuat piramida gambar dengan menurunkan sampel setiap gambar secara berurutan. Selanjutnya, kami menggunakan shared U-Net encoder convolutional untuk mengekstrak piramida fitur yang lebih kecil dari setiap tingkat piramida gambar (kolom pada gambar di bawah). Sebagai langkah ketiga dan terakhir, kami membangun piramida fitur skala-agnostik dengan menggabungkan fitur secara horizontal dari lapisan konvolusi berbeda yang memiliki dimensi spasial yang sama. Perhatikan bahwa dari tingkat ketiga dan seterusnya, tumpukan fitur dibangun dengan kumpulan bobot konvolusi bersama yang sama (ditampilkan dengan warna yang sama). Ini memastikan bahwa semua fitur serupa, yang memungkinkan kami untuk terus berbagi bobot dalam penaksir gerakan berikutnya. Gambar di bawah menggambarkan proses ini menggunakan empat tingkat piramida, tetapi dalam praktiknya, kami menggunakan tujuh.

Estimasi Aliran dua arah

Setelah ekstraksi fitur, FILM melakukan estimasi aliran residu berbasis piramida untuk menghitung aliran dari gambar tengah yang belum diprediksi ke dua input. Estimasi aliran dilakukan satu kali untuk setiap input, dimulai dari level terdalam, menggunakan stack convolutions. Kami memperkirakan aliran pada level tertentu dengan menambahkan koreksi residual ke estimasi upsampled dari level berikutnya yang lebih dalam. Pendekatan ini mengambil yang berikut ini sebagai inputnya: (1) fitur dari input pertama pada level itu, dan (2) fitur dari input kedua setelah dilengkungkan dengan estimasi upsampled. Bobot konvolusi yang sama dibagi di semua level, kecuali untuk dua level terbaik.

Bobot bersama memungkinkan interpretasi gerakan kecil di level yang lebih dalam menjadi sama dengan gerakan besar di level dangkal, meningkatkan jumlah piksel yang tersedia untuk pengawasan gerakan besar. Selain itu, bobot bersama tidak hanya memungkinkan pelatihan model yang kuat yang dapat mencapai tingkat yang lebih tinggi rasio sinyal-ke-noise puncak (PSNR), tetapi juga diperlukan untuk mengaktifkan model agar sesuai dengan memori GPU untuk aplikasi praktis.

See also  Menggunakan Peta Molekuler untuk Memahami Bau – Blog Google AI
Dampak pembagian bobot pada kualitas gambar. Kiri: tidak berbagi, Benar: membagikan. Untuk ablasi ini kami menggunakan versi yang lebih kecil dari model kami (disebut FILM-med di kertas) karena model lengkap tanpa pembagian berat badan akan berbeda karena manfaat regularisasi dari pembagian berat badan hilang.

Fusi dan Pembuatan Bingkai

Setelah aliran dua arah diperkirakan, kami membengkokkan dua piramida fitur ke dalam keselarasan. Kami memperoleh piramida fitur gabungan dengan menumpuk, pada setiap tingkat piramida, dua peta fitur yang selaras, aliran dua arah dan gambar input. Akhirnya, U-Net decoder mensintesis gambar keluaran yang diinterpolasi dari piramida fitur yang disejajarkan dan ditumpuk.

Arsitektur FILM. EKSTRAKSI FITUR: kami mengekstrak fitur skala-agnostik. Fitur dengan warna yang cocok diekstraksi menggunakan bobot bersama. ESTIMASI ARUS: kami menghitung aliran dua arah menggunakan bobot bersama di tingkat piramida yang lebih dalam dan membengkokkan fitur ke dalam keselarasan. FUSI: Dekoder U-Net mengeluarkan bingkai interpolasi terakhir.

Fungsi Rugi

Selama pelatihan, kami mengawasi FILM dengan menggabungkan tiga kerugian. Pertama, kita menggunakan L1 mutlak perbedaan antara frame prediksi dan ground-truth untuk menangkap gerakan antara gambar input. Namun, ini menghasilkan gambar buram saat digunakan sendiri. Kedua, kami menggunakan kehilangan persepsi untuk meningkatkan kesetiaan gambar. Ini meminimalkan perbedaan L1 antara ImageNet pra-terlatih VGG-19 fitur yang diekstraksi dari prediksi dan kerangka kebenaran dasar. Ketiga, kami menggunakan Kehilangan gaya untuk meminimalkan perbedaan L2 antara matriks gram dari fitur-fitur VGG-19 yang telah dilatih sebelumnya dari ImageNet. Hilangnya Gaya memungkinkan jaringan menghasilkan gambar yang tajam dan realistis lukisan dalam dari daerah pra-oklusi besar. Akhirnya, kerugian digabungkan dengan bobot yang dipilih secara empiris sehingga setiap kerugian berkontribusi sama terhadap total kerugian.

Ditampilkan di bawah, gabungan kerugian sangat meningkatkan ketajaman dan fidelitas gambar jika dibandingkan dengan melatih FILM dengan kehilangan L1 dan kehilangan VGG. Rugi gabungan mempertahankan ketajaman daun pohon.

Fungsi kerugian gabungan FILM. kerugian L1 (kiri), L1 ditambah kehilangan VGG (tengah), dan Kehilangan gaya (Baik), menunjukkan peningkatan ketajaman yang signifikan (kotak hijau).
See also  Ulasan WD_BLACK P40 Game Drive USB 3.2 Gen 2x2 Portable SSD: Penyimpanan Seimbang

Hasil Gambar dan Video

Kami mengevaluasi FILM pada kumpulan data foto hampir duplikat internal yang menunjukkan gerakan adegan besar. Selain itu, kami membandingkan FILM dengan metode interpolasi bingkai terbaru: SoftSplat dan ABME. FILM berkinerja baik saat melakukan interpolasi di seluruh gerakan besar. Bahkan dengan adanya gerakan sebesar 100 piksel, FILM menghasilkan gambar tajam yang konsisten dengan input.

Interpolasi bingkai dengan SoftSplat (kiri), ABME (tengah) dan FILM (Baik) menunjukkan kualitas gambar yang baik dan konsistensi temporal.
Interpolasi gerakan besar. Atas: 64x video gerakan lambat. Bawah (kiri ke kanan): Dua gambar masukan dicampur, interpolasi SoftSplat, interpolasi ABME, dan interpolasi FILM. FILM menangkap wajah anjing sambil mempertahankan detail latar belakang.

Kesimpulan

Kami memperkenalkan FILM, jaringan saraf interpolasi bingkai gerak besar. Pada intinya, FILM mengadopsi piramida fitur skala-agnostik yang berbagi bobot di seluruh skala, yang memungkinkan kami membangun penaksir gerakan dua arah “skala-agnostik” yang belajar dari bingkai dengan gerakan normal dan menggeneralisasi dengan baik ke bingkai dengan gerakan besar. Untuk menangani diskoklusi luas yang disebabkan oleh gerakan adegan besar, kami mengawasi FILM dengan mencocokkan matriks Gram fitur VGG-19 yang telah dilatih sebelumnya dari ImageNet, yang menghasilkan lukisan yang realistis dan gambar yang tajam. FILM berkinerja baik pada gerakan besar, sementara juga menangani gerakan kecil dan menengah dengan baik, dan menghasilkan video berkualitas tinggi yang halus untuk sementara.

Cobalah Sendiri

Anda dapat mencoba FILM pada foto Anda menggunakan Kode sumberyang sekarang tersedia untuk umum.

Ucapan Terima Kasih

Kami ingin berterima kasih kepada Eric Tabellion, Deqing Sun, Caroline Pantofaru, Brian Curless atas kontribusi mereka. Kami berterima kasih kepada Marc Comino Trinidad atas kontribusinya pada ekstraktor fitur skala-agnostik, Orly Liba dan Charles Herrmann untuk umpan balik pada teks, Jamie Aspinall untuk citra dalam makalah, Dominik Kaeser, Yael Pritch, Michael Nechyba, William T. Freeman, David Salesin, Catherine Wah, dan Ira Kemelmacher-Shlizerman atas dukungannya. Terima kasih kepada Tom Small karena telah membuat diagram animasi di postingan ini.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments