HomeKomputerMembuat Flythrough 3D dari Foto Diam – Google AI Blog

Membuat Flythrough 3D dari Foto Diam – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Kita hidup di dunia dengan keindahan alam yang luar biasa — pegunungan yang megah, pemandangan laut yang dramatis, dan hutan yang tenang. Bayangkan melihat keindahan ini seperti burung, terbang melewati lanskap tiga dimensi yang sangat mendetail. Bisakah komputer belajar mensintesis pengalaman visual semacam ini? Kemampuan seperti itu akan memungkinkan jenis konten baru untuk game dan pengalaman realitas virtual: misalnya, bersantai di dalam pemandangan alam yang tak terbatas. Tapi ada metode yang mensintesis tampilan baru dari gambar cenderung hanya mengizinkan gerakan kamera yang terbatas.

Alam Tanpa Batas-Nol (disajikan di ECCV2022) dapat menghasilkan flythrough beresolusi tinggi dan berkualitas tinggi mulai dari gambar benih tunggal, menggunakan sistem yang hanya dilatih pada foto diam, kemampuan terobosan yang belum pernah terlihat sebelumnya. Kami menyebut masalah penelitian yang mendasarinya generasi tampilan abadi: diberikan tampilan input tunggal dari suatu adegan, bagaimana kita dapat mensintesis serangkaian tampilan output fotorealistik yang sesuai dengan jalur 3D yang dikontrol pengguna dan panjangnya sewenang-wenang melalui adegan itu? Pembuatan tampilan abadi sangat menantang karena sistem harus menghasilkan konten baru di sisi lain dari landmark besar (misalnya, pegunungan), dan membuat konten baru tersebut dengan realisme tinggi dan resolusi tinggi.

Contoh flythrough dihasilkan dengan InfiniteNature-Zero. Dibutuhkan satu gambar input dari pemandangan alam dan mensintesis jalur kamera panjang yang terbang ke pemandangan itu, menghasilkan konten pemandangan baru seiring berjalannya waktu.

Latar Belakang: Mempelajari Flythrough 3D dari Video

Untuk menetapkan dasar-dasar bagaimana sistem seperti itu dapat bekerja, kami akan menjelaskan versi pertama kami, “Alam Tak Terbatas: Generasi Pandangan Abadi dari Pemandangan Alam dari Satu Gambar” (disampaikan pada ICCV 2021). Dalam pekerjaan itu kami mengeksplorasi pendekatan “belajar dari video”, di mana kami mengumpulkan satu set video online yang diambil dari drone yang terbang di sepanjang garis pantai, dengan gagasan bahwa kami dapat belajar mensintesis flythrough baru yang menyerupai video nyata ini. Kumpulan video online ini disebut Kumpulan Data Citra Garis Pantai Udara (ASAM). Namun, untuk mempelajari cara mensintesis adegan yang merespons secara dinamis ke jalur kamera 3D mana pun yang diinginkan, kami tidak bisa begitu saja memperlakukan video ini sebagai kumpulan piksel mentah; kami juga harus menghitung geometri 3D yang mendasarinya, termasuk posisi kamera di setiap bingkai.

See also  Berita Situs: Penghentian 1 Desember

Ide dasarnya adalah kita belajar menghasilkan flythrough selangkah demi selangkah. Diberikan tampilan awal, seperti gambar pertama pada gambar di bawah, pertama-tama kita menghitung a peta kedalaman menggunakan metode prediksi kedalaman gambar tunggal. Kami kemudian menggunakan peta kedalaman itu untuk memberikan gambar diteruskan ke sudut pandang kamera baru, ditampilkan di tengah, menghasilkan gambar baru dan peta kedalaman dari sudut pandang baru tersebut.

Namun, gambar perantara ini memiliki beberapa masalah — ia memiliki lubang di mana kita dapat melihat objek di belakang ke dalam wilayah yang tidak terlihat di gambar awal. Ini juga buram, karena kita sekarang lebih dekat ke objek, tetapi meregangkan piksel dari bingkai sebelumnya untuk membuat objek yang sekarang lebih besar ini.

Untuk menangani masalah ini, kita belajar saraf penyempurnaan gambar jaringan yang mengambil gambar menengah berkualitas rendah ini dan menghasilkan gambar berkualitas tinggi yang lengkap dan peta kedalaman yang sesuai. Langkah-langkah ini kemudian dapat diulang, dengan gambar yang disintesis ini sebagai titik awal yang baru. Karena kami menyempurnakan gambar dan peta kedalaman, proses ini dapat diulang sebanyak yang diinginkan — sistem secara otomatis belajar untuk menghasilkan pemandangan baru, seperti gunung, pulau, dan lautan, saat kamera bergerak lebih jauh ke dalam pemandangan.

Metode Infinite Nature kami mengambil tampilan input dan peta kedalaman yang sesuai (kiri). Dengan menggunakan peta kedalaman ini, sistem merender gambar input ke sudut pandang baru yang diinginkan (tengah). Gambar perantara ini memiliki masalah, seperti piksel yang hilang terungkap di belakang konten latar depan (ditampilkan dalam warna ungu). Kami mempelajari jaringan dalam yang menyempurnakan gambar ini untuk menghasilkan gambar baru berkualitas tinggi (Baik). Proses ini dapat diulang untuk menghasilkan lintasan pandang yang panjang. Karena itu kami menyebut pendekatan ini “render-refine-repeat”.

Kami melatih ini render-perbaiki-ulangi pendekatan sintesis menggunakan dataset ACID. Secara khusus, kami mengambil sampel video dari kumpulan data dan kemudian bingkai dari video itu. Kami kemudian menggunakan metode ini untuk merender beberapa tampilan baru yang bergerak ke dalam adegan di sepanjang lintasan kamera yang sama dengan video ground truth, seperti yang ditunjukkan pada gambar di bawah, dan membandingkan frame yang dirender ini dengan frame video ground truth yang sesuai untuk mendapatkan sinyal pelatihan. Kami juga menyertakan pengaturan permusuhan yang mencoba membedakan bingkai yang disintesis dari gambar nyata, mendorong citra yang dihasilkan agar tampak lebih realistis.

See also  Mengkarakterisasi Fenomena yang Muncul dalam Model Bahasa Besar – Blog Google AI

Infinite Nature dapat mensintesis tampilan yang sesuai dengan lintasan kamera apa pun. Selama pelatihan, kami menjalankan sistem kami untuk T langkah-langkah untuk menghasilkan T penayangan di sepanjang lintasan kamera yang dihitung dari urutan video pelatihan, lalu bandingkan tampilan gabungan yang dihasilkan dengan yang sebenarnya. Pada gambar, setiap sudut pandang kamera dihasilkan dari yang sebelumnya dengan melakukan operasi warp Rdiikuti oleh operasi penyempurnaan saraf gsaya.

Sistem yang dihasilkan dapat menghasilkan flythrough yang menarik, seperti yang ditampilkan di halaman web proyek, bersama dengan demo Colab “simulator penerbangan”. Tidak seperti metode sintesis video sebelumnya, metode ini memungkinkan pengguna untuk mengontrol kamera secara interaktif dan dapat menghasilkan jalur kamera yang lebih panjang.

InfiniteNature-Zero: Mempelajari Flythrough dari Foto Diam

Satu masalah dengan pendekatan pertama ini adalah bahwa video sulit untuk digunakan sebagai data pelatihan. Video berkualitas tinggi dengan jenis gerakan kamera yang tepat sulit untuk ditemukan, dan kualitas estetika bingkai video individu umumnya tidak dapat dibandingkan dengan foto alam yang diambil dengan sengaja. Oleh karena itu, dalam “InfiniteNature-Zero: Mempelajari Generasi Tampilan Alam yang Abadi dari Gambar Tunggal”, kami membangun di atas render-perbaiki-ulangi strategi di atas, tetapi temukan cara untuk mempelajari sintesis tampilan abadi dari koleksi foto diam – tidak perlu video. Kami menyebut metode ini Alam Tanpa Batas-Nol karena belajar dari video “nol”. Pada awalnya, ini mungkin tampak seperti tugas yang mustahil — bagaimana kita bisa melatih model untuk menghasilkan video flythrough adegan ketika semua yang pernah dilihatnya hanyalah foto yang terisolasi?

Untuk mengatasi masalah ini, kami memiliki wawasan utama bahwa jika kami mengambil gambar dan membuat jalur kamera yang membentuk siklus — yaitu, di mana jalur berputar ke belakang sedemikian rupa sehingga gambar terakhir dari sudut pandang yang sama dengan yang pertama — maka kita tahu bahwa gambar terakhir yang disintesis di sepanjang jalur ini harus sama dengan gambar input. Seperti konsistensi siklus memberikan batasan pelatihan yang membantu model belajar mengisi daerah yang hilang dan meningkatkan resolusi gambar selama setiap langkah pembuatan tampilan.

See also  AMD Zen 4 Ryzen 9 7950X dan Ryzen 5 7600X Ulasan: Mengambil Kembali High-End

Namun, pelatihan dengan siklus kamera ini tidak cukup untuk menghasilkan rangkaian tampilan yang panjang dan stabil, sehingga seperti dalam pekerjaan awal kami, kami menyertakan strategi permusuhan yang mempertimbangkan jalur kamera non-siklik yang panjang, seperti yang ditunjukkan pada gambar di atas. Khususnya, jika kita merender T bingkai dari bingkai awal, kami mengoptimalkan render-perbaiki-ulangi model sedemikian rupa sehingga jaringan diskriminator tidak dapat membedakan mana yang merupakan kerangka awal dan mana yang merupakan kerangka akhir yang disintesis. Terakhir, kami menambahkan komponen yang dilatih untuk menghasilkan wilayah langit berkualitas tinggi guna meningkatkan kesan realisme hasil.

Dengan wawasan ini, kami melatih InfiniteNature-Zero tentang koleksi foto lanskap, yang tersedia dalam jumlah besar secara online. Beberapa video yang dihasilkan ditampilkan di bawah ini — ini menunjukkan pemandangan alam yang indah dan beragam yang dapat dijelajahi di sepanjang jalur kamera yang panjang. Dibandingkan dengan pekerjaan kami sebelumnya — dan metode sintesis video sebelumnya — hasil ini menunjukkan peningkatan yang signifikan dalam kualitas dan keragaman konten (detail tersedia di kertas).

Beberapa flythrough alam dihasilkan oleh InfiniteNature-Zero dari satu foto awal.

Kesimpulan

Ada sejumlah arah masa depan yang menarik untuk pekerjaan ini. Misalnya, metode kami saat ini mensintesis konten adegan hanya berdasarkan bingkai sebelumnya dan peta kedalamannya; tidak ada representasi 3D dasar yang persisten. Pekerjaan kami mengarah pada algoritme masa depan yang dapat menghasilkan dunia 3D yang lengkap, fotorealistik, dan konsisten.

Ucapan Terima Kasih

Infinite Nature dan InfiniteNature-Zero adalah hasil kolaborasi antara peneliti di Google Research, UC Berkeley, dan Cornell University. Kontributor utama untuk pekerjaan yang diwakili dalam posting ini termasuk Angjoo Kanazawa, Andrew Liu, Richard Tucker, Zhengqi Li, Noah Snavely, Qianqian Wang, Varun Jampani, dan Ameesh Makadia.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments