HomeKomputerPendekatan Multi-Sumbu untuk Vision Transformer dan Model MLP – Google AI Blog

Pendekatan Multi-Sumbu untuk Vision Transformer dan Model MLP – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Jaringan saraf konvolusi telah menjadi arsitektur pembelajaran mesin yang dominan untuk visi komputer sejak diperkenalkannya AlexNet pada tahun 2012. Baru-baru ini, terinspirasi oleh evolusi Transformer di pemrosesan bahasa alami, perhatian mekanisme telah jelas dimasukkan ke dalam model visi. Metode perhatian ini meningkatkan beberapa bagian dari data input sambil meminimalkan bagian lain sehingga jaringan dapat fokus pada bagian data yang kecil namun penting. Itu Transformator Visi (ViT) telah menciptakan lanskap baru desain model untuk visi komputer yang benar-benar bebas dari konvolusi. ViT menganggap patch gambar sebagai rangkaian kata, dan menerapkan encoder Transformer di atasnya. Saat dilatih kumpulan data yang cukup besarViT menunjukkan kinerja yang menarik pada pengenalan gambar.

MLP-Mixer mengadopsi sederhana perceptron multi-lapisan (MLP) untuk mencampur patch gambar di semua lokasi spasial, menghasilkan arsitektur all-MLP. Ini adalah alternatif kompetitif untuk model visi mutakhir yang ada dalam hal trade-off antara akurasi dan komputasi yang diperlukan untuk pelatihan dan inferensi. Namun, baik model ViT dan MLP berjuang untuk menskalakan ke resolusi input yang lebih tinggi karena kompleksitas komputasi meningkat secara kuadrat sehubungan dengan ukuran gambar.

Hari ini kami menghadirkan pendekatan multi-sumbu baru yang sederhana dan efektif, meningkatkan model ViT dan MLP asli, dapat lebih beradaptasi dengan resolusi tinggi, tugas prediksi padat, dan secara alami dapat beradaptasi dengan ukuran input yang berbeda dengan fleksibilitas tinggi dan kompleksitas rendah . Berdasarkan pendekatan ini, kami telah membangun dua model tulang punggung untuk tugas penglihatan tingkat tinggi dan tingkat rendah. Kami menggambarkan yang pertama di “MaxViT: Transformator Visi Multi-Sumbu”, untuk disajikan dalam ECCV 2022, dan menunjukkannya secara signifikan meningkatkan seni untuk tugas tingkat tinggi, seperti klasifikasi gambar, deteksi objek, segmentasi, penilaian kualitas, dan pembuatan. Kedua, disajikan dalam “MAXIM: MLP Multi-Sumbu untuk Pemrosesan Gambar” pada CVPR 2022didasarkan pada UNet-seperti arsitektur dan mencapai kinerja kompetitif pada tugas pencitraan tingkat rendah termasuk denoising, deblurring, dehazing, deraining, dan peningkatan cahaya rendah. Untuk memfasilitasi penelitian lebih lanjut tentang model Transformer dan MLP yang efisien, kami telah membuat kode dan model open-source untuk keduanya MaxViT dan PEPATAH.

See also  Melewatkan Panduan Sebesar $1 Miliar sebagai Kawah Pendapatan Klien
Demo deblurring gambar menggunakan MAXIM frame demi frame.

Ringkasan

Pendekatan baru kami didasarkan pada perhatian multi-sumbu, yang menguraikan perhatian ukuran penuh (setiap piksel memperhatikan semua piksel) yang digunakan dalam ViT menjadi dua bentuk jarang — lokal dan (jarang) global. Seperti yang ditunjukkan pada gambar di bawah, perhatian multi-sumbu berisi tumpukan berurutan perhatian blok dan perhatian kisi. Perhatian blok bekerja dalam jendela yang tidak tumpang tindih (tambalan kecil di peta fitur menengah) untuk menangkap pola lokal, sedangkan perhatian kisi bekerja pada kisi seragam yang jarang diambil sampelnya untuk interaksi jarak jauh (global). Ukuran jendela perhatian grid dan blok dapat dikontrol sepenuhnya sebagai hyperparameters untuk memastikan kompleksitas komputasi linier dengan ukuran input.

Perhatian multi-sumbu yang diusulkan melakukan pemblokiran perhatian global lokal dan melebar secara berurutan diikuti oleh a FFN, dengan hanya kompleksitas linier. Piksel dalam warna yang sama hadir bersama.

Perhatian dengan kompleksitas rendah seperti itu dapat secara signifikan meningkatkan penerapannya yang luas untuk banyak tugas penglihatan, terutama untuk prediksi visual resolusi tinggi, yang menunjukkan generalitas yang lebih besar daripada perhatian asli yang digunakan dalam ViT. Kami membangun dua instantiasi tulang punggung dari pendekatan perhatian multi-sumbu ini – MaxViT dan MAXIM, masing-masing untuk tugas tingkat tinggi dan tingkat rendah.

MaxViT

Di MaxViT, pertama-tama kita membangun satu blok MaxViT (ditunjukkan di bawah) dengan menggabungkan MBConv (diusulkan oleh Jaringan yang Efisien, V2) dengan perhatian multi-sumbu. Blok tunggal ini dapat mengkodekan informasi visual lokal dan global terlepas dari resolusi input. Kami kemudian hanya menumpuk blok berulang yang terdiri dari perhatian dan konvolusi dalam arsitektur hierarkis (mirip dengan ResNet, CoAtNet), menghasilkan arsitektur MaxViT kami yang homogen. Khususnya, MaxViT dibedakan dari pendekatan hierarkis sebelumnya karena dapat “melihat” secara global di seluruh jaringan, bahkan pada tahap resolusi tinggi sebelumnya, menunjukkan kapasitas model yang lebih kuat pada berbagai tugas.

See also  Berbicara dengan Robot dalam Waktu Nyata – Google AI Blog

Meta-arsitektur MaxViT.

PEPATAH

Tulang punggung kedua kami, PEPATAHadalah generik UNet-seperti arsitektur yang disesuaikan untuk tugas prediksi gambar-ke-gambar tingkat rendah. MAXIM mengeksplorasi desain paralel dari pendekatan lokal dan global menggunakan perceptron multi-layer yang terjaga keamanannya (gMLP) jaringan (menambal-pencampuran MLP dengan a mekanisme gerbang). Kontribusi lain dari MAXIM adalah blok cross-gating yang dapat digunakan untuk menerapkan interaksi antara dua sinyal input yang berbeda. Blok ini dapat berfungsi sebagai alternatif yang efisien untuk perhatian silang modul karena hanya menggunakan operator MLP berpagar yang murah untuk berinteraksi dengan berbagai input tanpa bergantung pada perhatian silang yang berat secara komputasi. Selain itu, semua komponen yang diusulkan termasuk MLP berpagar dan blok lintas gerbang di MAXIM menikmati kompleksitas linier pada ukuran gambar, membuatnya lebih efisien saat memproses gambar resolusi tinggi.

Hasil

Kami mendemonstrasikan efektivitas MaxViT pada berbagai tugas penglihatan. Pada klasifikasi gambar, MaxViT mencapai hasil mutakhir dalam berbagai pengaturan: hanya dengan ImageNet-1K pelatihan, MaxViT mencapai akurasi 86,5% top-1; dengan ImageNet-21K (14 juta gambar, 21k kelas) pra-pelatihan, MaxViT mencapai akurasi 88,7% teratas; dan dengan JFT (300 juta gambar, 18k kelas) pra-pelatihan, model terbesar kami MaxViT-XL mencapai akurasi tinggi 89,5% dengan parameter 475 juta.

Perbandingan kinerja MaxViT dengan model tercanggih di ImageNet-1K. Atas: Akurasi vs. skala kinerja FLOP dengan resolusi gambar 224×224. Bawah: Kurva penskalaan akurasi vs. parameter di bawah pengaturan fine-tuning ImageNet-1K.

Untuk tugas-tugas hilir, MaxViT sebagai tulang punggung memberikan kinerja yang menguntungkan pada spektrum tugas yang luas. Untuk deteksi objek dan segmentasi pada KELAPA dataset, tulang punggung MaxViT mencapai 53,4 AP, mengungguli model tingkat dasar lainnya sementara hanya membutuhkan sekitar 60% biaya komputasi. Untuk penilaian estetika gambar, model MaxViT mengedepankan teknologi canggih MUSIK model sebesar 3,5% dalam hal korelasi linier dengan skor opini manusia. Blok bangunan MaxViT yang berdiri sendiri juga menunjukkan kinerja yang efektif pada pembuatan gambar, mencapai yang lebih baik FID dan ADALAH skor pada tugas pembuatan tanpa syarat ImageNet-1K dengan jumlah parameter yang jauh lebih rendah daripada model canggih, Memukul.

See also  Dropbox untuk mengakuisisi aset Boxcryptor, menghadirkan enkripsi ujung ke ujung untuk pengguna bisnis

Tulang punggung MAXIM seperti UNet, yang disesuaikan untuk tugas pemrosesan gambar, juga telah menunjukkan hasil mutakhir pada 15 dari 20 set data yang diuji, termasuk denoising, deblurring, deraining, dehazing, dan peningkatan cahaya rendah, sementara membutuhkan lebih sedikit atau jumlah parameter dan FLOP yang sebanding daripada model kompetitif. Gambar yang dipulihkan oleh MAXIM menunjukkan lebih banyak detail yang dipulihkan dengan lebih sedikit artefak visual.

Hasil visual MAXIM untuk deblurring, deraining, dan peningkatan cahaya rendah gambar.

Ringkasan

Karya terbaru dalam dua atau lebih tahun terakhir telah menunjukkan bahwa ConvNets dan Vision Transformers dapat mencapai kinerja yang serupa. Pekerjaan kami menghadirkan desain terpadu yang memanfaatkan yang terbaik dari kedua dunia — konvolusi yang efisien dan perhatian yang jarang — dan menunjukkan bahwa model yang dibangun di atas, yaitu MaxViT, dapat mencapai kinerja canggih pada berbagai tugas penglihatan . Lebih penting lagi, MaxViT menskalakan dengan baik hingga ukuran data yang sangat besar. Kami juga menunjukkan bahwa desain multi-sumbu alternatif menggunakan operator MLP, MAXIM, mencapai kinerja canggih pada berbagai tugas penglihatan tingkat rendah.

Meskipun kami menyajikan model kami dalam konteks tugas visi, pendekatan multi-sumbu yang diusulkan dapat dengan mudah diperluas ke pemodelan bahasa untuk menangkap ketergantungan lokal dan global dalam waktu linier. Termotivasi oleh pekerjaan di sini, kami berharap bermanfaat untuk mempelajari bentuk lain dari perhatian yang jarang dalam sinyal dimensi tinggi atau multimodal seperti video, awan titik, dan model bahasa penglihatan.

Kami telah membuat kode dan model open-source dari PEPATAH dan MaxViT untuk memfasilitasi penelitian masa depan tentang perhatian yang efisien dan model MLP.

Ucapan Terima Kasih

Kami ingin mengucapkan terima kasih kepada rekan penulis kami: Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, dan Alan Bovik. Kami juga ingin mengucapkan terima kasih atas diskusi dan dukungan yang berharga dari Xianzhi Du, Long Zhao, Wuyang Chen, Hanxiao Liu, Zihang Dai, Anurag Arnab, Sungjoon Choi, Junjie Ke, Mauricio Delbracio, Irene Zhu, Innfarn Yoo, Huiwen Chang, and Ce Liu.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments