HomeKomputerLokalisasi Objek Umum dengan Kueri Bahasa Alami – Blog Google AI

Lokalisasi Objek Umum dengan Kueri Bahasa Alami – Blog Google AI

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Bahasa alami memungkinkan kueri deskriptif yang fleksibel tentang gambar. Interaksi antara kueri teks dan gambar mendasari makna linguistik di dunia visual, memfasilitasi pemahaman yang lebih baik tentang hubungan objek, niat manusia terhadap objek, dan interaksi dengan lingkungan. Komunitas riset telah mempelajari landasan visual tingkat objek melalui berbagai tugas, termasuk merujuk pemahaman ekspresi, lokalisasi berbasis teksdan lebih luas lagi deteksi objek, yang masing-masing membutuhkan keterampilan yang berbeda dalam sebuah model. Misalnya, deteksi objek berusaha menemukan semua objek dari kumpulan kelas yang telah ditentukan sebelumnya, yang membutuhkan lokalisasi dan klasifikasi yang akurat, sementara pemahaman ekspresi rujukan melokalisasi objek dari teks rujukan dan seringkali memerlukan penalaran kompleks pada objek yang menonjol. Di persimpangan keduanya adalah lokalisasi berbasis teks, di mana kueri teks berbasis kategori sederhana meminta model untuk mendeteksi objek yang menarik.

FindIt: Lokalisasi Umum dengan Pertanyaan Bahasa Alami” pada ECCV 2022. Di sini kami mengusulkan model pembumian visual yang terpadu, serba guna, dan multitugas, yang disebut FindIt, yang dapat secara fleksibel menjawab berbagai jenis pertanyaan pembumian dan deteksi. Kunci arsitektur ini adalah modul fusi lintas-modalitas multi-level yang dapat melakukan penalaran kompleks untuk merujuk pemahaman ekspresi dan secara bersamaan mengenali objek kecil dan menantang untuk pelokalan dan deteksi berbasis teks. Selain itu, kami menemukan bahwa detektor objek standar dan kerugian deteksi cukup dan sangat efektif untuk ketiga tugas tanpa memerlukan desain khusus tugas dan kerugian yang umum terjadi pada pekerjaan yang ada. FindIt sederhana, efisien, dan mengungguli model state-of-the-art alternatif pada pemahaman ekspresi perujuk dan tolok ukur lokalisasi berbasis teks, sekaligus bersaing dalam tolok ukur deteksi.

FindIt adalah model terpadu untuk merujuk pemahaman ekspresi (kol. 1), lokalisasi berbasis teks (kol. 2), dan tugas deteksi objek (kol. 3). FindIt dapat merespon secara akurat saat diuji pada jenis/kelas objek yang tidak diketahui selama pelatihan, misalnya “Temukan meja” (kol. 4). Dibandingkan dengan baseline yang ada (MattNet dan GPV), FindIt dapat melakukan tugas-tugas ini dengan baik dan dalam satu model.
See also  Segmentasi Definisi Tinggi di Google Meet – Blog Google AI

Fusi Gambar-Teks Multi-level

Tugas pelokalan yang berbeda dibuat dengan tujuan pemahaman semantik yang berbeda. Misalnya, karena tugas ekspresi perujuk terutama merujuk pada objek yang menonjol dalam gambar daripada objek kecil, tertutup, atau jauh, gambar resolusi rendah umumnya sudah cukup. Sebaliknya, tugas deteksi bertujuan untuk mendeteksi objek dengan berbagai ukuran dan tingkat oklusi pada gambar beresolusi lebih tinggi. Terlepas dari tolok ukur ini, masalah landasan visual umum secara inheren multiskala, karena kueri alami dapat merujuk ke objek dengan ukuran berapa pun. Ini memotivasi perlunya model fusi gambar-teks multi-level untuk pemrosesan gambar resolusi tinggi yang efisien melalui tugas pelokalan yang berbeda.

Premis FindIt adalah untuk menggabungkan fitur semantik tingkat yang lebih tinggi menggunakan lebih ekspresif transformator lapisan, yang dapat menangkap semua interaksi pasangan antara gambar dan teks. Untuk fitur tingkat rendah dan resolusi lebih tinggi, kami menggunakan yang lebih murah produk titik fusion untuk menghemat biaya komputasi dan memori. Kami memasang kepala detektor (misalnya, R-CNN lebih cepat) di atas peta fitur yang digabungkan untuk memprediksi kotak dan kelasnya.

FindIt menerima gambar dan teks kueri sebagai input, dan memprosesnya secara terpisah di tulang punggung gambar/teks sebelum menerapkan fusi multi-level. Kami memasukkan fitur yang menyatu ke Faster R-CNN untuk memprediksi kotak yang dirujuk oleh teks. Penggabungan fitur menggunakan lebih ekspresif transformer di tingkat yang lebih tinggi dan produk titik yang lebih murah di tingkat yang lebih rendah.

Pembelajaran Multitugas

Terlepas dari perpaduan multi-level yang dijelaskan di atas, kami mengadaptasi tugas pelokalan dan deteksi berbasis teks untuk mengambil input yang sama dengan tugas pemahaman ekspresi perujuk. Untuk tugas pelokalan berbasis teks, kami membuat serangkaian kueri atas kategori yang ada dalam gambar. Untuk setiap kategori saat ini, kueri teks berbentuk “Temukan” [object],” di mana [object] adalah nama kategori. Objek yang sesuai dengan kategori tersebut diberi label sebagai latar depan dan objek lainnya sebagai latar belakang. Alih-alih menggunakan prompt yang disebutkan di atas, kami menggunakan prompt statis untuk tugas deteksi, seperti “Temukan semua objek.”. Kami menemukan bahwa pilihan prompt yang spesifik tidak penting untuk tugas pelokalan dan deteksi berbasis teks.

See also  Crossmodal-3600 — Teks Referensi Multibahasa untuk Gambar yang Beragam Secara Geografis – Google AI Blog

Setelah adaptasi, semua tugas yang dipertimbangkan berbagi input dan output yang sama — input gambar, kueri teks, dan satu set kotak pembatas output dan kelas. Kami kemudian menggabungkan kumpulan data dan melatih campuran tersebut. Akhirnya, kami menggunakan kerugian deteksi objek standar untuk semua tugas, yang menurut kami sangat sederhana dan efektif.

Evaluasi

Kami menerapkan FindIt ke yang populer RefCOCO patokan untuk merujuk tugas pemahaman ekspresi. Ketika hanya KELAPA dan dataset RefCOCO tersedia, FindIt mengungguli model tercanggih di semua tugas. Dalam pengaturan di mana kumpulan data eksternal diizinkan, FindIt menetapkan keadaan seni baru dengan menggunakan COCO dan semua RefCOCO dipecah menjadi satu (tidak ada kumpulan data lain). Pada menantang Google dan UMD berpisahFindIt mengungguli keadaan seni dengan margin 10%, yang, secara bersama-sama, menunjukkan manfaat pembelajaran multitugas.

Perbandingan dengan keadaan seni pada tolok ukur ekspresi rujukan populer. FindIt lebih unggul di keduanya KELAPA dan pengaturan yang tidak dibatasi (data pelatihan tambahan diperbolehkan).

Pada tolok ukur lokalisasi berbasis teks, FindIt mencapai 79,7%, lebih tinggi dari GPV (73,0%), dan R-CNN lebih cepat baseline (75,2%). Silakan merujuk ke kertas untuk evaluasi yang lebih kuantitatif.

Kami lebih lanjut mengamati bahwa FindIt menggeneralisasi lebih baik ke kategori baru dan kategori super dalam tugas pelokalan berbasis teks dibandingkan dengan baseline tugas tunggal kompetitif pada tugas pelokalan berbasis teks. KELAPA dan Objek365 kumpulan data, ditunjukkan pada gambar di bawah ini.

Temukan di kategori novel dan super. Kiri: FindIt mengungguli baseline tugas tunggal terutama pada kategori baru. Benar: FindIt mengungguli baseline tugas tunggal pada kategori super yang tidak terlihat. “Rec-Single” adalah model tugas tunggal pemahaman ekspresi Merujuk dan “Loc-Single” adalah model tugas tunggal pelokalan berbasis teks.
See also  Belajar Berjalan di Alam Liar dari Semantik Medan – Google AI Blog

Efisiensi

Kami juga membandingkan waktu inferensi pada tugas pemahaman ekspresi rujukan (lihat Tabel di bawah). FindIt efisien dan dapat dibandingkan dengan pendekatan satu tahap yang ada sambil mencapai akurasi yang lebih tinggi. Untuk perbandingan yang adil, semua waktu berjalan diukur pada satu GTX 1080Ti GPU.

Model Ukuran gambar Tulang punggung Waktu Proses (md)
MattNet 1000 R101 378
SPOILER 256 DarkNet53 39
MCN 416 DarkNet53 56
TransVG 640 R50 62
Temukan itu (milik kita) 640 R50 107
Temukan itu (milik kita) 384 R50 57

Kesimpulan

Kami menghadirkan Findit, yang menyatukan pemahaman ekspresi rujukan, pelokalan berbasis teks, dan tugas deteksi objek. Kami mengusulkan perhatian silang multi-skala untuk menyatukan beragam persyaratan pelokalan tugas-tugas ini. Tanpa desain khusus tugas apa pun, FindIt melampaui seni dalam ekspresi rujukan dan lokalisasi berbasis teks, menunjukkan kinerja kompetitif dalam pendeteksian, dan menggeneralisasi lebih baik ke data di luar distribusi dan kelas baru. Semua ini dicapai dalam satu model tunggal, terpadu, dan efisien.

Ucapan Terima Kasih

Pekerjaan ini dilakukan oleh Weicheng Kuo, Fred Bertsch, Wei Li, AJ Piergiovanni, Mohammad Saffar, dan Anelia Angelova. Kami ingin berterima kasih kepada Ashish Vaswani, Prajit Ramachandran, Niki Parmar, David Luan, Tsung-Yi Lin, dan rekan lainnya di Google Research atas saran dan diskusi mereka yang bermanfaat. Kami ingin mengucapkan terima kasih kepada Tom Small yang telah menyiapkan animasinya.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments