HomeKomputerCrossmodal-3600 — Teks Referensi Multibahasa untuk Gambar yang Beragam Secara Geografis –...

Crossmodal-3600 — Teks Referensi Multibahasa untuk Gambar yang Beragam Secara Geografis – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]


Keterangan gambar adalah tugas pembelajaran mesin yang secara otomatis menghasilkan deskripsi bahasa alami yang lancar untuk gambar tertentu. Tugas ini penting untuk meningkatkan aksesibilitas untuk pengguna tunanetra dan merupakan tugas inti dalam penelitian multimodal yang mencakup pemodelan penglihatan dan bahasa.

lintas moda 3600 (XM3600) dataset evaluasi teks gambar sebagai tolok ukur yang kuat untuk teks gambar multibahasa yang memungkinkan peneliti untuk membandingkan kontribusi penelitian secara andal di bidang yang sedang berkembang ini. XM3600 menyediakan 261.375 teks referensi buatan manusia dalam 36 bahasa untuk 3600 gambar yang beragam secara geografis. Kami menunjukkan bahwa teksnya berkualitas tinggi dan gayanya konsisten di berbagai bahasa.

Kumpulan data Crossmodal 3600 mencakup keterangan referensi dalam 36 bahasa untuk masing-masing dari kumpulan 3600 gambar yang beragam secara geografis. Semua gambar yang digunakan dengan izin di bawah Lisensi CC-BY 2.0.

Ikhtisar Kumpulan Data Crossmodal 3600

Membuat kumpulan data pelatihan dan evaluasi yang besar dalam berbagai bahasa adalah upaya intensif sumber daya. Pekerjaan terbaru telah menunjukkan bahwa layak untuk membangun model teks gambar multibahasa yang dilatih pada data yang diterjemahkan mesin dengan teks bahasa Inggris sebagai titik awal. Namun, beberapa metrik otomatis yang paling dapat diandalkan untuk teks gambar jauh kurang efektif bila diterapkan pada set evaluasi dengan teks gambar yang diterjemahkan, menghasilkan kesepakatan yang lebih buruk dengan evaluasi manusia dibandingkan dengan kasus bahasa Inggris. Dengan demikian, evaluasi model yang dapat dipercaya saat ini hanya dapat didasarkan pada evaluasi manusia yang ekstensif. Sayangnya, evaluasi semacam itu biasanya tidak dapat direplikasi di berbagai upaya penelitian yang berbeda, dan oleh karena itu tidak menawarkan mekanisme yang cepat dan andal untuk secara otomatis mengevaluasi beberapa parameter dan konfigurasi model (misalnya, model mendaki bukit) atau untuk membandingkan beberapa jalur penelitian.

XM3600 menyediakan 261.375 teks referensi buatan manusia dalam 36 bahasa untuk kumpulan 3600 gambar yang beragam secara geografis dari Buka Gambar Himpunan data. Kami mengukur kualitas teks yang dihasilkan dengan membandingkannya dengan teks yang disediakan secara manual menggunakan Cuka Apel metrik, yang berkisar dari 0 (tidak terkait dengan teks referensi) hingga 10 (sangat cocok dengan teks referensi). Saat membandingkan pasangan model, kami mengamati korelasi kuat antara perbedaan skor CIDEr dari keluaran model, dan evaluasi manusia berdampingan yang membandingkan keluaran model. , menjadikan XM3600 adalah alat yang andal untuk perbandingan otomatis berkualitas tinggi antara model teks gambar pada berbagai bahasa selain bahasa Inggris.

See also  Mengkarakterisasi Fenomena yang Muncul dalam Model Bahasa Besar – Blog Google AI

Pilihan bahasa

Kami memilih 30 bahasa selain bahasa Inggris, kira-kira berdasarkan persentase konten web mereka. Selain itu, kami memilih lima bahasa tambahan yang mencakup bahasa dengan sumber daya rendah yang memiliki banyak penutur asli atau bahasa ibu utama dari benua yang tidak akan tercakup sebaliknya. Akhirnya, kami juga memasukkan bahasa Inggris sebagai dasar, sehingga menghasilkan total 36 bahasa, seperti yang tercantum dalam tabel di bawah ini.

Arab Benggala* Cina Kroasia Cusco
Quechua*
Ceko
Orang Denmark Belanda Bahasa inggris Filipina Finlandia Perancis
Jerman Orang yunani Ibrani Hindi Hongaria bahasa Indonesia
Italia Jepang Korea Maori* Norwegia Orang Persia
Polandia Portugis Rumania Rusia Orang Spanyol Swahili*
Orang Swedia Telugu* Thai Turki Orang Ukraina Orang Vietnam

Daftar bahasa yang digunakan di XM3600. *Bahasa sumber daya rendah dengan banyak penutur asli, atau bahasa ibu utama dari benua yang tidak akan tercakup sebaliknya.

Pemilihan Gambar

Gambar dipilih dari antara yang ada di Buka Gambar kumpulan data yang memiliki metadata lokasi. Karena ada banyak wilayah di mana lebih dari satu bahasa digunakan, dan beberapa wilayah tidak tercakup dengan baik oleh gambar-gambar ini, kami merancang algoritme untuk memaksimalkan korespondensi antara gambar yang dipilih dan wilayah di mana bahasa yang ditargetkan digunakan. Algoritme dimulai dengan pemilihan gambar dengan geo-data yang sesuai dengan bahasa yang memiliki kumpulan terkecil (misalnya, Persia) dan memprosesnya dalam urutan yang meningkat dari ukuran kumpulan gambar kandidatnya. Jika tidak ada cukup gambar di area tempat bahasa digunakan, maka kami secara bertahap memperluas radius pemilihan geografis ke: (i) negara tempat bahasa digunakan; (ii) benua tempat bahasa tersebut digunakan; dan, sebagai upaya terakhir, (iii) dari mana saja di dunia. Strategi ini berhasil memberikan target jumlah 100 gambar kami dari wilayah yang sesuai untuk sebagian besar dari 36 bahasa, kecuali untuk Persia (di mana 14 gambar tingkat benua digunakan) dan Hindi (di mana semua 100 gambar berada di tingkat global, karena gambar di wilayah ditugaskan ke Bengali dan Telugu).

Contoh gambar yang menunjukkan keragaman geografis dari gambar beranotasi. Gambar yang digunakan di bawah Lisensi CC BY 2.0.
See also  Blog Langsung (09.00 PT, 16.00 UTC)

Pembuatan Teks

Secara total, semua 3600 gambar (100 gambar per bahasa) dianotasi dalam 36 bahasa, masing-masing dengan rata-rata dua anotasi per bahasa, menghasilkan total 261.375 teks.

Annotator bekerja dalam kumpulan 15 gambar. Layar pertama menampilkan 15 gambar dengan keterangannya dalam bahasa Inggris seperti yang dihasilkan oleh model teks yang dilatih untuk menghasilkan gaya yang konsisten dari bentuk “ melakukan di “, sering kali dengan atribut objek, seperti sebagai orang yang “tersenyum”, mobil “merah”, dll. Annotator diminta untuk menilai kualitas teks yang diberikan pedoman untuk skala 4 poin dari “sangat baik” hingga “buruk”, ditambah opsi untuk “tidak_cukup_informasi”. Langkah ini memaksa para annotator untuk menilai kualitas teks secara hati-hati dan membuat mereka harus menginternalisasi gaya teks. Layar berikut menampilkan gambar lagi tetapi secara individual dan tanpa teks bahasa Inggris, dan annotator diminta untuk menghasilkan teks deskriptif dalam bahasa target untuk setiap gambar.

Ukuran kumpulan gambar 15 dipilih sehingga annotator akan menginternalisasi gaya tanpa mengingat keterangan yang tepat. Oleh karena itu, kami berharap penilai membuat teks berdasarkan konten gambar saja dan kekurangan artefak terjemahan. Misalnya pada contoh di bawah ini, teks bahasa Spanyol menyebutkan “nomor 42” dan teks bahasa Thailand menyebutkan “konvertibel”, tidak ada yang disebutkan dalam teks bahasa Inggris. Para annotator juga diberikan protokol untuk digunakan saat membuat teks, sehingga mencapai konsistensi gaya lintas bahasa.


Foto oleh Brian Solis
Bahasa inggris Mobil sport antik di ruang pamer dengan banyak mobil sport antik lainnya
Mobil-mobil klasik bermerek berturut-turut dipajang
Orang Spanyol Mobil sport klasik di galeri pameran mobil — (Mobil sport klasik di galeri pameran mobil)
Mobil balap perak kecil dengan nomor 42 di pameran mobil — (Mobil balap perak kecil dengan nomor 42 di pameran mobil)
Thai Konvertibel warna-warni yang diparkir berdampingan di pameran — (Konvertibel warna-warni berbaris di pameran)
Beberapa mobil balap antik berbaris di pameran — (Beberapa mobil balap antik berbaris di acara itu.)

Contoh teks dalam tiga bahasa berbeda (dari 36 — lihat daftar lengkap teks dalam Lampiran A dari Kertas Crossmodal-3600), menampilkan pembuatan anotasi yang konsisten dalam gaya di seluruh bahasa, sementara bebas dari artefak terjemahan langsung (misalnya, “nomor 42” Spanyol atau “konvertibel” Thailand tidak akan mungkin jika diterjemahkan langsung dari versi bahasa Inggris) . Gambar yang digunakan di bawah Lisensi CC BY 2.0.
See also  NVIDIA Luncurkan DRIVE Atlan SoC, Perkenalkan 2 PFLOPS DRIVE Thor untuk Autos 2025

Kualitas Teks dan Statistik

Kami menjalankan dua hingga lima studi percontohan per bahasa untuk memecahkan masalah proses pembuatan teks dan untuk memastikan teks berkualitas tinggi. Kami kemudian secara manual mengevaluasi subset teks secara acak. Pertama kami secara acak memilih sampel 600 gambar. Kemudian, untuk mengukur kualitas teks dalam bahasa tertentu, untuk setiap gambar, kami memilih salah satu teks yang dibuat secara manual untuk dievaluasi. Kami menemukan bahwa:

  • Untuk 25 dari 36 bahasa, persentase teks yang dinilai sebagai “Baik” atau “Luar Biasa” adalah di atas 90%, dan sisanya di atas 70%.
  • Untuk 26 dari 36 bahasa, persentase teks yang dinilai “Buruk” di bawah 2%, dan sisanya di bawah 5%.

Untuk bahasa yang menggunakan spasi untuk memisahkan kata, jumlah kata per teks bisa serendah 5 atau 6 untuk beberapa bahasa bahasa aglutinatif seperti Cusco Quechua dan Ceko, dan setinggi 18 untuk an bahasa analitik seperti Vietnam. Jumlah karakter per teks juga bervariasi secara drastis — dari pertengahan 20-an untuk bahasa Korea hingga pertengahan 90-an untuk bahasa Indonesia — tergantung pada alfabet dan skrip bahasa.

Evaluasi dan Hasil Empiris

Kami secara empiris mengukur kemampuan anotasi XM3600 untuk menentukan peringkat variasi model teks gambar dengan melatih empat variasi model teks gambar multibahasa dan membandingkan perbedaan CIDEr dari keluaran model pada set data XM3600 untuk lebih dari 30 bahasa, untuk berdampingan evaluasi manusia. Kami mengamati korelasi kuat antara perbedaan CIDEr dan evaluasi manusia. Hasil ini mendukung penggunaan referensi XM3600 sebagai sarana untuk mencapai perbandingan otomatis berkualitas tinggi antara model teks gambar pada berbagai bahasa selain bahasa Inggris.

Penggunaan Terbaru

Baru-baru ini Pali menggunakan XM3600 untuk mengevaluasi kinerja model di luar bahasa Inggris untuk teks gambar, pengambilan gambar-ke-teks, dan pengambilan teks-ke-gambar. Pengambilan kunci yang mereka temukan saat mengevaluasi pada XM3600 adalah bahwa teks multibahasa sangat diuntungkan dari penskalaan model PaLI, terutama untuk bahasa sumber daya rendah.

Ucapan Terima Kasih

Kami ingin mengucapkan terima kasih kepada rekan penulis karya ini: Xi Chen dan Radu Soricut.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments