HomeKomputerMengumumkan Dataset Kesamaan Frasa Paten – Blog Google AI

Mengumumkan Dataset Kesamaan Frasa Paten – Blog Google AI

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Dokumen paten biasanya menggunakan bahasa yang legal dan sangat teknis, dengan istilah yang bergantung pada konteks yang mungkin memiliki arti yang sangat berbeda dari penggunaan sehari-hari dan bahkan di antara dokumen yang berbeda. Proses menggunakan metode pencarian paten tradisional (misalnya, pencarian kata kunci) untuk mencari melalui kumpulan lebih dari seratus juta dokumen paten dapat menjadi membosankan dan menghasilkan banyak hasil yang tidak terjawab karena bahasa yang luas dan tidak standar yang digunakan. Misalnya, “bola sepak” dapat digambarkan sebagai “perangkat rekreasi berbentuk bola”, “bola olahraga tiup” atau “bola untuk permainan bola”. Selain itu, bahasa yang digunakan dalam beberapa dokumen paten dapat mengaburkan istilah untuk keuntungan mereka, jadi lebih kuat pemrosesan bahasa alami (NLP) dan kesamaan semantik pemahaman dapat memberikan akses setiap orang untuk melakukan pencarian menyeluruh.

kesamaan tekstual semantik (STS) kumpulan data tolok ukur (misalnya, STS-B, SAKIT, MRPC, LUBANG), sejauh pengetahuan kami, saat ini tidak ada kumpulan data yang berfokus pada konsep teknis yang ditemukan dalam paten dan publikasi ilmiah (yang agak terkait Tantangan BioASQ berisi tugas menjawab pertanyaan biomedis). Apalagi dengan berlanjutnya pertumbuhan ukuran korpus paten (jutaan paten baru dikeluarkan di seluruh dunia setiap tahun), ada kebutuhan untuk mengembangkan model NLP yang lebih berguna untuk domain ini.

Hari ini, kami mengumumkan rilis Kesamaan Frasa Paten dataset, dataset pencocokan semantik frase-ke-frase kontekstual baru yang dinilai manusia, dan yang menyertainya kertasdisajikan pada Lokakarya SemTech Paten SIGIR, yang berfokus pada istilah teknis dari paten. Dataset Kesamaan Frasa Paten berisi ~50.000 pasangan frasa berperingkat, masing-masing dengan a Klasifikasi Paten Koperasi (BPK) kelas sebagai konteks. Selain skor kesamaan yang biasanya disertakan dalam kumpulan data tolok ukur lainnya, kami menyertakan kelas peringkat granular yang serupa dengan WordNetseperti sinonim, antonim, hipernim, hiponim, holonim, nama panggilan, dan terkait domain. Kumpulan data ini (didistribusikan di bawah Lisensi Creative Commons Attribution 4.0 Internasional) digunakan oleh Kaggle dan USPTO sebagai dataset benchmark di Frasa Paten AS untuk Pencocokan Frasa kompetisi untuk lebih menarik perhatian pada kinerja model pembelajaran mesin pada teks teknis. Hasil awal menunjukkan bahwa model yang disetel dengan baik pada kumpulan data baru ini berkinerja jauh lebih baik daripada model pra-pelatihan umum tanpa penyetelan halus.

See also  Pendekatan Multi-Sumbu untuk Vision Transformer dan Model MLP – Google AI Blog

Kumpulan Data Kesamaan Frasa Paten

Untuk melatih model mutakhir generasi berikutnya dengan lebih baik, kami membuat kumpulan data Kesamaan Frasa Paten, yang mencakup banyak contoh untuk mengatasi masalah berikut: (1) disambiguasi frasa, (2) pencocokan kata kunci permusuhan, dan (3 ) kata kunci negatif keras (yaitu, kata kunci yang tidak terkait tetapi menerima skor tinggi untuk kesamaan dari model lain ). Beberapa kata kunci dan frasa dapat memiliki banyak arti (misalnya, frasa “tikus” dapat merujuk ke hewan atau perangkat input komputer), jadi kami membedakan frasa dengan menyertakan kelas BPK dengan setiap pasangan frasa. Juga, banyak model NLP (misalnya, tas model kata) tidak akan bekerja dengan baik pada data dengan frasa yang memiliki kata kunci yang cocok tetapi sebaliknya tidak terkait (kata kunci yang berlawanan, misalnya, “bagian wadah” → “wadah dapur”, “meja offset” → “kipas meja”). Kumpulan data Kesamaan Frasa Paten dirancang untuk menyertakan banyak contoh kata kunci yang cocok yang tidak terkait melalui pencocokan kata kunci permusuhan, memungkinkan model NLP untuk meningkatkan kinerjanya.

Setiap entri dalam kumpulan data Kesamaan Frasa Paten berisi dua frasa, jangkar dan target, kelas BPK konteks, kelas peringkat, dan skor kesamaan. Dataset berisi 48.548 entri dengan 973 anchor unik, dibagi menjadi set pelatihan (75%), validasi (5%), dan pengujian (20%). Saat memisahkan data, semua entri dengan jangkar yang sama disimpan bersama dalam set yang sama. Ada 106 kelas BPK konteks yang berbeda dan semuanya terwakili dalam set pelatihan.

Jangkar Target Konteks Peringkat Skor
penyerapan asam penyerapan asam B08 akurat 1.0
penyerapan asam perendaman asam B08 persamaan Kata 0,75
penyerapan asam direndam secara kimia B08 terkait domain 0,25
penyerapan asam refluks asam B08 tidak berhubungan 0,0
campuran bensin campuran bensin Q10 persamaan Kata 0,75
campuran bensin campuran bahan bakar Q10 hipernim 0,5
campuran bensin campuran buah Q10 tidak berhubungan 0,0
perakitan keran kran air ledeng A22 hiponim 0,5
perakitan keran persediaan air A22 holonim 0,25
perakitan keran majelis sekolah A22 tidak berhubungan 0,0
Contoh kecil kumpulan data dengan frasa jangkar dan target, kelas konteks BPK (B08: Pembersihan, C10: Minyak bumi, gas, bahan bakar, pelumas, A22: Penyembelihan, pengolahan daging/unggas/ikan), kelas peringkat, dan skor kesamaan .

Menghasilkan Kumpulan Data

Untuk menghasilkan data Kesamaan Frasa Paten, pertama-tama kami memproses ~140 juta dokumen paten di Google Patent’s badan dan secara otomatis mengekstrak frasa bahasa Inggris yang penting, yang biasanya berupa frasa kata benda (misalnya, “pengikat”, “pengangkat”) dan frasa fungsional (misalnya, “pengolahan makanan”, “pencetakan tinta”). Selanjutnya, kami memfilter dan menyimpan frasa yang muncul di setidaknya 100 paten dan secara acak mengambil sampel sekitar 1.000 frasa yang difilter ini, yang kami sebut frasa jangkar. Untuk setiap frase jangkar, kami menemukan semua paten yang cocok dan semua kelas BPK untuk paten tersebut. Kami kemudian secara acak mengambil sampel hingga empat kelas BPK yang cocok, yang menjadi kelas BPK konteks untuk frase jangkar tertentu.

See also  Danau Alder dan Arc Amalgamate di NUC12 Enthusiast

Kami menggunakan dua metode berbeda untuk pra-pembuatan frasa target: (1) pencocokan sebagian dan (2) a model bahasa bertopeng (MLM). Untuk pencocokan sebagian, kami secara acak memilih frasa dari seluruh korpus yang sebagian cocok dengan frasa jangkar (misalnya, “pengurangan” → “pengurangan kebisingan”, “pembentukan material” → “bahan formasi”). Untuk MLM, kami memilih kalimat dari paten yang mengandung frase jangkar tertentu, menutupinya, dan menggunakan Paten-BERT model untuk memprediksi kandidat untuk bagian teks yang disamarkan. Kemudian, semua frasa dibersihkan, yang mencakup huruf kecil dan penghapusan tanda baca dan stopwords tertentu (misalnya, “dan”, “atau”, “kata”), dan dikirim ke penilai ahli untuk ditinjau. Setiap pasangan frase dinilai secara independen oleh dua penilai yang ahli di bidang teknologi. Setiap penilai juga menghasilkan frase target baru dengan peringkat yang berbeda. Secara khusus, mereka diminta untuk menghasilkan beberapa target kesamaan rendah dan tidak terkait yang sebagian cocok dengan jangkar asli dan/atau beberapa target kesamaan tinggi. Akhirnya, para penilai bertemu untuk membahas peringkat mereka dan menghasilkan peringkat akhir.

Evaluasi Kumpulan Data

Untuk mengevaluasi kinerjanya, dataset Kesamaan Frasa Paten digunakan dalam Kompetisi Kaggle Pencocokan Frasa ke Frasa AS. Kompetisi ini sangat populer, menarik sekitar 2.000 pesaing dari seluruh dunia. Berbagai pendekatan berhasil digunakan oleh tim top skor, termasuk model ensemble dari BERT varian dan bisikan (lihat selengkapnya diskusi untuk lebih jelasnya). Tabel di bawah ini menunjukkan hasil terbaik dari kompetisi, serta beberapa baseline dari kami kertas. Itu Korelasi Pearson metrik digunakan untuk mengukur korelasi linier antara skor yang diprediksi dan skor sebenarnya, yang merupakan metrik yang berguna untuk menargetkan model hilir sehingga mereka dapat membedakan antara peringkat kesamaan yang berbeda.

See also  Kuantisasi untuk Pembelajaran Penguatan yang Cepat dan Berkelanjutan Lingkungan – Blog Google AI

Garis dasar dalam makalah ini dapat dianggap sebagai zero-shot dalam arti bahwa mereka menggunakan model off-the-shelf tanpa penyetelan lebih lanjut pada dataset baru (kami menggunakan model ini untuk menanamkan frase jangkar dan target secara terpisah dan menghitung kosinus kesamaan di antara mereka). Hasil kompetisi Kaggle menunjukkan bahwa dengan menggunakan data pelatihan kami, seseorang dapat mencapai peningkatan yang signifikan dibandingkan dengan model NLP yang ada. Kami juga telah memperkirakan kinerja manusia pada tugas ini dengan membandingkan skor penilai tunggal dengan skor gabungan dari kedua penilai. Hasilnya menunjukkan bahwa ini bukan tugas yang sangat mudah, bahkan untuk ahli manusia.

Model Pelatihan Korelasi Pearson
kata2vec Zero-shot 0,44
Paten-BERT Zero-shot 0,53
Kalimat-BERT Zero-shot 0,60
Kaggle 1 tempat tunggal Disetel dengan baik 0,87
Ansambel Juara 1 Kaggle Disetel dengan baik 0,88
Manusia 0.93
Performa model populer tanpa fine-tuning (zero-shot), model fine-tuned pada dataset Patent Phrase Similarity sebagai bagian dari kompetisi Kaggle, dan performa manusia tunggal.

Kesimpulan dan Pekerjaan Masa Depan

Kami mempersembahkan Kesamaan Frasa Paten dataset, yang digunakan sebagai dataset benchmark di Frasa Paten AS untuk Pencocokan Frasa kompetisi, dan menunjukkan bahwa dengan menggunakan data pelatihan kami, seseorang dapat mencapai peningkatan yang signifikan dibandingkan dengan model NLP yang ada.

Tolok ukur pembelajaran mesin yang menantang dapat dihasilkan dari korpus paten, dan data paten telah masuk ke banyak model yang paling banyak dipelajari saat ini. Misalnya, kumpulan data teks C4 digunakan untuk melatih T5 mengandung banyak dokumen paten. Itu Burung besar dan panjangT5 model juga menggunakan paten melalui Kumpulan data BIGPATENT. Ketersediaan, luasnya, dan persyaratan penggunaan terbuka dari data teks lengkap (lihat Kumpulan Data Publik Google Paten) menjadikan paten sebagai sumber daya yang unik bagi komunitas riset. Kemungkinan untuk tugas masa depan termasuk klasifikasi multi-label besar-besaran, peringkasan, pencarian informasi, kesamaan gambar-teks, prediksi grafik kutipan, dan terjemahan. Lihat kertas untuk lebih jelasnya.

Ucapan Terima Kasih

Pekerjaan ini dimungkinkan melalui kolaborasi dengan Kaggle, Satsyil Corp., USPTO, dan MaxVal. Terima kasih kepada kontributor Ian Wetherbee dari Google, Will Cukierski dan Maggie Demkin dari Kaggle. Terima kasih kepada Jerry Ma, Scott Beliveau, dan Jamie Holcombe dari USPTO dan Suja Chittamahalingam dari MaxVal atas kontribusi mereka.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments