Abstrak
Dalam proses disambiguasi nama pengarang (AND), karakteristik yang bervariasi dan gangguan dari blok yang berbeda secara signifikan memengaruhi kinerja disambiguasi. Dalam makalah ini, kami mengusulkan metode optimasi hiperparameter adaptif berbasis blok yang menetapkan hiperparameter optimal untuk setiap blok tanpa mengubah struktur model AND asli. Berdasarkan hal ini, model hutan acak dilatih menggunakan hasil yang dioptimalkan untuk menyesuaikan hubungan antara fitur data blok dan hiperparameter optimalnya, sehingga memungkinkan prediksi hiperparameter untuk blok baru. Studi empiris pada 6 algoritma AND mutakhir, 11 set data publik, dan set data berlabel manual dari paten industri teknologi informasi dan komunikasi (TIK) Tiongkok menunjukkan bahwa metode yang diusulkan secara signifikan mengungguli algoritma asli di beberapa metrik evaluasi kinerja standar (Cluster F1/Pairwise F1, B-Cubed F1, dan metrik K). Hasil regresi hutan acak menunjukkan bahwa 16 fitur yang dipilih secara efektif memprediksi hiperparameter optimal. Analisis lebih lanjut mengungkap hubungan hukum pangkat antara ukuran blok relatif dan kinerja relatif serta kinerja optimal relatif di seluruh kumpulan data dan metrik evaluasi, dan peningkatan kinerja relatif dari algoritma pengoptimalan hiperparameter adaptif sangat signifikan untuk blok yang lebih kecil. Temuan ini memberikan dukungan teoritis dan panduan praktis untuk pengembangan algoritma AND.
Leave a Reply