ABSTRAK
Model pembelajaran mesin (ML) dan pembelajaran mendalam (DL) telah menjadi alat penting dalam Sistem Deteksi Intrusi (IDS), namun efektivitasnya sangat bergantung pada kualitas dan distribusi data pelatihan. Studi ini menyelidiki dampak ukuran kumpulan data dan keseimbangan kumpulan data terhadap kinerja model ML dan DL menggunakan kumpulan data CIC-IDS 2017. Lima subset (20%, 40%, 60%, 80%, dan 100% dari kumpulan data) dibuat untuk menilai model pembelajaran di berbagai ukuran kumpulan data. Empat model, termasuk Random Forest (RF), Jaringan Syaraf Tiruan, Jaringan Syaraf Konvolusional (CNN), dan CNN+Long-Term Short Memory (CNN+LSTM), dilatih dan dievaluasi pada subset ini, dengan fokus pada presisi, perolehan kembali, dan skor F1. Untuk menguji generalisasi model, kumpulan data sintetis dari 20 juta sampel yang diambil sampelnya secara berlebihan dibuat menggunakan Teknik Pengambilan Sampel Berlebih Minoritas Sintetis, diikuti oleh pengambilan sampel yang kurang secara manual untuk membuat kumpulan data seimbang dari 1,5 juta sampel dengan sekitar 100.000 sampel per kelas serangan. Setelah penilaian generalisasi model yang sudah dilatih pada kumpulan data yang dihasilkan secara sintetis, CNN+LSTM secara konsisten mengungguli model lain dalam generalisasi tetapi menggunakan lebih banyak waktu untuk pelatihan dan pengujian dalam setiap kasus. RF menunjukkan kinerja generalisasi terlemah tetapi tercepat dalam skenario pelatihan dan pengujian. Selain itu, untuk mengevaluasi pentingnya kumpulan data secara umum dan kumpulan data yang seimbang secara khusus, kami juga telah mempertimbangkan kumpulan data NSL-KDD dan mengevaluasi keempat model pembelajaran untuk beberapa klasifikasi dan klasifikasi biner. Hasil kami menyoroti pentingnya kumpulan data, kumpulan data yang seimbang, dan struktur model pembelajaran.
Leave a Reply