Latar Belakang: Model transformator telah muncul sebagai solusi ampuh untuk berbagai tantangan multidisiplin. Penerapan arsitektur transformator terhambat secara signifikan oleh kebutuhan komputasi dan memori yang besar, sehingga memerlukan ketergantungan pada metodologi pelatihan terdistribusi yang canggih dan efisien.
Motivasi: Penelitian sebelumnya telah menyelidiki hambatan kinerja yang terkait dengan pelatihan terdistribusi, yang bertujuan untuk mengurai hambatan ini dan menyarankan arah pengoptimalan. Namun, analisis tersebut sering kali mengabaikan tiga aspek yang unik pada model transformator: arsitektur khusus, ketergantungan pada berbagai strategi terdistribusi, dan persyaratan untuk menyeimbangkan overhead komputasi dan memori.
Metode: Makalah ini bertujuan untuk menjembatani kesenjangan ini dengan menawarkan pemeriksaan komprehensif terhadap hambatan kinerja yang melekat dalam pelatihan model transformator terdistribusi, memanfaatkan analisis teoritis dan penyelidikan empiris. Kami mengusulkan kerangka kerja analitis yang disesuaikan dengan aspek-aspek unik transformator ini, memfasilitasi evaluasi holistik terhadap arsitektur model, strategi terdistribusi, dan konsumsi sumber daya. Berdasarkan kerangka kerja analitis ini, kami melakukan analisis komparatif terhadap kinerja teoritis dan selanjutnya secara sistematis mengeksplorasi bagaimana berbagai strategi pelatihan terdistribusi berjalan dalam skenario dunia nyata.
Hasil: Sebagian besar hasil eksperimen dapat dijelaskan dengan baik oleh hasil analitis yang diperoleh dari kerangka analitis. Khususnya, temuan kami menunjukkan keuntungan paralelisme jalur pipa dibandingkan paralelisme data untuk model transformator. Selain itu, kami menjelaskan beberapa hasil yang tidak diharapkan, seperti potensi peningkatan overhead memori total karena partisi model yang kurang optimal dalam paralelisme jalur pipa. Selain itu, kami menggarisbawahi pentingnya ukuran blok komunikasi dan waktu tunggu untuk lebih meningkatkan kinerja.