Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari Lebih Lanjut
Setiap tahun, serangan siber menjadi lebih sering dan pelanggaran data menjadi lebih mahal. Baik perusahaan berupaya melindungi sistem AI mereka selama pengembangan atau menggunakan algoritme untuk meningkatkan postur keamanan, mereka harus mengurangi risiko keamanan siber. Pembelajaran gabungan mungkin dapat melakukan keduanya.
Apa itu pembelajaran gabungan?
Pembelajaran gabungan adalah sebuah pendekatan untuk Pengembangan AI di mana banyak pihak melatih satu model secara terpisah. Masing-masing mengunduh algoritme utama saat ini dari server cloud pusat. Mereka melatih konfigurasinya secara mandiri di server lokal, mengunggahnya setelah selesai. Dengan cara ini, mereka dapat berbagi data dari jarak jauh tanpa memaparkan data mentah atau parameter model.
Algoritme terpusat menimbang jumlah sampel yang diterima dari setiap konfigurasi terlatih yang berbeda, lalu menggabungkannya untuk membuat model global tunggal. Semua informasi tetap berada di server atau perangkat lokal masing-masing peserta — repositori terpusat akan mempertimbangkan pembaruan alih-alih memproses data mentah.
Popularitas pembelajaran gabungan meningkat pesat karena mengatasi masalah keamanan umum terkait pembangunan. Ia juga sangat dicari karena keunggulan kinerjanya. Penelitian menunjukkan teknik ini dapat meningkatkan model klasifikasi gambar akurasi hingga 20% — peningkatan yang substansial.
Pembelajaran gabungan horizontal
Ada dua jenis pembelajaran gabungan. Pilihan konvensional adalah pembelajaran gabungan horizontal. Dalam pendekatan ini, data dipartisi ke berbagai perangkat. Kumpulan data berbagi ruang fitur tetapi memiliki sampel yang berbeda. Hal ini memungkinkan node edge untuk secara kolaboratif melatih model pembelajaran mesin (ML) tanpa berbagi informasi.
Pembelajaran gabungan vertikal
Dalam pembelajaran gabungan vertikal, yang terjadi justru sebaliknya — fitur berbeda, tetapi sampelnya sama. Fitur didistribusikan secara vertikal ke seluruh peserta, masing-masing memiliki atribut berbeda pada kumpulan entitas yang sama. Karena hanya satu pihak yang memiliki akses ke seluruh rangkaian label sampel, pendekatan ini menjaga privasi.
Bagaimana pembelajaran gabungan memperkuat keamanan siber
Pembangunan tradisional rentan terhadap kesenjangan keamanan. Meskipun algoritme harus memiliki kumpulan data yang luas dan relevan untuk menjaga keakuratan, melibatkan banyak departemen atau vendor akan menciptakan peluang bagi pelaku ancaman. Mereka dapat mengeksploitasi kurangnya visibilitas dan permukaan serangan yang luas untuk memberikan bias, melakukan rekayasa cepat atau mengekstrak data pelatihan sensitif.
Ketika algoritme diterapkan dalam peran keamanan siber, kinerjanya dapat memengaruhi postur keamanan organisasi. Penelitian menunjukkan bahwa akurasi model bisa tiba-tiba berkurang saat memproses data baru. Meskipun sistem AI tampak akurat, sistem tersebut mungkin gagal saat diuji di tempat lain karena sistem tersebut belajar mengambil jalan pintas palsu untuk menghasilkan hasil yang meyakinkan.
Karena AI tidak dapat berpikir kritis atau benar-benar mempertimbangkan konteks, keakuratannya akan berkurang seiring berjalannya waktu. Meskipun model ML berkembang seiring dengan penyerapan informasi baru, performanya akan stagnan jika keterampilan pengambilan keputusannya didasarkan pada jalan pintas. Di sinilah pembelajaran gabungan berperan.
Manfaat penting lainnya dari melatih model terpusat melalui pembaruan yang berbeda mencakup privasi dan keamanan. Karena setiap peserta bekerja secara independen, tidak seorang pun harus berbagi informasi hak milik atau sensitif untuk kemajuan pelatihan. Selain itu, semakin sedikit transfer data, semakin rendah risiko serangan man-in-the-middle (MITM).
Semua pembaruan dienkripsi untuk agregasi yang aman. Komputasi multi-pihak menyembunyikan mereka di balik berbagai skema enkripsi, sehingga menurunkan kemungkinan pelanggaran atau serangan MITM. Melakukan hal ini akan meningkatkan kolaborasi sekaligus meminimalkan risiko, dan pada akhirnya akan menjadi lebih baik postur keamanan.
Salah satu keuntungan yang diabaikan dari pembelajaran gabungan adalah kecepatan. Ini memiliki latensi yang jauh lebih rendah dibandingkan mitranya yang terpusat. Karena pelatihan dilakukan secara lokal dan bukan di server pusat, algoritme dapat mendeteksi, mengklasifikasikan, dan merespons ancaman dengan lebih cepat. Penundaan yang minimal dan transmisi data yang cepat memungkinkan para profesional keamanan siber menangani pelaku kejahatan dengan mudah.
Pertimbangan bagi para profesional keamanan siber
Sebelum memanfaatkan teknik pelatihan ini, insinyur AI dan tim keamanan siber harus mempertimbangkan beberapa faktor teknis, keamanan, dan operasional.
Penggunaan sumber daya
Pengembangan AI itu mahal. Tim yang membangun model mereka sendiri harus mengeluarkan biaya berapa pun $5 juta hingga $200 juta di muka, dan lebih dari $5 juta per tahun untuk pemeliharaan. Komitmen finansial ini penting bahkan dengan biaya yang ditanggung oleh banyak pihak. Para pemimpin bisnis harus memperhitungkan biaya komputasi cloud dan edge.
Pembelajaran gabungan juga intensif secara komputasi, yang mungkin menimbulkan keterbatasan bandwidth, ruang penyimpanan, atau komputasi. Meskipun cloud memungkinkan skalabilitas sesuai permintaan, tim keamanan siber berisiko terjebak pada vendor jika mereka tidak berhati-hati. Pemilihan perangkat keras dan vendor yang strategis adalah yang paling penting.
Kepercayaan peserta
Meskipun pelatihan yang berbeda aman, pelatihan tersebut kurang transparan, sehingga menimbulkan bias yang disengaja dan suntikan jahat menjadi sebuah kekhawatiran. Mekanisme konsensus sangat penting untuk menyetujui pembaruan model sebelum algoritma terpusat mengumpulkannya. Dengan cara ini, mereka dapat meminimalkan risiko ancaman tanpa mengorbankan kerahasiaan atau mengungkap informasi sensitif.
Pelatihan keamanan data
Meskipun teknik pelatihan pembelajaran mesin ini dapat meningkatkan postur keamanan perusahaan, tidak ada yang 100% aman. Mengembangkan model di cloud memiliki risiko ancaman orang dalam, kesalahan manusia, dan kehilangan data. Redundansi adalah kuncinya. Tim harus membuat cadangan untuk mencegah gangguan dan mengembalikan pembaruan, jika perlu.
Pengambil keputusan harus meninjau kembali sumber data pelatihan mereka. Di komunitas ML, banyak terjadi peminjaman set data, sehingga menimbulkan kekhawatiran yang beralasan tentang ketidakselarasan model. Di Papers With Code, lebih dari 50% komunitas tugas menggunakan kumpulan data pinjaman setidaknya 57,8% sepanjang waktu. Terlebih lagi, 50% dataset yang ada hanya berasal dari 12 universitas.
Penerapan pembelajaran gabungan dalam keamanan siber
Setelah algoritme utama mengumpulkan dan mempertimbangkan pembaruan peserta, algoritme tersebut dapat dibagikan ulang untuk aplikasi apa pun yang telah dilatih. Tim keamanan siber dapat menggunakannya untuk mendeteksi ancaman. Keuntungannya ada dua – meskipun pelaku ancaman tidak dapat menebak-nebak karena mereka tidak dapat dengan mudah mengambil data, para profesional mengumpulkan wawasan untuk mendapatkan hasil yang sangat akurat.
Pembelajaran gabungan ideal untuk aplikasi yang berdekatan seperti klasifikasi ancaman atau indikator deteksi penyusupan. Ukuran kumpulan data AI yang besar dan pelatihan ekstensif membangun basis pengetahuannya, sehingga menghasilkan keahlian yang luas. Para profesional keamanan siber dapat menggunakan model ini sebagai mekanisme pertahanan terpadu untuk melindungi permukaan serangan yang luas.
Model ML — terutama yang membuat prediksi — cenderung berubah seiring berjalannya waktu seiring dengan berkembangnya konsep atau variabel menjadi kurang relevan. Dengan pembelajaran gabungan, tim dapat memperbarui model mereka secara berkala dengan beragam fitur atau sampel data, sehingga menghasilkan wawasan yang lebih akurat dan tepat waktu.
Memanfaatkan pembelajaran gabungan untuk keamanan siber
Baik perusahaan ingin mengamankan data pelatihannya atau memanfaatkan AI untuk mendeteksi ancaman, mereka harus mempertimbangkan penggunaan pembelajaran gabungan. Teknik ini dapat meningkatkan akurasi dan kinerja serta memperkuat postur keamanan mereka selama mereka secara strategis menavigasi potensi ancaman orang dalam atau risiko pelanggaran.
Zac Amos adalah editor fitur di Retas ulang.
Pengambil Keputusan Data
Selamat datang di komunitas VentureBeat!
DataDecisionMakers adalah tempat para ahli, termasuk orang-orang teknis yang melakukan pekerjaan data, dapat berbagi wawasan dan inovasi terkait data.
Jika Anda ingin membaca tentang ide-ide mutakhir dan informasi terkini, praktik terbaik, serta masa depan data dan teknologi data, bergabunglah dengan kami di DataDecisionMakers.
Anda bahkan mungkin mempertimbangkannya menyumbangkan artikel milikmu sendiri!