CrowdStrike Ungkap Penyebab Bug 8,5 Juta PC Windows
Kerusakan besar-besaran yang terjadi akibat pembaruan dari Crowdstrike ternyata punya alasan yang lebih sederhana dari yang dibayangkan. Menurut perusahaan keamanan siber tersebut, perangkat lunak pengujian yang mereka gunakan menjadi penyebab utama, karena tidak mendeteksi masalah besar sebelum pembaruan tersebut dirilis secara global.
Penjelasan dari Crowdstrike
Crowdstrike akhirnya memutuskan untuk mengeluarkan pernyataan di situs web mereka terkait insiden yang terjadi pada 19 Juli lalu telah memengaruhi komputer Windows di seluruh dunia. Masalah utama terletak pada perangkat lunak pengujian yang gagal mendeteksi masalah pada pembaruan, sehingga menimbulkan kekacauan yang menjadi berita utama di berbagai media akhir pekan lalu.
Sekarang, Crowdstrike memiliki tantangan besar untuk memulihkan reputasi mereka. Meski sudah lama beroperasi, perusahaan ini belum terlalu dikenal oleh publik umum. Dengan berjalannya waktu, mungkin kesalahan ini akan dilupakan, tapi situasi kritis seperti ini bisa membuat reputasi perusahaan dipertanyakan.
Gangguan Global yang Belum Pernah Terjadi
Meskipun 8,5 juta komputer yang terkena dampak terlihat sedikit dibandingkan dengan miliaran komputer yang beroperasi setiap hari. Dampak dari kesalahan ini sangat signifikan karena memengaruhi titik-titik logistik penting seperti bandara, stasiun kereta, dan perusahaan. Akibatnya, meski hanya 8,5 juta perangkat yang terpengaruh, dampak dari gangguan tersebut dirasakan oleh jutaan orang karena layanan penting terganggu.
Ini juga menunjukkan sisi negatif dari dunia yang semakin terhubung. Kemajuan teknologi yang merata dan semakin sedikitnya kesenjangan teknologi membuat masalah seperti ini memiliki dampak global. Kesalahan pada Windows ini juga sangat berdampak ke negara lain, meskipun pusat gangguan berada di Amerika Serikat. Crowdstrike sendiri sudah meminta maaf atas kesalahan ini dan berjanji untuk bekerja keras agar kejadian serupa tidak terulang kembali.
CrowdStrike Ungkap Biang Kerok Windows Blue Screen Massal
Dalam ulasan pasca insiden (PIR) yang baru saja dirilis, CrowdStrike mengatakan software penguji itu gagal memvalidasi konten update dengan benar sebelum dirilis ke jutaan perangkat pada Jumat (19/7) kemarin. Ke depannya, CrowdStrike berjanji akan menguji konten update secara menyeluruh.
"Karena bug di Content Validaor, salah satu dari dua (update) lolos validasi meskipun berisi data bermasalah," kata CrowdStrike dalam postingannya, seperti dikutip dari Engadget, Kamis (25/7/2024).
SCROLL TO CONTINUE WITH CONTENT
Guna mencegah DDoS dan serangan siber lainnya, CrowdStrike memiliki software bernama Falcon Sensor. Software ini berisi Sensor Content yang berfungsi di level kernel di Windows dan menggunakan 'Template Type' untuk menentukan cara pertahanannya terhadap ancaman siber.
CrowdStrike juga merilis Rapid Response Content yang memperbarui perilaku sensor untuk mendeteksi malware dalam bentuk 'Template Instances'. Pada 19 Juli, dua Template Instances dirilis dan salah satunya (yang berukuran 40KB) lolos validasi padahal berisi data bermasalah.
"Ketika diterima oleh sensor dan dimuat ke dalam Content Interpreter, ini menyebabkan pembacaan memori di luar batas yang memicu pengecualian. Pengecualian yang tidak terduga ini tidak bisa ditangani dengan baik, yang mengakibatkan sistem operasi Windows crash (BSOD)," jelas CrowdStrike.
Blue screen massal ini dialami sejumlah perusahaan di seluruh dunia. Masalah ini memaksa perangkat Windows mengalami boot loop dan teknisi harus mengakses perangkat secara langsung untuk memperbaikinya. Akibatnya layanan penting seperti penerbangan, penyiaran, kesehatan, dan lain-lain sempat tumbang.
Untuk mencegah insiden ini terulang lagi, CrowdStrike berjanji akan mengambil sejumlah langkah pencegahan. Pertama, mereka akan menguji konten Rapid Response dengan lebih menyeluruh, termasuk uji developer lokal, konten update, dan rollback testing, stress testing, stability testing, dan lain-lain.
CrowdStrike juga akan menambahkan pemeriksaan validasi dan meningkatkan penanganan error. Lebih lanjut, mereka akan menggunakan strategi rilis bertahap untuk Rapid Response Content guna menghindari terulangnya gangguan global, serta memberikan pelanggan kontrol yang lebih besar atas konten update dan menyediakan release notes.
Imbas Pemadaman TI Global, Pakar Siber Sulit untuk Memprediksi Waktu Pemulihan
- Seluruh dunia tengah dihebohkan dengan berita tentang pemadaman TI global perangkat Windows, yang berdampak pada ribuan entitas bisnis di seluruh dunia, termasuk bandara dan perbankan.
Sudah diketahui juga bahwa hal ini disebabkan oleh masalah pembaruan perangkat lunak yang dirilis oleh vendor keamanan siber Crowdstrike.
Berdasarkan pernyataan resmi baik dari Microsoft atau CrowdStrike, ada sekitar 8,5 juta perangkat yang terdampak akibat pemadaman yang terjadi sejak 19 Juli ini.
Pada tahap ini, Head of Threat Research di Kaspersky, Alexander Liskin, mengatakan bahwa sulit untuk memperkirakan berapa lama waktu yang dibutuhkan untuk memperbaiki masalah tersebut.
“Kesulitannya terletak pada kenyataan bahwa ketika masalah tersebut terjadi, setiap perangkat (komputer, laptop atau server) harus di-boot ulang ke mode aman secara manual; ini tidak dapat dilakukan dengan menggunakan alat manajemen,” katanya dalam sebuah pernyataan.
Dengan demikian, bisa dikatakan bahwa masalah ini memang merupakan masalah yang sangat serius yang telah mempengaruhi banyak proses, termasuk pada infrastruktur penting.
Menurut Liskin, untuk menghindari situasi seperti itu, vendor keamanan informasi harus sangat bertanggung jawab terhadap kualitas pembaruan yang mereka rilis.
Kemudian, dia juga menambahkan pentingnya untuk mematuhi prinsip rilis pembaruan yang terperinci. Artinya, pembaruan tersebut seharusnya tidak didistribusikan secara global secara bersamaan.
SEE ALSO:
“Namun secara bertahap, sehingga jika terjadi kegagalan yang tidak terduga, dapat dilokalisasi dan diperbaiki dengan cepat,” ujarnya lebih lanjut.
Selain itu, Liskin juga menegaskan perlunya perusahaan perangkat lunak untuk memantau dan segera merespons situasi apa pun dengan segera menghentikan pembaruan.
“Pemecahan masalah menjadi prioritas di seluruh tingkatan perusahaan. Seperti semua insiden dunia maya, penting untuk tidak hanya menghilangkan kerusakan yang terlihat, namun juga menemukan dan memperbaiki akar permasalahan untuk mencegah insiden serupa di masa depan,” pungkasnya.