Cloud Outage:Mengapa dan Bagaimana Terjadinya?
Semakin TI bergantung pada layanan cloud, semakin besar kemungkinan Anda mengalami downtime dan kehilangan pendapatan karena pemadaman cloud. Lebih dari 60% organisasi yang menggunakan cloud publik melaporkan kerugian pada tahun 2022 karena insiden ini, jadi pemadaman bukanlah kejadian aneh yang kemungkinan besar akan dihadapi perusahaan.
Tetapi apakah pemadaman cukup menjadi alasan untuk meninggalkan cloud untuk selamanya? Atau haruskah Anda tetap menggunakan jenis infrastruktur ini meskipun terkadang ada risiko downtime?
Artikel ini membahas semua yang perlu Anda ketahui tentang pemadaman awan . Kami menguraikan penyebab utamanya, memeriksa statistik yang membuka mata, menunjukkan cara meminimalkan dampak waktu henti cloud, dan melihat pemadaman paling berdampak yang terjadi dalam beberapa tahun terakhir.
Apa Itu Pemadaman Awan?
Pemadaman cloud adalah rentang waktu di mana layanan penyedia cloud tidak tersedia untuk pengguna akhir. Infrastruktur vendor turun (karena bug, kegagalan daya, dll.), dan klien kehilangan akses ke aset berbasis cloud hingga penyedia memperbaiki masalahnya.
Dari segi dampak, tidak ada perbedaan antara pusat data di tempat yang down dan pemadaman cloud. Anda kehilangan akses ke aset TI dalam kedua kasus tersebut, tetapi pendekatan langsung ke komputasi awan menambahkan beberapa pertimbangan unik:
- Pemadaman cloud memiliki sedikit atau tidak ada visibilitas kegagalan, sehingga pengguna biasanya tidak tahu apa yang salah.
- Tim penyedia bertanggung jawab untuk memperbaiki kesalahan, sehingga klien tidak ikut serta dalam proses pemulihan.
- Karena Anda tidak memiliki visibilitas atau kendali atas masalah tersebut, tidak ada cara untuk mengetahui kapan layanan akan kembali online.
Seperti halnya perangkat keras lokal, ada dua jenis pemadaman listrik:
- Terencana (biasanya terjadi karena pemeliharaan terjadwal).
- Tidak direncanakan (terjadi saat penyedia mengalami kesalahan yang tidak terduga dan harus melakukan tindakan pemulihan).
Studi terbaru mengungkapkan bahwa pemadaman yang tidak direncanakan menghabiskan biaya 35% lebih banyak daripada waktu henti yang direncanakan (baik di tempat maupun di cloud). Perbedaan harga terjadi karena insiden tak terduga membutuhkan waktu lebih lama untuk diidentifikasi dan diperbaiki—dan semakin lama pemadaman berlangsung, semakin besar kerusakannya.
Dibandingkan dengan perangkat keras di lokasi, infrastruktur berbasis cloud menghasilkan waktu henti yang lebih sering tetapi dengan tingkat keparahan yang lebih rendah . Karena tidak ada sistem hosting yang menyediakan waktu aktif 100%, klien siap untuk mentolerir pemadaman sesekali sebagai imbalan atas keuntungan komputasi awan. Kesediaan ini juga terlihat dalam pertumbuhan pasar—cloud akan menghasilkan 14,2% dari total pengeluaran TI global pada tahun 2024 (naik dari 9,1% pada tahun 2020).
Penyebab Pemadaman Cloud
Pemadaman cloud diakibatkan oleh sejumlah penyebab baik di dalam maupun di luar kendali penyedia. Berikut daftar yang paling umum:
- Pemadaman listrik: Masalah terkait daya menyebabkan 43% dari semua pemadaman cloud dengan waktu henti yang signifikan dan kerugian finansial. Kegagalan catu daya tak terputus (UPS) adalah penyebab nomor satu dari insiden listrik.
- Keamanan siber: Serangan dunia maya seperti Distributed Denial of Service (DDoS) membebani pusat data dengan lalu lintas masuk. Dalam hal ini, pengguna akhir tidak dapat mengakses layanan melalui infrastruktur jaringan yang sama. Ancaman lain (seperti ransomware atau injeksi SQL) dapat memaksa penyedia untuk mematikan layanan dan memperbaiki masalah secara offline.
- Kesalahan manusia: Satu perintah yang salah atau kesalahan dengan pemasangan kabel dapat menurunkan seluruh infrastruktur TI. Kesalahan manusia menyebabkan masalah fisik dan perangkat lunak yang menyebabkan pemadaman.
- Masalah teknis: Layanan cloud bergantung pada sistem teknologi perangkat keras yang kompleks, sehingga error yang tidak terdeteksi cukup lama dapat menyebabkan pemadaman cloud.
- Bug perangkat lunak: Glitches dan bug biasa terjadi di pusat data cloud. Penyebab umum di balik masalah adalah bug format data, bug terkait kesalahan, bug pengaturan waktu, dan bug nilai konstan.
- Masalah jaringan: Masalah yang terkait dengan komunikasi jaringan dan partner telekomunikasi pihak ketiga adalah penyebab umum lainnya dari pemadaman cloud.
- Pemeliharaan: Pemeliharaan terjadwal dan peningkatan sistem terkadang menyebabkan pemadaman, meskipun pengguna akhir biasanya mengetahui kejadian ini sebelumnya.
- Penyebab lingkungan: Peristiwa seperti angin topan, kebakaran, badai petir, dan gempa bumi juga memicu downtime cloud, baik dengan membahayakan fasilitas tersebut atau dengan merusak jaringan listrik di kawasan tersebut.
- Penerapan yang lebih kompleks: Model penerapan yang lebih rumit (seperti hibrid, terdistribusi, dan multi-cloud) memperumit operasi pusat data, menciptakan lebih banyak peluang kesalahan.
Apa Yang Terjadi Saat Cloud Turun?
Dalam skenario kasus terbaik, pemadaman cloud hanya berlangsung beberapa menit dan memengaruhi sejumlah kecil pengguna atau layanan. Dalam kasus terburuk, pemadaman melumpuhkan bisnis klien selama setengah hari atau lebih. Sebuah perusahaan kehilangan akses ke semua aset berbasis cloud dan tetap terputus sampai pemadaman berakhir.
Meskipun mengancam, kesalahan oleh penyedia pihak ketiga adalah penyebab "hanya" 7% dari pemadaman parah pada tahun 2021 . Pemadaman parah harus melibatkan satu (atau beberapa) hal berikut:
- Kerugian finansial yang signifikan.
- Kerusakan reputasi.
- Pelanggaran kepatuhan.
- Hilangnya nyawa.
Meskipun ada masalah yang lebih mendesak (seperti yang ditunjukkan pada bagan donat di bawah), ingatlah bahwa rata-rata satu menit waktu henti berharga $5.600 (Angka per menit ini mencapai $9.000 untuk perusahaan). Jika Anda tidak siap (yaitu, Anda tidak memiliki cadangan data, pemulihan bencana, dll.), pemadaman cloud dapat menghentikan layanan Anda dan menyebabkan kerugian besar.
Perusahaan yang menyimpan segmen kecil operasi di cloud kurang rentan terhadap pemadaman. Misalnya, jika Anda hanya meng-host email di cloud, bahkan pemadaman selama satu hari bukanlah bencana besar. Anda dapat menunggu insiden atau menjalankan aplikasi dengan fungsionalitas yang dikurangi, strategi yang tidak berfungsi jika Anda menggunakan cloud untuk menjalankan platform IoT atau melakukan pemrosesan pembayaran.
Dalam beberapa kasus, pemadaman cloud menyebabkan kehilangan data permanen (jumlah data yang hilang tergantung pada frekuensi pencadangan). Selain itu, klien di industri yang ketat bertanggung jawab atas denda hukum jika pemadaman menyebabkan pelanggaran atau kebocoran data, jadi berhati-hatilah saat memutuskan apa yang Anda simpan di penyimpanan cloud.
Apa yang Dapat Dilakukan Pengguna?
Berikut yang dilakukan perusahaan untuk mengurangi dampak pemadaman cloud:
- Hapus satu titik kegagalan: Siapkan cadangan dari setiap komponen TI yang sangat penting, baik di ruang server di tempat atau di penyedia sekunder. Jika cloud down, Anda melakukan failover (proses beralih ke server siaga, komponen perangkat keras, jaringan, dll.) untuk memastikan kelangsungan bisnis.
- Memiliki rencana darurat: Rencana pemulihan bencana menguraikan strategi langkah demi langkah untuk apa yang dilakukan tim jika terjadi pemadaman. Paket ini memberikan instruksi untuk melindungi data, melakukan failover, memastikan kelangsungan bisnis, dan memulihkan operasi. Perencanaan yang tepat waktu untuk pemadaman awan menghindari membuang waktu dalam menilai tindakan terbaik selama waktu henti.
- Berinvestasi dalam SLA ketersediaan yang lebih tinggi: Jika tugas penting bisnis Anda tidak mampu mengatasi pemadaman cloud yang lama, cari Service Level Agreement (SLA) ketersediaan yang lebih tinggi, seperti yang menjamin waktu aktif 99,999% (maksimum waktu henti 5,25 menit per tahun). Kontrak ini lebih mahal, tetapi menjaga layanan Anda tetap online menjadi prioritas yang lebih besar bagi penyedia cloud.
- Lakukan pencadangan data secara teratur: Cadangan memastikan tim Anda memiliki cara untuk memulihkan versi file terbaru jika pemadaman awan merusak atau menghapus database. Idealnya, pencadangan harus dilakukan secara otomatis dan di mana saja antara sekali per jam hingga sekali per hari (bergantung pada kekritisan misi).
- Deteksi pemadaman secepatnya: Kemampuan pemantauan cloud tambahan apa pun yang disiapkan tim Anda membantu mengidentifikasi pemadaman secara real-time alih-alih menunggu pemberitahuan penyedia. Berikut daftar alat pemantauan cloud terbaik untuk meningkatkan deteksi waktu henti dan memastikan failover tepat waktu.
Penonaktifan Cloud Terbesar Baru-baru ini
Pemadaman cloud tidak dapat dihindari saat menggunakan cloud, dan bahkan penyedia paling populer (seperti Azure, AWS, dan Google Cloud) tidak kebal terhadap waktu henti. Mari kita lihat beberapa pemadaman cloud paling signifikan dalam sejarah baru-baru ini.
Azure Outage (Oktober 2021)
Pada Oktober 2021, Microsoft Azure mengalami gangguan yang menghentikan layanan mesin virtual selama enam jam . Selama pemadaman berlangsung, banyak pengguna tidak dapat menerapkan VM baru atau memperbarui ekstensi. Operasi manajemen layanan dasar (seperti memulai, membuat, dan menghapus) juga menyebabkan kesalahan.
Penyebab pemadaman cloud adalah ketidakmampuan kueri VM untuk mengambil data versi artefak yang diperlukan. Laporan pasca-pemulihan mengungkapkan bahwa kesalahan berbasis perangkat lunak terjadi saat Microsoft memigrasikan salah satu arsitektur VM-nya.
Google Cloud Outage (November 2021)
Google Cloud mati selama sekitar dua jam pada pertengahan November tahun lalu, memengaruhi hal-hal seperti:
- Rumah Depot.
- Snapchat.
- Etsy.
- Perselisihan.
- Spotify.
Situs web yang terkena dampak menampilkan 404 kesalahan saat pengunjung mencoba mengaksesnya. Google melaporkan bahwa penyebab pemadaman cloud adalah kesalahan dalam konfigurasi jaringan yang bertanggung jawab untuk penyeimbangan muatan.
AWS padam (Desember 2021)
Lonjakan aktivitas koneksi yang besar membuat perangkat jaringan kewalahan di salah satu fasilitas unggulan AWS, memengaruhi berbagai situs web dan aplikasi. Beberapa "korban" yang paling menonjol adalah:
- Situs web Amazon.
- Video Utama.
- Netflix.
- IMDb.
- Jaringan PlayStation.
Masalah pusat data menyebabkan latensi yang parah dalam jaringan AWS internal. Aplikasi pelanggan merasakan efek riak, mengalami penundaan lalu lintas atau penghentian total selama sekitar tujuh jam .
Dua Pemadaman IBM Selanjutnya (Januari 2022)
Masalah dengan infrastruktur IBM memengaruhi layanan cloud di wilayah Dallas selama lebih dari lima jam . Tim internal menyelesaikan masalah tetapi secara tidak sengaja menyebabkan masalah tambahan selama satu jam dengan cloud pribadi virtual. Masalah sekunder memengaruhi pengguna di seluruh dunia, termasuk AS, Jepang, Kanada, dan Jerman.
AWS/Slack Outage (Februari 2022)
Slack mengalami pemadaman sumber daya cloud AWS pada bulan Februari yang mencegah penggunaan normal platform komunikasi selama lima jam . Lebih dari 11.000 pengguna yang dilaporkan tidak dapat:
- Mengirim atau menerima pesan.
- Unggah file.
- Bergabung dengan saluran.
- Luncurkan aplikasi desktop.
Tim Slack tidak pernah membagikan alasan di balik pemadaman cloud dan meminta semua pengguna yang terpengaruh untuk memulai ulang aplikasi dan menghapus cache mereka setelah pemulihan.
iCloud Outage (Maret 2022)
Lima belas layanan utama Apple terhenti selama empat jam pada bulan Maret karena pemadaman awan, termasuk:
- App Store.
- Peta Apple.
- Apple TV.
Sistem korporat dan ritel Apple juga turun. Perusahaan kemudian mengungkapkan bahwa akar masalahnya adalah masalah yang terkait dengan sistem nama domain (DNS) perusahaan.
Google Cloud Outage (Maret 2022)
Pada 8 Maret 2022, pengguna Google Cloud mengalami error layanan selama dua setengah jam . Spotify dan Discord termasuk di antara yang terkena pemadaman.
Perubahan pada kode Direktur Lalu Lintas untuk memproses konfigurasi menyebabkan kesalahan. Menurut laporan pasca-pemulihan, perubahan kode yang buruk mengabaikan migrasi format data konfigurasi, sehingga platform secara tidak sengaja menghapus pemrograman pengguna.
Atlassian Outage (April 2022)
Pemadaman Atlassian terbesar tahun ini dimulai pada 5 April dan berakhir pada 18 April (meskipun beberapa pengguna mulai memulihkan layanan pada 8 April). Perusahaan menjelaskan bahwa pemadaman terjadi karena komunikasi tim yang tidak memadai dan rencana respons insiden yang tidak direncanakan dengan baik.
Meskipun pemadaman awan ini berlangsung hampir dua minggu untuk beberapa pengguna, tidak ada laporan kehilangan data klien yang signifikan. Namun, pengguna dari kedua produk unggulan Atlassian, Trello dan Jira, terpengaruh oleh masalah ini.
Penghentian Microsoft Azure (Juni 2022)
Pada tanggal 7 Juni, pelanggan Azure tidak dapat terhubung ke sumber daya yang dihosting di wilayah AS Timur 2 (terutama Virginia). Pemadaman berlangsung sekitar dua belas jam dan tidak mempengaruhi konsumen yang mengandalkan infrastruktur zona-redundan. Layanan yang dikompromikan termasuk:
- Wawasan Aplikasi.
- Analisis Log.
- Layanan Identitas Terkelola.
- Layanan Media.
- File NetApp.
Penyebabnya adalah osilasi listrik tiba-tiba di salah satu pusat data lokal, yang menyebabkan Unit Penanganan Udara (AHU) mati.
Penutupan Cloudflare (Juni 2022)
Pada bulan Juni, pemadaman yang tidak disengaja di Cloudflare menyebabkan gangguan besar yang berlangsung satu setengah jam , menghapus situs populer seperti:
- Perselisihan.
- Shopify.
- Fitbit.
- Peloton.
Vendor yang berbasis di San Francisco tersebut menjelaskan bahwa waktu henti yang tidak direncanakan tersebut diakibatkan oleh perubahan konfigurasi jaringan di 19 pusat datanya.
Jangan Mengabaikan Nilai dari Cloud Outage Planning
Contoh pemadaman cloud dalam beberapa tahun terakhir mengirimkan pesan yang jelas:meskipun cloud adalah pengubah permainan TI, teknologinya tidak mudah . Perusahaan yang peduli dengan pengguna akhir dan ketersediaan aplikasi harus siap menghadapi waktu henti sesekali, yang menjadikan pencadangan dan pemulihan bencana (BDR) sebagai bagian integral dari penggunaan sumber daya berbasis cloud.