Atlassian menyalahkan pemadaman pada miskomunikasi dan “skrip yang salah” – Cloud – Perangkat Lunak
Technology

Atlassian menyalahkan pemadaman pada miskomunikasi dan “skrip yang salah” – Cloud – Perangkat Lunak

Atlassian menyalahkan pemadaman pada miskomunikasi dan "skrip yang salah"


CTO Atlassian, Sri Viswanath

Atlassian

Atlassian sejauh ini telah menghubungkan penghentian layanan selama delapan hari untuk sekitar 400 pelanggan dengan “celah komunikasi” antara tim teknik dan skrip “rusak” yang menghapus data pelanggan secara permanen.

Sekarang perusahaan sedang mengalami kemajuan dalam memulihkan situs pelanggan yang dihapus dari cadangan, ia telah menerbitkan artikel yang lebih rinci yang dijanjikan sebelumnya hari ini.

Benih dari pemadaman dijahit ketika Atlassian melipat produk mandiri, Insight – Manajemen Aset – ke dalam Perangkat Lunak Jira dan Manajemen Layanan Jira sebagai fungsionalitas asli.

“Karena itu, kami perlu menonaktifkan aplikasi warisan mandiri di situs pelanggan yang telah menginstalnya”, tulis CTO Sri Viswanath.

Dia mengatakan tim teknik memutuskan untuk menggunakan skrip yang ada untuk “menonaktifkan instance aplikasi mandiri ini”.

Itu ternyata menjadi bencana.

Sebuah miskomunikasi antara dua tim teknik – satu meminta penonaktifan instance, yang lain mengeksekusinya – berarti bahwa alih-alih menjalankan skrip terhadap “ID aplikasi yang dimaksud ditandai untuk penonaktifan”, skrip dijalankan dengan “ID dari seluruh situs cloud tempat aplikasi akan dinonaktifkan”.

Kesalahan lainnya: skrip dapat diminta untuk menandai situs untuk dihapus (yang menyediakan pemulihan), atau untuk “dihapus secara permanen”.

“Skrip dieksekusi dengan mode eksekusi yang salah dan daftar ID yang salah. Hasilnya adalah situs untuk sekitar 400 pelanggan dihapus secara tidak benar, ”tulis Viswanath.

Alasan di balik pemadaman yang diperpanjang

Mengingat sifat bisnisnya, Atlassian membuat situs-situs tersebut dicadangkan dan dapat dipulihkan.

Itu adalah sesuatu yang terjadi ketika pelanggan individu secara tidak sengaja menghapus lingkungan mereka sendiri, dan jika terjadi kegagalan besar, cadangan dapat memulihkan semua pelanggan ke lingkungan baru.

Namun, penghapusan 400 situs pelanggan memberi Atlassian skenario baru.

“Apa yang belum (belum) kami otomatisasi adalah memulihkan sebagian besar pelanggan ke lingkungan kami yang ada (dan saat ini digunakan) tanpa memengaruhi pelanggan kami yang lain,” Viswanath menjelaskan.

“Karena data yang dihapus dalam insiden ini hanya sebagian dari penyimpanan data yang terus digunakan oleh pelanggan lain, kami harus mengekstrak dan memulihkan bagian individual dari cadangan kami secara manual.

“Setiap pemulihan situs pelanggan adalah proses yang panjang dan kompleks, memerlukan validasi internal dan verifikasi pelanggan akhir saat situs dipulihkan.”

Saat ini, tulis Viswanath, pelanggan dipulihkan dalam kelompok 60, dengan waktu pemulihan ujung-ke-ujung empat hingga lima hari untuk setiap pelanggan.

Ini mempercepat: “Tim kami sekarang telah mengembangkan kemampuan untuk menjalankan beberapa batch secara paralel, yang telah membantu mengurangi waktu pemulihan kami secara keseluruhan”, posting tersebut menyatakan.

Posted By : pengeluaran hk hari ini 2021