فيسبوك تشرح السبب الأساسي وراء انقطاعها العالمي

بدأ الانقطاع الهائل الذي أطاح بمنصة Facebook والخدمات المرتبطة بها (WhatsApp و Instagram و Messenger و Oculus) ومنصة الشركة والشبكة الداخلية للشركة من خلال الصيانة الروتينية.

وفقًا لنائب رئيس البنية التحتية سانتوش جاناردان ، فإن أمر صيانة أغلق دون قصد العمود الفقري الذي يربط جميع مراكز بيانات الشركة في أي مكان في العالم.

قال جاناردان “سبب هذا الانقطاع هو النظام الذي يدير قدرة شبكتنا الأساسية العالمية”. العمود الفقري هو الشبكة التي أنشأتها الشركة لربط جميع مرافق الحوسبة لدينا معًا ، وتتألف من عشرات الآلاف من الأميال من كبلات الألياف الضوئية التي تعبر الكرة الأرضية وتربطها بجميع مراكز البيانات لدينا.

تأتي مراكز البيانات هذه في أشكال مختلفة. بعضها عبارة عن مبانٍ ضخمة بها ملايين من الأجهزة التي تخزن البيانات وتعزز أحمال الكمبيوتر الثقيلة التي تحافظ على تشغيل الأنظمة الأساسية ، والبعض الآخر عبارة عن منشآت أصغر تربط الشبكة الأساسية للشركة بشبكة الإنترنت الأوسع. والأشخاص الذين يستخدمون الأنظمة الأساسية.

عند فتح تطبيق شركة وتحميل موجزك أو رسائلك ، ينتقل طلب التطبيق للبيانات من جهازك إلى أقرب منشأة ، والتي تتواصل بعد ذلك مباشرة على العمود الفقري للشركة إلى مركز بيانات أكبر. هذا هو المكان الذي يتم فيه استرداد المعلومات التي يحتاجها التطبيق ومعالجتها وإرسالها عبر الشبكة على هاتفك.

تتم إدارة حركة البيانات بين جميع مرافق الحوسبة هذه بواسطة أجهزة التوجيه ، والتي تحدد مكان إرسال جميع البيانات الواردة والصادرة.

غالبًا ما يحتاج مهندسو Facebook إلى المشاركة في العمود الفقري غير المتصل بالإنترنت للحفاظ على هذه البنية التحتية. كان هذا هو مصدر الانقطاع.

خلال إحدى مهام الصيانة الروتينية هذه ، تم إصدار أمر لتقييم مدى توفر السعة الأساسية العالمية ، والتي تقلل دون قصد جميع الاتصالات في الشبكة الأساسية للشركة ، وتفصل مراكز البيانات.بيانات Facebook على مستوى العالم.

يشرح Facebook سبب الإغلاق العالمي

تم تصميم أنظمة الشركة للتحقق من هذه الطلبات لمنع مثل هذه الأخطاء. لكن خطأ في أداة التحقق هذه لم يسمح لها بإيقاف الأمر بشكل صحيح. تسبب هذا التغيير في انقطاع كامل لاتصالات الخادم بين مراكز البيانات والإنترنت. تسبب هذا الفقد الكامل في الاتصال في حدوث مشكلة ثانية مع DNS و BGP.

الوضع خطير ، ولكن السبب في عدم قدرتك على استخدام Facebook هو أن معلومات توجيه DNS و BGP التي تشير إلى خوادمها قد تحطمت فجأة.

وفقًا لـ Canardan ، كانت هذه المشكلة مشكلة ثانوية ، حيث لاحظت خوادم DNS الخاصة بالشركة فقدان الاتصال بالعمود الفقري. توقف عن الإعلان عن معلومات مسار BGP التي تساعد كل كمبيوتر على الإنترنت في العثور على خوادمه. كانت خوادم DNS لا تزال قيد التشغيل. لكن يتعذر الوصول إليها.

أدى نقص اتصالات الشبكة وفقدان DNS إلى قطع الخوادم عن المهندسين الذين يحاولون حل المشكلة. وفصل معظم الأدوات التي يستخدمونها عادةً للإصلاح والاتصال.

وتشير إلى أن المهندسين واجهوا عقبات إضافية بسبب الأمان المادي وأمن النظام حول هذه الأجهزة المهمة. بمجرد تنشيط بروتوكولات الوصول الآمن ، تمكنوا من استعادة العمود الفقري واستعادة الخدمات ببطء مع زيادة الأعباء تدريجياً.

هذا جزء من السبب الذي يجعل بعض الأشخاص يستغرقون وقتًا أطول للوصول إلى البيانات مرة أخرى. قد تتسبب متطلبات الطاقة والحوسبة لتشغيل كل شيء في وقت واحد في مزيد من الإخفاقات.