إبقاء الخدمات عاملة عند حدوث عطل
تجاوز الفشل هو آلية موثوقية تقوم بتحويل التشغيل تلقائيا أو يدويا من مكون أساسي متعطل إلى مكون احتياطي. يستخدم للحفاظ على توفر التطبيقات والشبكات والخوادم وقواعد البيانات وأنظمة الاتصال والخدمات السحابية والمنصات الصناعية عندما يتوقف العتاد أو البرمجيات أو الروابط أو الخدمات عن العمل.
ببساطة، يجيب تجاوز الفشل عن سؤال مهم: إذا فشل النظام الرئيسي، فما الذي سيتولى العمل؟ تساعد البنية المصممة جيدا على تقليل وقت التوقف، وحماية استمرارية الخدمة، وتسريع التعافي من الأعطال أو الأحمال الزائدة أو أعمال الصيانة أو الانقطاعات غير المتوقعة.
لا يمنع تجاوز الفشل كل الأعطال. قيمته أنه يوفر للنظام مسار تعاف جاهزا عند حدوث الفشل.
المعنى الأساسي والدور داخل النظام
يستخدم تجاوز الفشل عادة في تصميمات التوفر العالي. يتولى المورد الأساسي التشغيل الطبيعي، بينما تبقى موارد احتياطية واحدة أو أكثر جاهزة لتسلم الخدمة إذا أصبح المورد الأساسي غير متاح. قد يكون المورد الاحتياطي خادما آخر أو موجها أو عقدة قاعدة بيانات أو رابط شبكة أو مركز بيانات أو منطقة سحابية أو نظام تخزين أو نسخة تطبيق.
الهدف هو تقليل انقطاع الخدمة. وبدلا من انتظار الفنيين حتى يصلحوا المكون المعطل، يعيد النظام توجيه الحركة أو أعباء العمل أو الجلسات أو الطلبات إلى مورد آخر متاح.
الموارد الأساسية والاحتياطية
المورد الأساسي هو المكون النشط الذي يقدم الخدمة عادة. أما المورد الاحتياطي فهو جاهز للتسلم عندما يفشل المورد الأساسي. في بعض الأنظمة يبقى الاحتياطي خاملا حتى يتم تشغيل تجاوز الفشل، وفي أنظمة أخرى تشارك عدة موارد الحركة في الوقت نفسه.
على سبيل المثال، قد يعمل موقع ويب على خادمي تطبيقات. إذا فشل الخادم الأول، يمكن إرسال الحركة إلى الخادم الثاني. وقد يستخدم الموجه رابط WAN احتياطيا إذا انقطع الاتصال الرئيسي بالإنترنت. ويمكن لقاعدة البيانات ترقية نسخة متماثلة لتصبح العقدة الأساسية الجديدة عند فشل العقدة الأصلية.
اكتشاف الأعطال
يعتمد تجاوز الفشل على اكتشاف الأعطال. يجب أن يعرف النظام متى يكون المكون الأساسي غير سليم. يمكن أن يستخدم الاكتشاف إشارات نبض القلب، وفحوص الصحة، ومراقبة الروابط، ومجسات الخدمة، وحالة نسخ قاعدة البيانات، وفحص استجابة التطبيق، واختبارات قابلية الوصول عبر الشبكة.
يجب أن يكون الاكتشاف سريعا بما يكفي لتقليل التوقف، لكنه ليس حساسا إلى درجة تشغيل تحويل غير ضروري بسبب تأخير قصير أو فقدان مؤقت للحزم. هذا التوازن مهم في تصميم الشبكات والتطبيقات في الواقع العملي.

كيف تعمل عملية تجاوز الفشل
تتضمن عملية تجاوز الفشل عادة المراقبة، واكتشاف العطل، واتخاذ القرار، وتحويل الخدمة، وإعادة توجيه الحركة، والتحقق من التعافي، وتسجيل الأحداث. تختلف التفاصيل حسب نوع النظام، لكن المنطق الأساسي متشابه.
عندما تكتشف آلية المراقبة أن النظام الأساسي غير متاح أو غير سليم، يقوم متحكم تجاوز الفشل بتفعيل المسار الاحتياطي. قد يلاحظ المستخدمون انقطاعا قصيرا، لكن الخدمة يجب أن تستمر عبر المكون الاحتياطي.
المراقبة وفحوص الصحة
تستخدم فحوص الصحة لتأكيد أن الخدمة تعمل بشكل صحيح. قد يختبر الفحص البسيط ما إذا كان الخادم يرد على ping فقط. أما الفحص المتقدم فقد يتحقق من قدرة التطبيق على معالجة الطلبات والاتصال بقاعدة البيانات وإرجاع استجابات صحيحة.
تكون الفحوص على مستوى التطبيق عادة أكثر موثوقية من فحوص الشبكة البسيطة. فقد يستمر الخادم في الرد على ping بينما يكون التطبيق المتصل به متجمدا أو مثقلا أو غير قادر على الوصول إلى خدمات خلفية مطلوبة.
التحويل إلى الموارد الاحتياطية
بعد تأكيد العطل، يحول النظام التشغيل إلى المورد الاحتياطي. قد يشمل ذلك تغيير جداول التوجيه، أو تحديث سجلات DNS، أو نقل عنوان IP افتراضي، أو ترقية نسخة قاعدة بيانات، أو تفعيل خادم احتياطي، أو إعادة توجيه الحركة عبر موازن حمل.
يجب أن تتوافق طريقة التحويل مع متطلبات الأعمال. بعض الأنظمة يمكنها تحمل دقائق قليلة من الانقطاع، بينما قد تحتاج الأنظمة الحرجة إلى تحويل شبه فوري بأثر محدود على المستخدمين.
التحقق من الخدمة بعد التحويل
بعد تجاوز الفشل، يجب التحقق من الخدمة الاحتياطية. ينبغي أن يؤكد النظام أن المستخدمين يستطيعون الاتصال، وأن المعاملات يمكن أن تستمر، وأن البيانات متاحة، وأن الخدمات التابعة تعمل بشكل صحيح.
هذا التحقق مهم لأن تحويل الحركة إلى مكون احتياطي لا يضمن التشغيل الطبيعي تلقائيا. يجب أن يكون الاحتياطي متزامنا ومضبوطا بشكل صحيح وقادرا على تحمل عبء العمل.
الأنواع الرئيسية لتجاوز الفشل
يمكن تصميم تجاوز الفشل بطرق مختلفة حسب أهمية النظام والميزانية ومتطلبات الأداء وأهداف التعافي. تشمل النماذج الشائعة النشط-الخامل، والنشط-النشط، واليدوي، والتلقائي، والمحلي، والجغرافي.
تجاوز الفشل النشط-الخامل
في نموذج النشط-الخامل، يعالج نظام واحد حركة الإنتاج بنشاط بينما ينتظر نظام آخر في وضع الاستعداد. إذا فشل النظام النشط، يصبح النظام الخامل نشطا ويتولى الخدمة.
هذا النموذج بسيط نسبيا ويستخدم على نطاق واسع للخوادم والجدران النارية وقواعد البيانات وأنظمة PBX ووحدات التحكم في التخزين وبوابات الشبكة. ميزته الأساسية هي وضوح الأدوار، أما حدوده فهي أن موارد الاستعداد قد لا تستغل كثيرا أثناء التشغيل العادي.
تجاوز الفشل النشط-النشط
في نموذج النشط-النشط، تعالج أنظمة متعددة الحركة في الوقت نفسه. إذا فشل أحدها، تواصل الأنظمة المتبقية خدمة المستخدمين وتستوعب الحمل الإضافي.
يمكن أن يحسن هذا النموذج استخدام الموارد وقابلية التوسع، لكنه يتطلب تصميما دقيقا. تصبح موازنة الحمل، ومزامنة البيانات، وإدارة الجلسات، والتحكم في التعارض، وتخطيط السعة أكثر تعقيدا.
تجاوز الفشل اليدوي والتلقائي
يتطلب تجاوز الفشل اليدوي أن يقوم مشغل أو مسؤول بتشغيل التحويل. يوفر ذلك تحكما بشريا وقد يكون مناسبا أثناء الصيانة أو الهجرة المخطط لها أو التغييرات الحساسة في النظام.
أما تجاوز الفشل التلقائي فيتم تشغيله بواسطة قواعد النظام. هو أسرع وأنسب لبيئات التوفر العالي، لكنه يحتاج إلى إعداد دقيق لتجنب التحويل الخاطئ، أو حالة split-brain، أو التحويل المتكرر بين العقد.
تجاوز الفشل المحلي والجغرافي
يحدث تجاوز الفشل المحلي داخل الموقع نفسه أو الرف أو مركز البيانات أو منطقة الشبكة نفسها. وهو يحمي من فشل الخادم أو الرابط أو وحدة الطاقة أو الجهاز في نطاق محلي.
أما تجاوز الفشل الجغرافي فيحول الخدمة إلى مركز بيانات آخر أو منطقة سحابية أخرى أو موقع بعيد. وهو يحمي من الأعطال الأكبر مثل توقف مركز البيانات أو اضطراب شبكة إقليمي أو فقدان الطاقة أو الحريق أو الفيضان أو حادث بنية تحتية كبير.
الخصائص المهمة للتصميم الموثوق
لا ينبغي أن يكتفي نظام تجاوز الفشل الجيد بالتحويل السريع. يجب أن يحول بأمان واتساق وبطريقة يمكن توقعها. تشمل الخصائص المهمة المراقبة، والتكرار، والمزامنة، والتحكم في الحركة، والتسجيل، وتخطيط التعافي.
مكونات مكررة
يعني التكرار وجود مكونات احتياطية قبل حدوث العطل. قد تشمل هذه المكونات الخوادم ومزودات الطاقة وروابط الشبكة والموجهات والمبدلات ومسارات التخزين وقواعد البيانات ونسخ التطبيقات والمناطق السحابية.
يجب أن يكون التكرار ذا معنى. فخادم احتياطي متصل بمصدر الطاقة المعطل نفسه أو بمبدل واحد قد لا يوفر مرونة حقيقية. ينبغي تجنب نقاط الفشل الفردية المخفية.
نبض القلب ومراقبة الحالة
تساعد إشارات نبض القلب الأنظمة على التحقق من أن العقدة الأساسية ما زالت حية. إذا توقفت العقدة الاحتياطية عن استقبال رسائل النبض خلال مدة محددة، فقد تفترض أن العقدة الأساسية قد فشلت.
يجب أن يراعي تصميم نبض القلب تأخير الشبكة وفقدان الحزم وموثوقية رابط الإدارة. يمكن أن يؤدي الإعداد الضعيف إلى مشكلة split-brain، حيث تعتقد عقدتان أن كلتيهما يجب أن تكون نشطة.
مزامنة البيانات
تتطلب كثير من أنظمة تجاوز الفشل مزامنة البيانات بين العقد الأساسية والاحتياطية. قد يشمل ذلك نسخ قواعد البيانات، ومزامنة الملفات، ونسخ التخزين، ونسخ الإعدادات، أو مشاركة الحالة.
تؤثر المزامنة في جودة التعافي. إذا كان الاحتياطي يحتوي على بيانات قديمة، فقد تعود الخدمة لكن تضيع معاملات حديثة. وإذا كانت المزامنة بطيئة جدا، فقد لا تتحقق أهداف نقطة التعافي.
إعادة توجيه الحركة تلقائيا
تتيح إعادة توجيه الحركة للمستخدمين أو الأنظمة الوصول إلى الخدمة الاحتياطية بعد تجاوز الفشل. يمكن تنفيذ ذلك عبر موازنات الحمل، أو عناوين IP الافتراضية، أو بروتوكولات التوجيه، أو DNS failover، أو سياسات SD-WAN، أو بوابات التطبيقات.
يجب أن تتوافق طريقة إعادة التوجيه مع زمن التعافي المتوقع. قد يكون تجاوز الفشل المعتمد على DNS بسيطا، لكنه أبطأ بسبب التخزين المؤقت. ويمكن أن يكون موازن الحمل أو عنوان IP الافتراضي أسرع في بيئات التوفر العالي المحلية.

أنماط بنية الشبكة
يمكن تطبيق بنية تجاوز الفشل على طبقات مختلفة من الشبكة ومكدس النظام. يمكنها حماية الروابط المادية، ومسارات التوجيه، وعناقيد الخوادم، وقواعد البيانات، والمناطق السحابية، وخدمات التطبيقات.
تجاوز الفشل على مستوى الخادم
يستخدم تجاوز الفشل على مستوى الخادم خادمين أو أكثر لتقديم الخدمة نفسها. إذا فشل أحد الخوادم، يتولى خادم آخر العمل. هذا شائع في خوادم التطبيقات وخوادم الويب وخوادم الملفات وخوادم الاتصال ومنصات الإدارة.
قد يستخدم هذا النوع برامج العناقيد، أو منصات المحاكاة الافتراضية، أو موازنات الحمل، أو تنسيق الحاويات، أو خدمات التوفر العالي. اتساق الإعدادات بين الخوادم أمر أساسي.
تجاوز فشل رابط الشبكة
يستخدم تجاوز فشل رابط الشبكة مسارات احتياطية عندما يفشل الاتصال الرئيسي. تشمل الأمثلة WAN مزدوجا، وروابط ألياف احتياطية، ونسخ LTE أو 5G احتياطية، واتصالات ISP مكررة، وتحويل روابط SD-WAN.
هذا مهم للفروع والمواقع البعيدة وسلاسل التجزئة والمنشآت الصناعية والأنظمة المتصلة بالسحابة. إذا فشل الرابط الرئيسي، يحافظ الرابط الاحتياطي على الاتصال، مع احتمال تغير النطاق الترددي أو زمن التأخير.
تجاوز فشل الموجه والجدار الناري
تدعم الموجهات والجدران النارية غالبا أزواجا عالية التوفر. قد يكون جهاز نشطا وآخر احتياطيا، أو قد يتشاركان الحمل حسب التصميم. يستخدم عادة عنوان بوابة افتراضية حتى لا يحتاج العملاء إلى معرفة الجهاز المادي النشط.
ينبغي لتجاوز فشل الجدار الناري مزامنة حالة الجلسات قدر الإمكان. من دون مزامنة الجلسات، قد تنقطع الاتصالات القائمة أثناء التحويل حتى إذا استمرت الاتصالات الجديدة بشكل طبيعي.
تجاوز فشل قاعدة البيانات
يحمي تجاوز فشل قاعدة البيانات خدمات البيانات عبر التحويل من قاعدة أساسية معطلة إلى نسخة متماثلة أو قاعدة احتياطية. يستخدم في تطبيقات المؤسسات، ومنصات التجارة الإلكترونية، والأنظمة المالية، والخدمات السحابية، والمنصات التشغيلية الحرجة.
يتطلب ذلك تعاملا دقيقا مع تأخر النسخ، واتساق المعاملات، وتعارضات الكتابة، وإعادة اتصال التطبيقات. التصميم الضعيف قد يؤدي إلى فقدان البيانات أو أخطاء في التطبيق.
تجاوز الفشل السحابي ومتعدد المناطق
يمكن لتجاوز الفشل السحابي تحويل الخدمات بين المناطق أو النطاقات أو مزودي السحابة. يحمي ذلك من فشل البنية المحلية ويدعم استراتيجيات التعافي من الكوارث.
قد يحتاج تجاوز الفشل متعدد المناطق إلى إدارة حركة عالمية، وقواعد بيانات منسوخة، ومزامنة تخزين الكائنات، وتوفر خدمة الهوية، وإجراءات تعاف مختبرة. يجب أن يتوافق التصميم مع أهداف وقت التعافي ونقطة التعافي.
مقاييس تجاوز الفشل وأهداف التخطيط
غالبا ما يسترشد تخطيط تجاوز الفشل بمقاييس التوفر والتعافي. تساعد هذه المقاييس المؤسسات على تحديد مقدار التكرار المطلوب ومقدار التوقف أو فقدان البيانات المقبول.
| المقياس | المعنى | سبب الأهمية |
|---|---|---|
| RTO | هدف وقت التعافي | أقصى وقت مقبول لاستعادة الخدمة بعد العطل |
| RPO | هدف نقطة التعافي | أقصى مقدار مقبول من فقدان البيانات محسوب بالزمن |
| MTTR | متوسط وقت الإصلاح | متوسط الوقت المطلوب لاستعادة مكون فاشل |
| MTBF | متوسط الوقت بين الأعطال | متوسط مدة التشغيل بين الأعطال |
| التوفر | النسبة المئوية للوقت الذي تكون فيه الخدمة عاملة | يوضح أداء وقت التشغيل العام للخدمة |
هدف وقت التعافي
يحدد هدف وقت التعافي مدى السرعة المطلوبة لاستعادة الخدمة بعد العطل. قد تتحمل أداة تقارير داخلية غير حرجة ساعات من التوقف، بينما قد يحتاج نظام دفع أو منصة طوارئ أو نظام تحكم إنتاج إلى التعافي خلال ثوان أو دقائق.
يتطلب RTO الأقل عادة استثمارا أكبر في الأتمتة والتكرار والمراقبة والبنية التحتية. يجب أن يتوافق التصميم مع أثر العمل، لا أن يفترض أن كل نظام يحتاج إلى مستوى الحماية نفسه.
هدف نقطة التعافي
يحدد هدف نقطة التعافي مقدار فقدان البيانات المقبول. إذا كانت المؤسسة لا تقبل إلا ثواني قليلة من فقدان البيانات، فقد تحتاج إلى نسخ شبه فوري. وإذا كانت تقبل عدة ساعات، فقد يكون النسخ الاحتياطي المجدول كافيا.
RPO مهم خصوصا لقواعد البيانات وأنظمة الملفات ومنصات المعاملات وسجلات العملاء وسجلات التشغيل. قد يعيد تجاوز الفشل الخدمة من دون تخطيط البيانات، لكنه قد يسبب خسارة أعمال غير مقبولة.
الفوائد للأعمال والتشغيل
يقدم تجاوز الفشل قيمة لأن وقت التوقف يؤثر في الإيرادات والسلامة والإنتاجية وثقة العملاء واستمرارية التشغيل. تساعد الاستراتيجية الجيدة المؤسسات على الحفاظ على الخدمة أثناء الأعطال غير المتوقعة والصيانة المخطط لها.
توفر أعلى للخدمة
الفائدة الرئيسية هي تحسين التوفر. عندما يفشل مكون أساسي، يواصل المكون الاحتياطي تقديم الخدمة. يقلل ذلك التوقف ويساعد المستخدمين على متابعة العمل.
التوفر العالي مهم للخدمات عبر الإنترنت، وأنظمة الاتصال، ومنصات الرعاية الصحية، وشبكات النقل، والأتمتة الصناعية، والأنظمة المالية، والتطبيقات العامة.
تقليل المخاطر التشغيلية
يقلل تجاوز الفشل خطر توقف النظام كله بسبب فشل مكون واحد. وهذا مهم خاصة للأنظمة التي تحتوي على نقطة فشل فردية مثل رابط إنترنت واحد أو خادم واحد أو قاعدة بيانات واحدة أو بوابة واحدة.
عبر إضافة مسارات احتياطية ومنطق تعاف تلقائي، يمكن للمؤسسات تقليل أثر أعطال العتاد وانقطاعات الشبكة وانهيار البرمجيات وفترات الصيانة.
مرونة أفضل في الصيانة
يمكن أن يدعم تجاوز الفشل الصيانة المخطط لها. يستطيع المسؤولون نقل الخدمة من عقدة إلى أخرى، وتحديث النظام الأساسي، واختبار التغييرات، ثم العودة بعد اكتمال العمل.
يقلل ذلك الحاجة إلى نوافذ صيانة طويلة. كما يجعل الترقيات أكثر أمانا لأن الخدمة يمكن أن تبقى متاحة عبر الموارد الاحتياطية.
ثقة أعلى لدى المستخدمين
قد لا يرى المستخدمون عملية تجاوز الفشل مباشرة، لكنهم يلاحظون بقاء الخدمات متاحة. الأنظمة الموثوقة تعزز ثقة العملاء وإنتاجية الموظفين والثقة في البنية الرقمية.
في منصات الاتصال الحرجة والمنصات الصناعية ومنصات الأعمال، لا يكون التوفر مجرد مقياس تقني، بل جزءا من تجربة الخدمة.
التطبيقات عبر أنظمة مختلفة
يستخدم تجاوز الفشل في كل مكان تكون فيه الاستمرارية مهمة. يعتمد التصميم الدقيق على نوع النظام، لكن الهدف واحد: منع انقطاع الخدمة عند حدوث عطل.
شبكات المؤسسات
تستخدم شبكات المؤسسات تجاوز الفشل لروابط الإنترنت والجدران النارية والموجهات والمبدلات وأنفاق VPN ووحدات التحكم اللاسلكية واتصال الفروع. إذا فشل مسار، يمكن نقل الحركة إلى مسار آخر.
في المؤسسات متعددة الفروع، يساعد تجاوز الفشل المكاتب البعيدة على البقاء متصلة بالخدمات السحابية ومراكز البيانات وأنظمة الاتصال وتطبيقات الأعمال.
مراكز البيانات والمنصات السحابية
تستخدم مراكز البيانات تجاوز الفشل للخوادم والتخزين وقواعد البيانات وعناقيد المحاكاة الافتراضية وأنظمة الطاقة والتبريد وأنسجة الشبكة. وتستخدم المنصات السحابية مناطق التوفر، وتجاوز الفشل الإقليمي، وموازنات الحمل، ومجموعات التوسع التلقائي، ونسخ قواعد البيانات المدارة.
تساعد هذه التصميمات التطبيقات على تحمل فشل العتاد أو المضيف أو الرف أو حتى اضطراب الخدمة الإقليمي عند التخطيط الصحيح.
أنظمة VoIP والاتصال
يمكن لأنظمة VoIP وSIP استخدام تجاوز الفشل لخوادم SIP ومنصات PBX والبوابات وSBCs وSIP trunks وسجلات DNS SRV وخوادم الوسائط وروابط الشبكة. إذا فشل خادم أو trunk، يمكن توجيه المكالمات عبر مسار احتياطي.
هذا مهم لاتصالات الأعمال لأن فشل خدمات الصوت قد يؤثر في التواصل مع العملاء والتنسيق الداخلي ومكالمات الطوارئ وعمليات الخدمة.
التقنية الصناعية والتشغيلية
قد تستخدم البيئات الصناعية تجاوز الفشل لخوادم SCADA وشبكات التحكم ومنصات المراقبة ومحطات HMI والمؤرخات والبوابات الصناعية وروابط الاتصال. الهدف هو الحفاظ على توفر الإنتاج والمراقبة والعمليات المرتبطة بالسلامة.
يجب أن يراعي تصميم تجاوز الفشل الصناعي الاتصال الحتمي وتوافق الأجهزة والظروف البيئية وإجراءات التشغيل الآمنة. يجب ألا يسبب التحويل التلقائي سلوكا غير آمن للآلات.
تطبيقات الويب والخدمات عبر الإنترنت
تستخدم تطبيقات الويب تجاوز الفشل عبر موازنات الحمل، وخوادم التطبيقات المنسوخة، ونسخ قواعد البيانات، وخدمات CDN، وDNS failover، والنشر متعدد المناطق. تساعد هذه الطرق المواقع وواجهات API على البقاء متاحة أثناء فشل الخادم أو الشبكة.
في التجارة الإلكترونية والبنوك وSaaS والبث وبوابات العملاء، يمكن لتجاوز الفشل حماية الإيرادات وتجربة المستخدم أثناء الانقطاعات غير المتوقعة.

التحديات والمخاطر الشائعة
يحسن تجاوز الفشل المرونة، لكن التصميم الضعيف قد ينشئ مشكلات جديدة. يجب اختبار النظام الاحتياطي وتحديثه ومزامنته وتحديد سعته بشكل صحيح. وإلا فقد يفشل تجاوز الفشل عند الحاجة إليه أكثر من أي وقت.
تجاوز الفشل الخاطئ
يحدث تجاوز الفشل الخاطئ عندما يتحول النظام إلى الاحتياطي رغم أن الخدمة الأساسية لم تفشل فعليا. قد يحدث ذلك بسبب فقدان مؤقت للحزم أو استجابة بطيئة أو مراقبة مثقلة أو عتبات شديدة الحساسية.
قد يسبب تجاوز الفشل الخاطئ انقطاعا غير ضروري للمستخدمين. ينبغي تصميم فحوص الصحة لتأكيد فشل الخدمة الحقيقي قبل التحويل.
حالة split-brain
تحدث حالة split-brain عندما تعتقد عقدتان أن كلا منهما هي العقدة الأساسية النشطة. قد يحدث ذلك عند فشل اتصال نبض القلب مع استمرار النظامين في العمل.
هذه الحالة خطيرة في قواعد البيانات وأنظمة التخزين والعناقيد لأنها قد تسبب تلف البيانات أو تعارضات كتابة. تساعد آليات quorum وfencing وتصميم العناقيد الصحيح على تقليل هذا الخطر.
مشكلات سعة الاحتياطي
يجب أن يكون لدى المورد الاحتياطي سعة كافية للتعامل مع عبء العمل بعد تجاوز الفشل. إذا كان الاحتياطي صغيرا جدا، فقد تبقى الخدمة متاحة من الناحية التقنية لكنها تعمل بأداء ضعيف.
يجب أن يراعي تخطيط السعة حمل الذروة والنمو والتشغيل في وضع متدهور واحتمال حدوث عدة أعطال في الوقت نفسه.
خطط تعاف غير مختبرة
تصميم تجاوز الفشل الذي لم يتم اختباره ليس موثوقا. قد تمنع انحرافات الإعداد، أو الشهادات المنتهية، أو النسخ الاحتياطية القديمة، أو تغييرات الجدار الناري، أو تخزين DNS المؤقت، أو نقص التراخيص، أو إصدارات البرمجيات القديمة التعافي الناجح.
تعتبر تدريبات تجاوز الفشل المنتظمة ضرورية. يجب أن تشمل الاختبارات، قدر الإمكان، التحويل المخطط وسيناريوهات الفشل غير المخطط.
أفضل الممارسات للنشر الموثوق
يجب تصميم تجاوز الفشل كجزء من استراتيجية أوسع للتوفر العالي والتعافي من الكوارث. ينبغي أن يشمل تخطيط البنية، والمراقبة، والتوثيق، والاختبار، والتحسين المستمر.
تحديد الخدمات الحرجة أولا
لا تحتاج كل الأنظمة إلى المستوى نفسه من تجاوز الفشل. يجب أن تحدد المؤسسة الخدمات الحرجة، وكيف يؤثر التوقف في العمليات، وما أهداف التعافي المطلوبة.
يساعد ذلك على ترتيب أولويات الاستثمار. قد تحتاج الأنظمة الحرجة إلى تجاوز فشل تلقائي وتكرار جغرافي، بينما قد تحتاج الأنظمة الأقل أهمية إلى نسخ احتياطي وتعاف يدوي فقط.
إزالة نقاط الفشل الفردية المخفية
قد تضعف التبعيات المخفية تجاوز الفشل. فقد يعتمد الخادم الاحتياطي على التخزين نفسه أو مزود الطاقة نفسه أو مبدل الشبكة نفسه أو خدمة DNS نفسها أو نظام المصادقة نفسه مثل الخادم الأساسي.
يجب أن تكشف مراجعة البنية هذه التبعيات. تتطلب المرونة الحقيقية تكرارا عبر مسار الخدمة الكامل، لا في طبقة التطبيق الظاهرة فقط.
الحفاظ على تزامن الإعدادات
يجب أن تستخدم الأنظمة الأساسية والاحتياطية إعدادات متسقة. قد تؤدي الاختلافات في إصدار البرمجيات أو قواعد الجدار الناري أو الشهادات أو سياسات التوجيه أو بيانات المستخدمين أو إعدادات التطبيق إلى فشل تجاوز الفشل.
تساعد أدوات إدارة الإعدادات والقوالب والنسخ الاحتياطية والتحكم في التغيير على إبقاء الأنظمة متوافقة. بعد أي تغيير كبير، يجب إعادة فحص جاهزية تجاوز الفشل.
اختبار تجاوز الفشل بانتظام
تؤكد الاختبارات المنتظمة أن تجاوز الفشل يعمل في الظروف الواقعية. ينبغي أن تتحقق من زمن الاكتشاف، وزمن التحويل، واتساق البيانات، وسلوك التطبيق، ووصول المستخدمين، والتسجيل، وإجراءات العودة.
يجب توثيق الاختبارات. ينبغي أن يسجل كل اختبار ما تم اختباره، وما حدث، وما فشل، وما التحسينات المطلوبة.
العودة والتعافي بعد تجاوز الفشل
تجاوز الفشل جزء واحد فقط من عملية التعافي. بعد إصلاح النظام الأساسي، يجب أن تقرر المؤسسة ما إذا كانت ستعيد الخدمة إليه وكيف سيتم ذلك. تسمى هذه العملية العودة أو failback.
متى تتم العودة
يجب ألا تتم العودة بسرعة كبيرة. ينبغي أن يكون النظام الأساسي الأصلي قد أصلح واختبر وزامن وتم التحقق منه بالكامل قبل إعادة الحركة إليه. إذا تمت العودة على عجل، فقد يفشل النظام مرة أخرى ويسبب انقطاعا جديدا.
تختار بعض المؤسسات إبقاء النظام الاحتياطي نشطا حتى نافذة الصيانة التالية. يسمح ذلك بعودة مضبوطة بدلا من تحويل فوري.
مزامنة البيانات والحالة
قبل العودة، يجب مزامنة البيانات التي أنشئت أثناء تشغيل الاحتياطي إلى النظام الأساسي الأصلي. وهذا مهم خصوصا لقواعد البيانات والملفات والمعاملات وجلسات المستخدمين وتغييرات الإعدادات.
من دون مزامنة صحيحة، قد تسبب العودة فقدان بيانات أو سجلات قديمة أو سلوك خدمة غير متسق.
المراجعة بعد الحادث
بعد حدث تجاوز الفشل، يجب أن تراجع الفرق ما حدث. ينبغي أن تشمل المراجعة سبب الفشل، وزمن الاكتشاف، ونتيجة التحويل، وأثر المستخدمين، وأداء الاحتياطي، وعملية الاتصال، وإجراءات التحسين.
يحول ذلك تجاوز الفشل من حدث تعاف لمرة واحدة إلى عملية مستمرة لتحسين الموثوقية.
FAQ
ما هو تجاوز الفشل؟
تجاوز الفشل هو آلية موثوقية تحول الخدمات أو الحركة أو أعباء العمل أو العمليات من مكون أساسي فاشل إلى مكون احتياطي. يستخدم لتقليل وقت التوقف والحفاظ على استمرارية الخدمة.
ما الفرق بين تجاوز الفشل والنسخ الاحتياطي؟
يحفظ النسخ الاحتياطي البيانات أو الإعدادات من أجل الاستعادة. أما تجاوز الفشل فيحول الخدمة النشطة إلى مورد آخر عند حدوث عطل. يساعد النسخ الاحتياطي على استعادة المعلومات، بينما يساعد تجاوز الفشل على استمرار الخدمة.
ما هو تجاوز الفشل النشط-الخامل؟
يستخدم تجاوز الفشل النشط-الخامل نظاما نشطا ونظاما احتياطيا. لا يتولى النظام الاحتياطي الخدمة إلا عندما يفشل النظام النشط أو يخرج من الخدمة للصيانة.
ما هو تجاوز الفشل النشط-النشط؟
يستخدم تجاوز الفشل النشط-النشط عدة أنظمة تعالج الحركة في الوقت نفسه. إذا فشل أحدها، تواصل الأنظمة الأخرى خدمة المستخدمين وتتولى عبء العمل الإضافي.
أين يستخدم تجاوز الفشل عادة؟
يستخدم تجاوز الفشل عادة في شبكات المؤسسات، والمنصات السحابية، ومراكز البيانات، وقواعد البيانات، وتطبيقات الويب، وأنظمة VoIP، والجدران النارية، والموجهات، وأنظمة التخزين، ومنصات التحكم الصناعية.
كيف يمكن اختبار تجاوز الفشل؟
يمكن اختباره عبر محاكاة فشل النظام الأساسي، وفصل مسارات الشبكة بطريقة مضبوطة، وإيقاف عقد الاختبار، وتشغيل تجاوز فشل للصيانة، وفحص تحويل الخدمة، والتحقق من اتساق البيانات، ومراجعة السجلات بعد التعافي.