תוכנית המשכיות עסקית (BCP)
מדובר במסמך או אוסף נהלים המפרטים כיצד החברה תמשיך לפעול במקרה של הפרעה משמעותית. ההפרעה יכולה להיות פיזית (למשל שריפה במטה החברה, רעידת אדמה, הצפה), טכנולוגית (קריסת מערכות, מתקפת סייבר שמשביתה שרתים), או כל אירוע חיצוני (מגפה, מלחמה, ספק קריטי שהפסיק פעילות). תוכנית BCP טובה מתחילה בזיהוי התהליכים העסקיים הקריטיים ביותר – אותן פעילויות שחייבות להימשך כדי שהחברה תשרוד. עבור חברת תוכנה כשירות (SaaS), מערכת הייצור והתמיכה בלקוחות הן קריטיות. עבור חברת חומרה – קו הייצור והלוגיסטיקה של משלוח המוצר ללקוח.
לאחר זיהוי תהליכים חיוניים, מגדירים פתרונות גיבוי לכל תהליך במקרה חירום:
- גיבוי מיקום: מה קורה אם משרד או מתקן מסוים מושבת? (למשל, עבודה מרחוק, אתר חלופי, מרכז נתונים גיבוי).
- גיבוי טכנולוגי: איך נשמרת זמינות המערכות? (למשל, שרתים מגובים באתר גיבוי גיאוגרפי, מערכי התאוששות מאסון – Disaster Recovery Site, ושמירה על עותקי גיבוי של קוד ומסדי נתונים מעודכנים מחוץ לאתר).
- גיבוי כוח אדם: מי יתפקד אם אנשי מפתח אינם זמינים? (למשל, יצירת חפיפה בין צוותים, תיעוד ידע כדי שאחרים יוכלו למלא תפקיד מפתח במקרה חירום).
- משאבים חלופיים: אם ספק חיצוני קריטי נופל, האם יש ספק חלופי או דרך לעקוף זמנית את השירות שלו? למשל, אם ספק שירותי ענן עיקרי נופל, האם ניתן להעביר את התשתית לספק אחר במהירות? אם שליחויות החברה מושבתות, האם יש חברת שליחויות גיבוי?
נהלים ותסריטים
תוכנית ההמשכיות כוללת נהלים ותסריטים: מה עושה כל מחלקה בשעת חירום, איך מתקשרים, מי מוסמך לקבל החלטות דחופות (למשל ניתוק מיידי של מערכת נגועה), ואיך חוזרים למצב תקין. חשוב לפרט זמני יעד (RTO/RPO): תוך כמה זמן חייבים לשקם כל שירות כדי למנוע נזק בלתי הפיך, וכמה נתונים אנו מוכנים לאבד מקסימום (לדוגמה RTO – Recovery Time Objective של שרת הייצור הוא 4 שעות, RPO – Recovery Point Objective של מסד הנתונים הוא 30 דקות, כלומר במקרה אסון נסכים לאבד עד 30 דקות של נתונים שלא גובו).
צוות חירום וניהול אירוע
עוד לפני שמשבר קורה, יש למנות צוות ניהול משברים (Incident Response Team) ייעודי, שיכול לכלול מנהלי תפעול, אנשי IT ואבטחה, נציגי הנהלה בכירה, איש יחסי ציבור/תקשורת, ויועץ משפטי. הצוות צריך להיות מתורגל לעבוד יחד בעת אירוע. בעת משבר, קיים צורך קריטי בקבלת החלטות מהירות ולכן חשוב שהסמכויות יהיו ברורות: מי ראש צוות החירום, מי מוסמך לאשר פעולות חריגות (למשל השקעת כסף מיידית באמצעים חלופיים, או השבתת שירותים מסוימים כדי להגן על ליבת המערכת).
אחת המשימות המרכזיות בעת אירוע היא תקשורת – הן פנימית והן חיצונית:
- תקשורת פנימית: כל העובדים צריכים לדעת מה קורה ומה מצופה מהם. לדוגמה, אם כל רשת החברה נפלה עקב מתקפת כופרה, ייתכן שמורים לעובדים לנתק את המחשבים ולהמתין להנחיות. תקשורת פנימית ברורה תמנע פאניקה ושמועות, ותבטיח שכולם פועלים בתיאום.
- תקשורת חיצונית: צריך לנהל בזהירות תקשורת ללקוחות, שותפים, ספקים, רגולטורים ואמצעי התקשורת. במצבי משבר אמון הלקוחות עלול להתערער – לכן כנות, שקיפות יחסית ומהירות הם המפתח. עדיף שלקוח ישמע ישירות מהחברה על התקלה ומה נעשה לתקן, מאשר שיגלה על כך ממקור שני. כדאי להכין הודעות מתוכננות מראש (Template) למצבי חירום שונים: הודעה על דליפת מידע, מכתב ללקוחות במקרה שהשירות למטה, וכד’. צוות החירום כולל לעיתים דובר או מנהל תקשורת שתפקידו לוודא שהמסרים עקביים ומרגיעים ככל האפשר, בלי להטעות. כמו כן, בתחומים מוסדרים, רגולטורים מצפים לעדכון מהיר על אירועים (למשל, תחת GDPR צריך לדווח על דליפת מידע אישית תוך 72 שעות). עמידה בדרישות אלו צריכה להיכלל בתוכנית התגובה.
סימולציות ותירגולים
תוכנית על הנייר טובה רק כמו היכולת ליישם אותה. לכן, עריכת תרגילי סימולציה תקופתיים היא חשובה ביותר. כדאי לדמות תרחישים שונים: מתקפת סייבר נרחבת, קריסת שירות ענן, עובד בכיר שנפצע או עוזב במפתיע, או אפילו אירוע פיזי כמו שריפה. בתרגיל מערבים את צוות החירום וגורמים רלוונטיים אחרים, כמו משחק מלחמה (War Game). במהלך התרגול עולים לרוב פערים בתוכנית – אולי מגלים שלספק הגיבוי לוקח יותר מדי זמן להיכנס לפעולה, או שאנשים לא היו בטוחים מי אחראי על מה. התובנות מהתרגיל מאפשרות לעדכן את תוכנית ההמשכיות ולשפרה. כאשר יתרחש אירוע אמיתי, ארגון שתרגל יהיה זריז ומלוכד יותר בניהול המשבר.
ניהול אחרי המשבר (Lessons Learned)
לבסוף, לאחר שיוצאים מאירוע חירום, חשוב לקיים תחקיר מסודר (Post-Mortem) שבו מסיקים מסקנות: מה עבד טוב בתגובה שלנו, מה דרוש שיפור, ואיך נוכל למנוע או לצמצם אירועים דומים בעתיד. למשל, אם חווינו השבתה של יומיים עקב תקלה, נרצה לבדוק האם הפתרונות הטכנולוגיים שלנו מספיקים, האם הייתה התראה מוקדמת שהתפספסה, האם התקשורת ללקוחות הייתה מיטבית וכו’. התובנות הללו חוזרות חזרה לתהליך ניהול הסיכונים – מעדכנים בהתאם את ההערכות והבקרות, ומשתפרים.
בשורה התחתונה, משברים קורים – במיוחד בסביבת הייטק סוערת. ההבדל בין חברה שנופלת וקורסת במשבר לבין חברה ששורדת ואף מחזקת את אמון לקוחותיה, טמון ברמת ההכנה והניהול של האירוע. מנהלים בכירים צריכים לוודא שהם ישנים טוב בלילה בידיעה שיש "תוכנית חירום במגירה" וצוות מיומן שיוכל להתמודד עם הבלתי-צפוי. זהו הביטחון השקט שמאפשר לחברה לחזור למסלול במהירות ולהמשיך לצמוח.