בדצמבר 2021, במהלך עונת החגים העמוסה, סבלה סביבת הענן AWS מנפילה בת שבע שעות - שעוררה מהומה ברחבי העולם, כשמיליוני עסקים ומשתמשים פרטיים נאלצו לעצור את פעילותם במפתיע. מה שגרוע עוד יותר, הוא שהיתה זו הקריסה השלישית של AWS באותו חודש.
חודשיים לפני כן, באוקטובר 2021, פייסבוק (מטא) קרסה למשך שש שעות, מה שגרם להפסד המוערך ב-100 מיליון דולר, פרט להשפעה השלילית על עסקים המסתמכים על שירותיה של פייסבוק.
גם שירותי הענן של גוגל ומיקרוסופט (אז'ור) חוו קריסות משלהם. באוקטובר, לקוחות אז'ור לא יכלו לגשת לשירות במשך שמונה שעות. ובנובמבר, האתרים של סנאפ, הום דיפו וספוטיפיי ירדו מהאוויר, לאחר ששירות הענן של גוגל קרס כתוצאה מתקלה בקונפיגורציית הרשת.
2021 היתה שנה יוצאת דופן בכל הנוגע לקריסות ענן. ראינו שירותי ענן רבים נעצרים באחת. קריסות אלה הביאו תוצאות בלתי נמנעות, חלקן מזיקות מאוד לאלה העובדים מהבית.
אם ענקיות כאלה, המשתמשות בטכנולוגיה החדשנית ביותר, עדיין פגיעות לקריסות מפתיעות של דאטה סנטרס ושירותי ענן - ברור כי התעשייה טרם מצאה פתרון לבעיה. והמצב צפוי רק להידרדר לפני שהשיפור יגיע, כשתהליך הצנטרליזציה של תשתית האינטרנט מתרחב, המורכבות עולה, העבודה ההיברידית צוברת תאוצה, והצונאמי של מעבר לאפליקציות ודאטה מבוססי ענן, עומד להגיע. אך אל דאגה, יש תקווה!
הדרך הטובה ביותר להתמודד עם דאון טיים היא למנוע אותו. לצוותי דאטה צריכה להיות גישה לכלים ואמצעים למניעת אירועים כאלה, באמצעות היכולת לזהות אותם לפני שהם מתרחשים. ניתן להשיג שקיפות זו על ידי שימוש בנראוּת - Observability. על ידי הטמעת נראוּת המבוססת על למידת מכונה, צוותים יכולים לנהל את בריאות "צנרת" המידע שלהם ולצמצם משמעותית את הדאון טיים ואת הזמן לפתרון בעיות.
מהי Observability? בעולם ה-IT והמחשוב, זוהי היכולת להעריך את מצבה הנוכחי של מערכת, בהתבסס על מידע שהיא מייצרת - כגון לוגים, מטריקות ועקבות (Traces). כדי להגיע ל- Observability אמיתית, יש לאסוף מידע טלמטרי גרעיני, ליישם בינה מלאכותית כדי לתת הקשר למידע, ולאפשר ביצוע פעולות על המידע. שימוש בלמידת מכונה ומדעי המידע בתפעול IT מוציא את כאבי הראש מהמשוואה של טיפול בתקריות. הוא מגביר באופן דרמטי את מהירות הפתרון, תוך צמצום רעש ההתרעות והצורך לנחש מה מקור התקלה.
בעוד ש- Observability בתפעול IT עדיין נמצאת בשלבים מוקדמים, והכלים נמצאים בתהליך שיפור מתמיד, עדיין יש אתגרים גדולים שחשוב להתייחס אליהם.
היקף המידע: חוסר זמינות של מידע מספיק הוא אתגר למודלים של בינה מלאכותית/ למידת מכונה, שכן הוא מקשה עליהם ללמוד, והופך אותם לבלתי יעילים בתחזיות לגבי העתיד.
איכות המידע: איכות מידע נמוכה, כמו אירועים, לוגים ושדות חסרים, תגרום לכך שלמודל לא תהיה מספיק אינפורמציה כדי ללמוד את התבניות וההתנהגות. לכן, יהיה זה מאתגר עבור המודל לבצע תחזיות ולספק מסקנות בעלות ערך.
תהליך לא סטנדרטי: תהליכי תפעול IT מקובלים הופכים את מסע האוטומציה לשופע מהמורות, בשל התערבויות אנושיות רבות מדי, מה שמוביל לתלות ועיכוב בהשלמת משימות, והופך את האוטומציה לכמעט בלתי אפשרית.
שונות במידע: במהלך היישום של Observability, צפוי שיהיו מעט שינויים ככל האפשר במערכות IT. אחרת, המודל יגיע לתחזיות שגויות - או לא יגיע אליהן כלל. כך הוא יצטרך לבצע שוב את מסע הלמידה במשך תקופה, כדי להבין את השינויים האחרונים בסביבה ולשדרג את הלמידה שלו.
אינטגרציות מורכבות: מידע הוא הדלק לכלי אנליזה, ובלעדיו הם לא יכולים לספק פלט בעל ערך. תהליך היישום של פלטפורמת Observability יתקשה להשתלב באפליקציית לגאסי ותיקה ובמערכות שאין להן טכניקות מתקדמות להשתלבות בפלטפורמה. ספקי פתרונות Observability עובדים קשה כדי להגדיל את טווח ה-Data Feeds כדי לאפשר לכלי להיות אפקטיבי יותר.
בשנים הבאות, סביר לצפות שבינה מלאכותית ו- Observability יביאו תקופה חדשה של היפראוטומציה - כך חוזה דאגלס טומבס, סגן נשיא למחקר בגרטנר. במובן מסוים, Observability היא בינה מלאכותית שמשנה את הפרמטרים של ניטור וניהול, באותה דרך שבה שינתה היבטים אחרים של העולם הדיגיטלי - על ידי הפיכתו ליותר אינקלוסיבי, אינטואיטיבי ומתופעל באופן עצמאי.
Observability אם כן, היא דרך נוספת בה בינה מלאכותית תיטול על עצמה את המשימות היומיומיות שבני אדם מבצעים כיום, כשהיא יוצרת סביבת מידע מהירה ותגובתית יותר, כזו שהיא גם תואמת יותר את הסביבות האמיתיות שהיא מנסה לפרש באופן דיגיטלי.
פלטפורמת ה-Observability של Sensai משתמשת באלגוריתמים של למידת מכונה מתקדמת לצורך זיהוי אנומליות פרואקטיבי ואוטומטי, ניתוח מקור הבעיה, הצעות לתיקון ותחזיות תוך שימוש במטריקות בלבד. כך מסייעת החברה להאצת המעבר אל סביבות ענן היברידיות בעלות יכולת לתיקון עצמי, מהליבה ועד לקצוות.
פלטפורמת ה-Observability של Sensai מספקת רמה חדשה של ניתוח מקור הבעיה - Root Cause Analysis של האנומליה, ויוצרת "עץ" שמפריד בין הסימפטומים השונים לבין המקור שיוצר את שרשרת האירועים.
על ידי ניתוח הדאטה של נתוני הפעילות הבריאה של האפליקציה ושכבות התשתית של ה-IT באופן ישיר, החברה חוסכת במקום אחסון - וגם מצמצמת משמעותית את משך הזמן לפתרון הבעיה. מנהלי רשת היברידית יכולים להגיב מיידית במקום לחכות עד שהלוגים יושלמו, יועברו ויעברו עיבוד. אין צורך בסדרות של מודולים נפרדים שכל אחד מהם מוקדש לשלב אחר בתהליך, שכן בפתרון של Sensai, מעורב מודול בודד אחד - שמבצע את התהליך בשלמותו.
באופן טבעי, דשבורדים של זמן אמת והתרעות על פתרונות מיידיים יקצרו את משך חייה של כל אנומליה. אך ב- Sensai שואפים ליותר מכך - ליכולת לחזות באופן פרואקטיבי בעיות לפני שהן מתרחשות, ולמנוע אותן. גישה זו מספקת שקט נפשי לארגון וללקוחותיו, מצמצמת עלויות, מבטיחה התאמה ל-SLA ומאפשרת התמקדות במדדי הביצוע המרכזיים של הארגון; צעד נוסף בדרך לחזון המערכת שיכולה לתקן את עצמה, ללא מגע יד אדם.
__________________________________________
לפרטים נוספים: www.sensai.io