גולן נחום, המייסד והמנכ"ל של חברת Twingo, ואיליה גולמן, CTO של החברה, הם מוותיקי תחום הביג דאטה בישראל. "איליה ואני עובדים ביחד משנת 2000, וכבר אז עבדנו בעולמות של דאטה בייסים גדולים וביג דאטה - אפילו שהמונח הזה עוד לא היה קיים", מספר גולן. "ב-2008 הקמתי את Twingo, ומאז 2010 בחרנו להתמקד בעולמות הביג דאטה, Near Real Time אנליטיקס וכל מה שקשור לכך.
"ראינו ונגענו במאות לקוחות עם טרות ופטות של דאטה. יש לנו לקוחות מכל הוורטיקלים, חברות סייבר, גיימינג, IOT, פרסום, מובייל, פיננסים, טלקום, ריטייל וכרטיסי אשראי. אין כמעט ורטיקל שלא נגענו בו".
בוודאי ראיתם הרבה שינויים טכנולוגיים לאורך השנים.
"בהחלט. ראינו מאות טכנולוגיות וארכיטקטורות שונות, וכך נצבר הניסיון שלנו. ראינו את האבולוציה של העולם הזה. ב-2010 רק התחילו לדבר על ביג דאטה. ההתחלה היתה בעולם של קליקים ואיוונטים באינטרנט, בתחום הפרסום ונתוני שיחות (CDR) בטלקום.
"הלקוחות הראשונים החזיקו דאטה סנטרים On Premise, כאשר כמות הדאטה שלהם גדלה מעשרות מיליונים של איוונטים ביום למיליארדים - בסיסי הנתונים הרגילים כבר לא עמדו בקצב ובעומס. כך נכנסנו לעולם הביג דאטה, עם Data Warehouse שרץ על Cluster ,Scale Out, ויכול להחזיק כמויות גדולות מאוד של מידע לאורך חודשים ושנים, להריץ עליהן אנליטיקות ושאילתות, ולהחזיר תשובות בזמן מהיר.
"לאחר מחקר מקיף החלטנו לייצג ולהטמיע את טכנולוגיית הביג דאטה Vertica. במבט לאחור זו היתה בחירה מעולה, כי היו בעולם עוד כל מיני טכנולוגיות, כמו Green-Plum ,Paraccel ,Hortonworks ,Exasol ועוד, שכיום רובן כבר לא קיימות, או לא רלוונטיות.
"אלו היו השנים הראשונות. לאט לאט ראינו מעבר לענן - אמזון, גוגל, אז'ור. אחר כך בא עולם של הפרדה בין ה-Compute ל-Storage, שזה טרנד מאוד חם גם כיום. המשמעות היא שהדאטה עצמו יושב ב-Object Store מרכזי של הענן, למשל S3 באמזון, בעוד ה-Compute מתבצע במנועים שמאפשרים לנו להריץ שאילתות ב-Scales משתנים, ומותאמים לפי ה-"Use Case.
נחום: "התחום נעשה מורכב מאוד. ב-2010, ואפילו 2015, היו בערך עשר טכנולוגיות בתחום הביג דאטה, כיום יש קרוב ל-500. כמעט כל יום צצה טכנולוגיה חדשה, יש טרנד גדול של טכנולוגיות ייעודיות מאוד לכל משימה. אם יש צורך לשמור דאטה ב-Key Value יש מגוון של טכנולוגיות מתאימות, אותו הדבר לגבי אנליטיקות, גם לזה יש הרבה טכנולוגיות, וכן הלאה".
גולמן: "כיום יש מגמה שבה פיצ'רים הפכו למוצרים נפרדים, במקום להיות פיצ'ר במוצר רחב".
נחום: "כשיש דאטה בייס או טכנולוגיה ייעודיים לכל משימה, אתה מוצא את עצמך עם הרבה מאוד טכנולוגיות. היתרון הוא שלכל טכנולוגיה יש שימוש ממוקד מאוד למשימה שהגדרת. אם אתה עוסק ב-Geo Location, יש לך דאטה בייס שהכי מתאים לזה ואם אתה עושה אנליטיקה על גרפים, גם לכך יש דאטה בייסים ייעודים.
"אבל יש גם אתגרים. הארגון מגלה שהוא צריך הרבה אנשים עם התמחויות שונות. כבר אי אפשר להסתפק ב-Data Engineer אחד או שניים, אלא צריך יותר עובדים שנדרשים להכיר מגוון רב של טכנולוגיות. הדאטה בייסים הללו זקוקים להרבה שרתים ותחזוקה. התחזוקה לכל טכנולוגיה מביאה איתה מגוון משימות וידע נדרש, כמו התקנות, קינפוג, גיבויים, ניטורים, אופטימיזציה ומומחיות ספציפית למוצר.
"ריבוי של בסיסי נתונים ייעודים מצריך לטעון את הדאטה לכולם וזה מורכב הן מבחינת כוח האדם והן מבחינת האופרציה ותהליכי ה-Pipelines. ברוב המקרים לאורך הזמן מאבדים סנכרון. בדאטה בייס X מופיעה כמות קליקים מסוימת, ובדאטה בייס Y - מספר הקליקים שונה, אתה כבר לא יודע איפה האמת שלך.
"עוד בעיה כואבת היא שכאשר יש כמה דאטה בייסים ייעודיים במקום שכל הדאטה יהיה במקום אחד, הוא מתפזר לאיים של מידע - וקשה עד בלתי אפשרי לחבר ביניהם. יש מוצרים שמתיימרים לעשות את זה, כמו Trino למשל, אבל זה עובד לאט. טכנולוגיה כזאת לא מתאימה למערכות שמשרתות לקוחות וצריכות להגיב מהר. פעמים רבות שאילתות מבוזרות יכולות לחזור אחרי שעות רבות ולהעמיס על בסיסי הנתונים.
"האתגרים בריבוי בסיסי נתונים ייעודים שהוזכרו קודם מביאים איתם טרנד נוסף, קונסולידציה של פיצ'רים במוצר בודד. מערכות שלא עושות רק דבר אחד, אלא מגוון תפקידים: טעינה גם מ-Pipeline וגם מקבצים, עבודה ב-Batch וגם טרנזקציות מהירות, אגרגציות וגם Key Value, שאילתות אנליטיות וחיפושי Text. דוגמה לטכנולוגיה כזאת היא SingleStore".
ראינו שיש הרבה מאוד טכנולוגיות בשוק. מה ההשלכות של בחירה לא נכונה?
גולמן: "מרוב טכנולוגיות בשוק, קורה שאנשים בוחרים משהו לא מתאים מחוסר ידיעה או ניסיון. ההשלכות יכולות להיות חוסר יכולת לגדול, עלויות עצומות שגורמות להפסדים והכי חשוב - אובדן היתרון התחרותי".
נחום: "לדוגמה, פגשנו חברת סייבר גדולה שהתחילה עם דאטה בייס PostgreSQL. הדאטה בייס גדל מאוד, ולא עמד בעומסים. הם הקימו מעל 400 דאטה בייסים, והגיעו למאות שרתים, וגם זה לא עמד בדרישות. בהמשך הם החליטו להוסיף מוצר של Elastic Search וגם הוא לא התאים ל-Use Case. החברה הגיעה למצב שהושקעו מיליוני דולרים בשנה על טכנולוגיות ועל עובדים וזה לא עמד בדרישות. הם לא יכלו לגדול בעוד לקוחות וגם לא לתמוך בלקוחות הקיימים. מצד אחד הארגון בצמיחה אדירה ומהצד השני תקוע בגלל בחירת הטכנולוגיות, וחייב להחליף אותן".
גולמן: "אנחנו רואים את זה המון פעמים - אתה מגלה את הטעות כשאתה גדל. אחרי שהשקעת הרבה כסף על כוח אדם שמתחזק את המערכת, חומרה וציוד יקר, ובסוף השאילתות לא חוזרות, אנליטיקות לא חוזרות, אי אפשר לעשות Onboarding לעוד לקוחות. הטעות מורגשת כשהארגון בצמיחה חזקה - אבל אז כבר קשה לתקן, כי כתוב כל כך הרבה קוד מסביב, וכל כך הרבה מערכות נשענות על זה.
"אתגר אחר שנתקלנו בו לא אחת הוא לקוחות שנמצאים בענן, ורוצים להשתמש באותה מערכת עבור לקוחות רבים. הם בונים פתרון, עם טכנולוגיה ייעודית של ספק הענן, ואז בא לקוח גדול, למשל ביטחוני או ממשלתי, שלא רוצה להיות עם כל הלקוחות האחרים, אלא בנפרד. הוא רוצה שיתקינו את המערכת אצלו באתר באזור מאובטח משלו. זה מצריך ארגונים לצאת לפרויקט הסבה מסובך של תמיכה בעוד טכנולוגיה, כי הם לא רוצים להפסיד את הלקוח הגדול הזה.
"אנחנו רואים גם חברות סטארטאפ שפתאום גדלות במהירות ומגלות שהמערכת שלהן לא אלסטית ולא סקיילבילית, וכבר לא מתאימה. יש גם חברות שנרכשות על ידי חברות ענק, שדורשות מהן גדילה פי 10 ואפילו פי 100 אבל המערכת הקיימת של החברות לא מאפשרת להן לגדול בסדרי גודל כאלה.
"באופן כללי, כמויות הדאטה גדלות אקספוננציאלית. כמות הדאטה שרוצים לאחסן ולעבד גדלה ממאות אלפי רשומות בשנייה למיליונים ולעשרות מיליונים בשנייה. בעבר היה מספיק לטעון את הדאטה פעם ברבע שעה או כל שעה, היום רוצים שהוא יזרום כל הזמן, כמו מים, שהדאטה בייס יהיה מעודכן שניות בודדות אחורה".
"הלקוחות שלנו מאוד מגוונים, ופועלים בהרבה ורטיקלים. סטארטאפים, יוניקורנים, חברות שמשרתות עשרות ומאות מיליוני משתמשים בעולם. יש לקוחות שבונים מוצר והוא מותקן אצל לקוחות גדולים בעולם - OEM, ואחרים שאוספים דאטה של אלפי לקוחות שלהם והכל יושב בדאטה בייס ביג דאטה אחד מרכזי - SaaS multi-tenant.
"ללקוחות שלנו יש דרישות בתחום הביג דאטה: שהנתונים שלהם יתעדכנו ב-Streaming ובמקביל גם להריץ שאילתות אנליטיות על הדאטה החדש וההיסטורי, ושהשאילתות יחזירו תוצאות מתחת לשנייה, ויש מאות שאילתות כאלה במקביל. מעטות הטכנולוגיות שמסוגלות לעמוד בעומסים כאלה.
"לקוחות פונים אלינו הרבה פעמים כדי שניתן להם ייעוץ טכנולוגי, שנעזור להם לראות איך הם יכולים לגדול פי עשר או אפילו פי מאה. פעמים רבות קוראים לנו כשמתחילים לבנות ארכיטקטורה חדשה או כדי שנעשה Review על הארכיטקטורה שהלקוחות תכננו וניתן להם חוות דעת מקצועית. במקרים נוספים פונים אלינו כדי שנבנה עבורם את הדור הבא של פלטפורמת הביג דאטה, ונעזור לבחור את ה-Stack הטכנולוגי הכי נכון עבורם מתוך ראייה לטווח הבינוני וגם לטווח הארוך.
"כשאנחנו מגיעים לעבוד אצל לקוח על תכנון ארכיטקטורה זה דורש מאיתנו לדבר עם גורמים שונים בארגון ולמפות את הבעיות הנוכחיות ואת הצרכים העתידיים. בשלב הבא אנחנו עושים סיעור מוחות בשיתוף עם הלקוח ומעלים מהניסיון שלנו נושאים שהם לא חשבו עליהם, Best Practice ונקודות כשל אפשריות. אנחנו תמיד מכוונים לתכנן מערכת עם Stack טכנולוגי חדשני ומתקדם ,פשוטה לתחזוקה, סקיילבילית ושתענה על כל הצרכים לאורך שנים".
______________________________
הגדרת דרישות למערכת חדשה - חשוב מאוד לאפיין ולהגדיר בצורה ברורה את הדרישות של מערכת הביג דאטה - למשל עדכניות הנתונים, תבניות חיפוש, קצבים, נפחים וכו.
כולל צפי גדילה בשנים הקרובות וככל שהדרישות יותר מקיפות כך תוכלו לבחור טכנולוגיות מתאימות לכם.
בצעו POC (Proof of Concept) - לאחר בחירת הטכנולוגיות תכננו והריצו בדיקת התכנות איכותית. בדקו את נקודות הכשל, יכולת לעמוד בקצב הטעינות, בנפח הצפוי, בזמני הריצה של השאילתות.
הדאטה שלכם צפוי לגדול פי מאה? בדקו את המערכת גם בהיקף הצפוי, ודאו שהשאילתות חוזרות מהר ע"פ ה-SLA ובמקביליות הנכונה.
בחירת טכנולוגיה וורסטילית (מגוונת) - בחרו טכנולוגיה שתענה על כמה שיותרUse Cases תחת מוצר אחד ובשאיפה תהיה פתוחה לתמוך גם בצרכים עתידיים.
תנו עדיפות לשירותים מנוהלים ופשוטים - העדיפו טכנולוגיה פשוטה לפיתוח ותפעול כך שלא תהיה לכם בעיה למצוא את כוח האדם המתאים. העדיפו מערכות שהן בענן ומנוהלות קומפלט - Fully Managed Service. שימו לב ל-TCO של הפתרון מבחינת עלויות השירות וכמות ההון האנושי.
התייעצו עם מומחים בתחום - בעת בנייה או תכנון של ארכיטקטורה חדשה, פנו לחברה של מומחים בתחום שתלווה ותעטוף את התהליך כולו. תדרשו מספר חלופות טכנולוגיות מתאימות ל-Use Case שלכם, קבלו הערכת עלויות לכל פתרון ותדרשו להבין מה היתרונות והחסרונות של כל חלופה.
____________________________
לפני מספר שנים בחרה Twingo לייצג בארץ מוצר חדשני בשם MemSQL מסן פרנסיסקו, שהוטמע בהצלחה גדולה בעשרות לקוחות שחיפשו פתרון של Real Time Big Data Analytics ומצאו אותו כמתאים ביותר עבורם. MemSQL שינתה את שמה ל- SingleStoreכדי לבטא יותר טוב את היכולות הוורסטיליות של הפלטפורמה. החברה גייסה מעל 350 מיליון דולר והפכה להיות יוניקורן ולידר טכנולוגי בתחום הביג דאטה.
SingleStore הוא דאטה בייס של ביג דאטה חדשני. הוא מאפשר Scale Out על הרבה שרתים, הפרדה ביןCompute ל-Storage, הרצה של מיליוני טרנזקציות ACID בשנייה (OLTP) ביחד עם אנליטיקה מתקדמת (OLAP), תמיכה מלאה ב-SQL, תומך ב-Time Series, Semi Structured Data, חיפושי טקסט מבוססי מנוע Lucine, Key Value.
לדברי גולמן, "מצאנו שהמוצר מפשט מאוד את העבודה של הלקוחות שלנו. הוא מצמצם את כוח האדם שהם צריכים, מקטין משמעותית את כמות החומרה הדרושה, ומאפשר קונסולידציה של הרבה מאוד טכנולוגיות, עם Time to Market מהיר מאוד".
לפרטים נוספים: twingo.co.il / golan@twingo.co.il