ניהול אירועים בפלטפורמה של מפות Google

מחזור החיים של אירוע

הפלטפורמה של מפות Google פועלת בהתאם למסגרת של Google Cloud Platform לניהול אירועים.

במקרה של הפסקה זמנית בשירות או פגיעה באיכות השירות, צוות מהנדסי המוצר וצוות התמיכה של הפלטפורמה של מפות Google עובדים יחד כדי לטפל בתקרית ולעדכן אתכם.

lifecycle

זיהוי

אנחנו משתמשים בניטור פנימי ובקופסה שחורה כדי לזהות אירועים ולשלוח התראות למהנדסים שלנו לצורך חקירה. למידע נוסף, אפשר לעיין בפרק 6 במסמך Site Reliability Engineering.

אם מזהים אירוע שעדיין לא דווח במעקב אחר בעיות, נכנסים לדף יצירת פנייה לתמיכה בפלטפורמה של מפות Google (במסוף Google Cloud) ויוצרים בקשת תמיכה חדשה.

מענה ראשוני

כש-Google מזהה אירוע, צוות התמיכה מוביל את התקשורת איתכם. בדר"כ העדכון הראשון על אירועים הוא תמציתי וכולל רק אזכור של המוצר שקשור לאירוע יחד עם התסמינים העיקריים. הסיבה לכך היא שאנחנו נותנים עדיפות להתראות מהירות על פני התראות מפורטות. ככל שיהיה לנו מידע נוסף, נפרסם פרטים נוספים בעדכונים הבאים.

תשובה

ערוצי התקשורת לאירועים

כדי לספק את כמות המידע המתאימה, צוות התמיכה בפלטפורמה של מפות Google מציע ערוצי תקשורת שונים לגבי אירועים, בהתאם להיקף ולחומרה של הבעיה:

המקום הראשון שבו כדאי לבדוק אם יש בעיה שמשפיעה על הפעילות שלכם הוא מרכז השליטה של מפות Google. בלוח הבקרה מוצגות אירועים שמשפיעים על לקוחות רבים, כך שאם אתם רואים אירוע ברשימה, סביר להניח שהוא קשור לבעיה שלכם. כדי לציין את חומרת האירוע, בלוח הבקרה של הסטטוס יסומנו הפסקת שירות, שיבוש או מידע.

קבוצת ההתראות של הפלטפורמה של מפות Google היא קבוצה ציבורית של Google שבה מדווחות כל ההפסקות למודעות בהיקף רחב, בנוסף לעדכונים טכניים אחרים לגבי ממשקי ה-API של הפלטפורמה של מפות Google. כל חברי הקבוצה יקבלו התראה באימייל כשמזוהה הפסקה זמנית בשירות עם העדכונים הבאים, עד שהבעיה תיפתר.

בכרטיס הסטטוס של הפלטפורמה של מפות Google תוכלו לראות תמיד את הסטטוס הנוכחי של ממשקי ה-API והשירותים בפלטפורמה של מפות Google בקטע תמיכה של מפות Google ב-Cloud Console. כשיש אירוע פעיל, מוצגת הודעה שבה מצוין המוצר המושפע וקישור ללוח הבקרה של סטטוס הציבורי של מפות Google, שבו תוכלו לראות אירועים פעילים.

הפסקה זמנית בשירות

בכלי למעקב אחר בעיות תוכלו למצוא רשימת הפניות של כל האירועים הידועים. תוכלו לראות אילו אירועים פתוחים, לעקוב אחר ההתקדמות שלהם באמצעות הרשמה אליהם ולהוסיף הערות כדי לעזור לצוותים שלנו לחקור את הנושא. תוכלו למצוא את הקישור לכלי למעקב אחר בעיות גם במשאבי העזרה של הפלטפורמה של מפות Google.

בקשות תמיכה משמשות במקרים שבהם הבעיה עשויה להיות מבודדת לפרויקטים שלכם, או אם היא משפיעה על מספר מוגבל של לקוחות. אם לא הייתה הצהרה על אירוע כלשהו אבל הבעיה נמשכת, היכנסו לדף יצירת פנייה לתמיכה בפלטפורמה של מפות Google (במסוף Cloud) וצרו בקשת תמיכה חדשה.

חקירה

צוותי הנדסת המוצר אחראים לבדיקת שורש התקריות. לרוב, מהנדסי Site Reliability Engineer מנהלים אירועי אבטחה, אבל מהנדסי תוכנה או מהנדסי תוכנה אחרים יכולים לנהל אותם, בהתאם למצב ולמוצר. למידע נוסף, אפשר לעיין בפרק 12 במסמך Site Reliability Engineering.

הפחתת ההשפעה/פתרון

מבחינת Google, הבעיה תופתרה רק אם בוצעו שינויים שלפי ההערכה של Google יפתרו את הבעיה ללא הגבלת זמן. לדוגמה, הפתרון יכול להיות החזרה למצב קודם של שינוי שגרם לאירוע.

במהלך האירוע, צוותי התמיכה והמוצרים ינסו לצמצם את הבעיה. מיטיגציה מתרחשת כשההשפעה או ההיקף של הבעיה פוחתים, לדוגמה, על ידי מתן משאבים נוספים באופן זמני לשירות שסובל מעומס יתר.

אם לא תימצא דרך להפחית את ההשפעה, צוות התמיכה יבדוק את הפתרונות האפשריים ויעדכן אותם. פתרונות זמניים הם פעולות שאפשר לבצע כדי לתת מענה לצורך, למרות שהאירוע לא נפתר. פתרון זמני יכול להיות שימוש בהגדרות שונות לקריאה ל-API כדי למנוע נתיב בעייתי של קוד.

המשך מעקב

במהלך האירוע, צוות התמיכה מספק עדכונים שוטפים. בדר"כ העדכונים כוללים:

  • מידע נוסף על התקרית, למשל הודעות שגיאה, התכונות שמושפעות מהתקרית והיקף החשיפה שלה.
  • הפעולות שנעשו בניסיון להפחית את ההשפעה, כולל פתרונות זמניים.
  • לוחות זמנים לתקשורת, בהתאם לאירוע.
  • שינויים בסטטוס, כמו פתרון האירוע.

הסקת מסקנות לאחר האירוע

כל אירוע גורם לניתוח פנימי לאחר סיום האירוע (לאחר האירוע) כדי להבין היטב את התקרית ולזהות שיפורי אמינות ש-Google יכולה לבצע. בשלב הבא, מתבצע מעקב אחרי השיפורים האלה והטמעתם. למידע נוסף על הסקת מסקנות לאחר אירועים ב-Google, ראו פרק 15 במסמך Site Reliability Engineering.

דוח אירוע

כשיש השפעה רחבה ומשמעותית מאוד, Google מספקת דוחות על אירועים עם פירוט של הסימפטומים, ההשפעה, הגורמים שהובילו, תיקון ומניעת האירועים בעתיד. כמו בשלב של הסקת המסקנות לאחר האירוע, אנחנו מקדישים תשומת לב מיוחדת לצעדים שאנחנו נוקטים כדי ללמוד מהבעיה ולשפר את האמינות. המטרה של Google בכתיבה ובפרסום דוחות של הסקת מסקנות לאחר האירועים היא לשמור על שקיפות ולהפגין את המחויבות שלנו ליצירת שירותים יציבים ללקוחות שלנו.

שאלות נפוצות

אני רוצה לקבל הודעה כשיש הפסקה זמנית בשירות. מה לעשות?

  • יש להצטרף לקבוצת ההתראות של הפלטפורמה של מפות Google כדי לקבל הודעות על בעיות מתמשכות, וכדי לעקוב אחר התקדמות התקרית בזמן אמת. הקבוצה הזו גם תעזור לך להתעדכן בהודעות לגבי מוצרים ופלטפורמות.
  • תוכלו להשתמש בקישורים פיד RSS או היסטוריית JSON שבתחתית מרכז הבקרה לסטטוס הציבורי של מפות Google כדי להציג פיד של אירועים נוכחיים וקודמים. כל פרסום במרכז השליטה יגרום לשליחת פרסום בפיד. כדי לעדכן אותך, כל פוסט בפיד יכלול את כל ההודעות והעדכונים שקשורים לאירוע הרלוונטי במרכז הבקרה. כך לא יהיה צורך לעיין בהיסטוריית הפיד כדי להבין את ההתקדמות. פידים של RSS מתפרסמים בפורמט XML. תוספי דפדפן כמו RSS Subscription Extension (מאת Google) מאפשרים לכם להציג תצוגה מקדימה של תוכן הפיד ולהירשם באמצעות קורא ה-RSS המועדף עליכם. היסטוריית JSON היא JSON Web Feed של אירועים קודמים. מגוון של ספריות תוכנה ומסגרות אינטרנט תומכות בהפצת תוכן באמצעות פיד JSON.

איזה סוג של פרטי סטטוס ניתן למצוא בדף הבית של לוח הבקרה?

לוח הבקרה של סטטוס ציבורי של מפות Google מספק מידע על ממשקי API ושירותים שהם חלק מהפלטפורמה של מפות Google. אם יש אירוע פעיל, יפורסם כאן מידע על כל API ושירות ספציפיים בפלטפורמה של מפות Google. מדדי סטטוס מוצגים תמיד שמייצגים את התקינות הכוללת של כל ממשק API ושירות, מאחת מהאפשרויות הבאות:

  • הפסקה זמנית בשירות: מערכת או שירות מושבתים בסביבת ייצור. אין דרך לעקוף את הבעיה או שהיא לא מיושמת בקלות.
  • הפרעה בשירות: שיבושים חלקיים במערכת או בשירות בסביבת ייצור ו/או לא פועלים כמצופה. קיים פתרון עקיף.
  • פרטי השירות: מערכת או שירות בסביבת ייצור פגומים ו/או לא פועלים כמצופה. באופן כללי, השירות עדיין זמין, ההשפעה קטנה ומשפיעה על מספר קטן של משתמשים.
  • זמין: השירות פועל באופן מלא ופועל כמצופה.

האם מרכז הבקרה פועל בזמן אמת?

לוח הבקרה של הסטטוס הציבורי של מפות Google מיועד לספק סטטוס כמעט בזמן אמת של מוצרים שזמינים לכלל המשתמשים בכפוף להסכם רמת השירות של הפלטפורמה של מפות Google. כל האירועים מאומתים לפני הפרסום, ולכן עשוי להיות עיכוב קל ממועד הזיהוי שלהם. לכן, אין להשתמש במרכז הבקרה למטרות מעקב אחר זמן פעולה תקינה.

אפשר להשתמש במרכז הבקרה כדי לעקוב אחרי זמן הפעולה התקינה של הפלטפורמה של מפות Google?

'לוח הבקרה של סטטוס הציבורי של מפות Google' לא מיועד למעקב אחר הסטטוס של שירותי GMP בהתבסס על הסכם רמת השירות של GMP, מכיוון שמשך ההפסקה המוצג במרכז השליטה לא בהכרח משקף את 'זמן ההשבתה' בפועל (כפי שמוגדר בהסכם רמת השירות) של הפרויקט, במיוחד במקרים של אירועים בחומרה נמוכה יותר. בנוסף, משכי הזמן שמוצגים עשויים לכלול זמן נוסף לאחר שהבעיה נפתרה כדי לאשר את התיקון במלואו.

כדי לעקוב אחר השימוש ב-API, ליצור מרכזי בקרה וליצור התראות, היכנסו אל Google Maps Platform Monitoring.

מה לעשות אם אני לא רואה אירוע בלוח הבקרה?

לא כל הלקוחות והפרויקטים מושפעים מכל אירוע. במרכז הבקרה מוצגים רק אירועים רחבים וחמורים. אם נתקלתם בבעיה שלא מופיעה במרכז השליטה, פנו לתמיכה .

איפה אפשר למצוא מידע היסטורי על שיבושים והפסקות זמניות בשירות?

הדף היסטוריה בלוח הבקרה של הסטטוס הציבורי של מפות Google הוא מאגר של שיבושים והפסקות זמניות בשירות שהתקבלו ב-365 הימים האחרונים. לחיצה על תקרית כלשהי תציג פוסטים לגבי התקרית בזמן שהיא התנהלה, ואת כל הדיווחים על תקרית שפורסמו על ידי צוות התמיכה.

מי מעדכן את לוח הסטטוסים?

צוות התמיכה הגלובלי בפלטפורמה של מפות Google עוקב אחר הסטטוס של השירותים באמצעות סוגים רבים של אותות, ומעדכן את מרכז הבקרה במקרה של בעיה נרחבת. במקרה הצורך, הצוות יפרסם גם דוח ניתוח מפורט אחרי שתקרית תטופל.

מה ההבדל בין "תקרית" ל "תקרית"?

על אף שמקובל להשתמש במונחים האלה לסירוגין, במרכז הבקרה של סטטוס הציבורי של מפות Google ובתקשורת החיצונית שלנו, המונח "תקרית" מתייחס לכל תקופה של פגיעה בשירות ו"הפסקות שירות" כדי להתייחס רק ללקות הפגיעה החמורה ביותר, במקרים שבהם שירות לא מתפקד באופן יעיל.