- שנה: 1999
- מחבר: רז הייפרמן
- מו"ל: הוד-עמי
- פורמט: ספר
- נמסר ע"י: הוצאת הוד-עמי
- תגיות: Data Warehouse
OCR (הסבר)
נורוטני
רז הייפרנון
מחסני נתונים
עקרונות, ארכיטקטורה,
עיצוב ויישום
עורך ראשי: יצחק עמיהוד
עריכה: צור ריכטר-לוין 0105510081
עריכה ועיצוב: קרן לנדאו
עיצוב עטיפה : שרון רז
שמות מסחריים
שמות המוצרים והשירותים המוזכריס בספר הינס שמות מסחריים רשומיס של החברות כפי שהוצג. הוצאת
הוד-עמי עשתה כמיטב יכולתה למסור מידע אודות השמות המסחריים המוזכריס בספר זה ולציין את שמות
החברות, המוצריס והשירותיס. שמות מסחרייס רשומיס (5א178060876 801516760ז) המוזכרים בספר צוינו
בהתאמה.
הודעה
ספר זה מיועד לתת מידע אודות מוצרים שונים. נעשו מאמצים רבים לגרום לכך שהספר יהיה שלם ואמין
ככל שניתן, אך אין משתמעת מכך אחריות כלשהי. המידע ניתן ''כמות שהוא'' ("15 פ8"). המחבר והוצאת
הוד-עמי אינס אחראים כלפי יחיד או ארגון עבור כל אובדן או נזק אשר ייגרם, אם ייגרם, מהמידע שבספר
זה, או מהתקליטור המצורף, אם יצורף.
לשם שטף הקריאה כתוב ספר זה בלשון זכר בלבד. ספר זה מיועד לגברים ונשים
כאחד ואין בכוונתנו להפלות או לפגוע בציבור המשתמשים/ות.
טלפון: 09-9564716
פקס: 09-9571582
דואר אלקטרוני: |60.1.והח00-3ח62ס+חו
ם םש ₪ ₪
אתר באינטרנט: !60.1 01-31 .צטעש//:ס+1ח
מחסני נתונים
עקרונות, ארכיטקטורה,
עיצוב ויישום
רז הייפרמן
5ִזהּ])\ 03+3
חסוז9ח6וח6!קח! סח8 0ה0ו265 ,65ז16600וח6זג ,65וקוסחוזק
חה 16110 382 עֶם
הטחוחוג .] :זסזו=
)6(
כל הזכויות שמורות
הוצאת הוד-עמי
לספרי מחשבים בע''מ
ת.ד. 6108 הרצליה 46160
טלפון: 09-9564716 פקס: 09-9571582
דואר אלקטרוני: |ו.60.והח00-8ח62ס!חו
אין להעתיק או לשדר בכל אמצעי שהוא ספר זה או קטעים ממנו בשום צורה ובשום אמצעי
אלקטרוני או מכני, לרבות צילום והקלטה, אמצעי אחסון והפצת מידע, ללא אישור בכתב מאת
ההוצאה, אלא לשם ציטוט קטעים קצרים בציון שם המקור.
הודפס בישראל 1999
0 פוחףוה וו 6
.0 | והוג-פסר
8ו|62ר ,6108 .0.8 ק
9 ,]םת פן
מסת'יב 965-361-199-2 8%פ!
הספו מוקדש באהכה
לבני אייל, עס סיופ קורס הקצינים ותחילת מסלולו כמפקד בצה"ל
לבתי איילת, עס סיופ לימודי התיכון ולקראת התגייסותה לצה"ל
לאשתי ארנו(ה, עפ קבלת בעלה בחזרה לאתר סיופ כתיבת הספר
על המחבר
רז הייפרמן, סמנכייל ומנהל חטיבת טכנולוגיות מידע בחברת בזק. בעל תואר שני
בחקר ביצועיס מביהייס למינהל עסקיס באוניברסיטה העברית בירושליס.
בתפקידיו הקודמיס שרת כמנהל חטיבת טכנולוגיות ופיתוח עסקיס בחברת
קונתהל, מנהל אגף מחשוב ובקרה בחברת אופטרוטק (שהתמזגה עס חברת
אורבוט ונקראת כיוס אורבוטק), מנהל פרויקטיס בכיר בחברת טכם, מנהל תחוס
מערכות לוגיסטיות באגף מדעי הניהול ושירותי מידע בבזק (אז עדיין חלק ממשרד
התקשורת). מרצה בנושאי בסיסי נתונים, עיצוב מערכות תוכנה, טכנולוגיות
שרת/לקוח ומחסני נתוניסם במוסדות הוראה שוניס וביניהס הפקולטה להנדסה
באוניברסיטת תייא, ביהייס למקצועות המחשב בצהייל (ממרייס לשעבר) ואחריס.
כתב את הספרים ''בסיסי נתונים טבלאיים ושפת .501'', י'ארגון קבצים וניהול
נתונים'י וערך את הספר ייטכנולוגיות שרת/לקותיי, כולס בהוצאת הוד-עמי.
תוכן עניינים מקוצר
הקדמה ו
פרק 1: רקע ומושגי יסוד ל
פרק 2: ארכיטקטורת מחסן הנתונים 2
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע 0
פרק 4: ניתוח מידע רב-מימדי (7515ץ!4203 |החהסופחס6וחופ פוט₪) -
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי
5 סג 01 0
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים
(0₪ו265 30356+3%כ |בחסופחסחחוכ ובּהסוז46!3) 0
פרק 7: כריית נתונים (פָחוחוו/ בּו03) 0
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתונים 2
פרק 9: סקירת התהליכים העיקריים במחסן הנתונים 0
פרק 10: מידע על הנתונים (₪6+303+3!) 7
פרק 11: מרכולי נתונים (פ5+זב3ּ!! ה33) 0
פרק 12: מתודולוגיה ליישום מחסן נתונים 0
נספח א': מילון מונחים ו
נספח ב': ביבליוגרפיה ||
6 מחסני נתונים
תוכן העניינים
הקדמה 17
מבנה הספר 0 5 7 ל
קהל היעד של הספר 0 0
פרק 1: רקע ומושגי יסוד 25
המגמות העיקריות בתחוס הארכיטקטורה היישומית ב ה
המגמות העיקריות בתחומי טכנולוגיית המידע ו
יישומים עסקיים תפעוליים (פחסוז8סו|סק/ 655חו₪5 |החסוזפז6קס) 0
יישומיס תומכי החלטות (פחסוז8סו!סק3 זססקטפ חסופוספס) 0
השוואת מאפייני שני סוגי היישומיס ל
המסקנה: שתי סביבות שונות, אבל משולבות 4
השלבים בגיבוש תפיסת מחסן הנתוניס ||
כללי 2
השלביס בהתפתחות מערכות לאספקת מידע 0
מחוללי דוחות ושאילתות לגישה לנתוניס תפעוליים
(ז67810ה26) עז6ט0) סחה זס)וז/\ הסס6ת) 0
סביבות ייעודיות לניתותחים סטטיסטייס במחשבים מרכזייםס 8
מערכות תומכות החלטה (5/5%6705 ז1ססקו5 חסופ1ו60כ - 55) 0
מערכות מידע למנהליס (5/5+6705 חסוזהוזסזח! 6עו6001אם - 15ם) 7
מרכצי מידע (6601615 חסוז8 חוזסזחו) ב
סביבות תומכות החלטות מבוססות מחשבי אישיים 0
תוכן העניינים
7
פרק 2: ארכיטקטורת מחסן הנתונים 19
מבוא 0
מהו מחסן נתוניס! 7010000 50
ארכיטקטורת מחסן הנתונים (160%076ח0ז 56טסח6זבּ/ הזְה) 2
ארכיטקטורת מחסן נתוניס ארגוני
(1601076וח0ז 56גוסח6ז3ּ/ 818 86וקזסזח=) ל
ארכיטקטורת מרכול הנתוניס (016ז160ח0ז +זבו הַּוהכ) 7
מחסן נתוניס רב-שכבתי (6פטסח6ז8/ מז זסוד פוטוש) 7
ארכיטקטורת מאגר נתוניס תפעולי (8זס)5 0818 |8ח0סו81ז6קס - 5סס) 5
מחסן נתוניס מדומה (6פטסח6ז8/ 818 |8טשזו/) 1
סיכוס 0
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע 3
מבוא 0
מנתונים דרך מידע ועד להחלטות בבסל 2-1 61
נתוניס (פ08) 0 מק 005 מ שיש שש מס 9 0 עס שלופ 2 בשש מס טע שש טב משכ ל 6
מידע (חסוז8חזסזח!ו) 0
ידע (0006!ששסחא) 67.1
החלטות (5ח0ו06015) בב
מה ה ניתוח נתוניס 6
סיווג תהליכי ניתוח הנתוניס - אימות מול גילוי 1
סיווג הטכנולוגיות התומכות בניתות נתוניס ב
מחוללי שאילתות ודוחות (9זס+8789ח20) +הסק6 סחה עזסטב)) 7
כלי ניתוח רב-מימדיים (טַחו2706655 |פּסְעְ|8ח4 6חוו! חכ - קמ וס) 5
כלי כריית נתוניס (פָחוחוו/! זֶהכ) 76
סיווג מרכיבי המידע 0 90 בש מכ 0 בש 902 בש 2 מש 5 ב 7
סיווג המשימות האנליטיות 7
סיווג היישומיס האנליטיים לפי הדרג הארגוני 7[
מפת המרחב האנליטי (50806 |הַסעו8ח) 0
סיכוס בב
פרק 4: ניתוח מידע רב-מימדי
(515ץ3ח/ |החסופהסוחוכ אזוטא) | 83
מבוא 0
מושגי היסוד בניתוח רב-מימדי - עובדות ומימדיס 4
היררכיות בתוך מימדיס 87
הקוביה הרב-מימדית 7
הצגה מימדית של מידע (ופו/ |החסופחסוזוס) 7
פעולות יסוד בניתוח מידע רב-מימדי 90:12
מגבלות גודל הקוביה הרב-מימדית 10
8 מחסני נתונים
פרק 5: ארכיטקטורות של מוצרים
לניתוח רב-מימדי - 66%0765+וח6ה קה 1 5
מבוא בבש 42נ- 4.4452 .0.1102 105
חלופות למימוש ארכיטקטורה למוצר 01/40 107
מוצריס המבוססיס על בסיסי נתוניס רב-מימדיים
(ק | |החסופח6חום טוטוש - קה וסוש) 110
בסיסי נתוניסם טבלאיים בעיצוב רב-מימדי
(28%90856 |החסופח6חחוכ והּחסוז46|3) 1
מוצריס לניתוח רב-מימדי מבוסס בסיס נתונים טבלאי
(ק 01 |הּחסוז46|3 - קג 401) 25[
ארכיטקטורת 0006 501 142424200 1ש 115004
ארכיטקטורת 0006 זססעץ בר 115
ארכיטקטורת 0006 זססץר 65600 בג 110
ארכיטקטורת 6006 ח85!= בי 117
ארכיטקטורה רב-מימדית מעורבת (םג .021 סוזפעה) 1
סקירת מוצרי 01.45 על פי מטריצת הארכיטקטורות 119
מה הארכיטקטורה המומלצת?! 120
כללי 6000 להגדרת מוצריס רב-מימדיים 12
סיכוס 12
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים
(ח0ו065 6ִפהִּב23+3 |החסופח6וחוכ ובּחסוזה46|3) 15
מבוא יפ ב חצ בשלבים | שמכוסם מש מ 2 2 מש מע סט טי סטש מ סי םש סט מש 25-52 1
מדוע נדרשת טכניקת עיצוב מיוחדת 1
שיקולי עיצוב עיקריים בסביבת עיבוד תנועות (קד01) 1
זמן ביצוע תנועה (66ח8ז0ס1ו6ק חסו5801חפזד) 1
מורכבות אינה בעיה ||
מסלולי גישה ידועיס מראש (ח781 0606655 606860ז) 1
התמקדות בנתוניס שוטפים ולא היסטורייס 1
שיקולי עיצוב עיקרייס בסביבת מחסן נתוניס 1
נוחות המשתמש 00.4 128
ביצועי שאילתות (6סח78ז10ז6 עז26)) 1
זמן טעינת הנתונים (6וחוד 1080 בַּּהכ) 12
נירמול נתוניס (חסו281ו|8וחזסא 818כ) אינו יתרון בסביבת מחסן נתוניס 1
בעיית הביצועיס 5 1
בעיית ניחול מידע דינמי מול מידע היסטורי במחסן הנתונים 1
סיכוס ההבדליס העיקרייס 1
מושגי היסוד - עובדות ומימדים בב 134
תוכן העניינים 9
עובדות (8015=)
מימדיס עסקיים (8חסו5ח6וחו 655ח2₪51)
ייצוג יישויות על ידי טבלאות (180!85)
סכמת כוכב (50706₪08 ז18ס)
שאילתות כוכב (ץ306) ז518)
יתרונות עיקרייס של סכמת הכוכב
מימדיס סיבתייס (פחסופח6חוכ |08508)
מבנה המפתחות של הטבלאות (68ז5170010 ץ46)) 0
סוגיות מיוחדות בנושא טבלאות המימדיס 07
היררכיות של מימדיס (עח8970ז716 פחסופחסחווס) 7[
מימד הזמן (חסופחפחחוכ 6חחוד) ל
מדוע והו מימד מיוחט 0
ניהול מימד הזמן ישירות בטבלת העובדות 0
ניהול מפורש של מימד הומן 0
ריבוי היררכיות במימד הזמן 0
מימדים מנווניס (59ח0ו5ח6חוכ 678%6ח0606)
טיפול במימדים גדוליס (פחסופחשחחוס פָו)
ריבוי קשריס בין מימד לעובדות (חסופחסוחוכ חוחט!ס0 6וקטוגווש) 0
סוגיות מיוחדות בנושא טבלת עובדות 0
הגדרת רמת הפירוט (ע8!טח8זכ)) - 7
טבלת עובדות נטולת עובדות (180|8 80% 801655=) 0
ריבוי טבלאות עובדות (30!65 ד +86= סוסחוטוע) 0
סכמות פתיתי שלג (608ח56 6א3]שוסח5) 8 -
ניהול שינוייס (9ח806706ח3! סַפַח8ח0) 0
מדוע יש לנהל שינוייס ב
אפיון קצב השינוייס 0
טכניקות לטיפול בשינוייס במודל הנתוניס םשרש כ
טכניקות לניהול סיכומיס
ניהול הסיכומיס בטבלת העובדות ב
ניהול טבלאות סיכומיס נפרדות 0
יתרונות וחסרונות שיטות ניהול הסיכומיס ב
קביעת מספר טבלאות הסיכומיס שיש לנהל 0
הוספת תכונות חדשות לטבלאות העובדות או המימדיס ב
הוספת מימד חדש למודל 0
ניהול שינוייס בהיררכיות של המימדיס ב
בניית רשומת מימד חדשה .||
ניהול מצב עדכני ומצב נוסף - 0
ניהול סיכומיס חסחְחִ6הְ4ּח3! סזַהּחִסזִףֶחָ)
הצורך בניהול סיכומיס
0 מחסני נתונים
קביעת המפתחות והעמודות של טבלת הסיכומים 1
זיהוי אוטומטי של טבלאות הסיכומיס
(חסהְהפָובּ סזהסָסזִחֶחָ סוה וחסזטה) 1
חישוב נפח בסיס הנתוניס 1
חישוב נפח טבלאות מימדיס 1
חישוב נפח טבלת העובדות שמש לש 7 17
פרק 7: כריית נתונים (פחוחווא גּזָה) 19
מבוא ל םב ב שד סט מ 1797
מהי כריית נתוניס 0 3.24.20 179
תחומי המחקר שתרמו להתפתחות כריית הנתוניס בשש יספט בש 5 ב בב 2 בי20 10
סטטיסטיקה ל 182
אינטליגנציה מלאכותית 1
מערכות לומדות (פַחוחז68.] 6חוח6הו) ל 1
לימוד והיסק 18
יישומיס, טכניקות, אלגוריתמיס ומוצריס לכריית נתוניס 10
יישומים (פחסוז8סו1סס) 185
טכניקות (010065ח760) 17
הצגה ויזואלית של נתוניס (10069חח60 ד חסו281ו|1808/) 1
הסקת חוקים ויחסים בין הנתוניס (65!₪₪ ח800ו5500) - 0
ניתוח סדר הופעה (פ51ע|8ח/ 28560 06ח56066) 1
ניתוח אשכולות (81/518ח/4/ ז010510) 189
סיווג (חסו0!85511681) 1
עצי החלטה (885זד חס0ו5ו60כ) 1
רשתות עצביות (פאזסע6% |8זטסא) 1
אומדן (ח0סו50081%=) בב 196
טכניקות אחרות ||
טבלת סיכום יתרונות וחסרונות הטכניקות השונות לש 262 ב 195
אלגוריתמים ומודלים (008!5ו/! סח3 פחחחןזוזסט!) 1
מוצריס לכריית נתוניס (5|ססד פַחוחוו אזְהס) 0
תהליך כריית הנתוניס ב 198
אינטגרציה בין מחסן הנתוניס לכריית הנתוניס 2
בעיות עיקריות בכריית הנתוניס 20
סיכוס ג בב 203.45
מבוא :5-35 205
ארכיטקטורות מרובות מעבדיס לעיבוד מקבילי (05ח5%0ע5 |פו|4זְה8ק) 2
ארכיטקטורת :51 (0ַחו06655ז0 טוט 616 והץ5) 2
ארכיטקטורת אשכול (4000016ח0ז זס5%ט01) 20
תוכן העניינים 11
ארכיטקטורת ;| (סֶחו00659ז0 |38|!6ק ץ|סעו55בו) 20
ארכיטקטורת !וא (6ז1600 הז עץזסוח6ו וחזסזוח חסצז) 2
ארכיטקטורת א5/50!6 |8|!8ז8; של חברת יבמ 2
עיבוד מקבילי של שאילתות (0חו06859ז0 ץז6טב) וסְוופזה) 7
מהו עיבוד מקבילי של שאילתה 7
סריקה מקבילית של טבלאות (ח568 6!ס3ד |6וופזהק) 1
צירוף מקבילי של טבלאות (חוס!. ומד |פַווז8ק) 1
מיון מקבילי (4וס60 6ומבּד |8||6ז8ק) 2
זרימה מקבילית (סֶחוחו|ו6קוש עץזפוםט) 2
חלוקת טבלה למחיצות (סָחהוחסוזו 3 6|פ3ד) 1
מדוע לחלק למחיצות || 2
ביצועים שבכו מ 22 ניכשם מט לםפב מ מל שר 219
כושר גידול (עווו508|30 6ופ9ד) 21
ניהול טבלאות גדולות 2
גיבוי ושחזור טבלאות גדולות 2 500 6 2200
שיטות לחלוקת טבלה למחיצות 2
הקצאה אופקית למחיצות (פַחהוחסוזוו8ק 6וסה ד [פ%הסקוזסר) ל 220
הקצאה לפי טווח ערכיס של תכונה (פַחוחסוו8; 6פָח58) 21
הקצאה לפי סדר הגעה (פחוחסוזוז8ק הוסס3 סמטסת) 2
הקצאה לפי אלגוריתם (פַחוחסוזו81= חִפבּרו) 2
חלוקה למחיצות בשיטה ורטיקלית (סַחוחסוזו3= |67068/) 2
חלוקה למחיצות מבוססת חומרה (פַחוסוזז5 מַּוכ) ל
מהי השיטה המומלצת לחלוקה למחיצות 2
תמיכת בסיס הנתוניס בחלוקה למחיצות 225
טעינה מקבילית (030 ] |8|!6ז8ק) 2
מבחני ביצועיס לסביבת מחסן נתוניס 2
סיכוס שש שש שמ לשל של לש 2 22
פרק 9: סקירת התהליכים העיקריים במחסן הנתונים 221
מבוא לק
סיווג התהליכיס במחסן הנתוניס 2
סקירת תהליכי רימה פנימה (06855ז₪ ששסו= חן) 2
מבט-על של תהליכי הורימה פנימה 2
גזירת הנתוניס (חסוסְפּזואם פּוְּהכ) 2
מדוע יש חשיבות לגזירת הנתוניס מהמערכות התפעוליות 2
קריאת נתוני המקור 2
מתי לבצע את גזירת הנתוניס 7
סנכרון נתונים הנגזריס מקבצים שוניס 38
שיטת הגזירה (00ח6%! חסווספּזואם) 2
גזירה מלאה (חסוְהּחְַהקסזק הזכ ווט=) 2
2 מחסני נתונים
יהוי שינוייס (ח868%0ו1ח06! 08%8 860ַח008) 0
או מהי שיטת הגזירה המומלצת ב
האס לשלב תהליכי מיטוב בתוך תהליכי הגירה ו
האס להעביר גס נתוניס שלא נדרשיס 0
כיצד לממש את תהליכי הגזירה 0
בדיקת וניקוי הנתוניס (בַחוח0!68 ה81כ) 0
בדיקת מרחב הערכיס (ע0ח51516חס6ח! הוהוהסס) ל
בדיקות מול טבלאות (0080% 8!ס8ד סטאסס )) 0
בדיקות אמינות נתונים (עְופָס1ח! וְה0) 7
בדיקות לגילוי גרסאות שונות של נתוניס (0080% חס0ופז9 /) 0
מיטוב נתוניס (0ח6חחססהַחחם מזהכ) 2
הפיכת מידע נסתר ועקיף למידע מפורש וגלוי ל
איחוד רשומות (חסוז081ו001ו26-0 66010) ל
תקנון כתובות (חסו281ו|8חזסצ] 001655) 0
שינוי מבנה הנתוניס (פָחוהחז0ס1פח8זד הַּזה) ולובג
סטנדרטיוציה בייצוג הפיסי 0
שינוי קודיס ואיחוד נתוניס .7
העברת מונחיס תפעוליים למונחיס עסקייס 0
ארגון המונחיס ה
השלמת ערכים חסריס וברירות מחדל 4
דה-נורמליוציה של מבנה הנתונים (חסו281!ו|8חזסח6כ 88) 0
בניית מפתחות מלאכותייס (חסו67891ח26) ץ66)) ב ל ל
המרת מפתחות עבור טבלת העובדות לפ טש 5
טעינת הנתוניס למחסן הנתונים (טַחו1.080 8%8כ) ל
תהליכי הזגרימה מעלה (06855ז₪ צוסו= סנ) ל 2 0
הכנת טבלאות הסיכוס 0
הכנת אינדקסיס עבור טבלאות הסיכוס ב
סקירת תהליכי הזרימה מטה (5706655 צוסו= חשצסס) 0
סקירת תהליכי הזרימה החוצה (06855ז₪ צוסו= +0) 1
סקירת תהליכי הזרימה מידע על הנתונים (0655ס0זק צוסו= 0818 618ו₪) 0
פרק 10: מידע על הנתונים (16+303%3)) 259
לשסם מה דרוש מידע על הנתוניס 7
מהו יימידע על הנתוניס" %--
חשיבות המידע על הנתוניס בסביבת מחסן הנתוניס ל
קטגוריות של יימידע על הנתונים'י 0
מיפוי וגזירת נתוניס (חסוז1180א= 0ח8 מחוססבּוש בּּהס) 0
מיפוי למונחיס עסקיים ....
היסטוריית גזירת הנתוניס
תוכן העניינים
|33
טבלאות סיכוס (61808318!! ח0סו281ווה ה וח6) ב
מידע כמותי (19+80819/! 02160160 6חגווסצ) ו
מידע אודות נגישות (6180819!/! חז0ש)8 60655) 0
בקרת גישות (חסו281וזסתז 00655) 0
מידע מערכת (6180818! הח5/5%6) 0
מוצרים לניהול המידע על הנתוניס - 0
פרק 11: מרכולי נתונים (פ5ו3ּו] ₪033) | 269
הגורמיס לפופולריות הרבה של תפיסת מרכול הנתוניס 1
הסיכוניס והבעיות בתפיסת מרכול הנתוניס 5
ארכיטקטורת מרכול הנתוניס ו
מרכול נתוניס בארכיטקטורה דו-שכבתית
(60%076+וח0ז זזבּ!/! 318 זסוד סעצד) 7
מרכול נתוניס בארכיטקטורה תלת-שכבתית
(6זט1661וח6ז +זהּו 818 זפוד 66זחד) 0
סוג בסיס הנתוניס של מרכול הנתוניס - 0
שיקוליס למימוש מרכול הנתוניס בארכיטקטורה תלת-שכבתית.
מודליס לפיתוח והקמת מרכולי נתוניס 0
פיתוח מרכול נתוניס במודל מעלה-מטה (0061ו/! חששסס ססד).
פיתוח מרכול נתוניס במודל מטה-מעלה (|08סו 0 חזסוזס0ם)
פיתוח מרכול נתוניס במודל מקבילי (ו08ס! ופְוופז8ק) 8
עקרונות המתודולוגיה 7
מבנה המתודולוגיה ||
השלביס במחזור החייס של מחסן הנתוניס (0!6ע6 1.16 6פ5טסחִ6זְ8/ מַזְהכ) 0
נושאיס לטיפול בכל שלב במחזור החיים יר
פירוט השלביס במתודולוגיה 0
שלב 1: בחינת הצורך העסקי ומוכנות הארגון ו
מהות השלב 22
יהוי התהליכיס העסקיים העיקריים
(ח0סו060111681!] 706655065 655ה251) ב[
זיהוי סדרי עדיפויות ליישוס (₪65חסוז₪ חסוז%91ח6רח6!כחו!).
הערכה ראשונית לגודל מחסן הנתונים ו
בחינת המוכנות הארגונית (468010655 |8ח2800וח98זכס)...
4 מחסני נתונים
הצגת הצורך העסקי והמוכנות הארגונית להנהלה ל
שלב 2: גיבוש ארכיטקטורת העל ב[
מהות השלב ||
ייווס פרויקט ארכיטקטורת העל (ח8!ם אזס/ 0חה ז110הח0 660[סזק) 295
סקירת הנושאיס המטופלים בתוכנית האב 2
פונקציונליות .2960
הנתוניס מ 0 20 בשש לסב 14 מש לכ כ 298
טכנולוגיה 2
תמיכה ||
תוכנית עבודה ליישוס 20
שלב 3 : עיצוב ויישוס מקטע (חסו%91ח6ח6!וח! הסרה 6זסח! 56נוסח6זבּ \ הַזהכ). 305
מהות השלב ב בלש לש בקנ ל לש בי 5 20
בניית מקטע הבסיס (6חו!8856) 205202
עיצוב ובניית מקטע 0
פונקציונליות ב 206
נתוניס 0 0 רפפ 00 0 שממ 206
ארכיטקטורה טכנולוגית של רסב 5 לט 40 2 ו 207
תמיכה 7
שלב 4: תפעול, תמיכה ושיפור 2
מהות השלב ||
מספר עצות מעשיות בבניית מחסן הנתוניס 0
השיקוליס להקמת מחסן הנתוניס חייבים להיגאר מאסטרטגיית הארגון 308
האחריות לביצוע הפרויקט 0
התחל בפרויקט ניסוי (601[סז זסווש) 20
פרויקט ארגוני 7
אל תולזל במאמצ מיפוי נתוניס והעברת הנתוניס 0
טפל בבעיות אמינות הנתוניס החל מהשלב הראשון 0
הייה מציאותי בכל הקשור לבעיות סנכרון הנתוניס בתוך מחסן הנתוניס 210
בחר בתבונה את כלי הקצה 2 ב 52 310
בנה הערכה ריאלית של כוח האדס הנדרש 7
הגדר את כללי אבטחת המידע 1
צפה שעלויות הקמת מחסן הנתוניס תהיינה גבוהות מהמתוכנן 2
בנה קטלוג נתוניס טוב 1
למד את המשתמשיס המתותכמים ואת מנתחי המידע
כיצד לבנות שאילתות טובות פוש פע שב 0 ב מ 9 בב 2.177
סיכוס 1
תוכן העניינים 15
נספח א': מילון מונחים 123
נספח ב': ביבליוגרפיה 15
6 מחסני נתונים
הקדמה
מחסן הנתונים (ספטַסַחִַ6ז9// 28%8) הפך בשנים האחרונות לאחד הנושאים החמים
ביותר בתחוס טכנולוגיות המידע. על פי סקרים שוניס עולה שמספר הארגוניס שעוסקיס
בצורה כלשהי בהקמת מחסני נתוניס, במח במהירות מ- 10% בשנת 1994 עד ל- 90%
בשנת 1998. תוך פרק זמן קצר יחסית הפכו מחסני הנתוניסם לפתרון המועדף לבניית
סביבת מחשוב ייעודית לניהול ואספקת המידע הדרוש לניתוח נתוניס ולתמיכה בתהליכי
קבלת החלטות עיסקיות. ההתפתחות המהירה של תפיסת מחסן הנתוניס באה לאחר
שניס רבות בהס ארגונים פיתחו ויישמו מערכות תומכות החלטה (55כ) לצד המערכות
התפעוליות, אולס ללא הצלחה משמעותית ועס הרבה בעיות וקשיים. רק בשניס
האחרונות הבשילו התנאיס להצלחת מערכות תומכות החלטה: הלחציס הבלתי פוסקיס
על הארגון לקבל החלטות מורכבות ומהירות מחד, ומאידך - ההתפתחויות בטכנולוגיות
המידע בכל הקשור לחומרה, תוכנה וכליסם מתקדמים לניתוח הנתוניס. תנאיס אלה הביאו
להתפתחות תפיסה כוללת לפיתותח ויישוס סביבת מחשוב ייעודית לאספקת מידע לתמיכה
בהחלטות - תפיסת מחסן הנתונים.
הגדרת המושג 'ימחסן נתוניס" עמומה במידת מה. זו סביבת מחשוב ייעודית לניתוח
ולעיבוד אנליטי של הנתוניס והפיכתס למידע תומך החלטות. מחסן הנתוניס מורכב
משלושה רכיבים עיקריים: רכיב העוסק בתהליכי גזירת הנתוניס ממערכות תפעוליות,
רכיב העוסק בניהול הנתוניס ורכיב העוסק באספקת הנתוניס ובביצוע ניתוח המידע. רק
לאחר שמתחילים לעכל את משמעות המושג מחסן נתוניס, להעמיק ולנתח את מלוא
המשמעות של תפיסה זו, מתחילה להתבהר התמונה האמיתית. לפנינו,
%> סביבה עתירת טכנולוגיות מידע שונות,
* סביבה שצריכה לענות לדרישות משתנות שקשה להגדירן מראש באופן מפורש,
> סביבה שצריכה לנהל היקף נתונים גדול,
+> סביבה שמכניסה מימד בלתי ידוע עד כה של כפילות נתונים אל הארגון,
> סביבה העוסקת במיגוון תהליכים, כמו גזירת נתוניס, טיוב הנתוניס וטעינתם, ועוד.
הקדמה | 17
כמו כל לחיט ומגמה טכנולוגית חדשנית, גס מחסן הנתוניס מלווה בסיסמאות רבות
ובציפיות שחלקן אינן ברות השגה. יש חשיבות רבה בהבנת המציאות והאתגריס
האמיתייס שהארגון יצטרך להתמודד איתסםס בעת יישוס מחסן נתוניס וללמוד את
התועלות שהוא צופה להשיג. יחד עס התלהבות הארגוניס באימוץ תפיסת מחסן הנתונים,
שסוף כל סוף מאפשרת להפוך את הנתוניס האגוריס במערכות המידע השונות של הארגון
למידע תומך החלטות, באה המציאות ומוכיחה שתפיסת מחסן הנתונים היא תפיסה
מורכבת ויישומה דורש משאבים רבים. לארגוניס התבררו מספר עובדות :
> מחסן נתוניס לא קוניס אלא בוניס,
> מעט מאוד ספקים מסוגליס לספק את הקשת הרחבה של המוצריס הדרושיס
להקמת מחסן הנתונים,
> תהליך הקמת מחסן נתוניס הוא תהליך מורכב יחסית של שילוב מערכות,
> הנתונים במערכות התפעוליות אינס במבנה וברמת ניקיון מתאימה לתמיכה
בהחלטות,
> הקמת מחסן נתונים הוא פרויקט ארגוני שנמשך ומן,
> הפרויקט צורך משאבים רביס והוא בעל מאפיינים שוניס מתהליך הקמת מערכת
מידע חדשה.
במקביל לסיפורי ההצלחה החלו להישמע גס לא מעט סיפורים על כשלונות ופרויקטיס
שננטשו לאחר שהושקעו משאביס רביס בהקמתם. בדיעבד הסתבר שחלק מהארגוניס
קפצו על העגלה במהירות רבה מדי והתייחסו אל פרויקט מחסן נתונים כאל פרויקט נוסף
לפיתוח מערכת מידע. הס לא טרחו ללמוד ולנסות להבין את מלוא המשמעויות של הקמת
מחסן נתוניס ובסופו של דבר נכשלו ביישוס נושא חשוב ה והפסידו הרבה זמן וכסף.
למרות האתגריס והקשייס בהקמת מחסן הנתוניס, ארגוניס חייביס להבין את התועלות
שבתפיסת מחסן הנתוניס ואת המשמעויות האמיתיות של הקמת סביבת מחשוב חדשה
זו. ארגוניס שיבינו את התועלות, גס יצליחו להמשיך לתפקד ולהצליח בסביבה העסקית
המודרנית, התחרותית והדינמית כל כך. ארגוניס מסוימיס עלוליס להיבהל מהאתגריס
ולהתמקד בעיקר במערכות התפעוליות, ולא במערכות תומכות החלטה. גישה כזו מוליכה
לסיכון של איבוד אחד היתרונות התחרותייס החשובים ביותר: היכולת לנצל את הנתוניס
והמידע כמשאב תחרותי. כאשר מסתכלים על הנתוניס כמשאב תחרותי, אפשר להבין טוב
יותר ומהר יותר מה קורה לארגון, מה קורה למוצריס שהוא מוכר, מה לקוחותיו באמת
רוציס וכיצד ניתן להגביר את נאמנותס למוצרי החברה, מה קורה לשוק שבו הארגון פועל
ובסופו של דבר - כיצד לקבל החלטות עסקיות טובות יותר.
8 מחסני נתונים
מטרת ספר זה להציג ולסקור את תפיסת מחסן הנתוניס על כל היבטיה: מדוע המערכות
התפעוליות ומערכות לתמיכה בהחלטות שונות זו מזו ומדוע צריך להקיס סביבת מחשוב
ייעודית. הקמת סביבת עיבוד חדשה גו מחייבת :
*> להכיר את הארכיטקטורות השונות של מחסני הנתונים,
* להכיר את מיגוון השיטות השונות לניתוח נתוניס והכלים האנליטיים הפועליס
בסביבה זו,
+ להכיר את טכניקות העיצוב של בסיסי הנתוניס המשרתיס את מחסן הנתונים,
+ לבחון את התמונה הכוללת של התהליכים הקיימיס בסביבת מחסן הנתוניס,
> ללמוד על החלופות השונות לפיתוח מחסני נתוניסם ואת מתודולוגיות היישוס שלהס.
הכרת מכלול נושאיס מקיף זה תאפשר לכל ארגון להבין בצורה טובה את מלוא
המשמעויות של תהליך הקמת מחסן הנתונים, ולקבל את ההחלטות בהתבסס על הבנה
מוצקה הן של התועלות והן של הקשיים.
הגישה של הספר היא מעשית ולא תיאורטית. הנושאים מוצגיס בלשון פשוטה ולא
טכנית או פורמלית, הטקסט מלווה במספר רב של דוגמאות ושל תרשימים. נקודת המוצא
היא שהעקרונות והארכיטקטורה של מחסן הנתונים חשוביס בהרבה מהמוצריס
הספציפיים המרכיביםס אותו. על כן, חלק מהמוצריס מוזכריס באופן כללי וכמעט ללא
פירוט. טכנולוגיית מחסני הנתוניס חדשה יחסית ומורכבת מאוסף גדול של מוצריס שוניס
המשתניס כל הזמן. לכן יש חשיבות רבה יותר להבנת העקרונות, התמונה הכוללת
והמקוס של כל מוצר במסגרת הארכיטקטורה, מאשר לאופן הפעולה הספציפי של מוצר
כלשהו. בנוסף, ככל שהזמן שעובר והספר יהיה מונח על שולחן עבודתך, הפרטים לגבי
מוצר וה או אחר כבר לא יהיו תקפיס, בשעה שהעקרונות יישארו איתנו זמן רב. הנקודה
העיקרית המודגשת בספר היא החשיבות בבניית מחסן נתוניס גמיש המסתגל בקלות
יחסית לשינוייס שהארגון עובר, לדרישות המידע החדשות, לטיפול בנפחי נתוניס הולכיס
וגדליס ולמוצריס החדשיסם. חוסר הבנה של התהליכים העיקריים של סביבת מחסן
הנתוניס והתבססות על ארכיטקטורה שלא הושקעה בה המחשבה הנדרשת, עלוליס
לגרוס לכישלון התפיסה ולעגמת נפש, גם אס בשלב ההקמה הארגון השתמש במוצריס
מהשורה הראשונה.
הספר התגבש כתוצאה מפעילותי בתחוס טכנולוגיות המידע, ובעיקר בנושאי בסיסי
נתוניס, טכנולוגיות שרת/לקוח ומערכות מוכוונות אובייקטים. בשניס האחרונות נחשפתי
לנושא מחסני נתוניס, נתתי מספר רב של הרצאות במסגרות שונות של מוסדות הוראה
וימי עיון מקצועייס שוניס ועסקתי בייעוץ להקמת מערכות כאלו. זו אחת מטכנולוגיות
המידע החשובות ביותר ויחד עס זאת אחת המורכבות למימוש ויישום, ולכן אני מאמין
בחשיבות ספר בשפה העברית שיפרוס בפני הקורא את כל רוחב היריעה של הנושא.
הקדמה | 19
מבנה הספר
נסקור בקצרה את תוכן הפרקיס השוניס של הספר, כדי לאפשר לקורא לקבל התרשמות
ראשונית ומהירה של תכולת הספר.
> פרק 1 - רקע ומושגי יסוד
פרק וה מציג את הרקע להתפתחות תפיסת מחסן הנתוניס תוך הדגשת שתי המגמות
העיקריות. מצד אחד, השינוייס בסביבה העסקית שהביאה ללחציס מתמידיס
לקבלת החלטות מהירות ומבוססות; ומצד שני, ההתפתחויות המהירות
בטכנולוגיית המידע עס הופעת המחשביס האישיים, השרתיס המקביליים רבי
העצמה והזולים יחסית, בסיסי הנתוניס היחסייסם המסוגלים לטפל בהיקפי נתוניס
גדוליס והופעת רשתות התקשורת המהירות. הפרק מפרט את ההבדליסם המהותייס
בין היישומיס התפעולייס של הארגון התומכיס בתהליכי העבודה השוטפים לבין
היישומיס האנליטייס העוסקיס בניתוח מידע ותמיכה בתהליכי קבלת ההחלטות.
לסיוס, מוצגת ההתפתחות רבת השניס של המערכות לקבלת החלטות, שהחלה
בשניס הראשונות של המחשוב והשתכללה עס הזמן עד להגדרת התפיסה המודרנית
של מחסן הנתוניס.
%> פרק 2 - ארכיטקטורת מחסן הנתונים (6ז61+6640/ 56וסחפזב3ּ/ ב3%3כ)
פרק וה סוקר את הארכיטקטורות השונות למימוש מחסן הנתונים: מחסן הנתוניס
הארגוני; מרכול הנתוניס; מחסן הנתוניס הרב-שכבתי המשלב את היתרונות של
המחסן הארגוני עס היתרונות של מרכולי הנתוניסם; ומאגר הנתוניס התפעולי שהוא
סוג מסויס של מחסן נתוניס המתאים לאספקת מידע לתהליכים תפעוליים.
+ פרק 3 - סקירת מרחב הטכנולוגיות לניתוח מידע
(50806 ע0!0חה766 8ַחו06655זק |03!7%63)
פרק וה מציג את כל המרחב של נושא ניתוח המידע והעיבודיס האנליטייס לתמיכה
בקבלת החלטות. כדי להבהיר את תהליך ניתוח המידע, מוצגת שרשרת הפעילויות
ההופכת נתוניס למידע, את המידע לידע ואת הידע להחלטות עסקיות. המרחב המלא
של שיטות ניתוח מידע שונות מוצג גם הוא: מחוללי שאילתות ודוחות המשמשיס
לניתוחיס פשוטים יחסית, כלי 01.47 המורכבים יותר והמאפשרים ניתוח רב-מימדי
והכליס לכריית נתוניסם המאפשריס לבצע ניתוחי מידע מורכבים מאוד ולגלות
חוקיות ותבניות בלתי ידועות בנתוניס. הפרק מסתיים בהצגת מפה של מרחב
הטכנולוגיות השונות לניתוח מידע על פי דרישות המידע וסוגי משימות הניתוח
הנדרשים.
+ פרק 4 - ניתוח מידע רב-מימדי (7515ץ!03/ |בּחסופחסוחוס שוטא)
פרק זה מעמיק ומסביר את הדרכים לניתוח רב-מימדי של מידע, אחת מפעילויות
הניתוח והעיבוד האנליטי הנפוצות ביותר. הפרק עוסק בסקירת מושגי היסוד
בניתוח רב-מימדי: מה וה מימד, מה זו עובדה, מהן ההיררכיות בתוך המימדים,
מהן הפעולות העיקריות בניתוח רב-מימדי, מהי הקוביה הרב-מימדית ועוד.
0 מחסני נתונים
> פרק 5 - ארכיטקטורות של מוצרים לניתוח רב-מימדי (65זט+66+/460 קה 1ס)
הפופולריות הרבה של שיטת הניתוח הרב-מימדי תרמה לפיתוח מספר רב של
מוצריס התומכיס בה. פרק זה סוקר את הארכיטקטורות השונות למימוש הניתוח
הרב-מימדי ובאופן מיוחד את שתי הארכיטקטורות העיקריות: ארכיטקטורת
₪01 המבוססת על בסיס נתונים רב-מימדי ייעודי, וארכיטקטורת :ג 501
המבוססת על מנוע רב-מימדי המבצע את מירב העיבודים הדרושים אולס מנהל את
הנתוניס בבסיס נתוניס טבלאי רגיל. הפרק סוקר את ההבדליס בצורת המימוש של
ארכיטקטורות אלו ומציג את המסקנה שהן אינן נוגדות, כמו שלעיתים יצרנים היו
רוצים לגרוס לנו לחשוב, אלא משלימות.
+ פרק 6 - עיצוב רב-מימדי של בסיסי נתונים טבלאיים
(03+83035065 |36]311073 01 הש651כ [בחהסופהס6וחופ שוטא)
פרק וה סוקר את שיטת העיצוב המיוחדת של בסיסי הנתוניס הטבלאיים הפועליס
בסביבת מחסן הנתונים. חלק גדול מתפיסות העיצוב הרגילות של בסיסי נתוניס
טבלאיים הפועליס בסביבות של עיבוד תנועות אינו מתאים לייעוד מחסן הנתונים.
הפרק מציג את תפיסת העיצוב המיוחדת של בסיסי נתונים המשרתים מחסן נתוניס
תוך הצגת מושגי היסוד: טבלת עובדות, טבלת מימד, טבלאות לא מנורמלות,
סכמות כוכב, סכמות פתיתי שלג, טבלאות סיכומים, שיטות לניהול שינוייס
במימדים ועוד.
> פרק 7 - כריית נתונים (טחוחו! ב4הכ)
פרק וה מציג את אחד הנושאיס היתמיסי ביותר כיוס במסגרת תפיסת מחסן
הנתונים. לרביס נושא וה נשמע כמו מדע בדיוני שרלוונטי בעיקר לחוקריס ומדעניס.
המציאות כמובן שונה מאוד. כריית הנתוניס מורכבת ממספר טכנולוגיות מחשוב
ומוצרי תוכנה שוניס המאפשריסם לארגון לנתח את הנתוניס, לגלות חוקיות פנימית
ובלתי ידועה מראש, לגלות תבניות ולבצע תחזיות מבוססות. לכריית נתוניס
משתמשים במספר טכניקות סטטיסטיות וטכניקות הלקוחות מתחומי מחקר
מתקדמים כמו אינטליגנציה מלאכותית, מערכות לומדות וכדי. הפרק סוקר את
מיגוון היישומיס האפשריים, את הטכניקות הנפוצות לכריית נתוניס ואת מקומו של
תהליך כריית הנתוניס במסגרת תפיסת מחסן הנתוניס.
%> פרק 8 - הטכנולוגיה המקבילית בשירות מחסן הנתונים
(65פטַסחִַ6זִ3/ 03+8 חו עֶטַס!סחח66ד ו[6וובּזובק)
ההתפתחויות המהירות בשניס האחרונות בכל הקשור לארכיטקטורות חומרה
מרובות המעבדים השפיעו רבות על תפיסת מחסן הנתונים. התברר שניתן לנהל
ולעבד באופןו יעיל נפתי נתוניס עצומיסם וגם לעשות ואת בעלויות סבירות.
לטכנולוגיה המקבילית היתה השפעה על מספר רב מאוד של תחומיס הקשוריס
למחסן הנתונים: ניהול בסיס נתונים, אופטימיוציה של גישה לבסיס נתוניס, טעינה
מהירה של נתוניס ועוד. הפרק סוקר את הארכיטקטורות העיקריות של ריבוי
מעבדיס, את השיטות לעיבוד מקבילי של שאילתות ואת שיטת חלוקת בסיס
הנתוניסם למחיצות כשיטה לניהול יעיל של נפחי נתוניס גדוליס.
הקדמה | 21
% פרק 9 - סקירת התהליכים העיקריים במחסן הנתונים
(565ַּסַחִ6זְב3// 23+8 חן 0665565זק חוב3ּ!)
מחסן הנתוניס הינו עתיר תהליכי עבודה: תהליכי גזירת הנתונים מהמערכות
התפעוליות, תהליכי סיכוס נתוניס לייעול ניתוח הנתוניס, תהליכי אספקת הנתוניס
לכלי הניתוח השוניס ותהליכי גיבוי והעברת הנתוניס למדיה זולה יותר. המציאות
היא, שארגון משקיע אנרגיה רבה בהקמת ותחזוקה שוטפת של תהליכים אלה. פרק
זה סוקר את מכלול התהליכיםס תוך מתן דגש מיוחד לתהליכיס המורכבים לגזירה,
לטיוב ולהמרה של הנתוניס, שנעשיס לרוב באמצעות תוכנה ייעודית.
> פרק 10 - מידע על נתונים (%3+6+808/])
פרק זה מציג את נושא המידע על הנתוניס. נושא זה הינו בעל חשיבות רבה להצלחת
מחסן הנתונים, אולס בגלל מורכבותו והעדר כלים מספיק טובים ומקיפים, הוא
אינו זוכה לתשומת הלב המתאימה מצד מפתחי מחסן הנתונים. הפרק סוקר את
הסוגיס הרביס והמגווניס של מידע על הנתוניס שיש לנהל בסביבת מחסן נתונים:
משמעות הנתונים, מבנה הנתונים, היכן הס מאוחסנים, למתי הם נכונים, מה
מקורס ועוד.
> פרק 11 - מרכולי נתונים (5+ז3 בּא3כ)
מרכול הנתוניס הפך בשניס האחרונות לאחד הנושאיס החשובים והבולטיס ביותר
במסגרת תפיסת מחסן הנתונים. למעשה, והו מחסן נתוניס ממוקד במחלקה
מסוימת, בנושא מסויס או במטרה מסוימת. תפיסה זו התפתחה על רקע הקשייס
בהקמת ומימוש תפיסת מחסן הנתונים הארגוני, שהינה מקיפה ורחבה. מרכול
הנתוניס אינו מתיימר לתת פתרון מקיף לארגון בתחוס התמיכה בקבלת החלטות.
זהו גס מקור ההתלהבות והעניין בו: קל יחסית להקימו, עלות ההקמה זולה יותר,
הבעלות עליו ברורה, קל יותר להצדיקו מבחינת עלות/תועלת. אך בצד התועלות
הברורות של תפיסת מרכול הנתוניס, יש לא מעט סיכוניס בתפיסה זו. פרק זה סוקר
את תפיסת מרכול הנתונים, מה הרקע לפופולריות שלו, מהם הסיכוניס במרכולי
נתוניסם, מה הארכיטקטורה שלהם ומהסם המודליס השונים להקמת מרכולי נתונים.
+ פרק 12 - מתודולוגיה ליישום מחסן הנתונים
(ע16+0000!00! ה0ו+9+ח6וח6!כןוח] 56סח6זוב3ּ) 3+3כ)
הפרק האחרון של הספר מוקדש למתודולוגיית היישוס של מחסני נתוניס. הפרק
בוחן מדוע יש צורך במתודולוגיה ייחודית ומותאמת, מהס עקרונות המתודולוגיה,
מהס השלבים השוניס בתהליך הקמת מחסן הנתונים, מי הס בעלי התפקידיס
השוניס הפועליס בסביבת מחסן הנתוניס. לסיכוס ניתנות מספר עצות מעשיות
לבניית מחסן הנתונים.
+ נספחים - שני נספחיס בספר זה. האחד עוסק במינוחיס והוא משמש גסם כאינדקס,
והשני מפרט את הביבליוגרפיה על פיה נערך ספר זה.
2 מחסני נתונים
קהל היעד של הספר
הספר מיועד לקהל קוראים מגוון, וביניהס:
%> מנהלים ומשתמשים עתידיים של מחסן הנתונים. חשוב שציפיותיהס ממחסן
הנתוניס תהיינה מעשיות וניתנות למימוש, ורצוי שיהיו מסוגלים להגדיר את
דרישותיהם מתוך הבנת התהליך הכולל לבניית מחסן הנתונים.
+ מנהלי מחשוב המבקשיס להקים מחסן נתוניס בארגון. אלה מבקשים להבין טוב
יותר את מלוא המשמעויות של פרויקט ההקמה והיישוס ובכלל זה: מהו מחזור
החיים של הפרויקט ובמה הוא שונה ממחזור חיים של מערכת מידע רגילה, מה
המתודולוגיה להקמה ויישום, אילו סוגי עובדיס צריך להקצות, מה האתגריס
הטכנולוגייסם שהס צפויים להתמודד איתם, ועוד.
+ מנתחי מערכות המבקשים להבין את הטכנולוגיה החדשה ולהצטרף לפרויקט מחסן
נתונים. עליהס ללמוד על תהליכי ההקמה, המושגיס העיקריים, שיטת העבודה
לניתוח המערכת, הכלים הדרושים ועוד.
> מעצבי בסיסי נתונים הרגיליס לעצב בסיסי נתוניס למערכות עיבוד תנועות רגילות
ומבקשיס להבין מה ההבדל בין טכניקות העיצוב הרגילות לבין טכניקות העיצוב
המיוחדות לסביבת מחסן הנתונים.
> ארכיטקטים של מערכות מידע המבקשיס לשלב את תפיסת מחסן הנתוניסם במסגרת
הארכיטקטורה הכוללת של מערכות המידע בארגונס.
הטבלה הבאה מציגה את הפרקיס השוניס המומלציס ביותר לסוגי הקוראים השוניס.
. מעצבי מעצבי
7 מנהלים/ | מנהלי | מנתחי | בסיסי | מערכות
ו משתמשים | מחשוב | מערכות נתונים
ארכיטקטורת מחסן הנתונים
סקירת מרחב הטכנולוגיות לניתוח מידע
ניתוח מידע רב-מימדי
ארכיטקטורות של מוצרים לניתוח רב- מימדי
עיצוב רב-מימדי של בסיסי נתוניס טבלאיים
רקע ומושגי יסוד
כריית נתונים
הטכנולוגיה המקבילית בשירות מחסן הנתונים
סקירת התהליכים העיקריים במחסן הנתונים
מידע על הנתונים
מרכולי נתונים
מתודולוגיה ליישוס מחסן נתוניס
הקדמה | 23
4 מחסני נתונים
פרק 1: רקע ומושגי יסוד
מבוא
יכולתס של ארגונים הפועלים בסביבה העסקית המודרנית לקבל החלטות אפקטיביות
ובעיתוי הנכון, הופכת לקריטית יותר ויותר. הארגוניס עובריס תהליכי שינוי מתמידים,
הן בתהליכי העבודה והן במבנים הארגוניים. שינוי גה הוא תוצאה של גיוון המוצריס
והשירותיס שהס מציעיס ללקוחותיהם, קיצור אורך החיים של המוצריס שהם מייצרים,
תהליכי רכישות ומיזוגים, תהליכי הפרטה במגזרי שוק ההולכים וגדלים וניסיון לנצל
הזדמנויות עסקיות חדשות בשווקיס המקומיים והעולמיים. הסתיים העידן בו ארגון יצר
לעצמו יתרון תחרותי באופן חד-פעמי ואחר כך נהנה ממנו למשך שניס רבות. כיוס נדרש
הארגון להתחדש כל הזמן, לזאהות את המגמות המשתנות במהירות, לזהות בזמן את
המתחריס החדשים, לזהות את השינויים הצפויים בכללי המשחק וליצור את היתרון
התחרותי פעס אחר פעם.
האתגר העומד בפני המנהלים, ברמות הניהול השונות, הוא לקבל החלטות עסקיות נכונות
המשפיעות באופן חיובי על ייהשורה התחתונה" - ההצלחה העסקית. אתגר זה הופך
למורכב יותר, והמחיר של החלטה שגויה הופך להיות יקר יותר. מקבלי ההחלטות
נדרשיס לענות על מיגווו שאלות בעלות השלכה משמעותית על יכולת הארגוניס לשרוד
ולשמור על מעמדס התחרותי.
המבניס הארגונייס החדשיס ישטוחיס' יותר ובעלי מספר קטן יותר של רמות היררכיה.
הארגוניס הפקידו את הצלחתם העסקית בידי מספר הולך וגדל של מנהליס העוסקיס
בתהליכי קבלת החלטות באופן פעיל ושוטף. ניתן לומר שבסביבה התחרותית המודרנית,
תלויה הצלחת הארגון ביכולתס של מקבלי ההחלטות להבין ולפענח את הזרס הבלתי
פוסק של הנתוניס ושל המידע. יכולות נוספות אותן צריכיס מקבלי ההחלטות להציג הן
התבוננות על הנתונים מנקודות מבט שונות, איתור מהיר של מצבים חריגים ובתינת
תסריטיס אפשריים שוניס. עליהס להגיע להחלטות העסקיות במהירות וביעילות.
הלחצים הבלתי פוסקיס לקבלת החלטות מורכבות ומהירות המבוססות על מידע אמין,
הביאו לצמיחת מערכות מחשוב ייעודיות, מערכות תומכות החלטות (זססקט5 חסופוספסם
85 ). כיום, יותר מאי-פעס, הפכו המנהלים לתלוייס במידה רבה ביכולות של
מערכות אלו לסייע להס בהפיכת ורס הנתוניס לידע ולהחלטות עסקיות, שיבטיחו לארגון
יתרון תחרותי.
פרק 1: רקע ומושגיייסוד | 25
יותר מדי נתונים - פחות מדי מידע
תרשים 1.1: החלטות, החלטות.
במשך השנים הופנו עיקר המאמציס והמשאבים של הארגוניס לבנייה ויישוס של מערכות
מחשוב תפעוליות שעיקר מטרתן היתה לתמוך, לייעל ולשפר את תהליכי העבודה
השוטפים. דוגמאות למערכות מסוג זה הן מערכות להזמנת כרטיסי טיסה, מערכות
מחשוב סניפי בנק, מערכות ניהול קשרי לקוחות, מערכות חיוב וגבייה עבור חברות
תשתית (כגון חברות טלקומוניקציה חשמל ומים), מערכות פיננסיות כוללניות, מערכות
מחשוב בנקודות מכירה ברשתות קמעוניות, מערכות כוללניות לתכנון ניהול ותפעול
משאבי הארגון ונוספות.
יחד עס התתכוס ההולך וגדל של מערכות תפעוליות אלו, הגיעו רוב הארגוניס למסקנה
שהשגת היתרון התחרותי בסביבה העסקית המודרנית תלוי פחות בתהליכי הייעול
והאופטימיוציה של המערכות העוסקות בצד התפעולי ויותר - ביכולת הארגון לעשות
שימוש יעיל ונכון במידע ובנתוניס שמערכות תפעוליות אלו מעבדות ומנהלות לאורך
השניס. הארגוניסם החלו לוהות את הפוטנציאל העצוס הגלוס בשיפור תהליכי קבלת
החלטות ובצורך לצייד את מקבלי ההחלטות במידע אמין ומקיף. הבעיה העיקרית היא
שתהליכי קבלת ההחלטות והמידע הנדרש עבורס, שוניס באופן מהותי מהתהליכים
התפעולייס והמידע הנדרש עבורם. המערכות התפעוליות לא נבנו ועוצבו באופן שיאפשר
תמיכה בתהליכי קבלת ההחלטות של הדרגיס הניהוליים. על רקע זה החל להתפתח זן
חדש של מערכות מידע, שעיקר ייעודן ומיקודן הוא אספקת מידע לתמיכה בתהליבי
קבלת החלטות.
מערכות תומכות החלטה התפתחו במהלך 15 השנים האחרונות. בתחילה היו אלו מערכות
לא גמישות המבוססות על מחשבים מרכציים. אחר כך הגיע תור המערכות המבוססות על
גיליונות אלקטרונייס, הפועליס במחשביס אישייס המנותקים ממערכות המחשוב
הארגוניות. השלב הבא היה פיתוח מערכות המיועדות למנהליס בכירים בלבד (5!5).
הגירסה האחרונה של מערכות אלו הן מערכות תומכות החלטה מתקדמות, המבוססות על
טכנולוגיות מידע מודרניות ופועלות במסגרת תפיסה חדשה ורחבה יותר - מערכות מחסן
הנתונים (56וסח6ז3ּ/ ה284). רוב מנתחי השוק צופים שחלק ניכר מהשקעות הארגוניס
בטכנולוגיית המידע בשניס הקרובות יופנה למערכות השייכות לקטגוריה זו.
6 מחסני נתונים
במסגרת מחסן הנתונים מנוהלים הנתוניס הנדרשיס לתמיכה בתהליכי קבלת ההחלטות,
בבסיס נתונים אינטגרטיבי ובמבנה התואם את הדרישות הייחודיות של היישומיס
לתמיכה בקבלת החלטות. המערכות התפעוליות בארגון בנויות ומעוצבות באופן שיאפשר
מחשוב ואוטומציה של מירב הפעולות היומיומיות והשוטפות של הארגון; ולעומתן,
המערכות לתמיכה בקבלת החלטות צריכות להיבנות מתוך מטרה לסייע למנהליס לבסס
את תהליכי קבלת ההחלטות שלהם על מידע אמין, המאורגן באופןו ייעודי למטרה זו.
המערכות התפעוליות טובות מאוד בקליטת אירועים וניהול הנתוניס באופן יעיל ואמין,
אבל הן אינן עונות על הדרישות בכל הקשור לאספקת מידע תומך לתהליכי קבלת
החלטות. כפי שחלק מהמנהליס מתבטאים לעיתים - יותר מדי נתונים ופחות מדי מידע.
כתוצאה מהצורך הבלתי פוסק במידע לקבלת החלטות, וחוסר ההתאמה של המערכות
התפעוליות לספק מידע ה, החלה הצמיחה המהירה של מעוכות תומכות החלטה
המבוססות על תפיסת מחסן הנתונים.
אין חולקים על כך שתפיסת מחסן הנתונים הפכה בשנים האחרונות לאחד הנושאיס
החשוביס והמדובריס ביותר בתחום טכנולוגיית המידע. תוך פרק זמן קצר יחסית הפכו
מחסני הנתוניס לפתרון המועדף לבניית סביבת עבודה מיוחדת ומותאמת לאספקת מידע
(0חסהההסזוטח= עזפעו!6 הסט זסזח!) הנדרש לתמיכה בתהליכי קבלת החלטות וניתוח
הנתוניס בארגון העסקי המודרני. מספר הארגוניס העוסקיס בהקמת מחסני הנתונים גדל
והולך. מולס קייס מספר רב של ספקי כלי תוכנה הבוניס כליס ופתרונות המיועדיס לשוק
מחסני הנתוניס. בנוסף לאלה, הספרות המקצועית מלאה בסקירות ומאמריסם בנושא זה.
מחקרי שוק שונים מצביעיס על כך שרוב הארגוניס הגדולים עוסקים באופן פעיל
בתהליכי הקמת מחסני נתונים, ואלה שעדיין לא הקימו אותס מתכווניסם לעשות ואת
בעתיד הקרוב. הארגונים משקיעיס משאביס ניכרים - אנשים, טכנולוגיה וכסף - כדי
לבנות ולהשתמש במחסני הנתונים.
המטרה העיקרית במאמציס אלה היא לאפשר נגישות קלה לנתונים שהוכנו מראש עבור
יישומים ייעודייסם לתמיכה בתהליכי קבלת החלטות: דיווחים ניהוליים, שאילתות
מתוחכמות, ניתוחיס רב-מימדיים (פופעְוהּחג/ |החסופחפוחוכ ווטוא), סימולציות זו-והח//ו,
מערכות מידע למנהליס (516709ץ5 חהסט8חזסזח] 66001/6אם), ניתוחים סטטיסטייס
וכריית נתוניס (סְָחוחו! 818כ). קיימת הסכמה רחבה, שתפיסת מחסן הנתונים היא
התפיסה הנכונה והמקיפה לבניית תשתית ניהול הנתוניס הנדרשיס בתהליכי קבלת
ההחלטות. תפיסת מחסן הנתוניס מהווה תשתית מוצקה למיגוון יישומיס אלה.
תפיסת מחסן הנתוניסם, כתשתית עיקרית לכלל המערכות תומכות ההחלטה בארגון,
התגבשה בשניס האחרונות והתפתחה כתוצאה משתי מגמות עיקריות:
+ השינויים בסביבה העסקית: על ארגון מודרני הפועל בסביבה עסקית תחרותית
מופעלים לחצים בלתי פוסקים לאתר שווקים והוזדמנויות חדשות, לשפר את איכות
השירות ללקוחות, להוזיל את עלות המוצר, לקצר את זמן הבאת המוצריס החדשיס
לשוק (87661! 0ס) פחחוד) ולשפר את תהליכי קבלת ההחלטות ובקיצור - להתייעל.
דרישות אלו הביאו ללחציס מצד מקבלי ההחלטות בארגון לשיפור איכות וזמינות
המידע העומד לרשותם והנדרש על ידס עבור תהליכי קבלת ההחלטות.
פרק 1: רקע ומושגיייסוד | 27
+ השינויים בטכנולוגיית המידע: ההתפתחויות בטכנולוגיית המידע בכלל, ומהפיכת
המחשב האישי בפרט, הביאו לכך שניתן כיוס לבנות בסיסי נתוניס גדולים מאוד
המנוהלים בשרתים מרובי מעבדים. בשרתיםס אלה ניתן לנהל נפחיס עצומים של
נתוניס בצורה יעילה וגמישה בפלטפורמת מחשוב נפרדת, ללא פגיעה במערכות
התפעוליות של הארגון. עלויות החומרה ואחסון הנתוניס נמצאות במגמה בלתי
פוסקת של ירידה, במקביל לעלייה המתמדת בביצועיס ובנפחי האחסון האפשרייס.
בנוסף, חדירת המחשבים האישיים לכל דרגי הארגון הביאה לשיפור היכולות
האישיות של המשתמשים, בכל הקשור למחשוב וליכולות הצגת וניתוח נתוניס.
שיפור ה הוא תוצאה של ממשקי המשתמש הגרפייםס והופעת כלי שאילתות וניתוח
נתונים מתוחכמים, כלי ניתוח רב-מימדייםס וכדומה.
תפיסת מחסן הנתונים היא תפיסה רחבה המנסה לספק פתרון קצה לקצה (0ח0-40-6ח8
חסט|50) בכל ההיבטיס הקשורים לנושא, וביניהס: הארכיטקטורה הכוללת של מחסן
הנתוניס, תהליכי העיצוב הייחודיים והשוניס מתהליכי העיצוב של יישומיס תפעוליים
רגילים, כלי התוכנה הייעודיים לנושא תמיכה בקבלת החלטות וניתוח נתונים, דרכים
ליישוס תפיסה זו בארגון, ועוד.
למען האמת, מי שמתבונן בתהליכים העובריס על הארגון העסקי בכלל, ועל טכנולוגיית
המידע בפרט, אינו צריך להיות מופתע מהצמיחה המהירה ומתשומת הלב הרבה שתפיסת
מחסן הנתוניס זּכתה לה. המציאות, ברוב הארגוניס המודרניים, היא שהנתוניס מפוזריס
במספר רב של יישומיס תפעוליים שוניס הפועליס על פלטפורמות מחשוב שונות (חומרה,
מערכות הפעלה, רשתות תקשורת, מערכות לניהול בסיסי נתוניס, שפות תכנות וכדומה).
עובדה זו גרמה לכך שהנגישות לנתוניס הפכה למורכבת, מסובכת ויקרה מאוד, במונתי
המשאבים והזמן הנדרשים לשס כך. על קרקע זו צמחה ההבנה הברורה שהפתרון יכול
לבוא רק מבנייה של סביבה מחשובית נפרדת, המותאמת במיוחד ליעדיה - סביבה
לאספקת מידע לתמיכה בקבלת החלטות. על רקע החשיבות ההולכת וגוברת לשיפור
תהליכי קבלת החלטות בסביבה העסקית המודרנית, ברורה לחלוטין המרכזיות
והחשיבות שתפיסת מחסן הנתוניס הולכת ותופסת על במת המחשוב המודרנית.
המגמות האסטרטגיות העיקריות
בטכנולוגיית המידע
טכנולוגיית המידע עברה (ועוברת) תהפוכות רבות בשניס האחרונות. כדי להדגיש ולמקד
את חשיבות נושא מחסן הנתונים, נסקור בקצרה את המגמות העיקריות בטכנולוגיית
המידע, ונצביע על כך שנושא מחסן הנתוניס הוא אחד הנושאיס המרכזיים בתהליכי
השינוי שהיא עוברת. נתבונן במגמות ובשינוייס בטכנולוגיית המידע משתי נקודות מבט
שונות - מנקודת מבט של מבנה וסוגי היישומיס בהס משתמש הארגון ומנקודת המבט של
השינוייס בטכנולוגיות המידע. כפי שנראה בהמשך, מחסן הנתוניס הוא תולדה של מגמות
אלו.
8 מחסני נתונים
המגמות העיקריות בתחום הארכיטקטורה היישומית
במשך השניס פיתחו הארגוניס מערכות מידע שונות אשר שירתו אותס בתחומי הפעילות
השוניס שלהס. עס השינוי בסביבה העסקית החלו הארגוניסם לבחון מחדש את
הארכיטקטורה הכוללות את היישומיס שלהם, והחלו להתאיס אותה לסביבה המודרנית
בה הס פועליס - סביבה עסקית המאופיינת על ידי תחרות רבה, פעילות גלובלית לצד
הפעילות המקומית ודינמיות גבוהה. הארגון העסקי חייב לשפר באופן מתמיד הן את
יכולת התגובה שלו לשינוייס בשוק והן את יכולתו להיות יעיל יותר בכל הקשור לניהול
המשאבים הנדרשים כדי להפוך את התשומות לתפוקות.
ארגון שאינו מבין היטב את לקוחותיו והעדפותיהם, אינו יכול לכוון את מאמציו
השיווקייס לקהל המטרה הנכון, אינו מוהה במהירות את השינוייסם בשוק ואינו מסוגל
להגיב במהירות. ארגון כזה ימצא את עצמו מהר מאוד במצב קשה, וסיכוייו לשרוד
קטנים והולכים. הסביבה העסקית החדשה מחייבת את הארגון להפוך מארגון ממוקד
מוצר (%00ח276) 61טוססזק) לארגון ממוקד לקות (2160160) ז0ו00510). ארגוניס אלה
חייביס להבין טוב יותר את לקוחותיהס ואת הצרכים הייחודייס שלהס, לספק להס רמת
שירות גבוהה יותר ולהבטיח את נאמנותס לאורך ומן. על רקע מגמות אלו, הפכו מערכות
המידע של הארגון מכלי תפעולי לכלי אסטרטגי ממדרגה ראשונה, אשר יכול להבטיח
במידה רבה את הצלחתו העסקית של הארגון.
השינויים בסביבה העסקית ובטכנולוגיית המידע, הביאו להתבוננות מחודשת גם על
הארכיטקטורה הכוללת של מערכות המידע בארגון. ברמת הפשטה מסוימת ניתן לומר
שהארכיטקטורה הכוללת של רוב הארגוניס תהיה מורכבת מארבע השכבות האלו:
מערכות ייעודיות, מערכות ניהול משאבים, מערכות ניהול קשרי לקוח ומערכות תומכות
החלטות.
מערכות ייעודיות
5 ת101100ת1 52601116 +51 1
מערכות ניהול קשרי לקוחות
]תה 1613010051 0 60540 - ]0
מערכות לניהול משאבי הארגון
116501706 4611156 - ]אד
מחסן נתונים
6 א בוג - אוש
מערכות תומכות החלטה
תרשים 1.2: ארכיטקטורה כלל ארגונית עקרונית
פרק 1: רקע ומושגייסוד | 29
תרשים 1.2 מציג את ארבע השכבות העיקריות של ארכיטקטורת-העל ואת קשרי המידע
העיקרייס ביניהן. נפרט כל אחת משכבות אלו.
.%
+
20
מערכות ייעודיות (516₪09עץ5 5260/16 צ00517ח1): לכל ארגון יש אוסף של
מערכות ייחודיות (5ח0וז8סו!מס |08ו61/) המותאמות לתחומי עיסוקו. בדרך כלל,
המערכות הייעודיות מבטאות את השוני בין הארגוניס השוניס ואת תחומי העיסוק
שלהס, כמו בנקאות, ביטות, כרטיסי אשראי, טלקומוניקציה, חשמל, בריאות,
תעופה, מלונאות, הוראה וכדומה. בקטגוריה זו נמצאות מערכות מידע מסוגיס
שונים, וביניהן נציין מערכות כגון מערכות חיוב, גבייה וניהול לקוחות (0ח3 חחוווום
6 ז0ו0ס)!0059), המיועדות למיגוון רחב של שווקיס (כמו טלקומוניקציה,
טלוויוּיה בכבליס, חברות חשמל, חברות מיס וכדומה); מערכות הנדסיות, המטפלות
בהיבטיס שוניס של התשתית ההנדסית של הארגון (כמו תשתית התקשורת
והמרכזיות של חברות טלקומוניקציה, תשתית רשת חברות חשמל, תשתית צנרת
המיס וכדומה); מערכות בנקאיות; מערכות רפואיות ומידע על חולים; מערכות
ניהול קופות רושמות ונקודות מכירה ברשתות קמעוניות; מערכות הזמנות עבור
חברות תעופה; מערכות ניהול חברות כרטיסי אשראי וכדומה.
בדרך כלל השוני בין הארגוניס בא לידי ביטוי במערכות אלו, ולכן מקובל לומר כי
אלו הן המערכות האסטרטגיות והקריטיות ביותר בארגון. בדרך כלל המערכות
מפותחות על ידי הארגוניס עצמם, או מבוססות על חבילות תוכנה העוברות תהליכי
התאמה משמעותיים מאוד.
מערכות ניהול משאבים (חהסַחִסטַבּה3!)] 36500766 56הסזסוהם - ואחאם):
מערכות ניהול משאבים הידועות גםס בשס מערכות 07אם (06ז36500 86!סזסזה=
בָחוחחהום), מהוות כיוס נדבך חשוב בארכיטקטורה הכלל ארגונית ברוב הארגוניס.
מערכות אלו הן פלטפורמה אינטגרטיבית הנותנת מענה כולל לניהול משאבי הארגון
- משאבי אנוש, כספים, מכירות, הפצה, לוגיסטיקה (רכש, מחסנים ומלאי), ייצור
ותכנון הייצור, ניהול פרויקטים, תמחיר, רכוש קבוע ועוד. בגלל המכנה המשותף
הרחב בין הארגוניס השוניס בכל הקשור לניהול המשאביםס שלהם, הגיעו רוב
הארגוניס להכרה בדבר חוסר הכדאיות בהשקעה בפיתוח עצמי והכירו בכדאיות
השימוש בחבילת תוכנה סטנדרטית וגמישה.
מערכות ניהול משאביס נמצאות כיוס בהישג ידם של רוב הארגונים. הן מקיפות
וגמישות וניתן להתאימן למיגוון הצרכיס של הארגוניס. למשל, ארגוניס יצרנייס
בעלי תהליכי ייצור שונים, ארגוני שירות כמו חברות טלקומוניקציה, בנקאות,
ביטוח, ארגוני בריאות ורביס נוספים. עבור חלק מהארגוניס, בעיקר התעשייתיים,
מערכות אלו מהוות פתרון כמעט שלס לכל צרכי המחשוב. לעומת ואת, עבור
ארגוניס אחריס הן רק חלק ממכלול מערכות המחשוב שלהם, ולרוב הן משולבות
במערכות הייעודיות. ביןו המערכות המובילות כיוס בעולס בתחוס המערכות
הכוללות לניהול משאבים ניתן לציין את: 3/₪ של חברת -(53, 07808
פחסוז68ו|ס של חברת 80!6ז2), ח288, 60016508ם, ועוד.
מחסני נתונים
.*
*+*
מערכות ניהול קשרי לקוח (ָחסוחִסהחַהּה13! כוה5ח0ו36!31 ז0וה0ס+005 - ₪ח0):
המעבר מארגוניס ממוקדי מוצר לארגוניס ממוקדי לקוח, תרס לכך שרוב הארגוניס
מדגישיס כיוס את ניהול המידע על הלקוחות והמגע עס הלקוחות. מערכות אלו
הפכו לאבן בניין חשובה בארכיטקטורה הכוללת של מערכות המידע, לצד המערכות
הייעודיות ומערכות ניהול המשאבים. מערכות ניהול קשרי לקוח עוסקות במיגוון
נושאיס וביניהם: ניהול מכירות ואינטראקציות לקוח (ַחפַחחִססהָּח3ּ! %861ח00),
ניהול מוקדי שירות ומכירות ללקוח (ז19ח68 ||08), תמיכה בלקוחות (065%6 0|ו6רו),
ניהול מבצעי שיווק ודיוור ישיר (0חו8!68761 ד) וכדומה.
מערכות ניהול קשרי לקוח עושות שימוש הולך וגדל בטכנולוגיית 011 (ז6וטקח 60
חסופזטָ6ח! שְהסחק6!6ד), המאפשרת שילוב מתוחכםס של מערכות מחשוב עס
פלטפורמות מיתוג (מרכזיות טלפונים). שילוב וה מאפשר בניית יישומיס
מתוחכמים, שבהס נמצא ניתוב חכס של שיחות טלפון על סמך נתוניסם המנוהליס
במערכות המידע, שימוש במערכות מענה קולי אינטראקטיבי, שילוב פקס ותמונה
וכדומה. בתחוס זה עדיין לא ניתן להצביע על מערכת אחת אינטגרטיבית כוללת
ולכן, בדרך כלל, הארגון צריך להתבסס על מספר מערכות ולטפל באינטגרציה
ביניהן. שיס לב לייתופעה'י החדשה, בה מספר גדל והולך של יצרני מערכות לניהול
משאבים רוכשיס מערכות לניהול קשרי לקוח, ומשלבים אותן במערכות שלהם.
מערכות תומכות ההלטה (575+605 +וסקקט5 הסן260!5): אלו הן מערכות
ייעודיות לתמיכה בתהליכי קבלת החלטות, או בשמן המודרני מחסני נתונים.
מערכות אלו פועלות לצד כל סוגי המערכות האחרות בארגון וניזונות בנתוניס
הנגזריס מהמערכות האחרות ומאורגניס במבנה אינטגרטיבי וייעודי ליישומי תמיכה
בקבלת החלטות על ידי מערכות אחרות. תפיסת מחסני הנתוניס מבוססת על
טכנולוגיות מחשוב מודרניות ומהווה מרכיב חשוב בתהליך ההופך נתוניס להחלטות
עסקיות. בשכבת מחסן הנתוניס נמצא טכנולוגיות וכלים לעיבוד אנליטי וניתוח
מידע, וביניהס: מחוללי שאילתות ודוחות, מערכות מידע למנהלים (15ם), מערכות
ניתוח מידע רב-מימדי (פופעְ|הח/ 2818 |החסופחפחזו וטו), מערכות לכריית
נתונים (פָחוחוו/] 818כ) ועוד. בנושאיס אלה דן ספר זה.
המגמות העיקריות בתחומי טכנולוגיית המידע
הבה נסקור בקצרה את המגמות העיקריות בתחוס טכנולוגיית המידע. מתוך כלל
השינוייסם והתהפוכות הקשורים לצד הטכנולוגי, נצביע על המגמות האסטרטגיות
העיקריות הבאות: השיפורים ביחסי עלות/ביצועים של החומרה, המעבר למחשוב מבוזר
מבוסס שרת/לקוח, הופעת האינטרנט והאינטראנט והשימוש ההולך וגדל בטכנולוגיית
האובייקטים. נפרט בקצרה כל אחת ממגמות אלו:
.*
+*
ירידה מתמדת בעלויות החומרה, תוך עלייה מתמדת בביצועיה: במשך השנים אנו
עדים לשיפור בלתי פוסק בביצועי המעבדים, מערכות חומרה מבוססות על ריבוי
מעבדיס ועיבוד מקבילי, שיפור מתמיד בביצועי הזיכרון המרכזי ובנפחו, הגדלת
קיבולת האחסון בדיסקים, מהירות גבוהה יותר להעברת נתונים בין התקני
פרק 1: רקע ומושגייסוד | 31
קלט/פלט לבין הזיכרון הפנימי, ועוד. שיפוריס בלתי פוסקיס אלה בעוצמת החומרה
מלווה בירידת עלויות, דבר שהפך רכישת שרתיס בעלי עוצמה גדולה לנחלת רוב
הארגוניס, ולא רק ארגוני הענק.
> מעבר לסביבת שרת/לקוח ומחשוב מבוזר (60+שט10זו9ו ח3 ז6צז4/56ח61:6
וטו ס6): ממחצית שנות ה-80 ניתן לוהות מגמה ברורה של מעבר מיישומי
מחשוב מבוססי מחשב מרכזי ליישומי מחשוב המבוססים על טכנולוגיות שרת/לקות
ומחשוב מבוזר. בשניס האחרונות אנו עדיס להתפתחויות רבות ומרשימות בתחומיס
אלה: עוצמת המחשוב של המחשב האישי, עוצמות חישוב ומהירויות עיבוד, העוצמה
של ממשק המשתמש הגרפי (08069!ח! ז59() |68וחק9זס), שרתים רבי עוצמה
וזוליס יחסית הפועלים עס מערכת הפעלה פתוחה כמו אוחש ו- ד פשססחוצ)ו,
בסיסי הנתוניס הטבלאייס (₪85659 ₪8%8 |8ח46|800), רשתות התקשורת
המקומיות (5אזסע46!] 68ז |1068), תוכנות קישור (1]//10016/816) בין פלטפורמות
מחשוב הטרוגניות ועוד. התפתחויות אלו תרמו לגל הגואה של הופעת יישומי מחשב
מתוחכמים, בעלי פונקציונליות מורכבת, השוניס באופן מהותי מהיישומיס שהכרנו
עד כה.
הארגון המודרני הנדרש להתמודד בסביבה דינמית הולכת וגדלה, מצא שיישומיס
המבוססים על תפיסת שרת/לקוח מספקים רמה גבוהה יותר של פונקציונליות,
גמישות ותגובה. למרות הקשייס שבהס נתקלו הארגוניס בתפעול ובתחזוקת יישומי
שרת/לקוח, ולמרות האכזבה מכך שמודל מחשובי זה לא הביא להוזלה המובטחת
בעלויות, ניתן לומר בוודאות גבוהה שתפיסת המחשוב המבוזר היא התפיסה
המועדפת על הארגונים. כל זאת, למרות הקושי לנהל, להפיצ ולתחזק את היישומיס
בסביבה זו. על רקע זה אנו עדיס להתפתחות מודל שרת/לקוח, המבוסס על
טכנולוגיות אינטרנט.
%> האינטרנט והמסחר האלקטווני (6וה0ז601! | 3806 6%ה0:3ה!|/6%הז6+%חה!
6 וח 0 0): מהפיכת האינטרנט התרחשה במהירות עצומה. האינטרנט ענה על
צורך אמיתי של שיתוף והפצת מידע לכמויות הולכות וגדלות של משתמשים פנימייס
בארגון, ללקוחות הארגון ולשותפיו העסקיים. רשת האינטרנט מייצגת שיטה זולה
ויעילה להגיע אל המשתמשים ואל הלקוחות, ולמעשה מהווה את ראשיתו של תהליך
החלפת השוק הפיסי והמקומי בשוק מסחר אלקטרוני מדומה (ופט)זו/
686 וגלובלי. בנוסף, מציג מודל המחשוב המבוסס על תפיסת האינטרנט
והתקנים שלה, מודל נוח של הפצת ותחזוקת תוכנה בסביבה מבוזרת והטרוגנית,
נושא שסביבת שרת/לקוח רגילה מתקשה להתמודד עמו. סביר להניח, שעס הזמן
נהיה עדיס ליישומים רבים יותר המבוססיס על טכנולוגיות אינטרנט, אשר יחליפו
בהדרגה את החיישומיס מבוססי מודל שרת/לקוח המקובל.
> טכנולוגיה מוכוונת אובייקטים (ע8ס!סהת7606 %66ה0716 00[66%): הצורך
המתמיד בשיפור תהליכי פיתוח התוכנה ובשיפור היצרנות של המפתחיסם הוביל
למגמה הולכת ומתחזקת של שימוש בטכניקות ניתותח, עיצוב ופיתוח תוכנה
המבוססות על מודל האובייקטים. טכנולוגיית האובייקטיס טומנת בחובה את
ההבטחה שניתן יהיה להגיע לתהליכי ייצור תוכנה, אשר מבוססים על רכיבי תוכנה
2 מחסני נתונים
מוכניס מראש (ח6חקס!|8ש6 28560 זחפחסקו 00), בכוונה לקצר משמעותית את
תהליכי הפיתוח. השימוש ברכיבי תוכנה מוכניס מראש גם ישפר את אמינות התוכנה
המתקבלת ויאפשר בניית מערכות תוכנה מורכבות הבנויות מרכיבי תוכנה פשוטיס
יחסית, שלעיתים גס יפותחו על ידי יצרני תוכנה שוניס. סטנדרטיס כמו 00358 או
00₪כ מיועדיס לתמוך בתפיסה של בניית מערכת תוכנה מרכיבים המפותחים
בנפרד ומבוססים על שיטה אחידה של שיתוף פעולה וקישוריות (עֶ₪ו90ז6ססז0ח!).
מודל האובייקטיסם משתלב ותומך היטב במגמת המעבר לסביבות שרת/לקותח
מבוזרות.
לסיכום, מתוך התבוננות במגמות, הן בצד היישומי והן בצד הטכנולוגי, ומתוך הבנת
הארכיטקטורה הכלל ארגונית של מערכות המידע, ניתן לומר בוודאות שתפיסת מחסן
הנתוניס תהווה את אחת מאבני הבניין החשובות והמרכזיות בטכנולוגיות המידע
המודרניות, ומכאן חשיבותו הרבה של הנושא. ארגוניס שיבינו את התפיסה וכיצד ליישס
ולנצל אותה, ימשיכו להיות תחרותיים ומוביליס בתחומס. לא מקרה הוא שמספר כה רב
של ארגוניס, גם בישראל, מקדישיס לנושא את המשאביס ואת תשומת הלב הניהולית
הנדרשת לשילוב וליישוס התפיסה במסגרת ארכיטקטורת המידע הכוללת של הארגון.
אפיון סוגי היישומים בארגון
כללי
מהדיון עד לנקודה זו עולה שניתן לחלק את מערכות המידע של הארגון לשתי קטגוריות
עיקריות: מערכות תפעוליות ומערכות תומכות החלטות. בסעיף ה נעמיק את הדיון ואת
האבחנה בין שתי קטגוריות אלו, ונראה שאלו הן שתי קבוצות שונות של יישומים,
הדורשות התייחסות שונה ומיוחדת.
הארגון העסקי המודרני מאופיין על ידי ריבוי תהליכי עבודה, שברובס משתמשיס
במערכות מידע ממוחשבות, שמטרתן לתמוך בתהליכי העבודה השוטפים ולתרוס
לקיצורס וייעולס. אנו נקרא להם יישומים עסקיים תפעוליים. לצד היישומיס
התפעוליים נמצא אוסף של יישומים העוסקיס בהצגת הנתוניס ובמצב הארגון. מטרתס
העיקרית של יישומיס אלה היא סיוע ותמיכה בתהליכי קבלת ההחלטות. ליישומיס אלה
נקרא יישומים תומכי החלטות.
בסיסי נתונים בסיסי נתונים
תפעוליים לקבלת החלטות
יישומים יישומים תומכי
תרשים 1.3: בסיסי נתונים שונים ליישומים שונים.
פרק 1: רקע ומושגייסוד | 33
כדי להבין מדוע, בסופו של דבר, דרושים פתרונות שונים, יש חשיבות רבה להבין את
אופיים השונה של שני סוגי יישומיס אלה.
יישומים עסקיים תפעוליים
(5חסו%+63ו!כ0/ 655חו8₪5 |בּחסו+3ו6קס)
לכלל היישומיס העוסקיס בתפעול השוטף של הארגון מקובל לקרוא היישומים
התפעוליים של הארגון והס הראשונים שכל ארגון מפתח או רוכש ומיישס. יישומיס
אלה, למרות שלעיתיס הס מורכבים ביותר, עוסקיס בסופו של דבר במחשוב תהליכי
עבודה מובנים וידועים מראש, התומכיס בהפעלת הארגון באופן שוטף. המשתמשיס
העיקרייס הס הדרג התפעולי בארגון - עובדיס המשרתיס את הקהל, מחסנאים, קנייניס,
עובדיס בקו הייצור, אנשי שירות, מנהלי חשבונות, תמחירניס וכדומה. הנתוניס הנאגריס
בבסיסי הנתוניס של יישומיס אלה הס בעלי ערך רב, מכיון שבלעדיהס תפעולו השוטף של
הארגון בלתי אפשרי. בנוסף לדרג התפעולי משמשים הנתוניס במערכות התפעוליות גס
את דרג המנהלים, לצרכי קבלת החלטות תפעוליות שוטפות.
המערכות התפעוליות המודרניות מאופיינות בכך שהן מקוונות (6ח11 חס). כלומר,
המשתמשיס מבצעיס את עבודתס באמצעות מסופים או תחנות עבודה אישיות. עדכון
המערכת הממוחשבת מתבצע על ידי תנועה (חסו)580ח8ז1) שהיא יחידת עבודה לוגית
אחת, כגון תנועת כניסה למלאי, תנועת משיכה מחשבון בבנק, תנועת רישוס תביעת
ביטוח וכדומה. כל תנועה יכולה לעדכן מספר נתוניס היכוליס להיות מנוהלים בטבלה
(קובץ) אחת או יותר. לדוגמה, תנועת רישוס כניסת פריט למלאי תגדיל יתרת מלאי של
פריט במחסן מסוים, תקטין את הכמות שחייב הספק ותבצע רישוס תנועת מלאי חדשה.
לתנועה יש מאפיין של הכל או כלום (סחוחזסא;-זס-||ה), היא מצליחה או שהיא נכשלת.
תנועה אינה יכולה לעדכן רק חלק מהטבלאות ולהיכשל. בדוגמה הקודמת עודכנו שלוש
טבלאות שונות במהלכה של תנועה אחת. אס מסיבה כלשהי נכשל עדכון הטבלאות תוך
כדי העבודה, תבצע מערכת ניהול בסיס הנתוניס פעולת גלגול לאחור (40!!0806) של
התנועה, כדי לבטל את השפעתה על בסיס הנתונים. וו הסיבה לכך שהיישומיס
התפעוליים נקראיסם גם יישומים מקוונים לעיבוד תנועות - שד01 ( פח1! חס
4חו00655זק הסו580חהזד).
יישומים תומכי החלטות
(5חסו+63ו!0 +וסקקט5 הסו5ו66ם)
בנוסף ליישומיס התפעוליים, כל ארגון מפתח ורוכש יישומיס המציגיס את המידע אודות
מצב העסק. יישומים אלה אינס עוסקיס באופן ישיר בתפעול הארגון, אולס חשיבותס
אינה פחותה. בזכותס יכוליס מקבלי ההחלטות השוניס בארגון לראות את התמונה
העסקית ולקבל החלטות באופן שוטף. חשוב להבין שאוכלוסיית המשתמשים של יישומים
אלה שונה ובעלת צרכיס ודרישות שוניס - מנהליס ברמות שונות בארגון, אנשי תכנון
ובקרה, כלכלניס שתפקידס לנתח מגמות, מנהלי שיווק.
4 מחסני נתונים
היישומיס לתמיכה בקבלת החלטות עוסקיסם בניתוח מצב העסק. הס מציגיס את מה
שקרה, את המשמעויות ומאפשריס לקבל החלטות על מה שצפוי לקרות אם ינקטו פעולות
כאלו או אחרות. לא ניתן לומר שהפסקת פעולת יישומיס מסוג וה עוצרת את פעילות
הארגון, מכיוו שהס תומכיס יותר בתהליכים ארוכי טווח, ולאו דווקא בפעילות
היומיומית השוטפת. להלן מספר דוגמאות ליישומיס השייכיס לקבוצה זו:
> דיווחיס חודשייס לגבי מגמות ברמות המלאי במחסניס.
+ ניתוח הצטרפות לקוחות חדשים על ציר הזמן.
%
> תזרים המזומניס הצפוי.
%
%> ניתוח השפעת שינוי מחיר המוצר על נפח פעילות החברה.
%
> ניתוח השינוייס במכירת המוצרים לפי סוגי המוצר והאזור בארצ.
%
בשל האופי המאוד שונה של היישומיס האלה לעומת היישומיס התפעוליים, מקובל
לקרוא להס י*ישומים תומכי החלטות (68%005ו!סס +זססקט5 הסופוספכ) ואת מערכות
התוכנה המשרתות אותס מכניס: מערכות תומכות החלטות - 055 (זסקקט5 חסופוססס
85. ליישומיס אלה ממוקדים בעיבוד ובניתוח אנליטי של הנתוניס והפיכתם למידע
בעל משמעות למקבלי ההחלטות השוניס בארגון.
השוואת מאפייני שני סוגי היישומים
שתי קטגוריות היישומיס שמפעיל הארגון, יישומיס תפעוליים ויישומים תומכי החלטות,
שונות מאוד זו מזו ובעלות מאפייניס שונים. כדי להדגיש ולהבהיר את ההבדלים ביניהסם,
נשווה ביניהן על פי מספר קריטריונים. החשיבות בהבנת ההבדלים בין שני סוגי
היישומיס היא בעיקר בשל המסקנה הבלתי נמנעת: לא ניתן לספק את דורישות שת
קהיליות המשתמשים באמצעות מערכת מחשוב אחת, ולכן כל סוג יישום צריך לפעול
בסביבה שונה ועל בסיס נתונים שונת. מכיוו שהמשמעות של מסקנה וו מרחיקת לכת -
שתי סביבות חומרה, שני בסיסי נתונים, כפילות נתונים, אוסף שונה של כלי תוכנה לכל
סביבה, עלות גבוהה, תפעול ותחווקת שתי מערכות מחשוב בארגון - מן הראוי לחקור
הבדליס אלה באופן מפורט.
פרק 1: רקע ומושגי יסוד | 35
יישומים תפעוליים יישומים תומכי החלטות
רמת
עדכניות
הנתונים
צורת ארגון
הנתוניס
מספר
המשתמשים
גבוהה ביותר
נדרשת רמת עדכניות גבוהה. מתבצע
עדכון שוטף של בסיס הנתוניס,
באמצעות תנועות המוזנות קרוב ככל
שניתן לרגע היווצרות האירוע.
<יעודית עבור תנועות עדכון
הנתוניס מאורגניס בצורה שישרתו
בצורה הטובה ביותר את תנועות
היישוס (קליטת פקודות יומן, רישוס
עדכון מלאי, פתיחת פקודת עבודה
וכדומה) כדי לעמוד באילוצי ומני
תגובה קצרים ביותר. מכיון שיישוס
תפעולי יכול לבצע את אותה תנועה
אלפי ומאות אלפי פעמים ביוס,
חשוב מאוד לארגן את הנתוניס
בצורה אופטימלית, כדי להשיג את
זמני העדכון הקצריס ביותר
האפשריים. במשך השנים התפתחו
טכניקות עיצוב בסיסי נתוניס שעיקר
מטרתן לוודא שהנתוניס אכן
מאורגניס בצורה מתאימה לביצוע
התנועות. הטכניקה הידועה ביותר
בהקשר וה היא נירמול נתונים
(חסו281ו|החזסא ַז8כ). טכניקה זו
מביאה לכך שבסיס הנתוניס מורכב
ממספר רב של טבלאות, שלכל אחת
מהן מספר מוגבל יחסית של עמודות.
גבות
יישומיס תפעולייס משרתים כמויות
גדולות מאוד של משתמשים, כאשר
רובס מבצעיס את עבודתם בו-
זמנית. נדרש עיצוב מאוד מדויק של
התנועות, תוך שימוש בתוכנה
מיוחדת - זסאחסו! ד למשל,
המאפשרת ניצול יעיל ומתוחכס של
כל משאבי המחשב לקבלת זמני
תגובה קצריס מאוד.
6 מחסני נתונים
נמוכה יחסית
לא נדרשת רמת עדכניות גבוהה. בדרך
כלל דרושים נתוניס שמעודכנים לתקופת
זמן היסטורית כלשהי - לסוף שבוע
קודס, סוף חודש קודם, סוף רבעון וכו'.
לדוגמה, כדי לקבל החלטה על מספר
עותקיס של ספר שרצוי לנהל בספריה,
ניתן להסתפק בנתון המעודכן לסוף
החודש הקודס המציג את מספר
השאלות שבוצעו במהלך 12 החודשים
האחרוניס ומספר הפעמיס שהספר היה
חסר.
<יעודית לשאילתות וניתותי מידע
בדרך כלל אין מעדכניס את בסיס
הנתוניס, אלא רק שולפיס ממנו נתוניס.
בדרך כלל הנתוניס מאורגנים לפי
נושאים (לקוחות, מוצרים, מכירות
וכדומה). מכאן נובע שעקרונות עיצוב,
שעיקר מטרתם השגת זמני תגובה
קצרים לתנועה, אינס רלוונטייס לסביבת
עבודה וו. נירמול הנתונים אינו יעד
חשוב, ולכן מבצעיס לעיתיס דה-נירמול
(חסו281!ו|8וחזסח6כ). היעד החשוב
בסביבות אלו הוא נוחות השימוש,
פשטות מבנה הנתוניס ובהירות, ולכן
הנטייה היא לצמצס במספר הטבלאות
וליצור מספר רב של עמודות בטבלה.
נמוך
משרתיסם מספר מצומצם יותר של
משתמשים. מספרם יכול להגיע למספר
עשרות ולפעמיס אף פחות.
יישומים תפעוליים יישומים תומכי החלטות
כמות
הנתונים
המשתתפים
באירוע בודד
זמני תגובה
יכולת תכנון
מראש של
השימושים
רמת
החשיפה
למורכבות
מבנה
הנתוניס
נמוכה
כל תנועה נוגעת בכמות מוגבלת
יחסית של נתוניס בבסיס הנתונים.
כלומר, מספר הטבלאות והשורות
המשתתפות בכל תנועה קטן.
לדוגמה, תנועה לרישוס כניסה
למלאי יכולה לעדכן 4 עד 5 טבלאות
שונות, ובכל טבלה מספר מוגבל
ביותר של שורות.
קצריס מאוד
נדרשיס ומני תגובה קצריס ביותר.
מקובל להניח שזמני התגובה לתנועה
אופיינית צריכיס להיות בתחום של
מספר שניות ולעיתיס גס חלקי
שנייה. ּמן תגובה ארוך יותר יכול
להביא לדחיית היישוס על ידי
המשתמשים.
גבוהה
משרתיס תהליכי עבודה המוגדריס
ומעוצביס מראש. מכיון שניתן לתכנן
את התנועות מראש, ניתן גס להגדיר
מסלולי גישה (אינדקסים), כך
שהתנועה תתבצע באופן היעיל
ביותר. השימוש בתנועה נעשה
בתדירות גבוהה מאוד וניתן אפילו
לצפות מראש את מספר התנועות
שיישוס יבצע (מתוך ידיעת מספר
המשתמשים, כמה פעמים בממוצע
ליוס מבצע כל משתמש תנועה וכו').
דמת חשיפה נמוכה
משתמש הקצה אינו נחשף באופן
ישיר למבנה הנתוניס ולקשריס
ביניהס, מכיון שכל דרישות העיבוד
והאחזור מתוכננות מראש.
היישומיס התפעולייס מפותחים על
ידי מפתחיס מקצועיים והגישה אל
הנתוניס מתבצעת רק על ידי היישום.
מבנה הנתוניס יכול להיות מורכב
מאוד ולהכיל מספר גדול של
טבלאות. ניווט בין הטבלאות מורכב,
אבל היישוס מבודד את המשתמש
מהנתונים ולכן מורכבות וו חשופה
רק למפתחים.
גבוהה מאוד
שאילתות יכולות להיות מורכבות מאוד,
ולעיתיס דורשות סריקה של כמויות
גדולות של שורות וטבלאות. לדוגמה,
שאילתה המבקשת להציג שינוי שחל
בהיקף המכירות הממוצע לחודש, של
מספר מוצרים, לפי משרדי המכירות,
בשלוש השניס האחרונות, צריכה לבצע
סריקת טבלאות ענקיות, הכוללות את כל
המכירות שבוצעו בתקופה הנדרשת.
קצרים יחסית, גמישות גבוהה יותר
נדרשיס ומני תגובה קצרים, אס כי
הגמישות רבה. בהחלט ניתן להניח שסוג
מסויס של שאילתות יכול להיענות גס
תוך מספר דקות, לעיתיס אף תוך מספר
שעות, ועדיין לא לפגוע ברמת השימוש.
עס זאת, סביר להניח שלרוב השאילתות
הנפוצות יותר נדרשים זמני תגובה
קצריס יחסית.
נמוכה
הגישה ליישומיס אלה היא בעלת אופי
שימוש מזדמן. בדרך כלל קייס קושי
לצפות מראש את סוגי השאילתות ואת
מספר הפעמים ששאילתה מסוימת
תופעל. מסיבה זו קייס גם קושי בהגדרה
מראש של כל מסלולי הגישה שיידרשו.
דמת חשיפה גבוהה
היישומיס מיועדיס בדרך כלל לשימושס
העצמי של בעלי תפקידים שוניס ללא
צורך בתיווך אנשי תוכנה ייעודיים.
המשתמש הוא זה שמגדיר לעצמו את
השאילתות, ולכן גס מבנה הנתוניס
חשוף בפניו. אס מבנה הנתוניס יהיה
מורכב מדי הוא יירתע מלנסות ולהבינו,
ולכן יש חשיבות רבה בבניית מבנה
נתוניס פשוט וקל להבנה.
7
פרק 1: רקע ומושגי יסוד
יישומים תפעוליים יישומים תומכי החלטות
נפח גדו2 דול מא71
הנתונים נדרש עומק היסטורי מוגבל (שנה נדרש עומק היסטורי רב, כי יישומיס
אחרונה, מספר חודשיס אחרוניס אלה מבצעים ניתוחים שונים על ציר
וכדומה). העומק ההיסטורי מוגבל הן | הזאמן. בסיס הנתוניס של מחסן הנתוניס
בשל כך שהדרישות הן כאלו, וגס משלב נתוניס ממספר רב של מקורות,
בשל הרצון שלא להגיע לנפחי נתונים | ומכאן נובע גס שנפתי הנתוניס
גדולים מדי, היכוליס להשפיע לרעה | המנוהליס ביישומיס אלה יכול להיות
על ומני העיבוד. לדוגמה, בנקיס גדול מאוד. ניהול נפתי נתוניס גדוליס
מנצליס את חלון הזמן של הלילה כדי | (28%)828589 18706 צְזפ - םס )/) הוא
לבצע עיבודים שוניס. ניהול עומק נושא מורכב הדורש תכנון ומהווה אתגר
היסטורי גדול מדי בקובץ תנועות של | לא פשוט.
בנק עשוי לגרוס לכך שתהליך העיבוד
יימשך ומן רב מדי ויגרוס לאי עמידה
בחלון הזמן הנתון. מסיבה זו
משתדלים לנהל את העומק
ההיסטורי המינימלי ואת יתר
הנתוניס להעביר לקבציס היסטורייס
מיוחדים.
מקור בעיקר פנים ארגוני פנים וחוץ ארגוני
הנתונים היישומיס התפעוליים מבוססיס על | שימוש נרחב בנתוניס שמקורס פניס
הנתוניס הנוצריס תוך כדי התפעול ארגוני, אולס יחד עס ז1את נדרשיס גס
השוטף. נתוניס ממקורות חיצונייס. לדוגמה, אס
ארגון מבקש לנתח את נתח השוק שלו,
עליו לאסוף גס נתוניס חיצונייס אודות
מתחריו. נתוניס אלה מסופקיס בדרך
כלל על ידי ארגונים כמו בנק ישראל,
הלשכה המרכזית לסטטיסטיקה או
ארגוניס המתמחיס בסקרי שוק ומוכריס
מאגרי מידע ייחודיים.
רמת דמה גבוהה דמה גבוהה
האינטגרציה | רמת אינטגרציה גבוהה נדרשת כדי נדרש מידע החותך את הארגון באופן
של הנתונים | לשמור על אמינות ושלמות הנתונים. | רוחבי, ולא לפי היישומיס התפעוליים.
המציאות היא שהאינטגרציה אינה מבחינת המשתמש הזקוק למידע ניהולי
מלאה. היישומיס התפעוליים זהו קושי רציני מאוד אס עליו לגשת
מוקמיס בדרך כלל על ציר הזמן, למיגוון פלטפורמות ובסיסי נתוניס
לעיתיס גס תוך שימוש בפלטפורמות | שונים, והוא נחשף באופן ישיר
חומרה ותוכנה שונות. ארגוניס רביס | למורכבות זו.
משתמשים ביישומיס שוניס הפועליס
בסביבות הטרוגניות ומורכבות, כגון
יישוס אחד הפועל במחשב מרכזי
(6חחהּזזחו3ּו/) עס בסיס נתוניס 5וו!
או 08085, יישוס חדש יותר הפועל
בשרתי אוח( עס בסיסי נתוניס
טבלאייס כמו 2780!6) או אוחחזסזחו,
חבילת תוכנה הפועלת במחשבי מיני
8 מחסני נתונים
יישומים תפעוליים יישומים תומכי החלטות
כדוגמת 8//1/5ח4|0 עס בסיס
נתוניס ₪05 ויישומיס הפועליס
בשרתי דא עס בסיס נתוניס 501
ז. בדרך כלל נשמרת
האינטגרציה על ידי העברות קבציס
(ז516ח8זד 1!6=) ביו יישומים, או תוך
שימוש בטכניקות קישוריות
(או|וסהז6קסז6זח! 86 עזוטו601 הח 00))
מורכבות המבוססות על כלי תוכנה,
ולעיתיס גס חומרה, מיוחדיס
(007/679 עְהּשו2810)).
המסקנה:
שתי סביבות שונות, אבל משולבות
לאחר הסקירה המקיפה של ההבדלים בין שתי קטגוריות היישומיס אני מקווה שהקורא
אכן השתכנע שמדובר כאן בשתי סביבות מחשוב השונות במטרותיהן ובמאפייניהן, ולכן
גס דורשות טיפול ייחודי. בעוד שהמערכות התפעוליות תומכות בעשיית העסקיס
השוטפת וברישוס האירועיס השוניס במהלכם, עוסקות המערכות תומכות החלטות יותר
בצד הבנת מצב הארגון והבאת עסקיס חדשים. כמובן שאו הכללה רתבה. ניתן גס למצוא
לא מעט מערכות תומכות החלטות שתפקידן הוא שיפור וייעול תהליכי עשיית העסקיס
היומיומית, תוך ניצול מיטבי של משאבי הארגון. יחד עס זאת, רוב הארגוניס שהחליטו
על יישוס תפיסת מחסן הנתוניס התחילו, באופן טבעי, בצד השיווק והמכירות. זאת,
מתוך מטרה להבין טוב יותר את לקוחותיהס, את צרכיהס של אותס לקוחות ואת השוק
בו הס פועלים.
עש ד לשוט'תוטואום העש
אוט יר ל מ >
מערכות תפעוליות מערכות תומכות החלטות
תרשים 1.4: ייעוד שונה למערכות התפעוליות ולמערכות התמיכה בקבלת החלטות.
מחסן הנתוניס משמש למטרה שונה מזו של המערכות התפעוליות ותפקידו לענות על
שאלות שונות לחלוטין. אס ניקח כדוגמה את המערכת הבנקאית, המערכת התפעולית
שלה עונה על שאלות כגון 'ימה יתרת חשבון הלקות'יי, יימה היו התנועות שביצע הלקוח
בחודש האחרון" או ימה יתרת האשראי ומה ריבית האשראייי. אלו שאלות תפעוליות
רגילות. לעומתן, מחסן הנתוניס צריך להתמודד עס שאלות כגון יילכמה מלקוחות הבנק
בעלי יתרה ממוצעת מעל סכוס מסוים עדיין אין כרטיסי אשראייי, יימהי רווחיות הלקוח
על כל המוצריס הבנקאיים שרכשיי, יילאיזה אחוז מבין לקוחותינו המחזיקים כרטיס
אשראי יש גס משכנתה", "מהם מאפייניהם של הלקוחות שנטשו את הבנק בשנה
פרק 1: רקע ומושגייסוד | 39
האחרונה, ולמי מלקוחות הבנק יש לפנות במבצעי שיווק מיוחדים, כדי להקטין את אחוז
הנטישה'י או 'ימיהם חמשת הסניפים בעלי הרווחיות הנמוכה ביותריי. ברור שזהו אוסף
שונה לחלוטין של שאלות בעלות חשיבות עסקית ברמה שונה מהשאלות התפעוליות
היומיומיות.
מבחינת הארגון, אלו שתי קבוצות שונות של יישומיס שכל אחת מיועדת לפתור בעיה
שונה ופועלת בסביבת מחשוב משלה, אך עליהן להיות משולבות ומשלימות. הדרך הנכונה
היא להתייחס למערכות אלו כפועלות בחוג סגור (קסס.1 010560).
> המערכות התפעוליות מנהלות את בסיס הנתוניס התפעולי. כל האירועיס השוטפים
מוזניס באמצעות יישומיס התומכיס בביצוע התנועות המעדכנות את בסיס הנתוניס.
> מחסן הנתונים מנהל בסיס נתוניס עצמאי המותאס במיוחד לתמיכה בקבלת
ההחלטות ולכלי ניתוח הנתוניס. מחסן הנתונים מכיל מיגוון כלי ניתוח נתוניס
שבאמצעותס המשתמשיס מנתחים את הנתוניס ומקבליס את המידע הדרוש להס
לקבלת ההחלטות.
+ להחלטות המתקבלות על סמך המידע המנוהל במחסן הנתונים יש השפעה ישירה, או
עקיפה, על המערכות התפעוליות. לדוגמה, לאחר ניתוח אוכלוסיית הלקוחות
מתקבלת החלטה להציע לפלח מסוים של לקוחות שירות חדש. שירות חדש זה
מחייב שינויים מסוימיס במערכות התפעוליות.
> המערכות התפעוליות קולטות את האירועיס הנובעיס מהחלטות קודמות. נתוניס
אלה מועבריס למחסן הנתוניס לניתוח וקבלת החלטות חדשות, וחוזר חלילה.
תנועות
עסקיות
גזירדת
נתונים
מערכות תבעוליות
דוס
ניתות
נתונים
החלטות
ו מחסן נתוניט
06 3%
תרשים 1.5: מערכות תפעוליות ומחסן נתונים בחוג סגור.
תרשיס 1.5 מדגים כיצד פועלות שתי מערכות אלו זו לצד זו ומזינות זו את זו. במציאות,
מכיון שלא כל הנתוניס מהסביבה התפעולית מועבריס אל סביבת מחסן הנתוניס, בהחלט
ייתכן מצב בו תהליך ניתוח הנתוניס מתבסס על נתונים המנוהלים רק במערכות
התפעוליות לצד הנתוניס המנוהליס במחסן הנתונים.
0 מחסני נתונים
השלבים בגיבוש תפיסת מחסן הנתונים
כללי
מהיוס בו החלו להופיע יישומי המחשב הראשוניס עסוק עולס המחשוב בשאלה כיצד
לאפשר נגישות לנתוניס האגורים ביישומיס. ארגוניס השקיעו מאמציס ומשאביס רביס
בתהליכי רישוס האירועיס העסקייס השוניס (פתיחת הזמנה חדשה, שינוי כתובת העובד,
רישוס סטודנט לקורס, השאלת ספר לקורא, עדכון מלאי של פריט במחסן, רישוס השעות
שנדרשו להרכבת מוצר, רישוס הפקדה בחשבון, רישוס תנועה שבוצעה באמצעות כרטיס
אשראי, רישוס פרטי שיחה טלפונית שביצע לקוח ועוד), מתוך מטרה ברורה לעשות
שימוש בנתוניס לשיפור תהליכי עבודה וליכולת קבלת החלטות.
התסכול שהיה מנת חלקם של המשתמשים שרצו את הנתוניס במבנה התואס את
דרישותיהם הייחודיות ונדחו על ידי יחידות המחשב בגלל הקושי בביצוע המשימה או
בגלל העדר המשאבים לביצועה, היה רב. ככל שמספר היישומיס בארגון הלך וגדל ופיזור
הנתוניס בין היישומים הלך וגדל, הלך וגדל גם הקושי בהצגת נתוניס לרוחב הארגון
(06ו/\ 86וזסזפ%חם). המצב בו נתוניס אודות יישות עסקית מסוימת אחת, לקוח למשל,
מפוזריס במספר מערכות שונות ופועלות בפלטפורמות מחשוב שונות, הפך למצב רגיל
והיקשה מאוד על מקבלי ההחלטות.
השלבים בהתפתחות מערכות לאספקת מידע
לפני שנציג את תפיסת מחסן הנתוניס בצורה מפורטת, נסקור בקצרה את התפתחותם של
היישומיס לאספקת מידע. נעשה ואת מהשלב הראשוני בו נעשה שימוש נרחב בכליס
לגישה לנתוניס המאוחסנים במערכות התפעוליות, דרך מרכזי מידע ועד לתפיסת מחסן
הנתונים. במיליס אחרות, נסקור את השלבים בשחרור הנתוניס מייבית הסוהר לנתונים'י,
כפי שלעיתים נהוג לכנות את המערכות התפעוליות, ועד להבאתם אל מחסן הנתונים; או
כמו ששמעתי באחד מימי העיון של חברת מטה גרופ: 10 6פטט0ח!181. 818 16 סז
6 זה 2818 6ח.
מחוללי דוחות ושאילתות לגישה לנתונים תפעוליים
(]0ס+606139) עץז6טו2) סחג ז6+ו]ז)/ +וסס6א)
כבר בתחילת שנות ה-70, בעידן היישומיס התפעוליים שפעלו בעיקר במחשביס מרכניים,
החלו להופיע כלים שמטרתס היתה לאפשר גישה קלה יותר לנתוניס. בשלב וה החל
להיווצר הידע הראשוני בפיתוח כלי תוכנה כלליים, שמטרתס לאפשר בנייה מהירה
יחסית של דוחות מחשב. השפה העיקרית באותה תקופה לכתיבת יישומי מחשב, שפת
, הורתבה כדי להכיל פקודות מיוחדות לכתיבת דוחות (6ווז// 01ק46). הרחבה
זו נועדה רק עבור המפתחיס המקצועייס שכתבו והכירו את השפה.
פרק 1: רקע ומושגייסוד | 41
במשך הזמן החלו להתפתח כלים חיצוניים לשפת 00801, המיועדיס רק לכתיבת
דוחות: מחוללי הדוחות (8781079ח26) 6001ה). כליס אלה היו עדיין מיועדיס למפתתח
המקצועי, אך הס אפשרו פיתוח מהיר יחסית של דוחות. בין הכליס הראשונים שנועדו
להחליף ולהשלים את כתיבת הדוחות רק משפת תכנות ניתן לציין את המוצר
6
עס הופעת טכנולוגיית בסיסי הנתוניס, החלו גס יצרני בסיסי הנתוניס לספק כליס
ייעודיים שאפשרו כתיבה נוחה של שאילתות ודוחות. שפות שאילתה אלו היו גמישות
ואפשרו כתיבה מהירה של שאילתות פשוטות, והכל באופן יחסי.
בעידן וה ענו מחוללי הדוחות והשאילתות על צורך שהלך וגדל - אספקה מהירה של מידע
מתוך בסיסי הנתוניס התפעוליים. עס ואת, הס לא היו מיועדים לשימוש ישיר על ידי
משתמשי הקצה. מטרתס היתה לקצר את הזמן הנדרש על ידי יחידות המחשב להיענות
לדרישות המידע של המשתמשים.
מחשב תפעולי
כלי שאילתות
מחוללי דוחות
בסיס!
נתונים תפעוליים
תרשים 1.6: יישומים תפעוליים ותמיכה בקבלת החלטות.
ניתן לומר שהחלוצים של מערכות תומכות החלטה היו חברות שניהלו בסיסי נתוניס
גדולים שהכילו נתוני מכירות ללקוחות, וביקשו לנתח את הנתונים באופן מעמיק יותר
ולהבין טוב יותר את לקוחותיהם. חברות אלו החלו להשתמש במחשבים המרכזיים
ובמחוללי הדוחות שהיו קיימיס באותה תקופה, אולס די מהר התבררה להס האמת
המרה: המחשביס המרכזיים הס רבי עוצמה ואמיניס מאוד, אך התוכנה שפעלה בהס לא
הייתה גמישה במידה מספקת כדי להתמודד עם דרישות קהיליית מקבלי ההחלטות
בארגון. די מהר החלו משתמשים אלה להיות מתוסכלים, ובמובן מסוים הפכו יחידות
המחשב לייאויביי שאינו מבין אותס ואינו מספק להס את השירות הנדרש.
סביבות ייעודיות לניתוחים סטטיסטיים במחשבים מרכזיים
במחצית שנות ה-70 החלו להופיע כלים ייעודיים, שהתפתחו מעבודות מחקר
באוניברסיטאות ועסקו בעיקר בניתוחיס סטטיסטיים של הנתונים. בין הכליס היותר
ידועים ניתן למנות את 56 ואת 5055. מטרת כליס אלה היתה ניתוחים מיוחדים, והס
סיפקו טכניקות ניתוח (עיבוד מטריצות, ספריה של פונקציות מתמטיות וסטטיסטיות
וכדומה). בשלב זה החלו להופיע גם ניצניס ראשונים של כלים המיועדיס לניתוחיס
פיננסיים, שכללו נושאיס כמו סדרות עיתיות (פַ55ּעְוהח/ 56765 6חוז), כריית נתוניס
לעומק (חששספ וווזכ), ניתוחי +! 81ח//, חיפושי מטרה ועוד.
2 מחסני נתונים
כל הכלים השייכים למשפחה זו היוו התקדמות משמעותית, לעומת הקושי בגישה
ובשליפה של נתוניס מהמבניס הקשוחים של הקבצים, או בסיסי הנתונים החיררכיים או
הרשתיים שהיו נפוצים באותה עת. במובן מסוים, ניתן לראות בכלים אלה דור ראשון
ופורצי דרך עבור כלי התוכנה המתוחכמים של ימינו, כלי כריית הנתונים.
חלק מכליס אלה, כמו 56 או 0005=, המשיכו להתפתח, להרחיב את הפונקציונליות
שלהס ולהתאים את עצמסם לטכנולוגיות שרת/לקוח מודרניות והס ממשיכים להיות
בשימוש נרחב גס כיוס.
מערכות תומכות החלטה
(575+6₪05 +וסקקט5 חסו5ו60כ - 055)
השלב הבא בהתפתחות מערכות אספקת מידע היה עס הופעת מערכות תוכנה מיוחדות
שנקראו מערכות תומכות החלטות. כלים ראשוניסם אלה היו מבוססיס על מחשב מרכני
ועבודה עס מסופיס והתמחו ביכולת הצגת נתוניס מתוחכמת בחתכי מידע שהוכנו מראש.
בשל כך הס דרשו תהליכי הכנת נתוניס מורכביס למדי והתבססו על ארגון נתוניס ייחודי,
כדי לאפשר ומני תגובה מהירים. הם גם הכילו אפשרויות מגוונות לבניית מודליס
עסקיים מורכבים, לביצוע חישוביס מורכביס ולהצגת הנתוניסם בצורות מתותכמות
(יחסית לאפשרויות שהיו קיימות באותה עת). מכיון שהכליס התבססו על מבנה נתוניס
ייחודי ודרשו גזירת נתוניס ממערכות תפעוליות, נוצרה לראשונה ההודמנות לקבלת
תמונת נתונים ארגונית, ולאו דווקא קבלת נקודת המבט של היישוס הבודד.
הכליס ששימשו למערכות תומכות החלטה היוו את הבסיס למערכות הניתוח הרב
ממדיות המודרניות של ימינו, וניתן למנות ביניהן מוצרים של חברות כגון זסוום,
06 655ז0א= ועוד. התפיסה העומדת מאחורי כליס אלה היא של קוביה ורב
ממדית (0006ז06ץ1) המאחסנת את הנתונים בצורה ייחודית, לאחר שעברו תהליכי הכנה
מיוחדיס.
מערכות מידע למנהלים
(5+6₪15ץ5 הסו+הּוח'וס1ח] 6צו%+66₪א - 5ו₪])
כלים אלה החלו להתפתח עס הופעת המחשבים האישיים והממשקיס הגרפיים ונועדו
לקהל מטרה מאוד מסוים: המנהליס הבכיריס בחברה. מנהליס אלה תמיד עסוקיס
והאמן שהס יכוליס להקדיש לניתוח הנתוניס מועט מאוד. בדרך כלל הס בוחניס את
הארגון ברמה סיכומית גבוהה, וגס כשהס מבקשיס לרדת לפרטים, הירידה לפרטיס
מוגבלת למדי. בשל אופיים המיוחד של משתמשיסם אלה, מבוססות מערכות המידע
למנהלים על דוחות ונתוניס שהוכנו מראש, במבנה המותאס לצורת ההסתכלות של
המנהל הבכיר, ולכן הן התאימו רק לאותס תחתכים וניתוחים שהוגדרו מראש. לדוגמה,
מערכת המציגה את המכירות של חברה בכל העולסם, בכל יבשת, בכל ארצ ובכל סניף.
המנהל יכול לנוע בהיררכיה גו מעלה או מטה, וזהו. הוא יכול להגדיר ערכי סף מסוימיס,
ואס הנתוניס חורגיס מערכי סף אלה הוא יכול לקבל את החריגים בטכניקות שונות: צבע
פרק 1: רקע ומושגיייסוד | 43
שונה, הדלקת רמזור אדוס וכדומה. למשל, אס המכירות באר מסוימת ירדו מתחת לסף
מסויס, ניתן לבדוק את המכירות בכל סניף, לזהות באיזה סניפיס היתה ירידה ולבקש
ממנהל המכירות של אותו סניף את ההסבר לכך.
לעומת יכולת ההצגה, בכל הקשור ליכולת הניתוח האנליטית היוו מערכות אלו נסיגה
לעומת המערכות לתמיכה בקבלת החלטות. בשל יכולות הניתוח המוגבלות ומחירן
הגבוה, לא זכו מערכות אלו להצלחה גדולה. קושי נוסף נבע מכך שמערכות אלו יצאו
מנקודת הנחה שהמנהל הבכיר אינו מביו במחשביס ואינו אוהב להשתמש במחשב, ולכן
יש צורך לבנות את המערכות באופן הדורש אינטראקציה מינימלית בלבד. הנחות אלו היו
אולי נכונות במידה מסוימת לאותה עת, אבל הן בוודאי אינן נכונות לימינו אלה.
מרכזי מידע (%615+ח66 חסוזבּחזוסזח!)
בתחילת שנות ה-80 החל עידן מרכזי המידע, תפיסת מחשוב שפותחה וגובשה על ידי
חברת יבמ. זו היתה הפעס הראשונה שהחלה להתגבש סביבה מחשוב נפרדת וייעודית,
שמטרתה שיפור בתהליכי אספקת המידע למשתמשים. התפיסה דיברה על אפשרות
לגישה ישירה של המשתמשים אל בסיס נתונים ייעודי, ללא התערבות מתכנתים. בסיס
הנתוניס הייעודי נבנה על ידי גזּירת נתוניס מהמערכות התפעוליות של הארגון, והגישה
אליו מתבצעת באמצעות כלי תוכנה מיוחדים וקלים לשימוש. מרכזי המידע מומשו
במחשבים מרכציים, פלטפורמת המחשוב שהיתה נפוצה באותה עת.
בגלל המחיר הגבוה של המחשביס המרכזיים וכלי התוכנה המיועדיס למרכזי המידע, וגס
בשל הצורך באנשי תמיכה לניהול ותפעול מרכז המידע, נעשה מאמצ גדול להגיע
לסטנדרטיוציה של הכלים. בסופו של דבר, בגלל המורכבות הגדולה יחסית של הכליס
וחוסר גמישותם, נשארה הגישה הישירה של המשתמשים לבסיס הנתונים בגדר חלוס
עבור רבים מהם, ולמעשה פותחו יישומים תפורים שפעלו בסביבה זו. רובם הפכו לסביבה
מונחית תפריטים, בה יש מיגווו רחב יחסית של דוחות ושאילתות מוכנות מראש.
, יישומים
לט 20000 מחשב תפעוע .. ..
תפעוליים
אש
מ
ב - -
ַ
ב בסיס נתונים של מחשב מרכז מידע יישומים
צ מרכז המידע לקבלת החלטות
גי
2
-
תרשים 1.7: סביבת מרכז המידע.
4 מחסני נתונים
ניתן לומר שמרכוי המידע נחלו הצלחה מוגבלת בלבד. הס לא עמדו בתקווה לשמש מנוף
משמעותי להפיכת נתונים למידע על ידי המשתמשים בכוחות עצמם, ובגמישות הנדרשת
בסביבה העסקית. מרכזי המידע התבססו על טכנולוגיה יקרה ולא גמישה, ולכן לא שינו
באופן מהותי את נוף המחשוב. בסופו של דבר הס היו פתרון נקודתי עבור חלק
מהמשתמשים, בעוד שאחרים נמנעו מלנצל תפיסה זו.
עס זאת, חשיבות מרכזי המידע נבעה מהעובדה שהס פרצו את הדרך ושימשו כחלוצ
בהבנה שיישומיס לאספקת מידע וקוקיס לסביבת מחשוב נפרדת וייעודית. פריצת הדרך
האמיתית המתינה לחידושיס הטכנולוגייס, שהבשילו רק לקראת סוף שנות ה-80 ותחילת
שנות ה-90 - טכנולוגיית שרת/לקוח, מחשבים אישייס רבי עוצמה, ממשק משתמש גרפי,
בסיסי נתוניס טבלאיים וכלי תוכנה לשאילתות ולניתוחיס רב-ממדיים. התפתחויות אלו,
יחד עס הצורך הגובר לאספקת מידע לתמיכה בתהליכי קבלת ההחלטות, סללו את הדרך
לתפיסת המודרנית של מחסן הנתונים.
סביבות תומכות החלטות מבוססות מחשבי אישיים
עס הופעת המחשבים האישיים ותפוצתם הנרחבת בארגוניס העסקיים החלו המשתמשיס
העוסקיס בקבלת החלטות לבנות לעצמס סביבת עבודה נפרדת ומיוחדת ליישומיס אלה.
כלי התוכנה העיקריים - הגיליון האלקטרוני ובסיסי הנתוניס האישיים - שימשו תחליף
נאות לכליסם הלא גמישים של המחשב המרכזי. גס פתרון זה לא היה נקי מתקלות:
יישומים מורכבים לתמיכה בקבלת החלטות דרשו כלי תוכנה מורכבים יותר מאשר
הגיליונות האלקטרוניים, וכמובן שהס היו גם יקרים ומסובכים יותר. הצורך בגזירת
הנתוניס מהמערכות התפעוליות היה מורכב ומתסכל, וחייב לעיתים הזנה מיוחדת וכפולה
של הנתוניס. הזנה כפולה זו וגזירות הנתוניס הייחודיות לכל משתמש גרמו לחוסר תאוס
ולחוסר עקביות בנתונים, ולוויכוחיסם בין משתמשים ומחלקות שונות לגבי נכונות
הנתוניס. אנשי המחשוב בארגון עמדו מתוסכלים מול הגל הגואה של בקשות לגזירת
נתוניס בחתכים ובמבניס מיוחדיס. אותם נתוניס נגזרו פעס אחר פעם, לשימוש מחלקות
שונות ובגלל ההגדרות השונות בתהליכי הגזירה גס גרמו לחוסר עקביות ובלבול
המשתמשים.
בתוך פרק זמן לא ארוך הגיעו הארגונים למסקנה שיישומי תמיכה בקבלת החלטות,
המבוססיס על מחשבים אישיים ובסיסי נתוניס מקומיים מנותקים, אינס מהווים פתרון
הולס לקבלת מידע תומך החלטות. הפתרון הנכון היה, כמובן, להתבסס על בסיס נתוניס
ייעודי ומרכזי. בסיס נתוניס וה מנוהחל על ידי פונקציית המחשוב בארגון, תוך שילוב
המחשביס האישיים וכלי התוכנה המתותחכמים שלו. זו, כמובן, גישת מחסן הנתוניס
המודרני, המבוססת על טכנולוגיית שרת/לקוח.
פרק 1: רקע ומושגי יסוד | 45
מחשב תפעולי
בסיס* נתונים
תפעוליים
מחשבים
אישיים
*ישומים /ים תפעוליים
גזירת
4
]2 נתונים יישומי קבלת
אישיים החלטות אישיים
תרשים 1.8: יישומי קבלת החלטות אישיים.
מחסן הנתונים (6פ5טסחסזב3ּ// בּגָב)
הניסיונות לבנות סביבות ייעודיות לאספקת מידע לתהליכי קבלת החלטות נמשכו שניס
רבות, אולס ללא הצלחה יתרה. חוסר ההצלחה נבע מכך שהטכנולוגיה לא אפשרה מענה
הולס לדרישות קהיליית המנהליס ומקבלי ההחלטות. משתמשים אלה וקוקיםס
לממשקים גרפיים נוחים, כלי ניתוח מתוחכמים, כלים סטטיסטיים וטכניקות מיוחדות
להצגת הנתוניס (חסו281!ו|1808/). לשס כך דרושיס עוצמת עיבוד חזקה במיוחד וממשקיס
גרפייס מתוחכמים, ולכן רק טכנולוגיית שרת/לקוח מהווה פתרון הולס לדרישות אלו.
הבסיס לתפיסת מחסן הנתוניס הוא היכולת לנהל את הנתוניס בשרת בסיס נתוניס
רב-עוצמה ולשלב אותו עס תחנות עבודה בעלות ממשקים גרפיים מתוחכמים.
מבחינת הארכיטקטורה הכללית דומה מחסן הנתוניס למרכז המידע. הוא מבוסס על
גזירת הנתוניס מהמערכות התפעוליות אל מערכת ייעודית לתמיכה בקבלת החלטות.
מבחינת הטכנולוגיות המשמשות את מחסן הנתונים ואשר שימשו את מרכזי המידע, יש
הבדל מאוד מהותי. מחסן הנתוניס מבוסס על טכנולוגיות מידע מודרניות ומשתמש
במיטב החידושיס שהחומרה, התקשורת והתוכנה מאפשרים כיום. המעבר ממרכזי
המידע לתפיסת מחסן הנתונים היא הרבה יותר מאשר שינוי במונחים. מחסן הנתוניס
מבוסס על טכנולוגיה מחשוב מתקדמת, מיועד לקהל רחב יותר ולסוגי משתמשים רביס
ומגווניס ומבוסס על ארכיטקטורה כוללת ועל מתודולוגיה ברורה ליישוס.
6 מחסני נתונים
הערך העסקי של מערכת מחסן נתוניס טמון במידה רבה במילה גילוי (ץזפצסספוכ). שילוב
הנתוניס ממספר מערכות תפעוליות ואחסונס במאגר מרכזי אחד מאפשר למשתמשי
הקצה גישה נוחה לנתוניס בחתך נושאי (100ח218) 606[פט5) לרוחב הארגון. כליס של
משתמשי הקצה מאפשריס התבוננות רב-ממדית, כריית נתונים, ניתוח סטטיסטי
ומאפשריס להם לשאול שאלות, לחקור את הנתוניס ולגלות עובדות חדשות אודות
הארגון ופעילותו העסקית.
מחסן הנתונים שובר את המחיצות בין איי הנתונים ומשחרר אותס לשימושים של ניתוח
ותמיכה בקבלת החלטות. הקמת מחסן הנתונים מהווה הזדמנות לארגון לעצב מחדש
(ז66חו0ח3466) את תהליכי העבודה שלו, ללא צורך בשינוי מהפכני במערכות התפעוליות.
לעיתים, המידע המתגלה תוך כדי עבודה עס מחסן הנתונים, מאפשר לארגון לשנות
תהליכים עסקיים מרכזיים, כדי להפוך לארגון תחרותי יותר, יעיל יותר ובסופו של דבר -
רווחי יותר. ההבטחה שניתנה בעבר על ידי מערכות תומכות ההחלטה (055) מתממשת,
סוף כל סוף, בדמות תפיסת מחסן הנתונים.
סיכום
בפרק וה סקרנו את השוני בין מערכות מידע תפעוליות לבין מערכות מידע שמטרתן
תמיכה בקבלת החלטות. הצגנו את ההתפתחות של מערכות אלו - ממערכות שפעלו
במחשביס מרכזיים ועד למערכות מחסן נתוניסם המבוססות על טכנולוגיות מחשוב
מודרניות. כיוס, קיימת הסכמה רחבה שתפיסת מחסן הנתוניס תתפוס תאוצה רבה ואת
תשומת ליבס של הארגוניס. למערכות אלו חשיבות מרובה לצד המערכות התפעוליות.
מחסן הנתוניס מהווה נדבך חשוב ביכולתן של מערכות תפעוליות לשרוד ולהמשיך ולשרת
את הארגון. מערכות אלו מאפשרות לארגון להמשיך ולהפעיל מספר רב של יישומיס
תפעוליים הפועליס בפלטפורמות שונות ועם כפילות נתוניס ביניהן. הדבר מתאפשר מפני
שמחסן הנתוניסם מרכז את הנתונים מכל המערכות, פותר חלק מהסתירות הקיימות בין
המערכות התפעוליות השונות ומספק לארגון נקודת מבט כוללת ואינטגרטיבית - פופָחו5
ץזו|363 655חו25 01 6הְהחו.
אחת הטעויות הנפוצות היא שתפיסת מחסן הנתוניסם מתאימה רק לארגוניס המתבססים
על מחשביס מרכזיים עבור המערכות התפעוליות. האמת היא שאין כל קשר בין תפיסת
מחסן הנתוניס לבין הפלטפורמה בה משתמש הארגון למערכות התפעוליות שלו. תפיסת
מחסן הנתוניס מתאימה באותה מידה גסם לארגוניס המתבססים על יישומיס תפעוליים
מודרניים הפועלים בסביבות שרת/לקות ואינטרנט. כל הבעיות שמנינו במערכות
התפעוליות אינן נובעות מהטכנולוגיה, אלא מעצם מהותן של מערכות תפעוליות
המיועדות לתמיכה בעשיית העסקים וברישוס התוצאות, ואינן מיועדות לשרת יישומיס
תומכי החלטות.
פרק 1: רקע ומושגי יסוד | 47
פרק 2:
ארכיטקטורת מחסן הנתונים
מבוא
בפרק וה נגדיר את תפיסת מחסן הנתונים, נציג את הארכיטקטורה הכוללת שלו ונפרט
את מכלול הטכנולוגיות והכליס המרכיבים אותו.
תפיסת מחסן הנתוניס מספקת מסגרת כוללת לניהול נתוניס המיועדיסם לתמיכה בקבלת
החלטות ומתן דגש על היעילות, העקביות והנוחות. מחסן הנתוניס מבוסס על בסיס
נתוניס ייעודי ונפרד, המכיל נתוניס אודות פעילות הארגון וסביבתו. הוא משמש באופן
בלעדי את תהליכי ניתוח הנתונים ותמיכה בקבלת ההחלטות. בסיס נתונים ייעודי וה
מכיל נתוניס הנשלפים ממקורות שונים, תוך ביצוע תהליכי גזירה, שיפור ושילוב
מיוחדיס. מטרתו אחת ויחידה - לספק את צרכי המידע של קהיליית משתמשיס חשובה -
מקבלי ההחלטות בארגון. בסיס נתוניס ה חייב להיות זמין, עדכני, אמין ומאורגן באופן
התואס את היישויות העסקיות העיקריות ואת תהליכי קבלת ההחלטות. חשוב להבין
שבסיס נתונים, שמטרתו לתמוך בתהליכי קבלת החלטות מורכבות ודינמיות, חייב להיות
מעוצב ומאורגן באופן מיוחד, התואס את מטרותיו. ארגון ה שונה באופן מהותי מהדרך
בה מאורגניס הנתוניס המשמשים ומשרתים את המערכות התפעוליות.
מן הראוי לצייו שתחוס מחסני נתוניס הוא תחוס צעיר יחסית, ולכן הוא עדיין בתהליך
התגבשות. המושגים עדיין אינס מוגדרים עד הסוף, הטכנולוגיה ממשיכה להשתנות,
הארגוניס עדיין נמצאים בתהליך יישוס והפקת לקחים ולכן גם מתודולוגיות היישוס הן
עדיין בחיתוליהן. מכיון שתחוס וה מתפתח בקצב מחיר, יש לצפות לכך שדברים ישתנו,
הגדרות מדויקות יותר תתגבשנה וטכנולוגיות חדשות תופענה ותחלפנה טכנולוגיות
קיימות. אם זו חשיפתו הראשונה של הקורא לתחוס מחסן הנתונים, אני מקווה
שדינמיות וחוסר ההתגבשות הסופית של התפיסה לא תרפה את ידיו. והו אך תהליך טבעי
בהתפתחותה של תפיסה הצומחת ותופסת פופולריות עצומה.
פרק 2: ארכיטקטורת מחסן הנתוניסם | 49
מהו מחסן נתונים?
ברמה הבסיסית ביותר, מתחסן נתונים היא תפיסה כוללת העוסקת באיסוף, אחסון, הפצה
ושיתוף של נתוניס למטרת תמיכה בקבלת החלטות. ניתן לומר שזו תפיסת קצה לקצה
המטפלת בכל מיגוון התהליכיס והפעילויות הדרושות כדי לספק את הנתוניס הדרושיס
לתמיכה בקבלת החלטות עסקיות. מחסן הנתוניס שואב את הפונקציונליות שלו מתוך
העובדה שהנתונים נגזרים ממקורות שונים, עוברים תהליכי שיפור וטיוב ומשולביס
יחדיו. מחסן הנתוניס שואב את עוצמתו מהקלות בה מוצגים נתונים אלה ומנותחיס על
ידי המשתמשים בו.
אחת ההגדרות המצוטטת ביותר שייכת למי שנחשב לאבי התפיסה, חסוחחו ווו1ם, שבמאמר
משנת 1992 הציג את ההגדרה הבאה:
מחסן הנתונים (6פטסחסזב3ּ/ הּצהכ) מוגדר כאוסף נתונים ייעודים ומשולבים, מאורגנים
לפי נושא, בעלי עומק היסטורי ושאינם מתעדכנים - אשר מיועדים לתמוך בתהליכי קבלת
החלטות.
נתעכב בקצרה על כל אחד ממרכיבי ההגדרה הזו:
> אוסף נתונים ייעודי (₪856 0318 260168+60): בסיס הנתוניס המשמש את מחסן
הנתוניס נפרד מבסיסי הנתוניס התפעולייס של הארגון. החשיבות בהפרדה זו כבר
נדונה בפרק הראשון בספר זה, בו הוסברה האבחנה בין יישומיס תפעוליים לבין
יישומיס לאספקת מידע. העובדה שזהו בסיס נתונים נפרד וייעודי מאפשרת לארגן
ולעצב אותו במבנה מיוחד ותואס למטרות נגישות ישירה של המשתמשים. כלומר,
שימת דגש מיוחדת על מבנה קל ונוח להבנה מצד אחד, ויעיל - לצורך קבלת זמני
תגובה טובים, מצד שני. בסיס נתוניס נפרד וה יפעל בשרת ייעודי כדי שלא להעמיס
את המערכות התפעוליות, וכדי לאפשר זמני תגובה טוביס למשתמשי מחסן
הנתוניס.
+ אוסף נתונים משולב (₪313 %6078+60ח1): הנתונים של מחסן הנתונים נמצאיס
בבסיס נתונים משולב שבו כל הנתוניס הדרושים ליישומים השוניס המספקיס
מידע, ללא תלות במקורם. סביר להניח שבארגון יהיו מספר בסיסי נתוניס תפעולייס
שוניס הפועליס על פלטפורמות חומרה ותוכנה שונות. על כן, היכולת לשלב את כולס
לסביבה משולבת אחת היא בעלת חשיבות רבה. שילוב זה יבטיח אחידות ונוחות
מנקודת מבט המשתמש.
> ארגון לפי נושא (160+60זכ) +5₪0[66): הנתוניס במחסן הנתונים מאורגניס לפי
נושא, ולא לפי היישוס המייצר אותסם. בדרך כלל, הנתוניס במערכות התפעוליות
מאורגניס לפי צרכי היישוס, לפי דרישות הביצועיס ולפי אופי התנועות של היישוס.
סביר להניח שנתוניס הקשוריס ליישות עסקית אחת, למשל לקוח, יהיו מפוזריס
במספר יישומיס תפעוליים שוניס, שכל אחד מהס פותח בזמן שונה ולעיתים גס על
פלטפורמה שונה. המשתמש הטיפוסי של מחסן הנתוניס וקוק לנתוניס אודות
חיישויות העסקיות לרוחב הארגון, כמו למשל כל הנתוניס על לקוח מסוים.
0 מחסני נתונים
הדוגמה הנפוצה ביותר היא נתוני לקוח במערכת בנקאית. אלה מפוזרים ביישומיס
שוניסם (עובר ושב, חסכונות, השקעות, משכנתאות וכדומה). דרישה בסיסית של
משתמש במחסן הנתוניס היא להיות מסוגל לנתח את נתוני הלקוח השוניס ואת
פעילותו בבנק. כפי שנראה בהמשך, ארגון הנתוניס לפי נושא מציב אתגר מיוחד,
מכיון שהוא דורש עיצוב מיוחד וגזירת הנתוניסם ושילובס לקראת הכנסתס למחסן
הנתוניס.
> בעל עומק היסטורי (ח8וז3/ 6חוד): מחסן הנתונים מאופיין בעומק היסטורי
נרחב יותר מאשר המערכות התפעוליות. חלק ניכר מהניתוחיס המתבצעים דורשיס
ניתוח מגמות, ולכן יש חשיבות מרובה לעומק ההיסטורי. ככל שנעמיק בהיסטוריה,
בסיס הנתונים של מחסן הנתוניס ילך ויגדל וידרוש משאבי אחסון וניהול גדוליס
יותר. חשוב להבין שגס במחסן הנתוניס רצוי להעריך מהו העומק ההיסטורי הנדרש,
כדי שלא לסבך יתר על המידה את תהליכי הניהול ולהאריך את זמני העיבוד
ומשאבי המחשב הנדרשים.
> לא מתעדכן (שו1ָ9!סצטחסא): להבדיל מבסיס הנתוניס התפעולי (שצריך לשקף בכל
זמן את התמונה העדכנית ביותר, ולכן הוא מתעדכן על ידי תנועות באופן שוטף),
מחסן הנתונים אינו מתעדכן על ידי תנועות. הדרך המקובלת לעדכון מחסן הנתוניס
היא על ידי עדכון במנות תקופתיות (יומיות, שבועיות, חודשיות וכדומה). עדכון
מנות וה מתבצע בדרך של טעינה מסיבית (1.080 אוטַם), תוך שימוש בתוכניות
שירות של בסיס הנתונים, או על ידי הפעלת תוכניות עדכון מיוחדות. רצוי לא
לאפשר עדכון ישיר של הנתוניס במחסן הנתונים באמצעות תנועות, למעט במקריס
קיצוניים מיוחדים.
+ תמיכה בקבלת החלטות (+וסקק5 ה0ו260!5): תמיכה בקבלת החלטות היא
מטרת העל של מחסן הנתונים. המאמצ הכרוך בבניית מחסן הנתונים, שיקולי
העיצוב, כלי התוכנה המשמשיס אותו והארגון התומך והמזין אותו - כולס נועדו
למימוש הגישה הקלה והנוחה של משתמשים לסיוע בתהליכי קבלת ההחלטות.
מחסן הנתוניס מבוסס על אוסף כלי תוכנה מתותכמיס המיועדים להצגה ולניתוח
נתונים. כליס אלה מאפשרים גישה ישירה לבסיס הנתוניס או בנייה של יישומיס
מותאמיס לתמיכה בתהליכי קבלת ההחלטות.
למרות שהגדרה זו ממצה למדי, חשוב שנדגיש גם מה חסר בה: המימד הדינמי. ההגדרה
ממוקדת בעיקר בהיבט הסטטי של מחסן הנתונים ומתעלמת מההיבט הדינמי, שהוא
אוסף התהליכים והפעילויות הקשורים בפיתוח, תפעול, ניהול, תמיכה ותחזוקת מחסן
הנתונים. על רקע וה מצאתי לנכון להביא הגדרה נוספת למחסן הנתוניס, המתייחסת אל
מחסן הנתונים כאל תהליך, ולא כאל מקוס :
מחסן הנתונים (ספוסחַ6זִהּ/ ה3%) הוא תהליך קצה לקצה (0חם-0:-0חם) המארגן
נתונים שמקורם במספר יישומים תפעוליים שונים, בהתאם למימד הזמן ובהתאם
לנושאים בעלי משמעות למקבלי ההחלטות. בגלל ההיבט התהליכי מקובל גם לקרוא
לתהליך זה בשם מיחסון נתונים (טחופטטסח6זבּ/ 3+3כ).
פרק 2: ארכיטקטורת מחסן הנתוניס | 51
כפי שנראה בהמשך, חלק ניכר מהאנרגיה שמשקיע הארגון בהקמת ובתפעול מחסן
הנתוניסם מושקעת בעבודה היומיומית להכנסת הנתונים למחסן הנתונים ובתפעולו
השוטף. לכן, מן הראוי שהגדרת מחסן הנתוניס תדגיש גס את ההיבט התהליכי, ולא רק
את ההיבט הסטטי.
בפרק הקודס סקרנו את ההבדלים העיקריים בין המערכות התפעוליות לבין מחסן
הנתוניס. להבדיל ממערכות תפעוליות, שהן בדרך כלל בעלות רמת יציבות גבוהה יחסית,
מחסן הנתוניס מתפתח כל הזמן ומתאים את עצמו באופןו שוטף לדרישות המידע
המשתנות של הארגון. משמעות הדבר היא שעיצוב מחסן הנתוניס חייב לקחת בחשבון את
האופי הדינמי - הדרישות של היוס בוודאי שלא תהחיינה הדרישות של מחר. הבעיה היא
שלא ניתן אפילו לחזות מה תהיינה הדרישות העתידיות. ובכל זּאת, כפי שנראה בהמשך,
ניתן לעצב את מחסן הנתוניס כך שתהיה בו מידה רבה של יכולת הסתגלות לשינוייס
ולדרישות בלתי צפויות. עובדה גו באה לעיתיסם כהלס למעצבי מערכות, שכל חינוכס בא
מתחוס המערכות התפעוליות: הס למדו שיש להקדיש זמן ניכר לניתוח הבעיה לפני בניית
המערכת, מכיון ששינוי מערכת תפעולית הוא תהליך מורכב ויקר. כאשר הם עוסקיס
בהקמת מחסני נתוניס, הס מנסיס להשקיע ומן רב מדי בניתוח ובניסיון לחיווי הצרכיס
העתידיים ולעיתים - עד כדי שיתוק (פוףּעְוהּחג/ עס פוַ9עוהז=). לבסוף, כשהסם לומדים
ומביניס את הדרישות של היוס ומנסיס ליישם אותן, הדרישות משתנות ולכן מתפתחת
אצלס תחושה של מרדף בלתי פוסק אחר דבר שאין להשיגו. כפי שנראה בהמשך, חלק
מהתשובה לתכונה זו של מחסני הנתוניס טמונה במתודולוגיית הבנייה, העיצוב והיישוס.
ארכיטקטורת מחסן הנתונים
(6'זוו661+וח6ז/ 6פ5טסחסזבּ/ בּצָבּ)
כל מי שנחשף לנושא מחסני נתוניס יוצא מבולבל מהאוסף הגדול של השמות השונים :
מחסן נתונים ארגוני, מחסן נתוניס מחלקתי, מרכול נתוניס, מאגר נתוניס תפעולי
וכדומה. ננסה לעשות סדר באוסף מושגיס זה, ונראה שההבדלים ביניהם נובעיס מהעושר
הרב של ארכיטקטורות ושל היעדים של מחסני הנתוניס.
אס נתבונן במחסני הנתוניס שהוקמו על ידי הארגוניס השוניס, סביר להניח שלא נמצא
שנייס והיס לחלוטין. הסיבה לכך היא שכל מחסן נתוניס מותאס לסביבת המחשוב
המיוחדת של הארגון, לסביבת החומרה ולכלי התוכנה בהס בחר הארגון להשתמש,
ולמיגווו הייחודי של היישומיס התפעולייס הפועליס בו. עס ואת, ניתן לומר שקיימיס
מספר קווי דמיון בולטיס בין רוב מחסני הנתוניס ורובס כולליס, בצורה זו או אחרת,
מספר מרכיבים בסיסי.
2 מחסני נתונים
מקובל להתייחס למספר ארכיטקטורות עקרוניות של מחסני נתונים, שההבדלים ביניהם
נובעיס מיעדיהס ומקהל המשתמשים שהם צריכים לשרת :
> מחסן נתוניס ארגוני (56טסח6ז9// 08%8 6פוזסז16ח=)
* מרכול נתוניס (+81/! פוהכ)
> מחסן נתוניס רב-שכבתי (ס6פטסח6ז8/ 818 סס6זסוד טוטוש)
> מאגר נתוניס תפעולי (8זס)5 818 |חסו81ז6קס)
> מחסן נתוניס מדומה (6פטסח6ז8/ 818 |8טאו/)
נסקור כל אחת מארכיטקטורות אלו בפירוט.
ארכיטקטורת מחסן נתונים ארגוני
(66+076+וח6'ו/ 56סח6זב3ּ// 23%3 86וזכןו6)ח=)
ארכיטקטורת מחסן הנתוניס ארגוני היא המקיפה ביותר מבין ארכיטקטורות מחסני
הנתוניס.
מחסן הנתונים הארגוני הוא מחסן נתונים מרכזי המיועד לשרת את כל המשתמשים
בארגון, ולכן הוא משלב בבסיס נתונים אחד את כל הנתונים הנדרשים עבור כל יישומי
התמיכה בקבלת החלטות.
באופן טבעי, מחסן נתוניס כזה הוא גדול, מקיף ומשרת מספר רב של משתמשים, ולכן
תהליך הקמתו מורכב וארוך יחסית. בדרך כלל, פיתוח מחסן נתונים ארגוני מתבצע
בשלביס ולא בבת אחת, ובסופו של תהליך ההקמה והיישוס יעמוד לרשות הארגון מחסן
נתוניס מרכזי אחד.
א
5
נתונים
תפעוליים
₪
[מ6וחו
בוהא
נתוניס
הנתונים
לנתונים הנתונים ביניים הארגוני
חיצוניים
₪3 שחומו] 38
שכבת ל + 5 ל + ל + שכבת
2 9 שכבת ניהול ותפעול תהליכים הצגת
נתוני
: זט ווז6ס 101 55ס6סיו המידע
תרשים 2.1: ארכיטקטורת מחסן נתונים ארגוני.
]0
בד מ |
פרק 2: ארכיטקטורת מחסן הנתונים - 53
כפי שניתן לראות בתרשיס 2.1, הארכיטקטורה הכללית של מחסן הנתונים הארגוני
מורכבת ממספר שכבות. נציג אותן כעת ובהמשך נקדיש לחלק מהן הסבר מעמיק יותר.
.%
*%
6
שכבת מקורות הנתונים (97ץ18 50006 08%8): את שכבת מקורות הנתוניס ניתן
לחלק לשתי קטגוריות עיקריות - מקורות נתונים פנימיים ומקורות נתוניס
חיצונייס. המקורות הפנימיים הס אוסף כל הנתוניסם שמנהל הארגון במסגרת
היישומיס התפעוליים; המקורות החיצונייס הס אוסף הנתוניס הנדרשיס לתהליכי
קבלת החלטות ונאספיס מחוץ לארגון. הנתוניס התיצוניים עשוייסם לכלול
סטטיסטיקות המתפרסמות על ידי גופים רשמיים (כגון הלשכה המרכזית
לסטטיסטיקה או בנק ישראל), מאגרי מידע של חברות המנתחות שווקים שוניס
(כגון 81680517661%חטכ), נתוניס דמוגרפיים ועוד. מכיון שאלה הם נתוניס
חיצונייס לארגון, הס אינס מנוהליס במסגרת המערכות התפעוליות שלו. מקורות
הנתוניס יכולים להיות מגוונים מאוד. למרות העושר של המקורות התיצוניים, מקור
הנתוניס העיקרי למחסן הנתוניס, אם כי לא הבלעדי, הוא הקבציס ובסיסי הנתוניס
של מערכות המידע התפעוליות. הבעיה העיקרית היא שמערכות אלו עשויות להיות
ישנות מאוד, ולהימצא על פלטפורמות מחשוב מסוגים שוניס.
שכבת הגישה לנתונים (1.8/81 266655 8)+28): שכבה זו עוסקת בגישה למקורות
הנתונים, הן במערכות התפעוליות והן לנתוניס החיצוניים. מכיון שמקורות הנתוניס
יכולים להיות מגווניס מאוד, קייס לעיתיס קושי לגשת אליהס לצרכי גזירת
הנתוניס. בשניס האחרונות התפתחו כלי גישה שוניס לנתוניס, כגון 5004/5001 של
חברת !8!, מוצריס מבוססי תקן 00806 וכדומה. מוצריס אלה מאפשריסם גישה
שקופה למיגוון המקורות המבוססים על מבני נתוניס שוניס (קבצי /]5/; בסיסי
נתוניס במחשבים מרכזיים כגון 15 או 5פ!; בסיסי נתונים טבלאיים כגון
6ז, אוחזסזח!, 5856ע6, זסצזס0ס .5001 ואחרים). מעבר לתמיכתס במבני נתוניס
שוניס, תומכים כליס אלה בפרוטוקולי תקשורת רביס, במערכות הפעלה ובחומרות
שונות.
שכבת גזירה, טיוב והמרה של הנתונים (0ה8 הסההזסזפהבזד גגה
זסע3 | +ה6וה66חה חחהם): שכבה זו עוסקת בתהליך הגזירה וההכנה של הנתוניס
שיש לאחסן במחסן הנתוניס. מכיון שהנתוניס המאוחסניס בבסיסי הנתוניס
התפעוליים אינס מתאימים למטרות תמיכה בקבלת החלטות, יש לבצע מספר
פעולות מקדימות. בדרך כלל, בסיום שלב זה נמצאיסם הנתוניס במבנה מתאים
לטעינה למחסן הנתוניס.
שכבת אחסון ביניים והעברה (61צ1.3 23913 0ח51901): שכבה זו מאחסנת לתקופת
בינייס את הנתוניס המוכניס לטעינה. לעיתיס נוח לטפל בנתוניס מראש ולצבור
אותס לפני טעינתם. סיבה עיקרית לכך היא נפחי הנתוניס ו/או ניצול חלון ומן
מתאים. הנתוניס נשמריס בשכבת ביניים גו עד לטעינתס למחסן הנתונים והיא גס
יכולה להפיץ אותס לאחר מכן. משכבה זו מועבריס הנתוניסם אל מחסן הנתוניס,
לשס טעינתסם לבסיס הנתוניס. שכבת פעילות זו אינה דרושה בכל מימוש של מחסן
נתוניס.
מחסני נתונים
.*
+*
שכבת בסיס הנתונים (ז1.8/6 2856 28+8): שכבה זו מנהלת את בסיס הנתונים
המרכזי של מחסן הנתונים. רוב יישומי מחסן נתוניסם משתמשים בבסיס נתונים
טבלאי. הנתונים נטעניס אל בסיס הנתונים באמצעות תוכניות שירות או יישומיס
מיוחדיס המעדכניס אותו. בדרך כלל, עס תוס שלב הטעינה נבניס האינדקסים,
מחושבים סיכומיס שוניס ומבוצעות פעולות ניהול, כנדרש.
שכבת הצגת המידע (]76ץ8 1 הסו0%94ה656זק הסוזהוהזס+ה!): שכבה זו עוסקת
בהצגת המידע המנוהל במחסן הנתונים, וכוללת אוסף של כלי תוכנה ויישומיס
המיועדיס למשתמשי מחסן הנתונים. בדרך כלל, אין בנמצא כלי אחד ויחיד
המתאיס לצרכי כל המשתמשים. על כן, מקובל לראות בשכבה זו מספר כלים שוניס
המיועדיס לצרכים שונים: מחוללי שאילתות ודוחות, כלים לניתוח רב-מימדי, כליס
לניתוחים סטטיסטיים, כליס לבניית מודלים פיננסיים, גיליונות אלקטרוניים, כלי
כריית נתונים (סָחוחוו הו8כ) וכדומה. בחלק מהמקריס המשתמשים עובדים באופן
ישיר עס כליס אלה ובמקרים אחרים נבניס עבורס יישומים ייחודיים, הכל בהתאס
ליכולות המשתמש וצרכי המידע שלו. קיימיס מצביס בהס המשתמשים זקוקים
לאותו מבנה מידע באופן תקופתי. לכן, מקובל להריצץ אוסף דוחות מול מחסן
הנתוניס ולהעמיד את התוצאות לרשות אותס משתמשים. כך, המשתמשים אינס
צריכים לנסח את המבנה מחדש בכל פעם ואינם צריכים לזכור כיצד להפעילו.
טכנולוגיית האינטרנט הפכה לטכנולוגיה נפוצה מאוד לצורך הפצת המידע המופק
ממחסן הנתוניס למשתמשים השונים.
שכבת קטלוג הנתונים (ז3/6 ] 2313 11013): שכבה וו משמשת כקטלוג מרכזי
המאפשר למשתמש להתמצא בנבכי מחסן הנתוניס, במשמעות הנתוניס ובעדכניותם.
קטלוג הנתוניס מכיל את ההסבר לכל הטבלאות, את ההסבר לעמודות שבכל טבלה,
כיצד חושבו הנתונים, מה המקור ממנו נגזרו או חושבו הנתונים, למתי הס
מעודכניס וכדומה. ללא שכבה זו יש למשתמשיס קושי ניכר בהתמצאות במחסן
הנתוניס ובהבנת משמעות הנתוניס האגורים בו.
שכבת ניהול ותפעול תהליכים (3/67 | +16060ב3ח13! 06655זק): שכבה זו עוסקת
בהפעלת התהליכים השונים הפועלים בסביבת מחסן הנתונים, בתזמון שלהם,
בבדיקה שהסתיימו בהצלחה וכדומה.
מכיון שמבחינת ניהול הנתוניס בארגון קיימת אבחנה ברורה בין שתי שכבות נתונים -
נתוניס תפעוליים ונתוניס לתמיכה בקבלת החלטות - מקובל גם לקרוא לארכיטקטורה זו,
מבחינת הנתוניס, ארכיטקטורה דו- שכבתית (6זט601ח6ז4 זסוד סעצד).
היתרון הגדול בגישת מחסן הנתוניס הארגוני הוא, כמובן, מעצס היותו מאגר מרכזי
המנהל נתוניס אודות כלל היישויות העסקיות המעניינות את הארגון והמשמש את כלל
המשתמשים. מכיון שזהו בסיס נתוניס מרכזי, ניתן לקבל ממנו חתכי מידע רוחבייס
חשובים, מענייניס ומגווניס.
פרק 2: ארכיטקטורת מחסן הנתונים | 55
תרשים 2.2: שכבות בארכיטקטורת מחסן נתונים ארגוני.
הבעיה העיקרית בגישת מחסן הנתוניס הארגוני הוא הזמן הארוך הדרוש להקמתו,
תהליך שיכול להימשך לפעמים מספר שנים. הניסיון להקיס מחסן נתונים ארגוני דורש
להגיע להסכמה בין מספר רב של משתמשים ומחלקות בארגון באשר להגדרת ומשמעות
הנתוניס, ובאשר לעדיפויות הנושאיס השוניס שיש לנהל בו. הארגון צריך להשקיע מאמצ
וזמן רב בשלב העיצוב והבניה של מודל הנתוניס. לעיתים מגיעיס לסתירות בין הדרכיס
השונות בהן משתמשיס שוניס רוצים לנהל ולהסתכל על הנתונים. לרוב הארגוניס
והמשתמשים אין את הזמן ואת הסבלנות הנדרשיס להקמת מחסן נתונים ארגוני, כי
הלחציס לקבלת מידע גבוהים ואין אפשרות להשקיע את המשאבים. בנוסף, התנאיס
והדרישות משתניס כל הזמן, נפח הנתוניס של המחסן הארגוני עצומים וכל זה - מרפה
את ידי המתחיליס לעסוק בנושא. לפעמים מגיעיס למסקנה שאין זה מעשי לבנות מחסן
נתוניס ארגוני עבור ארגוניס גדוליס שבהם יש שונות גדולה של מוצריס ושירותים.
בגלל קשייס אלה נטשו, לפחות באופן זמני, חלק מהארגוניס את הגישה הזו והגדירו
מטרה צנועה יותר: מחסן נתוניס מחלקתי, או מחסן נתוניס נושאי ובפשטות - מרכול
נתוניס.
ארכיטקטורת מרכול הנתונים
(16וט1+661ח6ז +ובּ!) בּזְבּ)
מרכול הנתוניס הוא הרחבה של תפיסת מחסן הנתונים הארגוני לרמה המחלקתית, ולכן
הוא ממוקד בנושא או בתחוס מסוים ומוגדר. באופן טבעי, הוא קטן יותר ממחסן
הנתוניס הארגוני.
מרכול הנתונים זו הּז03) הוא מחסן נתונים שנועד לשרת, בדרך כלל, מחלקה אחת
(או מספר מצומצם של מחלקות) וממוקד בנושא אחד בלבד.
מבחינת תכולת הנתונים, מרכול הנתונים הוא נגזרת חלקית כלשהי של המחסן הארגוני.
הוא מיועד לשימוש מחלקה אחת או מספר מצומצם של מחלקות קשורות ולרוב הוא
ממוקד בנושא אחד. אחד מפרקי הספר מוקדש לנושא זה.
ארכיטקטורת מרכול הנתוניס דומה לארכיטקטורת מחסן הנתונים הארגוני, בהבדל אחד
מהותי: בעוד שיש רק מחסן נתוניס ארגוני אחד, מרכולי נתוניס יכוליס להיות רבים.
6 מחסני נתונים
נתונים
תפעוליים
א
5
גזירה
₪ לנתונים ניקוי
קודים
התאמות . ,
[ וו
בכם הו
,
נתוניס שכבת 0
חיצוניים מלכול ]0
7 בד מ |
לנתונים הנתונים ביניים הנתונים
₪3 >מומו] 38
שכבת - 5 + ל + שכבת
מקורות שכבת ניהול ותפעול תהליכים הצגת
תרשים 2.3: ארכיטקטורת מרכול נתונים.
ניתן לראות בתרשיס 2.3 שכל השכבות שקיימות במחסן הארגוני קיימות גם כאן. מכיון
שגם בארכיטקטורה זו קיימת אבחנה בין שכבת הנתונים התפעוליים לבין שכבת הנתוניס
המיועדים לתמיכה בקבלת החלטות, ארכיטקטורת מרכול הנתונים היא גס ארכיטקטורה
דו-שכבתית מבחינת הנתונים.
ץ |
כ
תרשים 2.4: שכבות בארכיטקטורת מרכולי הנתונים.
מחסן נתונים רב-שכבתי
(56טסח6זבּ/ בּ+03 זסוד ושוטש₪א)
שתי הארכיטקטורות שהצגנו - המחסן הארגוני ומרכול הנתוניס - אינן מיועדות להחליף
זו את זו. הן ארכיטקטורות משלימות ומשולבות.
מחסן נתונים רב-שכבתי משלב בתוך ארכיטקטורה אחת מחסן נתונים ארגוני יחד עם
מספר בלתי מוגבל של מרכולי נתונים.
פרק 2: ארכיטקטורת מחסן הנתונים 57
להבדיל מהארכיטקטורה הדו-שכבתית של מרכולי הנתוניס השואביס את הנתוניס באופן
ישיר מהמערכות התפעוליות, בארכיטקטורה הרב-שכבתית שואביס מרכולי הנתוניס את
הנתוניס ממחסן הנתוניס הארגוני. כל מרכול נתונים מכיל חלק מסויס מנתוני המחסן
הארגוני. תהליכי הגזירה ליצירת המרכול מתבססים, בדרך כלל, על טכנולוגיות שכפול
נתונים (ח0900ו!0ק₪6 הּו8כ), הנתמכות כיוס על ידי רוב בסיסי הנתונים היחסייס
המודרניים.
ארכיטקטורת מחסן הנתוניס הרב-שכבתי היא המומלצת ביותר. מצד אחד היא מבוססת
על מחסן נתוניס ארגוני ומצד שני היא נותנת פתרונות למחלקות ולנושאים ומספקת כליס
מיוחדים כגון כלי ניתוח רב מימדיים (3₪ 01) או כלי כריית נתונים (סָחוחוו/ הוהכ). חלק
מכלים אלה אינס פועלים באופן ישיר על בסיס הנתוניס הטבלאי. לדוגמה, עבור כלי
ק 01 דרוש מבנה קוביה רב-מימדית, בשעה שכלי כרייה אחרים יכוליס להסתפק במבנה
של קוב שטוח.
שכבת
מחס(ן הנתונים
הארגוני
ו 0 ל
מדכולי הנתונים
מחלקתיים כוח אדם פיננסיי
תרשים 2.5: ארכיטקטורת מחסן נתונים רב-שכבתי.
ארכיטקטורת מחסן הנתונים הרב-שכבתי משלבת את היתרונות שבקיוס מחסן נתונים
כלל ארגוני ואת היתרונות שברמת עצמאות והתאמה לדרישות ייחודיות של מחלקות
שונות. הבעיה היא בקושי שבבניית המחסן הארגוני ובתפעול שוטף של ארכיטקטורה
מבוזרת ומורכבת יחסית.
לפעמים ניתן לבנות גסם מחסן נתוניסם המבוסס על שכבה נוספת: שכבת הנתונים
המנוהלים במחשב האישי של משתמש מסוים. בארגון קיימיס מספר מועט של משתמשים
המבצעים ניתותי מידע מורכבים ומאוד ייחודיים ומסיבות שונות, כגון סודיות או שימוש
בכלי ניתוח מאוד ייחודיים, עדיף לגזור את הנתוניס ממרכול מחלקתי (או לפעמים
ישירות מהמחסן הארגוני) ולהעבירס לתחנת העבודה האישית.
8 מחסני נתונים
שכצת כ
המערכות
התפעוליות
שכבת
מחסן הנתונים
האדגוני
שכבת
מדכולי הנתונים
מחלקתיים
שכבת כ
מחסן הנתונים לקוחות נתונים
האיש גדולים חיצוניים
תרשים 2.6: מחסן נתונים ארבע-שכבתי.
תרשים 2.6 מציג דוגמה של שכבה נוספת המופעלת במחשב אישי של משתמש מסוים.
שכבה זו מקבלת נתונים ממרכול הנתוניס השיווקי על ידי גזירת הלקוחות הגדולים בלבד
וביצוע ניתוחים מיוחדים המשלבים גם נתונים חיצוניים.
ארכיטקטורת מאגר נתונים תפעולי
(6]ס+5 03%3 |3ח0ו3%ו6ק0 - 005)
בנוסף לדרישות ניתוח מידע עבור דרג מקבלי ההחלטות, הארגון צריך לספק מידע באופן
שוטף גס לדרג התפעולי. אחת האפשרויות היא לספק מידע זה ישירות מתוך המערכות
התפעוליות. אפשרות אחרת היא להקים ליד המערכת התפעולית מאגר נתונים ייעודי
לאספקת מידע לדרגיס התפעוליים. ברמת הארכיטקטורה קיים דמיון רב בין מחסן
הנתוניס לבין מאגר הנתוניס התפעולי, אולס כפי שנראה מייד, האופי, עדכניות הנתונים
המנוהלים בו וכלי הדיווח - שוניס.
מאגר נתונים תפעולי הוא מחסן נתונים המיועד לשרת את הדרג התפעולי בארגון בכל
הקשור לדיווחים ולניתוחי מידע שוטפים.
מאגר הנתוניס התפעולי מיועד להפקת דיווחים וניתוחי מידע עבור הדרג התפעולי, ואולי
גסם טקטי, אבל עם דגש חזק על הפעילות השוטפת בארגון. נסקור את נקודות הדמיון
והשוני בין מחסן הנתוניס לבין מאגר הנתוניס התפעולי.
> ארגון לפי נושאים - בדומה למחסן הנתוניס, גס במאגר הנתוניס התפעולי הנתוניס
מאורגניס לפי נושאים, ולא לפי תהליכיס עסקיים, כמקובל במערכות תפעוליות.
פרק 2: ארכיטקטורת מחסן הנתוניס | 59
> מאגר אינטגרטיבי - המאגר אוגר נתוניס ממערכות תפעוליות שונות ופותר סתירות
שונות.
> מתעדכן - להבדיל ממחסן נתוניס המתעדכן רק דרך תהליכי טעינה, מקובל לעדכן
את מאגר הנתוניס התפעולי גם באמצעות תנועות המערכת התפעולית, במידת
הצורך. מכיון שמאגר הנתוניס התפעולי צריך להיות ברמת עדכניות גבוהה, לא תמיד
תהליכי טעינה באצווה מספקים את דרישות הדרג התפעולי. יחד עס זאת, רצוי
לבנות מאגר נתונים תפעולי המתעדכן באופן דומה למחסן הנתונים, במידה ורמת
העדכניות מאפשרת.
> שוטף וקרוב לשוטף - להבדיל ממחסן הנתוניס המנהל נתוניס מפורטים לפרקי ומן
ארוכים, העומק ההיסטורי של מאגר קצר יותר, כי הוא משרת בעיקר את הדרג
התפעולי. בדרך כלל, מנוהליס בו הנתוניס השוטפיס והקרוביס לשוטף 680
זז
בסיסי מאגר מחסן
נתונים נתונים נתוניסם
תפעוליים תפעולי גו
0 ו 6
5 0
+ לפי נושא
* אינטגרטיבי
+ לא מתעדכן
* היסטורי
תרשים 2.7: ארכיטקטורת מאגר נתונים תפעולי ליד מחסן נתונים.
כפי שניתן לראות מתרשים 2.7, מאגר הנתוניס התפעולי יכול לשמש כמאגר ביניים לפני
העברת הנתוניס אל מחסן הנתוניס, אם כי אין זה תנאי הכרתי. יתרון השימוש במאגר
הנתוניס התפעולי כמאגר בינייס הוא בכך שתהליכי הגזירה וטיוב הנתוניס מתבצעיס
בעת הכנסת הנתונים אליו, לכן אין צורך לתזור על הפעולה בעת ההעברה למחסן
הנתוניס.
להבדיל ממחסן הנתוניס, שצריך להכיל כלי ניתוח מידע מתוחכמים מאוד המיועדים
לשימושס של משתמשים מתמחים, מאגר הנתוניס התפעולי מכיל בדרך כלל מחוללי
דוחות ושאילתות, מכיון שדרישות ניתוח המידע צנועות בהרבה.
0 מחסני נתונים
מחסן נתונים מדומה (56טסחפוב3ּ// הַּז3כ |בּט+צזו/)
למרות ההבדלים בין מערכות תפעוליות לבין מערכות לאספקת מידע, עדיין יש ארגוניס
המנסיס ליישס תפיסה של מחסן נתוניס מדומה.
מחסן נתונים מדומה הוא אוסף של כלי גישה ותוכנות קישור, המאפשרים גישה נוחה
לנתונים תפעוליים מתוך כלי הצגת וניתוח מידע פשוטים יחסית.
הרעיון הבסיסי עליו מבוסס מחסן הנתונים המדומה הוא לאפשר גישה נוחה וקלה של
המשתמשיס לבסיסי הנתוניס התפעוליים בארגון.
שכבת תוכנה
171106
תרשים 2.8: ארכיטקטורה של מחסן מדומה.
בארכיטקטורה זו ניתן דגש רב על בניית שכבת ביניים (876/ו1100!6) המאפשרת קישור
ביו אוסף כלי קצה לבסיסי הנתוניס התפעוליים בארגון. שכבת בינייס זצו, הפועלת
לפעמים על שרת ייעודי, מבוססת על תקנים כגון 86ס0, ג4פחכ, או על תוכנות בינייס
מיוחדות המאפשרות גישה לבסיסי נתוניס כמו פ!ש|, 5!!פ!, או לקבצי ]54 ואחריס.
כפי שניתן להניח, ארכיטקטורה זו מפתה מאוד, מפני שאין צורך בגזירת נתוניס וניהול
בסיסי נתוניס נפרדיס עבור מערכות אספקת המידע. מתקינים אוסף של כלי קצה ותוכנות
קישור מסוימות, והרי לנו מחסן נתוניס. איך בכלל ניתן לעמוד בפני פיתוי שכוה! הבעיה
היא שתפיסה זו פשוט יילא עובדת'י, ויש לכך סיבות רבות: הבדליס במבנה הנתוניס,
סתירות בין הנתוניס, עומס על מחשבי הייצור, חוסר יכולת לבצע אינטגרציה בין נתוניס
המנוהליס במערכות מחשוב שונות ורמת הסיבוכיות שהמשתמש נחשף לה. כל אלו הן רק
חלק מהבעיות שארגון המנסה לאמ תפיסה זו עלול להיתקל בהן.
ניתן לומר שארכיטקטורה זו מתאימה כפתרון בינייס בלבד לארגוניס הנתקליס בקשייס
בבניית מחסן נתוניס אמיתי והמבקשיס להקל, לפחות באופן ומני, על חלק מהמשתמשיס
על ידי מתן אפשרות קלה יותר של גישה לנתונים. '*ארכיטקטורהיי פשטנית זו קיימת רק
בעלוני השיווק של ספקים מסוימים, המבקשיס למכור את האשליה שניתן לבנות מחסן
נתוניס במהירות ובקלות.
פרק 2: ארכיטקטורת מחסן הנתוניס | 61
סיכום
בפרק זה סקרנו את הארכיטקטורות השונות של מחסני נתוניס: מחסן הנתוניס הארגוני,
מרכול הנתוניס, מחסן הנתוניס הרב-שכבתי, מאגר הנתוניס התפעולי ומחסן הנתוניס
המדומה.
אחת השאלות העיקריות שהארגון צריך לשאול את עצמו מייד עס תחילת יישוס מחסן
נתוניס היא איזּו ארכיטקטורה ברצונו לממש. התשובה לשאלה זו מורכבת, ותלויה
בארגון עצמו. אנשי המקצוע העוסקיס במחסני הנתוניס חלוקיס בדעותיהס באשר
לארכיטקטורה המומלצת. יש הטועניס בלהט רב שרק המחסן הארגוני יביא את התועלות
לארגון, בעוד שאחרים טועניס באותו להט שמימוש מחסן נתונים ארגוני נדון לכישלון
ואינו ישיס, בשל חוסר היכולת לספק את כלל הצרכים והדרישות בבסיס נתוניס אחד
ויחיד. לכן, הס טועניס, רק מרכול הנתוניס נותן תשובה לצרכי הארגון. התשובה הנכונה
היא, כמובן, שהארכיטקטורה המומלצת היא המחסן הרב-שכבתי, המכיר הן בצורך
לבניית מחסן נתוניס מרכזי והן בצורך לתת מענה לדרישות המשתמשים, המחלקות וכלי
הניתוח השונים על ידי בניית מרכולי נתוניס. בעיה לא פשוטה היא כיצד מקימיס מחסן
נתוניס רב-שכבתי. נדחה את הדיון בנושא ה לאחד הפרקיס הבאים.
חשוב להדגיש שדעתנו המלומדת לא תמיד קובעת, אלא התקציב העומד לרשות הארגון
מכתיב לא פעם את ארכיטקטורת מחסן הנתונים שלו. יישוס ארכיטקטורת מרכול
הנתונים זולה יותר וקצרה יותר, ולכן וו החלופה המועדפת על ידי ארגוניס המבקשים
לצמצס את השקעותיהס בטכנולוגיית המידע. התקציב הנמוך יחסית, לוח הזמניס הקצר
וקלות היישוס, הס בלי ספק הגורמיס העיקרייס לכך שארגוניס רביס בוחריס בחלופה זו.
הקמת מספר מרכולי נתונים מחלקתיים לא-עקביים גורמת לארגון לאבד יתרון אחד
חשוב - היכולת לקבל נקודת מבט כוללת על כל הנתונים. כל מרכול נתוניס מנהל רק חלק
מהנתונים, ומכיון שגם לא טורחיס תמיד לתאם בין המחסנים השונים, הארגון נחשף
מחדש לבעיות חוסר עקביות בין הנתוניס, סתירות בין נתוניס (הנובעיס ממרכולי נתוניס
שונים) וכדומה. נדגיש גס שמאמצי הגזירה מהמערכות התפעוליות, ומאמצי הניקוי
והטיוב של הנתוניס מתבצעים מספר פעמים, תוך בזבוז משאבי פיתוח ומשאבי מחשוב.
ממחקרי שוק שוניס מסתבר שיישוס מרכול נתונים יכול להתבצע תוך מספר חודשיס
(פחות מחצי שנה) ובעלות של מספר מאות אלפי שייח ועד כמיליון שייח. לעומת ואת, משך
הקמת מחסן נתונים ארגוני יכול לקחת עד כשנתיים ועלותו מספר פי עשר ויותר. בשל
הבדלים אלה ארגוניס רביס מעדיפיס להתחיל ביישום ניסיוני (%+6!ו₪1) של מרכולי נתוניס,
כשלב מקדיס לבניית מחסן הנתוניסם הארגוני. זו תפיסה נבונה המאפשרת התנסות
הדרגתית הן בצד התועלות והן בצד הקשייס הצפויים. ארגוניס אלה מנסים להגדיר
ארכיטקטורה אחידה, סטנדרטים ועקרונות, כדי להבטיח שבבוא העת ניתן יהיה לשלב
את מרכולי הנתוניס עס מחסן ארגוני, לקבלת ארכיטקטורה משולבת רב-שכבתית.
2 מחסני נתונים
פרק 3: סקירת מרחב הטכנולוגיות
לניתוח מידע
מבוא
מחסני הנתונים, על פי הגדרתם, נועדו לתמוך בניתוח מידע לתמיכה בתהליכי קבלת
החלטות ולאפשר לארגוניס לנצל טוב ביותר אחד מהמשאביס החשוביס שלו - המידע.
כפי שכבר הוסבר, מחסן הנתונים אינו מוצר, אלא תפיסה כוללת המשלבת מספר מוצריס
לבניית פלטפורמה ארגונית לניהול וניצול יעיל של מידע למטרות עסקיות. בסופו של דבר,
מחסן הנתוניס נועד להעמיד את הנתוניס והמידע לרשות המשתמשים. ייעודו העיקרי
הוא לאפשר להס לנתח ולחקור את הנתונים כדי להבין ולפענח טוב יותר את ביצועי
הארגון ולדעת מהס הגורמיס המשפיעים על ביצועים עסקיים אלה. כל זאת, כדי לאפשר
להס לקבל החלטות טובות ומבוססות יותר.
ניתוח נתונים (515ע/|8ח/ הּזְהכ) הוא נושא רחב ביותר ונפוצ מאוד בתחומי המחקר
האקדמי, ההנדסי והשימושי. בפרק גה נתמקד בתהליכי ניתוח מידע בסביבת מחסן
הנתוניס. כלומר, בתהליכי ניתוח מידע עסקי שמטרתס פתרון בעיות עסקיות ותמיכה
בקבלת החלטות עסקיות. תהליכים אלה יכוליס להתחיל בתהליכי ניתוח מידע פשוטיס
מאוד ולהגיע לתהליכי ניתוח מידע מורכביס ביותר, בהתאם לאופי ולסוג ההחלטות שיש
לקבל. בכל מקרה, הרכיב האנליטי של מחסן הנתוניסם חייב לתמוך בגישה מהירה
לנתוניס, בבניית מיגוון שאילתות מזדמנות וקבועות, בביצוע חישובים שוניס על הנתונים,
בחיווי ובתכנון, בסימולציות +! +8ח/ וכדומה. כפי שנראה בפרק זה, הרכיב האנליטי של
מחסן הנתונים איננו הומוגני, אלא מורכב מאוסף כלים ומוצריס המספקיס צרכים
אנליטיים שונים ומגוונים.
אחד המאפייניס החשוביס של תהליכי ניתוח המידע הוא שהס בעלי אופי איטרטיבי ולא
לינארי. הניתוח מתחיל מנקודה מסוימת, ועל סמך המידע המתקבל עולות שאלות
חדשות, לעיתיס בכיווניסם חדשים לחלוטין. בחינת המידע המתקבל עשויה להוביל
לשאלות וחקירות נוספות, וחוזר חלילה, עד למיצוי המידע הנדרש לקבלת ההחלטה. בגלל
מיגוון תהליכי הניתוח האפשריים, אין שיטה אחת וטכנולוגיה אחת המסוגלים לתמוך
בתהליך קבלת ההחלטות. לכן, סביבת מחסן הנתוניסם היא עתירת טכנולוגיות לניתוח
מידע.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 63
בפרק זה נרחיב את הדיון בדרכיס לניתוח המידע ונגדיר את המושג ניתוח מידע. נסקור
את התהליך בו נתוניס הופכיס בסופו של דבר להחלטות, נציג שתי גישות שונות לניתוח
מידע - גישת האימות וגישת הגילוי, נסקור את משימות הניתוח השונות המתבצעות על
ידי גורמיסם שוניס בארגון, ונסכס במפה המציגה את מיגוון הטכנולוגיות השכיחות
בסביבת מחסן הנתונים.
מנתונים דרך מידע ועד להחלטות
מהות תפיסת מחסן הנתוניסם היא תמיכה בהחלטות. לכן יש חשיבות בהבנת יישרשרת
המזוןיי המתחילה בנתונים גולמייס ומסתיימת בהחלטות עסקיות. ניתן להסתכל על
תהליך זה גם כעל שרשרת ערך לתמיכה בקבלת החלטות (3!06/ +זסקקט5 חסו5ו60פ
חו68). שרשרת בה מתבצעות המרות שונות המגדילות באופן מתמיד את ערך הנתונים,
עד להפיכתם להחלטות עסקיות. מכיון שהמושגים נתונים, מידע, ידע והחלטות ישמשו
אותנו תדיר בהמשך ננסה להגדיר אותם במדויק, אס כי לא באופן פורמלי ומתמטי, אלא
בהגדרה שימושית.
נתחיל את הדיון בהצגת התהליך ההופך נתוניס להחלטות.
נתונים - עובדות 6 - 8%
מידע 100 מ
ידע 6
החלטות 5
תרשים 3.1: שרשרת ההמרות מנתונים להחלטות.
כפי שניתן לראות מתרשים 3.1, התהליך מתחיל בנתונים גולמיים, ההופכים למידע
ההופך לידע שבאמצעותו אנשיס מקבליס החלטות. בכל שלב מתבצעת המרה כלשהי,
שיכולה להיות פשוטה מאוד ולעיתים מורכבת מאוד. כאן המקוס להדגיש שתהליך
העלייה בערך או ההתקדמות בתוך שרשרת התהליך, אינו לינארי אלא איטרטיבי. כלומר,
התהליך כולו מבוסס על רצף המתחיל בדרך כלל מהנחות מסוימות, ממשיך בהפעלת
אוסף שאילתות על הנתונים, עובר לניתוח הממצאיס וחקירת הנתוניס, משס - להפעלת
שאילתות נוספות וחוזר חלילה. כך, באופן איטרטיבי, עד לקבלת תמונת המידע והידע
הנדרשיס לקבלת ההתחלטות.
4 מחסני נתונים
5 שאילתות 2 ב מ ו מ
הבעיה ץזסו) 5 8
תרשים 3.2: תהליך איטרטיבי בתוך השרשרת.
להבהרת המושגיס, התהליך וההגדרות נשתמש בדוגמה העוסקת במכירת מכוניות, ונלווה
את השרשרת מתחילתה ועד סופה.
נתונים (בַּאָ3)
נתונים הם אוסף של עובדות בסיסיות על אנשים, אירועים ויישויות הרלוונטיים לארגון
וליישום. הנתונים נאגרים ומעובדים במערכות המידע התפעוליות של הארגון.
דוגמאות לנתוניס: מחיר פריט, שס לקוח, משך שיחת טלפון, שס מוייל של ספר, כתובת
ספק הציוד, יתרה במלאי של פריט, כמות שהוזמנה, היתרה בחשבון הבנק, תאריך
התנועה האחרונה בחשבון הבנק וכדומה. במובן מסויס ניתן להתייחס לנתוניס כאל
אלמנטיםס אטומיים במודל הנתוניס הכולל של הארגון. בעקרון, וו הרמה הנמוכה
שמעניינת את הארגון. לדוגמה, לספרה השנייה ביתרת המלאי של הפריט אין כל חשיבות
כשהיא לעצמה, אלא רק כחלק מהמספר הכולל המייצג את היתרה כולה. בדומה, לא
מעניין אותנו מהי האות השביעית בשמו של הלקוח, כי מעניין אותנו שמו המלא בלבד.
מערכות המידע התפעוליות קולטות את העובדות הבסיסיות הללו, כלומר את הנתוניס,
באמצעות תנועות (9ח0ו580%ח8ז1), מאחסנות אותן בבסיסי הנתוניס ולאחר מכן
מאפשרות את עיבודן. מערכות המידע המודרניות מסוגלות כיוס לקלוט ולעבד כמויות
עצומות של נתוניס.
אס נתייחס למערכת המבצעת רישום של מכירת מכוניות בסוכנות למכירת כלי רכב,
נראה שהנתוניס הבסיסיים הנאגרים על ידה יהיו למשל: שם לקוח, כתובת, גיל, רמת
הכנסה, סוג הרכב שקנה, מחיר הרכב, תאריך הרכישה, שס יצרן הרכב, דגם, מספר
הרישוי, נפת מנוע, צבע המכונית, סוג תיבת ההילוכים וכדומה.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 65
בר 4
דישום של כל מכירה שק
מכונית ופדטים דמוגדפיים
של הקונה
תרשים 3.3: שלב רישום הנתונים.
מידע (חסוזהּ וחווסזח!)
מידע מייצג את הנתונים שעברו עיבוד ושיוך בהקשר מסוים. המידע מוצג בצורה הנוחה
לבני אדם: דוחות, גרפים, טבלאות וכדומה.
המרת נתוניס למידע מתבצעת בדרכים שונות: מיון הנתוניס בסדר מסוים, שליפת נתוניס
העונים על קריטריון כלשהו, עיבודים וחישוביס מתמטיים כלשהם (סיכומים, ממוצעים,
הפעלת נוסחאות וכדומה), הצגת הנתונים בצורה של גרף, הדגשה של ערכים חריגים
וכדומה.
אס נמשיך בדוגמה שהבאנו מסוכנות כלי הרכב, נוכל לעבד את הנתוניס הגולמייס ולהפיק
מהסם סוגי מידע שוניס. נניח שמנהל הפרסוס צריך לקבל החלטות לבניית התדמית
למכוניות שונות שהסוכנות מוכרת. וו למעשה הגדרת הבעיה וממנה מתחיל תהליך
חקירת הנתוניס. כחלק מתהליך זה נוכל להציג את התפלגות מכירת סוגי כלי הרכב לפי
חתך גיל הקונה ורמת הכנסתו, את מספר כלי הרכב שנמכרו במהלך כל אחד מ- 24
החודשיס האחרונים, כמה כלי רכב של יצרן מסויס נמכרו לקונים הגריס באזור מסויס
בארצץ וכדומה. כפי שניתן לראות, על בסיס הנתוניס הגולמיים שנאגרו במערכת
התפעוליות של סוכנות הרכב ניתן להפיק אינספור חתכי מידע שיכוליס לשמש משתמשים
שוניס לביצוע תפקידס ולניתוח ביצועי העסק. התהליך הוא איטרטיבי ולכן לאחר הצגת
הנתוניס בצורה או ברמה מסוימת, סביר להניח שנרצה להוסיף ולחקור בכיוון מסויס
כתוצאה מהמידע שהתקבל.
6 מחסני נתונים
נתונים -עובדות 6 - 0
דשימת הלקוחות שקנו בשנתיים
האחדונות מכוניות ספורט בהתפלגות
לפי גיל ודמת הכנסה
ידע 6
החלטות 5
תרשים 3.4: שלב המרת נתונים למידע.
מחסן הנתוניס הוא אחד המרכיבים העיקריים בתהליך ההמרה של הנתוניס למידע,
מכיון שהוא מאחסן את מירב הנתוניס התפעולייםס במבנה ייעודי ומאפשר את המרתס
למידע באמצעות מיגוון כלים. כלי העבודה של מחסן הנתוניס הס מחוללי שאילתות
ודוחות, כליס גרפייס להצגת המידע, כליםס סטטיסטיים לניתוח הנתונים וכדומה. הכליס
מאפשריס לבצע את החקירה והצגת המידע בצורה נוחה וידידותית.
ידע (6006!/וסח6))
ידע הוא תוספת שניתנת לנו להבנה של נושא מסוים.
תהליך ההמרה של המידע לידע מתרחש במוחו של האדס ומבוסס על ההתבוננות במידע
וניתוחו. קשה להגדיר תהליך וה כתהליך מובנה, מכיון שהוא מבוסס לא מעט גס על
גורמים כגון ניסיון, הבנת המידע המוצג וגורמיס נוספים.
בדוגמה שלנו, מתוך התבוננות ברשימת רוכשי מכוניות הספורט בשנתייס האחרונות לפי
גיל ורמת הכנסה, נוכל להגיע למסקנה שרובס גבריס מעל גיל 40 ובעלי רמת הכנסה של
מעל 500,000 ש'יח בשנה. והו ידע חדש שנוצר במהלך ניתוח הנתוניס, הפיכתם למידע
וניסיון להבין ממנו משמעויות נסתרות, או גלויות.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 67
נתונים -עובדות 6 - 8%
=> 5 4 .
ידע 0
מבין כל האנשיס שקנו
מכוניות ספודט67 אחוז הם
גברים מעל (יל40 וברמת
הכנסה של מעל500,000 -
דולד לשנת החלטות 5
תרשים 3.5: שלב המרת המידע לידע.
תהליך הפיכת המידע לידע יכול להיות אנושי ולהתבצע במהלך חקירת הנתוניס והמידע,
או שהוא יכול להיות תהליך ממוחשב המבוסס על שימוש באלגוריתמיס שוניס המופעלים
על הנתוניסם כדי להסיק מהס את הידע. טכניקות ממוחשבות אלו ידועות כיוס בשס
הכולל כריית נתונים (סַחוחוו הזהכ).
החלטות (5חס/ו6615כ)
כל ארגון מבקש לקבל החלטות מושכלות ומבוססות במטרה להפוך החלטות למעשים
ופעולות שתשפענה בדרך כלשהי על הארגון. הבעיה היא שההחלטות מבוססות על מספר
רב מאוד של פרמטריס וחשוב לא פחות, הן אינו מתבססות רק על ידע, אלא גם על
ניסיונס של המנהלים, הערכותיהס ועל הבנת המשמעות של המידע המובא בפניהם. אותו
מידע המוצג לאנשים שוניס יכול להפוך לידע שונה, ובסופו של דבר להביא להחלטות
שונות. כל וה נובע מהבנה שונה ומהקניית משמעות שונה למידע על ידי כל מנהל. כתוצאה
מתהליך רכישת הידע ניתן לעבור לשלב הבא: הפיכת הידע להחלטות אופרטיביות.
בהמשך לדוגמה שלנו, כתוצאה מהידע שרוב רוכשי מכוניות הספורט הס גבריס מעל גיל
מסויס ובעלי רמת הכנסה מסוימת, ניתן להגיע להחלטות שונות. למשל, מנהל הפרסוס
יכול להגיע להחלטה לנסות ולבנות תדמית סולידית יותר למכוניות הספורט, לפתות
במבצע מכירות המותאס לפלח אכלוסיה גה וכדומה. כמובן, שאם היינו מציגים ידע וה
למנהל השיווק בחברה המייצרת את המכוניות, הוא יכול היה להגיע להחלטות שונות
בדבר צורת המכונית, האבזור הפנימי, טווח המחיריס הסביר למכוניות אלו וכדומה.
8 מחסני נתונים
נתונים - עובדות 6 - 30
מידע 100
החלטות 85
במבצע הפרסום הבא
יש ליצור תדמית סולידית
למכוניות הספודט
תרשים 3.6: שלב המרת הידע להחלטות.
מה זה ניתוח נתונים
את הדיון בנושא ניתוח המידע נתחיל בהבחנה בין התהליכיס השוניס המתבצעים בארגון.
מקובל לחלק את התהליכיס לשתי קטגוריות עיקריות: תהליכים תפעוליים ותהליכיס
אנליטיים.
.%
*%
תהליכים תפעוליים (0605505זק |8ה000:800): אוסף התהליכים הרגיליס
שבאמצעותס הופכים אוסף של תשומות לאוסף של תפוקות. למשל, אס הארגון הוא
יצרני, הפעילויות השוטפות הן פיתוח ותכנון המוצריס, רכישת חומרי גלס, אחסון
חומרי הגלס במחסנים, ייצור המוצריס, קבלת הזמנות מהלקוחות, משלוח המוצריס
ללקוחות, תיקון תקלות במוצריס וכדומה. אס הארגון עוסק במתן שירות כגון בנק,
או חברת ביטוח, הפעילויות השוטפות הן לנהל סניפיס בהס הלקוחות מקבליס את
השירות, להגדיר שירותיס חדשים, למכור שירותים ללקוחותיהם, לחייב את
הלקוחות בגין בעמלות השירותיס, לספק ללקוחות דיווח מצב החשבון או הפוליסה
וכדומה. אס החברה עוסקת בטלקומוניקציה הפעילויות השוטפות הן תכנון ופיתוח
רשת תקשורת, התקנת מרכזיות ציבוריות או ציוד תקשורת נתוניס מתאים, פיתוח
ושיווק שירותיםס, רכישה והתקנה של ציוד חדש, תחזוקת רשת התקשורת, חיוב
לקוחות בגין צריכת שירותים, טיפול בתקלות רשת וכדומה.
תהליכים אנליטיים (0665565ז7 |8168עְ1): תהליכים אלה מבוצעים על ידי
הארגון ומטרתס ניתוח נתוניס לצורך הבנת התנהגות הארגון. תהליכיסם אלה
עוקביס אחר התפתחויות בפעילות הארגון במטרה לקבל החלטות עסקיות. מטרת
ההחלטות העסקיות היא לשנות את ביצועי הארגון ברמה האופרטיבית השוטפת,
ברמה הטקטית לטווח הבינוני, וגס ברמה האסטרטגית בטווח הארוך יותר. את
התהליכים האנליטיים מבצעיס מספר רב של גורמים בארגון: מנהלים בדרג זוטר,
מנהליס בדרג בכיר, מנתחי מידע מקצועיים ואחריס.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 69
מערכות עיבוד תנועות (₪ד01) הן מערכות מידע תפעוליות שהתפתחו במשך השניס
במטרה לתמוך בביצוע התהליכים התפעולייס השוטפים בארגון. באופן טבעי, הן
משרתות בעיקר את הדרג התפעולי של הארגון, שעוסק בביצוע הפעילויות השוטפות
והיומיומיות: עובדי הייצור, קנייניס, מחסנאיס, מנהלי חשבונות, אנשי שירות וכדומה.
הפעילויות השוטפות מתאימות מאוד לטכנולוגיית המחשב, מכיון שהן פשוטות וחוזרות
על עצמו. שימוש במערכת מידע ממוחשבת יכול להביא לייעול ופישוט תהליכים אלה.
ניסיונס של המנהליס ומנתחי המידע להשתמש במערכות תפעוליות כמערכות התומכות
גסם בתהליכים האנליטיים, נתקל בקשייס בשל האופי השונה לחלוטין של תהליכיס אלה.
עס השניסם החל להתפתח סוג חדש של מערכות ממוחשבות - מערכות לניתוח נתוניס
מקוון. מערכות אלו יועדו לאוכלוסיה שונה: עובדי ידע, מנהליס ומקבלי החלטות בארגון.
הופעת המחשבים האישיים ושרתים זולים ועתירי עוצמת עיבוד, והוזלת אמצעי האחסון
ורשתות התקשורת המהירות היו גורס עיקרי בהתפתחויות שחלו בטכנולוגיית המידע. כל
אלה שימשו כפלטפורמה שאפשרה את התפתחות המערכות הממוקדות בכל סוגי
הפעילויות האנליטיות לניתוח הנתוניס המתבצע בצורה אינטראקטיבית. המערכות
התומכות בניתוח הנתונים וכו לשס כולל ונפרד - מערכות תומכות החלטה. הדבר מדגיש
את האבחנה בינן לבין המערכות התומכות בפעילות השוטפת של הארגון. תחילה נציג
הגדרה פורמלית עבור הפעילות האנליטית של ניתוח נתוניס בסביבת מחסן הנתוניס.
ניתוח נתונים בסביבת מחסן נתונים מתייחס לכל הפעילויות האנליטיות לניתוח וחקר
הנתונים כדי לאפשר החלטות עסקיות ופתרון בעיות. פעולות אלו מתבצעות בצורה
אינטראקטיבית עם המחשב ומשתמשים בהן במיגוון טכנולוגיות, כלים ושיטות וביניהם:
מחוללי שאילתות, כלים גרפיים להצגת נתונים, כלי ניתוח רב-מימדי, טכנולוגיית כריית
נתונים, כלים סטטיסטיים וכדומה.
נוכל לומר שניתוח הנתוניס עוסק בפעילות המרה ההופכת את הנתונים למידע ולידע. כך,
בסופו של דבר, יכול הארגון לקבל החלטות טובות יותר. התהליכים האנליטייס מתבצעיס
בעיקר על ידי אוכלוסיית המנהלים, מקבלי ההחלטות ומנתחי המידע. לכן הס ממוקדיס
פחות ברמה השוטפת היומיומית ויותר אלא ברמות גבוהות, תוך חיפוש אחר מגמות,
תופעות חריגות ותובנות חדשות. התהליכיס האנליטיים הס בעלי אופי שונה מתהליכים
שוטפים ומבוצעיס על ידי משתמשים שונים, ולכן טבעי שהס מבוססים על טכנולוגיות
מידע שונות מאלו התומכות בתהליכיס התפעוליים. תפיסת מחסן הנתוניס היא התפיסה
הכוללת העוסקת בהגדרה, בבנייה וביישוס של מערכות ייעודיות, אשר מטרתן לתמוך
בביצוע התהליכים האנליטייס של הארגון.
בקרב מנהליס ואנשי מקצוע קייס בלבול מושגים מסויס בכל הקשור למושגיס ניתוח
נתונים, מערכות תומכות החלטות ומחסני נתונים. הנטייה היא לחשוב שכל אלה הס
מושגים נרדפים, ולא כך הדבר. מחסן הנתונים מייצג תפיסה רחבה ושלמה, שמטרתה
ניהול וניתוח נתונים לתמיכה בתהליכי קבלת החלטות. הוא עוסק בכל קשת הפעילויות
של איסוף הנתונים, גזּירתס ממערכות תפעוליות או מקורות חיצוניים, שיפורם וטיובס,
ארגונס בצורה מתאימה, טעינתס לבסיס נתונים ייעודי, אספקת הנתוניס לכלי הניתוח,
תפעול ותמיכה במשתמשי כלי הניתוח וכדומה.
0 מחסני נתונים
במיליס אחרות, מחסן הנתונים הוא תהליך קצה לקצה, בעוד שניתוח הנתונים מהווה רק
חלק אחד מהמכלול הנקרא מחסן נתונים. אמנס, והו החלק העיקרי והמטרה שלשמה
נבנה מחסן הנתוניס, אולס קיימת אבחנה ברורה בין המושג מחסן נתונים לבין המושג
ניתוח הנתונים. חלק מהבלבול נובע מכך שניתוח הנתונים הוא חלקו הגלוי של הקרחון -
זה מה שהמשתמשים במחסן הנתוניס עושים. חלק גדול מפעילויות מחסן הנתוניס הן
הפעילויות התומכות, המסתתרות מתחת לפני המיס וכוללות גזירת נתוניס, בדיקות
תקינות, טיוב נתונים, טעינת נתונים, בניית סיכומים, שיפור ביצועים, גיבוי נתוניס
וכדומה. דרך טובה להבין את האבחנה הזו היא להתייחס לפעילות ניתוח הנתוניס כאל
הפעילות הקדמית (028800) %חסזת), הגלויה, בעוד שחלק גדול מתפיסת מחסן הנתוניס
עוסק בכל הפעילות האחורית (21108) 280%), זו שמאחורי הקלעיס, אבל בזכותה ניתן
לבצע את פעילות ניתוח הנתוניסם.
סיווג תהליכי ניתוח הנתונים -
אימות מול גילוי
מרחב התהליכיס האנליטיים לניתוח הנתוניס והמידע גדול ומתחיל בתהליכי ניתוח
נתוניס פשוטיס מאוד ומגיע עד לתהליכי ניתוח מידע מורכבים ביותר. נשתמש במספר
דוגמאות כדי להציג את רמת התחתכוס ההולכת וגדלה של פעילויות ניתוח המידע השונות.
נתחיל בהצגת דוגמה לעיבוד אנליטי פשוט, נעבור לדוגמה מורכבת יותר ונסייס בדוגמה
לעיבוד אנליטי מורכב.
+ עיבוד אנליטי ברמת מורכבות פשוטה: נניח שמנהל בחברת טלקומוניקציה כלשהי
מבקש לקבל מידע על פעילות לקוחות החברה בתקופה מסוימת ובאזור מסויס. לשס
כך הוא יציג בוודאי שאילתה כגון '*הצג את רשימת כל המנוייס שהתקשרו ממספר
טלפון באזור חיוג 03 למספרי טלפון באזור חיוג 04 בתאריך 10/2/99 בין שעות
0 ו- 30 :10, ואשר משך השיחה היה מעל 10 דקותיי. במבט ראשון, במונחיס של
עיבוד אנליטי מקוון, נראית השאילתה מורכבת למדי, אך זו שאילתה פשוטה מאוד
ובמובן מסויס היא רק תתילת הדרך בניתוח המידע. כאשר המנהל מקבל את
התשובה לשאילתה זו הוא יוכל לבקש פירוט נוסף המתמקד בטווח זמן מצומצס
יותר, למשל בין השעות 15 :10:00-10, לבקש פירוט לתאריך שונה, או לבקש פירוט
של שיחות קצרות יותר. עיבוד אנליטי כזה נתמך על ידי הטכנולוגיה של מחוללי
שאילתות ודוחות פשוטים הפועליס על בסיס נתוניס טבלאי. הס מאפשריס
למשתמש לנסח את בקשתו, לקבל את התוצאה במהירות, להציג אותה באופן גרפי,
לבקש פירוט נוסף, לשנות את הפרמטריס של השאילתה ובדרך איטראטיבית להגיע
למידע המבוקש.
% עיבוד אנליטי בעל רמת מורכבות בינונית: נניח שהמנהל שפגשנו בדוגמה הקודמת
מבקש לראות מיהן ארצות היעד הפופולריות ביותר לשיחות הטלפון. הוא יכול לנסח
בקשה כזו לקבלת מידע: ימהן 5 הארצות אליהן היה מספר ההתקשרויות הרב
ביותר החודש, ומהו נפח התנועה אל ארצות אלו החודש לעומת החודש הקודס".
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע 71
דוגמה נוספת לתהליך אנליטי מורכב יותר: 'יהצג את סך ההכנסות לפי אזור חיוג,
הצג פירוט לפי סוגי השירותיסם השונים ופירוט לפי חודשיס לשלוש השניס
האחרונות'י. מחוללי השאילתות הרגיליס אינס תומכיס בבקשות מידע אלו בצורה
פשוטה. במשך השניס התפתחה טכנולוגיה ייעודית לניתוחי מידע מורכב מסוג וה
המסוגלת להתמודד עס שאילתות כאלו, וגם מורכבות יותר. תפיסה זו נקראת ניתוח
רב-מימדי.
> עיבוד אנליטי ברמת מורכבות גבוהה: עיבוד אנליטי מורכב יכול להיות, לדוגמה,
תהליך תשובה לשאילתה מסוג 'ימה התחזית לגבי נטישת לקוחות, במידה ותעלה
רמת התעריפים לשיחות בינלאומיות ליעדיס מסוימיסם ב- 10%, ומה תחיינה
השלכות השינוי על רווחיות החברהיי. כדי לענות על בקשה מסוג זה יש להבין מהס
הפרמטרים המאפיינים לקוחות נוטשים, כגון נתוניסם דמוגרפייס, רמת הכנסה, כמות
דקות שיחה, רגישות הביקוש לרמת התעריפים וכדומה. לאחר מכן יש לפתח מודל
מתמטי כלשהו לחיזוי הנטישה. הטכנולוגיה של מחוללי השאילתות, ואפילו של כלי
הניתוח הרב-מימדיים, מתקשים לתמוך בביצוע עיבודים אנליטיים כאלה. לכן
התפתחו עס השנים טכנולוגיות מתקדמות התומכות בעיבודים אנליטיים מיוחדיס
אלה: כריית נתונים.
כפי שניתן לראות מדוגמאות אלו, התהליכיס האנליטיים מגווניס מאוד ולכן טבעי הדבר
שהס נתמכים על ידי טכנולוגיות שונות. דרך נוספת להבין את השוני בין תהליכי העיבוד
האנליטי לבין הטכנולוגיות השונות היא לבחון את הנחת העבודה הבסיסית העומדת
מאחורי כל אחת מהשיטות. מקובל לומר שקיימות שתי קטגוריות שונות של תהליכיס
אנליטייסם: תהליכים מבוססי אימות ותהליכים מבוססי גילוי.
> תהליכים אנליטיים מבוססי אימות (08!515ח/ 28560 ח611168007/): מספר רב
של כלים אנליטיים מבוססים על העיקרון שהמשתמש בונה הנחה כלשהי, היפותזה,
ומתחיל להפעיל טכניקות ניתוח שונות שאמורות לאושש, או לסתור אותה. תהליכיס
אלה מבוססים על המשתמש, על יכולתו להניח את ההנחות הנכונות, על שיקוליו
בעת בחינת ההנחות ועל הפרשנות שלו לממצאים. במילים אחרות, תפיסה זו
מבוססת לא מעט על כישוריו של המשתמש, האינטואיציה שלו, יכולתו להניח
הנחות, לבנות את השאלות הנכונות ויכולתו לפרש נכון את הממצאים. יעילות
השיטה תלויה במספר רב של גורמים, וביניהס יכולתו של מנתח המידע לחרוג
יימהקופסהיי, כלומר לבחון גם תבניות ומגמות לא ידועות וגלויות. בהתבסס על
אבחון זה, ניתן לומר שטכנולוגיית מחוללי השאילתות והדוחות וטכנולוגיית כלי
הניתוח הרב-מימדי, מבוססיסם על תהליכי אימות. הס מאפשרים למשתמש לחולל
בקלות שאילתות מורכבות ולקבל במהירות יחסית את התוצאות. כליס אלה אינס
מנחיס את המשתמש בדרך כלשהי להצגת השאילתות ומה המסקנות המסתתרות
בתוצאה המתקבלת. כלי הניתוח הרב-מימדייס מאפשריס את הצגת הנתוניס בצורה
מתוחכמת, ומתבססיס במידה רבה על חישובים שוניס הנעשיס מראש. כלי ניתוח
סטטיסטייס מאפשרים את הניתוח בין מספר משתנים, ומאפשרים להגדיר את
המובהקות הסטטיסטית ביניהס.
2 מחסני נתונים
> תהליכים אנליטיים מבוססי גילוי (8!515ח/ 28560 עזסַע0ס56וכ): העיקרון
העומד בבסיס שיטה זו שונה - לא הוכחת הנחות, אלא גילוין. בתפיסה זו המשתמש
אינו מניח הנחות כלשהן, אלא מאפשר לכלים אוטומטייס (המבוססים על
אלגוריתמים מתותכמים) לפעול מול הנתוניס ולחשוף את התבניות המסתתרות
בהס. במיליס אחרות, על המשתמש לגלות את היהלומיס המסתתרים במעמקי
הנתוניס. תפיסה זו נתמכת על ידי טכנולוגיה חדשה בשסם ייכריית נתוניס'י. תהליכי
כריית נתונים מסוגליס לבחון מספר רב של משתנים בו-זמנית ולחשוף יחסים שוניס
ביניהס, להצביע על קשריס מובהקים או על חריגים מיוחדיס. ניתן לומר שכריית
הנתונים מתבססת על הנתונים ומנסה לזהות מתוכם את היחסים, ההקבצות,
התבניות וההקשרים. תהליכים אלה פועלים, בדרך כלל, באופן טוב יותר מול בסיסי
נתוניס גדוליס, המכיליס מספר רב של תצפיות או עובדות.
כדי להדגיש את ההבדלים בין שני סוגי התהליכים האנליטיים האלה נשתמש בדוגמה
נוספת, הפעם מתחוס השיווק והדיוור הישיר. חברה מבקשת לצאת במבצע שיווק למוצר
חדש ועליה להחליט למי מלקוחותיה לשלוח מידע על מוצר חדש. המטרה היא להגיע
ללקוחות שקיימת הסבירות הגבוהה ביותר שיהיו מעונייניס לרכוש את המוצר. אס
תהליך החלטה זה יתבסס על מודל אימות, מנתח המידע יבנה לעצמו מודל כלשהו שיניח
מה הן התכונות הרלוונטיות ביותר של הלקוחות, כמו למשל אזור מגורים, רמת הכנסות,
תבנית הרכישות הקודמות שלו וכדומה. בהתבסס על מודל זה, הוא יתחיל להפעיל סדרת
שאילתות על הנתוניס, או לחילופין יתחיל להתבונן על הנתוניס מזוויות שונות. הוא יבחן
את התוצאות, ישנה את השאילתות או את נקודות המבט ויחזור על התהליך עד שיגיע אל
רשימת הלקוחות הרצויה.
לא ניתן לומר שבתהליך וה נוצר ידע חדש, אלא התבצע תהליך אימות ההנחות מול
הנתוניס. כעת, נתבונו באותה בעיה של הגדרת אוכלוסיית הלקוחות לדיוור ישיר, אלא
שהפעם נתבסס על מודל גילוי. בשיטה זו מפעיל מנתח המידע תהליכים אנליטיים שוניס
לסיווג הלקוחות לקבוצות שונות, מבלי להניח מראש מהי קבוצת הלקוחות המתאימה
ביותר למבצע. לאחר שיאתר את ההקבצות השונות האפשריות של הלקוחות, הוא יחליט
מהי הקבוצה המתאימה ביותר למבצע החדש. במקרה זה בוצע החיפוש אחר ההקבצות,
ללא הנחה כלשהי מראש, ולמעשה היה כאן תהליך של גילוי ההקבצות המתאימות
לאוכלוסיית הלקוחות. כמובן שניתן לגשת לבעיה זו בשיטות אנליטיות נוספות, כמו
למשל הבנת מאפייניהס של לקוחות הקוניס מוצריס דומים ובניית עץ החלטות שיופעל על
כלל אוכלוסיית הלקוחות.
הדרך הנכונה להתייחס לשני סוגי התהליכים האנליטייס האלה היא כאל תהליכיס
משלימים. הכלים לכריית נתוניסם אינס מחליפיס את מחוללי השאילתות ואת כלי הניתוח
הרב-מימדי השונים, אלא מהוויס נדבך נוסף ומשלים לכליס אלה. השלמה זו נועדה
לאפשר מיצוי נרחב יותר של הידע מבסיס הנתונים.
חלק מהידע יכול להיווצר באמצעות מחוללי שאילתות וכלי הניתוח הרב-מימדי, אולס
קיים רובד נוסף של ידע, המסתתר בבסיס הנתוניס שאינו בר-גילוי באמצעות שאילתות
1, מתותכמות ככל שתהיינה, או הצגה רב-מימדית של המידע. לדוגמה, לא ניתן לנסת
שאילתה שתבנה ותציג מהס פלחי הלקוחות, או מהן הסיבות למגמות הקניה בשנתייס
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע 73
האחרונות. ניתן כמובן לנסות ולענות על שאלות כאלו באמצעות שאילתות רגילות, אולס
זהו תהליך מייגע הדורש הבנה מעמיקה מאוד של הפרמטרים השונים. הוא דורש להנית
מספר רב של הנחות ולהתחיל בתהליך של ניתוח, שברובו מבוסס על ניסוי וטעייה (וחד
זסזזם 0ח8). תהליך כזה יכול להימשך זמן רב ואין כל ביטחון שאכן נמצה בעזרתו את
הידע המצוי בבסיס הנתוניס.
סיווג הטכנולוגיות התומכות בניתוח נתונים
במשך השניס פותחו כליסם וטכנולוגיות שנועדו לאפשר את ביצוע התהליכים האנליטייס
של עיבוד וניתוח נתוניס ומידע. ניתן לחלק כליסם אלה לשלוש קבוצות עיקריות :
> מחוללי שאילתות ודוחות.
> כלים לניתוח רב-מימדי.
> כלים לכריית נתונים.
לניתוח רב-מימדי וכריית נתוניס הוקדשו שני פרקיס נפרדיס בספר זה, גס בשל חשיבות
הנושא, וגס בשל המורכבות היחסית שלהם.
מחוללי שאילתות ודוחות
(3+015 036061 +36 חב עץזסטוב))
המחולליס קיימיס כבר שניס רבות והחלו להתפתח הרבה לפני הופעת תפיסת מחסן
הנתוניס. הצורך בהפקת דוחות ובבניית שאילתות מול בסיסי נתונים קיים גס במערכות
התפעוליות, והחל להתפתח לאור צרכים אלה. עס השנים התפתחו המחוללים והפכו
למשוכללים יותר, רבי עוצמה וידידותייס למשתמש. הס קיבלו דחיפה חזקה מאוד עס
הופעת בסיסי הנתוניס הטבלאייס ושפת ]500. שפת 501 היא בעלת :יכולות רבות
לתחקור ולהפקת מידע מבסיסי נתוניס והפכה לסטנדרטית. על כן, יצרן שבנה כלי שתמך
בשפת גישה זו לנתונים, נהנה מיכולת גישה למיגוון בסיסי נתוניס טבלאיים של יצרניס
שוניס. עס הופעת טכנולוגיית 0086, שפותחה וקודמה על ידי חברת מיקרוסופט, הפכו
בסיס הנתוניס הטבלאייס לפתוחים ונוחיס מאוד לגישה ממיגוון כליס של צד שלישי.
כלי התחקור הפכו במשך הזמן לידידותיים מאוד, ולמעשה הס מאפשריס למשתמש שלא
למד את שפת .501 לבנות שאילתות מורכבות למדי. כל ואת באמצעות ממשק גרפי נוח
ושימוש בעכבר המשמש להצבעה על העמודות לשליפה, באמצעות הגדרה נוחה של
הקריטריוניס לשליפה, הגדרת סדר מיון של התוצאה וכדומה. עס הזמן התווספו לכלים
אלה תכונות שמטרתן להקל על המשתמש את השימוש בהם, וביניהן:
*> יכולת לפעול מול טבלאות מדומות (שו18/). הטבלאות מוכנות מראש ומסתירות את
מבנה בסיס הנתונים, את פעולות הצירוף (חוסנ) שנעשות בין טבלאות ומכילות
עמודות מדומות שנובעות מחישוב כלשהו.
4 מחסני נתונים
> יכולת להגדיר מחדש את כל שמות העמודות והטבלאות. כך שהמשתמש יכול לעבוד
עס בסיס הנתוניס באמצעות מונחיס הלקוחים מעולמו, ולא במונחים טכניים
שנקבעו על ידי מנהל בסיס הנתונים.
+ יכולת ניהול ספריית שאילתות פרטית. כך יכול המשתמש לשמור את השאילתות
שערך, לשלוף אותן בעת הצורך ולהפעילן באמצעות פרמטרים שונים.
+ שילוב גרפיקה עסקית וצבעיסם בפלט. המשתמש יכול לבחור מתוך מיגוון של סוגי
גרפים שוניס.
+ ניהול הרשאות מתקדם מאפשר להגדיר למי מותר לעשות מה, פרופילים לניצול
משאבי מחשוב למשתמשים שוניס וכדומה.
> משלוח התוצאה למסך או מדפסת, על פי הגדרת המשתמש, העברת התוצאה בדואר
אלקטרוני פנימי או העברה למבנה מתאים לטכנולוגיית אינטרנט.
> הפעלה אוטומטית 0!60ו60ח50) של השאילתות על פי קריטריונים שונים, כגון ומן
(כל יוס שישי), אירוע (למשל, כאשר סך כל המכירות בסניף מסויס ירדו מתחת לסף
מסויס) וכדומה.
תכונות אלו, אשר הולכות ומשתכללות עס הזמן, הפכו כליסם אלה לחלק בלתי נפרד
מסביבת מחסן הנתונים. הכליסם לתחקור הנתוניס הס הרבה יותר מאשר מחולל
שאילתות, ולכן מקובל לקרוא להס סביבה מנוהלת לשאילתות (עץזסטב) סִסהְבּח3
+חסוההסזושטח=). סביבה וו מספקת שירותיס רבים, הן למשתמש הקצה והן למנהלי
המערכת. בין הכלים המוביליס בקבוצת מחוללי השאילתות נוכל למנות את 855ח₪₪91
9 של חברת 5 20[60%8) 855ח[15ום, 1560/6767/2000כ של חברת 600 6ו86זס,
טזקח סזקוח! של חברת 000005, 6פוסז+%ח= סוזם של חברת פפופָס|סחת66ד סוזם ורביס
נוספים. מבין מחוללי הדוחות המוביליס נוכל למנות את 90018 |07/5%9 של חברת
86, חסופו//כ)! של חברת 6ז8ש601 00)], 58, פהסס6 סזק, 503 ואחריס.
כלי ניתוח רב-מימדיים
(פחו6655סזק |בַּסו+עְ!3ח3 6חו1 חס - קה 01)
טכנולוגיית 01/9 היא טכנולוגיה ייעודית, שנועדה לאפשר ניתותי מידע מורכביס
מבחינת המחשב, אבל פשוטיס יחסית מנקדות מבטו של המשתמש. שיטת ניתוח זו אינה
דורשת מהמשתמש להכיר את מורכבויות הניווט בבסיס הנתונים. מוצרי 01.47 מארגניס
את המידע במבנה קוביה רב-מימדית בה כל פיאה מייצגת מימד עסקי בעל משמעות:
מוצרים, לקוחות, סניפים, זמן וכדומה. במפגש של כל אחד ממימדים אלה נשמריס
הנתוניס, או העובדות כפי שמקובל לכנותם, כמו למשל יימה היו המכירות של מוצר
מסויס, בסניף מסויס, ללקוח מסוים בשבוע מסוים'י.
תפיסת ניתוח זו מבוססת על ההבנה שמקבלי החלטות מתחילים את תהליך ניתוח
הנתוניס מהתבוננות ברמה גבוהה יחסית של סיכומים, ובהדרגה מבקשים לקבל פרטים
נוספים, בשיטת מעלה-מטה (חצוסס-קסדז). בדרך כלל, ניתוח הנתונים אינו מתחיל
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 75
בהתבוננות ברמת המכירות של מוצר א בסניף ץ בתאריך /, אלא בהתבוננות על סך
המכירות לפי מוצר, לפי סניף ולפי תאריך. וו רמה סיכומית (60עוףּחוחט6), ולא רמה
מפורטת (26191!60) של הנתונים. רמה סיכומית ו משמשת עוגן, שממנו מתחיל תהליך
הניתוח המנסה לזהות מגמות וחריגים: אילו מוצרים נמכרו יותר, אילו סניפים מכרו
פחות וכדומה. מתמונת-על זו ניתן להתחיל בירידה לפרטים (חששסס |ווזכ) למוצר מסויס
או לסניף מסוים.
למבנה הרב-מימדי יתרונות רבים על פני המבנה הטבלאי הפשוט, ולכן הוא הפך לפופולרי
מאוד בקרב מנתחי המידע.
מוצר א'
יום בשבוע | סה*כ מכירות
| מוצרא' | "אי | | 2948 | |
| מצראי | טסבי | | 3035 = |
| ממצרבי | טםאי | | 0גטג |
תרשים 3.7: הצגה טבלאית מול הצגה רב-מימדית של נתונים.
מוצראי | 295 | 3035 |
נקודת מבט רב מימדית
א 060 0)26)
כפי שניתן לראות מתרשיס 3.7 הצגה רב-מימדית של הנתוניס היא קומפקטית ונוחה
יותר. התרשיס גס מציג את אחת התכונות הבסיסיות של הצגה זו: יכולת סיבוב
המימדים.
הניתוח הרב-מימדי מבוסס על אינטראקציה מיוחדת בין המשתמש לבין הנתוניס.
אינטראקציה זו ניסוח שאילתות במבנה מיוחד, על היכולת לנווט במבנה מורכב של
נתוניס באופן פשוט, על היכולת להתבונן בנתוניס בחתכים שוניס וגמישים, על היכולת
לרדת לפרטיס בהתאס לתוצאות השאילתה, ועל היכולת לעלות לרמות סיכוס גבוהות
יותר. הרב-מימדיות מתבטאת ביכולת להציג את המידע בצורה מיוחדת וגמישה,
שמזכירה את מבנה הקוביה הרב-מימדית שניתן לסובב אותה בכיווניס שוניס. לתהליכי
הניתוח הרב-מימדי מוקדש פרק נפרד בהמשך, ולכן לא נרחיב כאן.
כלי כריית נתונים (פחוחוו/ גַּצָהּכ)
כריית נתונים היא אחד הנושאיס המעסיקים מאוד את אנשי טכנולוגיית המידע בשניס
האחרונות. אין כנס שמכבד את עצמו ועוסק בטכנולוגיות מידע מודרניות ובמחסני
נתוניס, בו לא מוקדשות מספר הרצאות לנושא זּה. כמות המאמריס והספרים העוסקיס
בטכנולוגיה זו הולכת וגדלה וכמעט ורוב הספקים בתחוס טכנולוגיות המידע עוסקיס
בפיתוח ובשיווק מוצריס לכריית נתונים. טכנולוגיה וו מבוססת על רשתות עצביות,
אלגוריתמים גנטיים, עצי החלטות, אינטליגנציה מלאכותית ומערכות לומדות. שמות
אלה גרמו לכך שבעיני חלק מהאנשים נשמעת טכנולוגיה זו כמו מדע בדיוני, ולא כמו
טכנולוגיה בשלה שיכולה לסייע לארגון שלהם כבר היוס. טכנולוגיה זו אינה מדע בדיוני,
אלא הבשלה ומימוש של נושאים מתקדמיס שנחקרו במשך שניס בתחוסם מדעי המחשב.
6 מחסני נתונים
למעשה, טכנולוגיית כריית הנתוניסם היא אכן טכנולוגיה חדשה, המבוססת על
אלגוריתמיס שונים, שבמצביס מסוימים הוכיחו יכולת גילוי טובה מאוד של ידע חדש
מתוך בסיסי נתוניס גדולים. תחוס כריית הנתוניס מורכב ממספר ענפים שונים. כל ענף
מבוסס על סוג מסוים של אלגוריתמיס ומתאיס לסוג מסוים של מצבים. לא ניתן
להשתמש בכלי אחד לכל היישומים והמצבים. שימוש בכלים אלה דורש רמת מיומנות
גבוהה יותר מאשר בכלים האחרים. כעיקרון, מקובל לחלק תחוס זה למספר קטגוריות
שונות של טכנולוגיות וכלי :
.%
*%
כלים סטטיסטיים (פוּפ5ּעְוהח/ |518115008): מקובל להתייחס אל כלים אלה כאל
כלים בסיסיים לכריית נתונים. הכלים מאפשרים ניתוח נתונים מסוגים שונים:
שונות, סטיות תקן, רגרסיות לינאריות, בדיקת מובהקות סטטיסטית, ניתוח סדרות
עיתיות וכדומה. רוב הכליס מאפשריםס הצגה גרפית של הנתונים. השימוש בכליס
אלה דורש מיומנות מצד המשתמשים והבנה בתיאוריה הסטטיסטית. בין הכליס
המוביליס בקטגוריה זו ניתן למנות את 545 של חברת 516046ח! 56, 5055 של
חברת 6ח| 5955, 6ה0צ879ח607 של חברת 000018זק 6ז8שו50 צזפם, ההכ של
חברת 50010876 66/ 6זד ואחריס.
כלי הצגה (100!5 ח15088|28%0/): כלים אלה מאפשרים הצגה מתותכמת של
נתוניס, כמו הצגת פיזור נתוניס, הצגה תלת-מימדית, שילוב מידע גיאוגרפי עס מידע
נומרי, אנימציה של הצגת הנתוניס על ציר הומן וכדומה. כליס אלה היו בשימוש
בעיקר בקהיליית החוקרים והמהנדסים, ורק לאחרונה חדרו לשימושים עסקיים.
הצגת הנתוניסם מאפשרת למשתמש מתותכס להתבונן בהס בדרכיס חדשות, ולגלות
תבניות בלתי ידועות. לדוגמה, הס מאפשרים לגלות שרוב רוכשי מוצר מסויס באזור
מסויס, הס גברים בגילאים מסוימים.
כלים לגילוי יחסים ועצי החלטות (ץז8ע1500 1788-חסופו606 0ח3 6וטח): כליס
אלה הס הנפוצים ביותר מבין כלי כריית הנתוניס ומאפשרים גילוי חוקיס ויחסיס
בלתי ידועים המסתתרים בבסיס הנתונים. חלק מהצגת התוצאה כוללת הצגת
חוקים, כגון '"קיימת הסתברות של 83% שלקוח הרוכש 4 וגם רוכש 8 ירכוש גס 6'י.
חלק מחוקיס אלה מוצגים בצורה של עצי החלטות. הכלים בוניסם את הידע מתוך
סריקת בסיסי נתונים היסטוריים גדולים, מרכיביס את החוקים ואת היחסים
ומאפשרים חיזוי של מצביס חדשים.
רשתות עצביות (5אז9%0 |פזטפא): כליס אלה מבוססים על מודל של רשת עצבית.
זהו חיקוי מסויס ומוגבל של צורת פעולת המוח האנושי, עד כמה שאנו מסוגליס
להבין נושא מורכב זה. כליס אלה טוביס מאוד בפילוח אוכלוסיות ומתאימיס למצבי
חיזוי, במצביס בהס הנתוניס לא נקייס ומכיליס רעש רב. הבעיה העיקרית של כליס
אלה בכך שהס מתנהגיס כמו י'קופסה שחורהיי ולכן קשה לעיתיס להבין מדוע
התקבלה התוצאה שהתקבלה.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 77
.%
*%
לוגיקה עמומה (1.0910 /22ט=): אוסף חדש יחסית של כלים המבוססיס על תורת
הלוגיקה העמומה, להבדיל מהלוגיקה הרגילה של אמת ושקר. אלגוריתמיס אלה
מסוגליס לבצע חיפושיס מתותכמים בנתונים, ולמצוא מצביס קרוביס למצב מסוים,
ולא רק מצביס התואמים באופן מלא למצב מסוים.
מערכות מבוססות ידע (516709/ץ5 28560 6006ו/שסחא): אוסף חדש יחסית של
כלים, המבוסס על תהליך של הנדסת ידע בו אוספיס את הידע ממומחה אנושי,
מנסחיס אותו עבור המערכת ומאפשרים לה, על בסיס ידע וה, לאתר בנתוניס מצביס
מסוגיס שונים. כליס אלה נדיריס מכיון ששימוש בהס מחייב מעורבות של מומחים,
ובתהליכיס מורכבים לניסוח הידע באופן פורמלי.
כיוס קיימיס עשרות מוצריס שוניס, חלקס מתאים לנושא מסויס ומבוסס על טכניקה
אחת, בעוד שאחריס תומכיס במספר טכניקות ולכן מתאימים לסוגי יישומים שונים. בין
המוצריםס המובילים לכריית נתונים נוכיר את |8ח01655[0ז]ק סחוו/! ₪818 של חברת
6חן
סחוומ1הכ, זסחוו %ח6םוו|16ה! של חברת שפו, חושזהם של חברת 8חואהוחד
305 )/, +656חוו של חברת 0300105 חססווופ ואחריס.
כאמור, לכריית נתוניס מוקדש פרק נפרד בספר, ולכן לא נרחיב את הדיון בנושא זה כעת.
סיווג מרכיבי המידע
ניתן להסתכל על המידע בשלושה מישורים שונים:
.%
*%
8
תוכן המידע (1ח00%6 חסווהחזסוח!) - תוכן המידע הוא המרכיב הבסיסי ביותר
שלו. ווהי משמעות הנתונים. התוכן נקבע על ידי הנושא בו עוסק המידע, כמו למשל
מידע לגבי מכירות מוצרים, מידע רפואי אודות חולים, מידע על עובדים, מידע לגבי
תקלות בקו הייצור וכדומה. מקובל להבחין בין סוגי מידע שוניס וביניהס מידע
נומרי, מידע טקסטואלי, מידע מרחבי או גיאוגרפי, מידע קולי וכדומה.
מבנה המידע (6זט517061 הסוח זסזח!) - המבנה עוסק בצורה בה אורזיס ומנהליס
את המידע. קיימים מספר מבנים שוניס לאריוּת מידע עבור תהליכי קבלת החלטות.
הצורה הפשוטה ביותר היא במבנה טבלאי, כפי שמנהל כל בסיס נתוניס יחסי או
בצורה מורכבת יותר של מבנה רב-מימדי, שהוא אחד ממבני המידע הנפוציס ביותר
לניתוח מידע.
מנגנון אספקת המידע (וחפוחה8 ח66ו עץזסטוו6ם הסטהחזסוח!ו) - אספקת המידע
עוסקת במנגנוניס המספקיס את המידע אל שולחן המשתמש. סוגיס שוניס של
משתמשים יהיו וקוקים לטכנולוגיות אנליטיות שונות לאספקת המידע. בסעיף
המפרט את הטכנולוגיות השונות הזכרנו מנגנוני אספקה שונים, מהפשוטים ביותר,
כגון מחוללי הדוחות והשאילתות והכליםס לגרפיקה עסקית, ועד למנגנוני אספקה
מורכביס המבוססים על כלי ניתוח מידע רב-מימדיים וכריית נתוניס.
מחסני נתונים
סיווג המשימות האנליטיות
בארגון קיימיס מספר סוגיס של עובדי ידע, העוסקים בניתוח מידע ובקבלת החלטות, או
כפי שהם נקראים לעיתים: עובדי צווארון לבן. עובדים אלה מבצעים משימות שונות
הקשורות בניתוח מידע. נסווג את המשימות שעובדיס אלה מבצעים לשלוש קטגוריות :
> מעקב ודיוות (סֶחוהסק6 סה8 הההסוהסו): משימה זו היא הפשוטה ביותר
המבוצעת על ידי המשתמשים. מטרתה לעקוב באופן שוטף אחר פרמטרים שוניס של
הארגון ולאתר בעיות, במידה והן מתרחשות. משימות אלו מאופיינות בכך שדרישות
המידע לביצוען ידועות היטב. המשימה חוזרת על עצמה מדי תקופה ומבוססת
במידה רבה על איתור מצבים חריגיס. הכליס המתאימים ביותר לביצוע משימות
מסוג ה הס מחוללי הדוחות והשאילתות וכלים פשוטים לגרפיקה עסקית. מקובל
לקרוא לכלים אלה גם בשס הכולל סביבות מנוהלות לשאילתות (עז6גוב) חִ6חְ4ח8ו
סוחסה חסזוטחם). הן מאפשרות ניסוח מהיר וקל של הדרישות למידע, תוך שימוש
במונחים עסקיים (לא טכניים) של בסיס הנתונים, אספקת נקודות מבט פשוטות
(פ/6וש) על בסיס נתונים מורכב, שמירת השאילתות והפעלתן בעת הצורך, מנגנוני
הרשאות חזקיס וכדומה. שפת 501 מתאימה מאוד לביצוע משימות אלו. לכן,
בסיסי הנתוניס היחסיים הפכו מאוד פופולרייס לסוג זה של ניתוחי מידע. לאיתור
מצבים חריגים ניתן גס להשתמש בכלים נוספים, כגון 5ז996חחד, המופעלים באופן
אוטומטי כאשר מתרחש מצב חריג, ומפעילים תהליכי דיווח והתראה מתאימים.
> ניתוח ואבחון (0509ח188ש 0ח8 518ע|8ח): משימה זו עוסקת במיגוון פעולות ניתוח
מידע העוסקות בגילוי בעיות ומציאת פתרונות. לסוג זה של משימות מתאימיס
מאוד כלי הניתוח הרב-מימדי (פו5ע|8ח/ |החסופח6חחו טוטוא) וכליס שוניס
לסריקת בסיס הנתוניסם (פָחופשסז 2856 28%8). כלי הניתוח הרב-מימדייס
מאפשרים הצגה נוחה של המידע בחתכים גמישים ביותר, אפשרויות לקבל פירוט
נוסף, קבלת מידע ברמה סיכומית יותר ועוד. ההבדל בין כלי השאילתות לבין כלי
הסריקה דומה להבדל בין מצב בו אנו יודעים מה אנו מחפשים למצב בו אין אנו
יודעיס מה אנו מחפשים. כלי סריקה של בסיס הנתונים צריך להתחיל סריקה בכל
נקודה ולסייס אותה בכל נקודה. הוא צריך לתמוך בתהליכים איטרטיביים, בהס
תוצאה של סריקה מסוימת מוזנת כקלט לסריקה חדשה וכדומה. חלק מהכליס
משתמשיסם לסריקת בסיס הנתוניס בממשק של גיליון אלקטרוני, בעוד שאחריס
משתמשיס בממשק רב-מימדי.
> סימולציה ותכנון (סְחוחח8| 0ח8 חס80!טחו5): משימה זו היא המורכבת ביותר,
שלביצועה דרושה רמת מיומנות גבוהה. הכלים התומכיס במשימות אלו צריכיס
לאפשר בחינת תרחישים עסקיים שונים, כגון ניתוחי !| 81ח/ שבהס בוחניסם מה
יקרה אס ישתנו חלק מכללי המשחק, חיזוי של מצבים עתידיים, גילוי יחסיס
ותבניות בלתי ידועות עד כה מהנתונים וכוי. כליס אלה מחייבים גם יכולת לעדכן את
בסיס הנתונים כתוצאה משינוי הפרמטרים (למשל, להציג את מצב רווחיות החברה
אם הריבית במשק תעלה). בקטגוריית הכלים העוניס למשימות אלו נמצא כלי כריית
נתוניס, כליס להצגת נתונים, מודלים מתמטיים, מודליס סטטיסטיים לחיזוי ועוד.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 79
סיווג היישומים האנליטיים
לפי הדרג הארגוני
דרך נוספת להתבונן בתהליכיס האנליטייס היא דרך הרמה הארגונית המבצעת את
התהליכיס. מקובל להבחין בסוגיס שוניס של יישומים אנליטיים, בהתאםס לסוג
ההחלטות הנתמכות על ידם: יישומייס תפעוליים, יישומים טקטיים ויישומיס
אסטרטגיים. כפי שנראה, קיימת מידה רבה של הקבלה בין סיווג התהליכים לפי הרמה
הארגונית לבין סיווג משימות הניתוח, כפי שהוצג בסעיף הקודם. נסקור בקצרה כל אחד
מסוגי יישומים אלה.
+ יישומים אנליטיים תפעוליים - יישומיס אלה משרתים את הארגון בתהליכים
השוטפיס של קבלת ההחלטות. בדרך כלל הס עוסקיס במעקב שוטף אחר ביצועי
הארגון, בשינוייס במגמות ובאיתור מצבים חריגים. מכיון שיישומים אלה מבוססיס
על הנתוניס השוטפיס של הארגון, הס מבוססים למעשה על ניתוחים פרטנייס של
נפחי נתוניס גדולים. העומק ההיסטורי עבור יישומיס אלה הוא ימיס ועד מספר
חודשים. היישומיס נתמכיס היטב על ידי מחוללי שאילתות ודוחות הפועליס מול
בסיסי נתוניס טבלאיים, המסוגלים לנהל נפחי נתוניס גדוליס מאוד.
+ יישומים אנליטיים טקטיים - יישומיס אלה עוסקיס בניתוחי שוק ובתכנון טקטי,
כגון ניתוח רווחיות המוצרים, רווחיות ברמת לקוח, פילוח אוכלוסיית הלקוחות.
בדרך כלל מתבצעים ניתוחים אלה ברמה סיכומית יותר, ולא ברמה הפרטנית של
הנתוניס. לכן, כלי ניתוח רב-מימדיים מתאימים מאוד לסוג כזה של יישומיס.
העומק ההיסטורי של יישומיס אלה נמדד בחודשיס עד שנה.
+ יישומים אנליטיים אסטרטגיים - יישומים אלה עוסקיס בניתוחים מורכביס של
הנתוניס כדי לאתר מוצרים חדשים שניתן להציע, הבנה טובה יותר של צרכי
הלקוחות, ניתוחי השוק והמתחרים, החלטה על שווקיס חדשים, ניתוח תרחישיס
עתידייס ומה השפעתם על הארגון וכדומה. הכליסם המתאימיס ביותר בתחוס זה הס
כלים לכריית נתוניס וכליסם סטטיסטיים. העומק ההיסטורי הנדרש לניתוחיס אלה
הוא בדרך כלל הרב ביותר, ויכול להגיע גס למספר שנים.
מפת המרחב האנליטי (ס5066 (ובּסוְעְוהּח)
כעת, לאחר שסקרנו את סוגי התהליכים האנליטיים, את סוגי המשימות האנליטיות
השונות, את הדרג הארגוני המבצע את המשימות האנליטיות, ואת הטכנולוגיות
האנליטיות השונות, נוכל להציג את המרחב האנליטי. עלינו להבחין בין שלושה מישורי
מידע - תוכן, מבנה ומנגנון אספקה - לבין שלוש קטגוריות עיקריות של משימות
המבוצעות על ידי עובדי הידע בארגון - מעקב ודיווח, ניתוח ואבחון, סימולציה ותכנון. על
בסיס ההבחנה הזו נוכל לצייר מפה המציגה את כל המרחב האנליטי ואת הטכנולוגיות
המתאימות ביותר לביצוע משימות הניתוח השונות.
0 מחסני נתונים
גוגת א -
0 ו 3]
=
כריית נתונים 5
שחותו] 36 ה
בסיסי
נתוניסם
יחסיים
כלי ניתוח רב מימדיים אמסא
8 [51008ח6וח1] !טא פּ
מ
₪
תכנון וסימולציה ניתוח ואבחון מעקב ודיווח
תרשים 3.8: מפת המרחב האנליטי לניתוח מידע.
מהמפה המופיעה בתרשיס 3.8 צריך להיות ברור לקורא שאין כלי ניתוח אנליטי אחד
ויחיד העונה לכל סוגי המשימות ומתאיס לכל המשתמשים. סביר להניח שקביעה זו תהיה
נכונה גסם לשנים הבאות. לכן חשוב שנבין שבתפיסת מחסן הנתוניס יש מקוס למספר
כלים שוניס, המיועדיסם למשתמשים שוניס ולמשימות ניתוח מידע שונות.
דרך נוספת להתבונן במרחב האנליטי היא לבחון את סוגי היישומיס ואת טכנולוגיות של
מחסן נתוניס המתאימות להס ביותר.
יישומים
אסטרטגיים כריית נתונים
בסיסי נתונים
רב מימדיים
יישומים
טקטיים
מרכולי נתונים
ניתוחים רב מימדיים
רמה סיכומית של הנתונים
ואבחון
מחסני נתונים גדולים
שאילתות ודוחות
נתוניס ברמה פרטנית
יישומים
תפעוליים
סוג היישום הטכנולוגיה המתאימה סוג המשימה
תרשים 3.9: סוגי הטכנולוגיות לפי סוגי היישומים.
פרק 3: סקירת מרחב הטכנולוגיות לניתוח מידע | 81
סיכום
מטרת פרק וה היתה לסקור את המרחב האנליטי של ניתוחי המידע בסביבת מחסן
הנתוניס ואת תהליך הפיכת הנתוניס להחלטות עסקיות. המרחב האנליטי עתיר בסוגי
מידע שוניס, בסוגי משימות ניתוח שונות, ביישומיס מסוגיס שוניס וכמובן - בטכנולוגיות
שונות. אין, ולא תהיה טכנולוגיה אחת המתאימה לכל העושר של המרחב האנליטי.
הארגון צריך לבחון במסגרת תהליך הקמת סביבת מחסן נתונים, איה יישומיס ומשימות
יבוצעו. בהתאס למסקנות שיוסקו יש לבחור בטכנולוגיה ובכלים המתאימים ביותר.
כל ארגון חייב להגדיר מהן המשימות האנליטיות שברצונו לבצע בסביבת מחסן הנתונים,
ולאתר את הכליס המתאימים לביצוע עיבודים אלה.
2 מחסני נתונים
פרק 4: ניתוח מידע רב-מימדי
(515ץ!3/ |החהסופהסוחוכ שוו)
מבוא
פרק וה עוסק באחת מהשיטות האנליטיות הנפוצות ביותר בסביבת מחסן הנתונים -
ניתוה רב-מימדי של מידע. הניתות הרב-מימדי מבוסס על תפיסה המאפשרת
למשתמשיס ולמקבלי ההחלטות לראות את ייהתמונה הגדולהיי של המידע (הכנסות,
הוצאות, שווקיס, מוצריס וכדומה), תוך מתן אפשרות להתבונן ולנתח אותו במיגוון רחב
של נקודות מבט וחתכים שוניס. בשל יכולות אלו וכה הניתוח הרב-מימדי לפופולריות
עצומה בקרב אוכלוסיית המנהלים ומנתחי המידע. הניתוח הרב-מימדי עוסק בצורת
אינטראקציה מיוחדת בין המשתמש לבין הנתונים, אינטראקציה המבוססת על שאילתות
במבנה מיוחד, על יכולת לנווט בפשטות במבנה מורכב של נתונים, על יכולת להתבונן
בנתוניס בחתכים שונים וגמישים, על יכולת להצגת הנתוניס ברמות סיכומיות ומשס
לרדת לרמות מפורטות יותר, בהתאס לתוצאות השאילתה, או לחילופין על יכולת לעלות
מרמת פירוט מסוימת לרמות סיכומיות גבוהות יותר. הרב-מימדיות מתבטאת ביכולת
להציג את המידע בצורה מיוחדת וגמישה, צורה המזכירה מבנה קוביה רב-מימדית, אותה
ניתן לסובב בכיווניס שונים. כל מימד בקוביה מייצג מימד עסקי כלשהו - לקוחות,
מוצריס, סניפים וכדומה. הגמישות בגישה לנתוניס היא אחת מיכולות היסוד של גישה זו,
בשל העובדה שתהליך הניתוח מתחיל, בדרך כלל, מנקודה מסוימת ומשס מתחילים לנווט
במרחב הנתוניס בצורות שונות. הניווט מתבצע לכיוונים שוניס ובלתי ידועים מראש,
כאלה הנקבעים על ידי המידע המתגלה, תוך כדי תהליך הניתוח. הטכנולוגיה והכליס
התומכיס בשיטת הניתוח הרב-מימדי וכו לשס הכולל של כלי ₪ 01.
פרק 4: ניתוח מידע רב-מימדי | 83
מושגי היסוד בניתוח רב-מימדי -
עובדות ומימדים
הניתוח הרב-מימדי מבוסס על העיקרון שניתן להתבונן בנתוניס מנקודת מבט של
המימדיס העסקייס המשמשים את הארגון בניהול פעולותיו. לדוגמה, ניתן להתבונן על
נתוני המכירות של הארגון, על פי מימדים כגון מוצרים, סניפים, לקוחות או זמן, או
להתבונן בהתנהגות מנוייס של חברת טלפון על פי מימדים כגון לקוחות, מספרי טלפון
קוראים, מספרי טלפון נקראים, סוג השיחה שבוצעה, רצועת זמן בה השיחה בוצעה, או
להתבונן בפעילותה של חברת ביטוח על פי מימדים כגון לקוחות, סוכנים, סוגי פוליסות
ביטוח, זמן וכדומה. הבה נתחיל לפתח רעיון זה באופן שיטתי יותר.
בעיקרון, ניתן לחלק את יישויות המידע המנוהלות במערכות התפעוליות ליישויות בעלות
אופי סטטי ויישויות בעלות אופי דינמי. היישויות הסטטיות הן יישויות שקצב העדכוניס
שלהן נמוך יחסית, כגון לקוחות, מוצרים, סניפים, פוליסות ביטוח, חשבון הבנק וכדומה.
היישויות הדינמיות הן יישויות המייצגות את האירועיס השוטפים בארגון, כגון מכירת
מוצר, ביצוע שיחת טלפון, קבלת תביעה בגין פוליסת ביטות, תנועה בחשבון עוייש
וכדומה. בשל האופי הדינמי שלהן, מקובל גס לקרוא לאירועיס אלה בשס תנועות עסקיות
(009!ו85861ד 655חו28). ביןו כל סוגי היישויות מתקיים מיגווו רחב של קשרים, כגון
שיחות הטלפון של לקוח מסוים, תנועות מלאי של מוצר מסוים, תנועות בחשבון של לקותח
מסויס וכדומה. כפי שנראה מייד, מבחינת מערכות תפעוליות אין אבחנה מיוחדת בין שני
סוגי יישויות אלו, אולס מבחינת תהליך ניתוח הנתונים, האבחנה ביניהס קיימת והיא
בעלת חשיבות.
לכל יישות, בין אם היא סטטית או דינמית, יש מספר מאפיינים (105טפוזו)ה). לדוגמה,
המאפיינים של היישות לקוח הס מספר לקוח, שם לקוח, כתובת לקוח, תאריך פתיחת
רשומת הלקוח וכדומה. המאפיינים של היישות מכירה הס מספר הוזמנת לקות, קוד
המוצר שנמכר, כמות המכירה, תאריך המכירה, איוה סניף ביצע את המכירה ומה המחיר
בו רכש הלקות את המוצר. במערכת בנקאית יש ליישות תנועה בחשבון מאפיינים כגון
מספר החשבון, הסניף בו בוצעה הפעולה, תאריך הפעולה, סכוס הפעולה, האם זו הפקדה
או משיכה וכדומה.
למשל, נתבונן בדוח אופייני של מכירות, המכיל שורה לכל מכירה שבוצעה.
מספר הזמנה | שם לקוח מבצע הנחות | צינור הפצה | תאריך | חנות | |מחלר מוצר |כמות |
טלויזיה סוני דגם 123 הפצה ישירה נוה סביון | 4500 | 2 |
| 380 | וןכהן - |טלוזיה סונידגם 25| 20% [סוכנות הפצה|15028]רמת אפעל] - 509 | ג- |
תרשים 4.1: דוח מכירות.
כל שורה בדוח זה מייצגת אירוע של מכירה בודדת של מוצר מסויס שבוצעה בחנות
מסוימת בתאריך כלשהו וכדומה. אירועיס אלה נרשמים במערכות התפעוליות של
הארגון. בדוגמה שלנו, מערכת הזמנות לקוח רושמת כל הזמנה שלקוח כלשהו מבצע.
4 מחסני נתונים
למטרת ניתוח המידע וקבלת החלטות, הרמה הפרטנית המופיעה בדות ה מעניינת פחות
ובדרך כלל נדרשת רמה גבוהה יותר, למשל סיכום יומי של המכירות שבוצעו לכל מוצר,
בכל חנות. לקבלת דוח סיכומי כזה נוכל לסכם את התנועות העסקיות הבסיסיות, ונקבל
את הדוח הבא.
מוצר מבצע הנחות | צינור הפצה | תאריך | | חנות = |סך מכירות
: |כמות ,
טלויה סוני דגם 23 6% הפצה ישירה ]12.02.98 |מפר חיפה| | 90000 | 20 |
טלויזיה סוני דגם 23 סוכנות הפצה | 12.02.98| נוה סביון | = 45,000
תרשים 4.2: דוח סך מכירות יומי.
דוח זה הוא דוח תוצאתי הנובע מסיכוס כל תנועות המכירה שבוצעו ביוס מסוים. מתוך
הדוח ניתן להבין שסך המכירות ליוס 12.02.98 של טלוויויות מסוג מסוים בחנות מפרצ
חיפה היו 90,000 שייח. מכיון שזהו דוח סיכומי, לא מופיע בו שס הלקוח ומספר ההצמנה
הבודדת. דוח סיכומי כזה יכול לשמש לקבלת החלטות, אס למשל נשווה את המכירות בין
ימים שונים, או חנויות שונות או מוצריס שונים, ונזהה מגמה מסוימת או חריגה כלשהי.
למשל, שמכירות של מוצר מסויס בחנות מסוימת גבוהות ב- 40% מהממוצע, או שסך
המכירות בימי הי תמיד גבוה ב- 15% מימי השבוע האחרים, וכדומה. בדרך כלל, מהווה
גילוי מגמות או חריגות אלה את תחילת תהליך קבלת החלטות, כגון מבצעי עידוד מכירות
בימיס מסוימיםס למוצרים מסוימים, או תגבור צוות המכירות בחנויות מסוימות וכדומה.
דוחות סיכומיים כאלה יאפשרו למנהליס להתחיל לשאול מיגוון שאלות מעניינות, כגון
מהי החנות שמכרה הכי הרבה ממוצר מסוים, מהו התאריך בו מכרנו הכי הרבה, האס
מבצע ההנחות אכן הגדיל את המכירות, מהס המוצריסם הנמכרים ביותר וכדומה.
האופן הטבלאי של הצגת הנתונים, כפי שהוא מופיע בדוח, אינו נוח לצורך ניתוחי המידע.
החיפוש אחר צורות הצגת נתוניס נוחות יותר הביא להתפתחות תפיסת הניתות
הרב-מימדי. בדוח הסיכומי מסתתרים שני סוגים שוניס של עמודות - עמודות המייצגות
עובדות (8619=) ועמודות המייצגות מימדיס עסקיים (5חסופח6חחו 2₪51655).
נתבונן לרגע בשתי העמודות האחרונות בטבלה, סך מכירות וכמות המכירות.
סך מכירות
| ממ | סק |
תרשים 4.3: עמודות העובדות בתוך הדוח.
עמודות אלו מייצגות את תוצאת האירועיס העסקיים, ולכן נקרא להן עובדות. השורה
הראשונה מייצגת את העובדה שבוצעו מכירות בסך 90,000 שייח ונמכרו 20 יחידות, ואילו
השורה השנייה מייצגת את העובדה שבוצעו מכירות בסך 45,000 ש'יח ונמכרו 10 יחידות.
ניתן להגיע לנתוניס המוצגיס בעמודות אלה על ידי עיבוד כלשהו המתבצע על היישויות
הדינמיות המנוהלות במערכת התפעולית. למטרות ניתוח אנו מתענייניסם בעיקר בעמודות
המייצגות עובדות נומריות, כמו סך המכירות בשייח, סך כניסות פריט למלאי, משך דקות
שיחה של לקות וכדומה.
פרק 4: ניתוח מידע רב-מימדי | 85
כמובן, שהעובדות המופיעות בתרשים 4.3 הן חסרות כל משמעות מבחינת המשתמש. כדי
לתת לעובדות הבסיסיות המופיעות בדוח זה משמעות, עלינו להוסיף עמודות המספקות
את המשמעות העסקית. לעמודות חדשות אלו נקרא מימדיים עסקיים, כגון מוצר, מבצע,
צינור הפצה, חנות, ומן וכדומה. התרשים הבא מציג מחדש את הדוח שבתרשים 4.2, אבל
הפעם - עס האבחנה בין העמודות המייצגות עובדות, לבין העמודות המייצגות מימדים
עסקיים.
מוצר מבצע הנחות | צינור הפצה | תאריך | | חנות | |סך מכירות | כמות |
טלויזיה סוני דגם 123 הפצה ישירה|12.02.98 |מפר) חיפה| | 90,000 | 20 |
טלויזיה סוני דגם 123 סוכנות הפצה | 12.02.98| נוה סביון | = 45,000
תרשים 4.4: דוח מכירות עם אבחנה בין עובדות ומימדים עסקיים.
במקוס הייצוג השטוח והדו-מימדי המופיע בתרשיס 4.4, ניתן להציג את הנתוניס גס
בצורה המחדדת את האבחנה בין העובדות לבין המימדים. במרכז נציג את העובדות ונקיף
אותן במימדיס עסקיים. מכיון שסביב עובדה מסוימת נמצא, בדרך כלל, מספר רב של
מימדים, מקובל לקרוא למבנה המתקבל מבנה רב-מימדי.
מכירות
מכידות: 90,000 ש**ח
'/ כמות: 20
מבצע מכירות
זמן 0 אחוז הנחה בפברואר
פברואר, 12, 1998
צינור הפצה
הפצה ישירה
תרשים 4.5: ייצוג רב-מימדי.
בכל נקודת מפגש של המימדיס במרחב הנתונים הרב-מימדי (8%9 |החסופחס6חחו ווטושו
6 הדמיוני שנוצר, מנוהליס הנתוניס העובדתייס (2819 |ףּטזס8=). למשל, סכוס
המכירות של מוצר מסוים, בתאריך מסוים, בחנות מסוימת. והו הבסיס לצורת התבוננות
מיוחדת בנתוניס - המבט הרב-מימדי. ניתן להתייחס אל המבנה הרב-מימדי כאל הרחבה
של מודל הגיליון האלקטרוני המטפל במבנה דו-מימדי.
6 מחסני נתונים
לכל מימד ניתן לנהל מספר מאפייני המימד (0105)) חסופחפווס). לדוגמה, למימד
החנויות נוכל לנהל מאפיינים כגון שס החנות, כתובת החנות, גודל החנות במייר, ציון
מיוחד אס החנות נמצאת בקניון או שהיא חנות עצמאית, ציון האס זו חנות חדשה או
ותיקה, וכדומה. למימד הומן נוכל לנהל מאפיינים כגון תאריך, יוס בשבוע, ציון האס זהו
יוס חג, חול מועד או יוס עסקים רגיל, וכדומה. מאפייני המימד משמשים את
המשתמשים בחיתוך המידע על פי דרישותיהם. למשל, הצגת המכירות בחנויות החדשות
הממוקמות בקניוניס בלבד.
המבנה המתקבל פשוט מאוד להבנה. במרכזו נמצאות העובדות הגולמיות (מה היו
המכירות בשייח, מה כמות שנמכרה) ומסביב לעובדות מוצגיס המימדיים העסקייס
(מוצר, חנות, מבצע, צינור הפצה, זמן). ברגע שמציגיס מבנה זה למשתמש, ונותניס לו כלי
בסיסי המאפשר ביצוע שאילתות מול מבנה זה, מהר מאוד נמצא שהמשתמשים מתחילים
לשאול שאלות בעלות עניין רב, מבחינת החברה. לדוגמה, ניתן לשאול שאילתות כגון:
* מה היה סך כל המכירות של טלוויזיות סוני דגס 123, בסניף מפרצ חיפה, במהלך כל
חודש פברואר.
₪ מה היה סך כל המכירות של טלוויזיות סוני דגם 123, כתוצאה ממבצע ההנחות
של 20%.
*> מה היה סך כל המכירות של חנות מפרצ חיפה בחודשים ינואר ובפברואר.
מובן שאלה רק מספר דוגמאות לשאילתות, מתוך מיגוון גדול מאוד של שאילתות
שיכולות לעניין את מי שעוסק בניתוח מכירות החברה. בדרך כלל מעונייניסם מקבלי
החלטות בניתוח מגמות, וביצוע השוואות בין מימדיםס שוניםס. דוגמאות לשאילתות
מורכבות יותר המבוססות על אותו מבנה פשוט:
> מהו אחוז השינוי במכירות של טלוויזיות סוני דגס 123, בפברואר השנה לעומת
פברואר שנה שעברה.
> מהס חמשת המוצרים הנמכריס ביותר בחנות מפרץ חיפה, במהלך המחצית
הראשונה של השנה.
> באילו מוצריס היתה ירידה של מעל 10% בהיקף המכירות במהלך כל שנת העסקים.
ניתן לחשב ולקבל את התוצאות של כל שאילתות אלו, מכיון שהנתוניס הגולמייס
הדרושיס לשם כך נמצאיס במודל הרב-מימדי הפשוט שבנינו.
היררכיות בתוך מימדים
בדרך כלל, בתוך כל מימד קיימת היררכיה בעלת משמעות מבחינה עסקית. לדוגמה, נתאר
ארגון בו יש חלוקה גיאוגרפית של האר לשלושה מחוזות - צפון, מרכו ודרוס. כל מחוז
מחולק למספר אזורים ולכל אזור יש מספר חנויות. ווהי היררכיה טבעית בתוך המימד
הגיאוגרפי של החברה.
פרק 4: ניתוח מידע רב-מימדי | 87
חברה
מחוז צפון
אזור רמת גן
תרשים 4.6: היררכיה בתוך המימד הגיאוגרפי.
מחוז מרכז
אזור חולון
מחוז דרום
אזור הרצליה
גס בתוך מימד המוצריס קיימת היררכיה - מוצר, קטגוריית מוצרים, קו מוצריס. דוגמה
אחרת יכולה להיות ההיררכיה הטבעית הקיימת בתוך מימד הזמן - ימים, שבועות,
חודשים, רבעוניס, שניס. אס נוסיף עוד מספר נתוניס למימדיס נוכל לקבל מידע מעניין
נוסף. למשל, אס נוסיף למימד הגיאוגרפי את ההיררכיה שלו, למימד הזמן את ההיררכיה
של רבעון ולמימד המוצר עוד רמה היררכית כגון קטגוריית מוצריס, נוכל להתחיל לבצע
שאילתות מורכבות יותר.
טלויזּיה סוני דגם 123
מוצרי חשמל
מבצע מכירות
מכירות
מכידות: 90,000 ש*ח
כמות: 20
זמן
פברואר, 12, 1998
רבעון ראשון 1998
0 אחוז הנחה בפברואר
צינור הפצה
הפצה ישירה
תרשים 4.7: הוספת היררכיה למימדים העסקיים.
להלן מספר דוגמאות לשאילתות שנוכל לבצע, כתוצאה מהוספת מאפייני ההיררכיות
למימדים :
* מה היה סך כל המכירות במהלך הרבעון הראשון של שנת 1998, לכל המוצריס
בקטגוריה יימוצרי חשמליי.
> מהי קטגוריית המוצר שנמכרה טוב ביותר במחוז הצפון.
> מהו השינוי במכירות בין הקטגוריות יימוצרי חשמליי וייכלי בית'י, בין רבעון ראשו
ן
של שנת 1997 לרבעון הראשון של שנת 1998.
8 מחסני נתונים
+ מהם שלושת המרחבים שמכרו הכי הרבה בשני הרבעוניס הראשונים של שנת 1998.
* מהו סך כל המכירות לפי קטגוריית מוצר, לפי מחוז ולפי רבעון.
בנוסף לשאילתות אלה ניתן גם לאפשר ניתוח 1! +8ח//. לדוגמה:
+> בהנחה שברבעון ראשון של שנת 1998 היו המכירות גבוהות ב- 10% לעומת מה שהיה
בפועל, הצג את הרבעון הטוב ביותר במהלך כל שנת 1998.
עד כאן, הצגנו מצב של היררכיה אחת בתוך המימד. במציאות, ניתן למצוא מצביס בהם
קיימות מספר היררכיות שונות בתוך אותו מימד. מכיון שהיררכיה בתוך המימד מייצגת
צורת סיכוס מסוימת של הנתונים, העובדה שיתכנו מספר היררכיות מקבילות בתוך
המימד אינה אמורה להפתיע אותנו, מכיון שאנשיס שוניס יכוליס לבקש היררכיות סיכוס
שונות. נסתכל רגע במימד הזמן - משתמש אחד יכול לבקש לראות את המכירות לפי
שבועות, ואילו אחר מבקש לראות את המכירות לפי חודשים ורבעונים. לא ניתן להגדיר
היררכיה אחת, מכיון ששבועות אינס מסתכמים לחודשים ורבעוניס - שבוע מסוים יכול
להתפרס על פני שני חודשים, או שני רבעוניס שוניס. הדרך הנכונה לטפל בסוגיה זו היא
להגדיר שתי היררכיות נפרדות.
סה"*ב בללי
תרשים 4.8: ריבוי היררכיות בתוך מימד.
מתוך הדוגמאות הקודמות ניתן להבין את עוצמתו של המודל הפשוט שבנינו. באמצעות
כלי התוכנה המכיר את המבנה, ומכיל אופרטורים מיוחדיס לסוג ה של ניתותים, ניתן
לבצע חיתוכיס וסיכומים מגווניס מאוד, תוך הפעלת פילטריס שוניס על המימדיס או על
העובדות, וכל את ללא צורך לבקש ממנהל בסיס הנתוניס לבנות משפטי .501 מורכבים.
הקוביה הרב-מימדית
צורה נוחה לדמיין את המודל הרב-מימדי היא כקוביה רב-מימדית, כאשר כל פיאה שלה
מייבגת מימד עסקי מסוים. בנקודת המפגש בין כל המימדיס נמצאות העובדות
המאוחסנות בתאיס. המשתמש יכול לסובב את הקוביה הרב-מימדית לכל כיוון שהוא
רוצה, ולנוע בין התאיס השוניס, או בתוך הקוביה כלפי מטה, לקבלת פירוט נוסף.
לחילופין, הוא יכול לנוע כלפי מעלה, אס הוא רוצה לקבל מבט ברמת סיכוס גבוהה יותר.
פרק 4: ניתוח מידע רב-מימדי | 89
התרשים הבא מציג קוביה תלת מימדית ובה שלושת המימדים הס מימד הזמן, מימד
החנות ומימד המוצר. בכל נקודת מפגש של שלושת המימדים מנוהל סך המכירות למוצר,
לחנות, לתאריך. לדוגמה, בתא מסויס נמצא את המספר 90,000 המייצג את העובדה שסך
המכירות לטלוויויות סוני דגם 123, בחנות במפר> חיפה, בתאריך 12/2/98, היו 90,000
ש'יח.
תרשים 4.9: קוביה תלת-מימדית.
קל לדמיין קוביה בעלת שלושה מימדים. קשה יותר לדמיין ארבעה, חמישה או יותר
מימדים. למרות הקושי לדמיין קוביות רב-מימדיות אלו, ניהולן במחשב הוא בר-ביצוע.
ואכן, קיימות מערכות תוכנה המסוגלות לתמוך במספר רב של מימדיס בקוביה אחת.
הקוביות הדמיוניות המתקבלות נקראות לעיתים גס 0008ז08ע או |החסופחסחוס-ח
8. למרות שלקוביה יכולים להיות מספר רב של מימדים, המשתמשים מתמקדים
תמיד במספר מצומצם של מימדים. למשל, מנהל מוצר מסוים מתעניין רק בפרוסה
(5!106) המכילה את מכירות המוצר שלו לאורך הזמן בחנויות השונות.
תרשים 4.10: נקודת מבט של מנהל המוצר.
0 מחסני נתונים
לעומת מנהל המוצר, למנהל החנות נקודת מבט שונה. הוא מעוניין בפרוסה המכילה את
המכירות של כל המוצריס בחנות שלו לאורך הזמן.
תרשים 4.11: נקודת המבט של מנהל החנות.
כפי שניתן להבין משתי דוגמאות אלה, ניתן ליצור מספר בלתי מוגבל של פרוסות מידע,
המציגות את המידע בקוביה הרב-מימדית בהתאס לנקודת המבט המבוקשת על ידי
משתמשים שונים.
כפי שראינו, מימד יכול להכיל גס היררכיה פנימית. נתבונן לרגע במימד החנויות המכיל
את ההיררכיה מרחב, אזור, חנות. בנוסף לתאיס המכיליס את המידע ברמת הפירוט
הנמוכה ביותר, רמת החנות, ניתן לנהל שורות נוספות המכילות את הסיכומיס עבור
הרמות ההיררכיות הגבוהות יותר. בתרשיס הבא מוצגת הקוביה עס שלוש רמות היררכיה
שונות, שורת המכירות של חנות א', שורת הסיכומיס של כל החנויות השייכות לאזור
רמת גן ושורת הסיכומיס של כל המכירות בכל האזוריס השייכים למרחב המרכז.
חנות אזור מחוז
סה"כ למחוז מרכז ןו
חנות א*
חנות ב' רמת גן
סה"כ לאזור רמת גן ו
7
חנות ד* הרצליה המרכז
חנות ה'
חנות ו*
" חולון
, חנות ז
מכירות לחנות א חנות ח'
חנות ט* ובל
חנות ** |
חנות יא* הצפון
חנות יב' נהריה
חנות יג'
תרשים 4.12: קוביה רב-מימדית עם היררכיות.
פרק 4: ניתוח מידע רב-מימדי 91
על פי בקשת המשתמש ניתן להציג או להסתיר את השורות השונות ולהציג רק את
השורות המבוקשות - למשל רק את רמת החנויות באזור מסוים, רק את רמת האזוריס,
רק את רמת המרחבים, או כל שילוב ביניהס. לדוגמה, ניתן לבקש לראות את המכירות
לפי מוצר, ובתוך היררכיית החנויות להציג את הסיכומיס רק למרתביס או מרתחביס
ואזוריס או מרחבים, אזורים וחנויות.
בנוסף למבט המפורט (שסו/ 160ו26%9) ניתן להציג נקודות מבט סיכומיות (09160816
שו6ו/), בהן מסוכס מימד אחד או יותר. למשל, אס נרצה לקבל את סך כל המכירות לפי
חנויות, נצטרך לסכס את מימד הזמן ואת מימד המוצר, עבור כל אחת מהחנויות. במקרה
זה נקבל טבלה פשוטה בה מוצגות החנויות וליד כל חנות מה סך כל המכירות שלה, לכל
המוצריס ולכל תקופות הזמן.
סה*כ מכירות
> ---- 200 ---<
תרשים 4.13: מבט המציג סיכום מכירות לפי חנויות.
ניהול שורות הסיכוס יכול להתבצע בצורות שונות - חישוב הסיכומיס מראש בעת בניית
הקוביה וניהולס בקוביה, או חישוב הסיכומיס רק בעת בקשה להצגתם. לכל שיטה
יתרונות וחסרונות, בכל הקשור לנפח הנתוניס שיש לנהל ולזמן התגובה להצגת הנתוניס.
בנוסף לעמודות והשורות המנוהלות בקוביה הרב-מימדית, ניתן ליצור שורות או עמודות
חדשות, הנובעות ממניפולציה מתמטית כלשהי המבוצעת על הנתונים. עמודות או שורות
אלו נקראות עמודות / שורות מחושבות (2818 60עוזז6כ). הן נקראות כך מכיון שאינן
מנוהלות באופן ישיר בקוביה, אלא מחושבות בעת הצורך. למשל, אס יש לנו מכירות
בפועל ומכירות מתוכננות, ניתן בקלות להוסיף מערך נוסף, המכיל את ההפרש בין התכנון
לבין הביצוע, ולכן הוא מציג את הסטיות מהתכנון. רוב כלי הניתוח הרב-מימדים כוללים
אופרטוריס רבי עוצמה לביצוע חישובים על וקטורים (600חחח)וז זס604/).
2 מחסני נתונים
מכירות מתוכננות
מכירות בפועל
סטיה מהתכנון
תרשים 4.14: מערכים מחושבים.
שיטת העבודה עס אופרטוריס אלה מזכירה את העבודה עם גיליון אלקטרוני, בו יש
תאיס עס נתוניס ותאיס עס נוסחאות. בזמן הצגת הגיליון האלקטרוני מתבצע חישוב
מיידי של כל הנוסחאות, כך שהמשתמש אינו מבחין בהבדל בין נתוניס רגיליס לבין
נתוניס תוצאתייס. ההבדל העקרוני בין הגיליון האלקטרוני ובין מערכות רב-מימדיות
הוא שהגיליון האלקטרוני יודע לטפל בטבלאות דו-מימדיות בלבד, בעוד שהמערכות
הרב-מימדיות מרחיבות יכולות אלו לטיפול במספר גדול מאוד של מימדים. כדי לשמור
על ומני תגובה מהירים בזמן הניווט במבנה הרב-מימדי, נדרשת רמת תתכוס גבוהה
בצורת ניהול הנתונים, בניהול אינדקסים מהיריס ובצורת ביצוע החישוביס. חלק
מהחישוביםס מבוצעיס מראש, בעת טעינת הקוביה בנתונים, וחלק מבוצעיס תוך כדי
העבודה עס הקוביה (ץ!1 108 ח0).
גמישות נרכשת זו של התפיסה הרב-מימדית, והתאמתה הרבה לסוג השאלות שמנתתי
מידע ומקבלי החלטות שואלים בדרך כלל, הביאה לפופולריות הרבה של מערכות
התומכות במבט רב-מימדי בנתונים. אין כל ספק שהתפיסה הרב-מימדית מאפשרת ייצוג
טוב ונוח יותר של נקודות המבט העסקיות, מאשר התפיסה הטבלאית, המציגה הכל
כאוסף טבלאות דו-מימדיות ומאפשרת את ניתוח הנתוניסם באמצעות פקודות 501.
נקודות המבט של המימדים מאפשרות למשתמשים לנווט את דרכם דרך כל המימדים,
ודרך כל הרמות. המגמה בניווט מסוג זה היא לגלות מגמות החבויות בנתונים, ולהפוך
אותן להחלטות עסקיות רבות חשיבות.
פרק 4: ניתוח מידע רב-מימדי 93
הצגה מימדית של מידע
(ש6ו/ |בהּחסופח6חזחוספ)
השיטה הרגילה להצגת הנתונים היא במבנה טבלה דו-מימדית המורכבת מעמודות
ושורות. ו השיטה בה מציגיס בדרך כלל בסיסי הנתוניס הטבלאייס את הנתוניס. הטבלה
הבאה מציגה מכירות מוצריס לפי יוס בשבוע.
מוצרים | יום בשבוע | סה*כ מכירות
מוצר א* 25
תרשים 4.15: מבנה טבלאי רגיל.
למרות שטכניקת הצגת נתוניס זו פשוטה להבנה, ניתן להציג את המידע המופיע בטבלה
שבתרשיס הקודס בצורה נוחה יותר, והיא השיטה המימדית. בשיטה זו מופיעים
המימדיס בשני צירי הטבלה, בעוד הנתוניס העובדתייס מופיעים במבנה. שיטה וו מזכירה
את מבנה הגיליון האלקטרוני. העמודות במבנה הטבלאי הופכות כאן למימדים, ואילו
השורות במבנה הטבלאי הופכות לתאים. לעובדות המופיעות בתאיס מקובל לקרוא גס
בשס משתנים (80!65!ז8 /). בדוגמה הבאה מוצגים מימדי הזמן והמוצר.
תרשים 4.16: טבלה רב-מימדית המציגה שני מימדים - זמן ומוצר.
כפי שניתן לראות, זו שיטה קומפקטית ונוחה יותר להבנה.
הקוביה הרב-מימדית היא מודל קונצפטואלי נוח, אולס קיים קושי להציג אותה בנוחיות.
הדרך הנוחה ביותר להצגת נתוניסם רב-מימדיים היא על ידי הצגתס במבנה טבלה
דו-מימדית, כאשר כל פעם מחליפים את המימדים המוצגים. פעם אחת ניתן להציג את
הנתוניס לפי המוצרים והימים, פעם אחרת את המוצרים לפי חנויות, פעס אחרת את
החנויות לפי ימים, וכן הלאה. מכאן, שאחת הפעולות הבסיסיות ביותר בניתוח
הרב-מימדי היא בחירת המימדים המוצגים. בחירה ו מתבצעת, בדרך כלל, על ידי הצגת
תפריט המכיל את כל המימדים המוצגים. כעת יש להצביע על צמד המימדים שיש להציג
או לגרור את המימדים המבוקשיס לשטח התצוגה.
4 מחסני נתונים
החלפת מ*מדים החלפת מימדים
לפני אחרי לפני אחרי
| חנות א" | חנות בי |
ןוסאי | 206 | 90 | [חנות א | 2135 | 2310 |
תרשים 4.17: מבט רב-מימדי כאוסף של מבטים דו-מימדיים.
הצגת הנתוניס המימדית אינה מוגבלת להצגת שני מימדיס בלבד. ניתן להציג בו-ומנית
מספר רב יותר של מימדיס בצורה מקוננת (פחסופח6חו 85100צו). הסדר בו מופיעיס
המימדיס המקונניס נקבע על ידי המשתמש. בתרשיס הבא בחר המשתמש לראות שני
מימדיס אנכייס מקונניס - מוצריס ובתוכס את מבצעי ההנחות ושני מימדיס אופקייס
מקונניס - ימיס ובתוכס את החנויות.
מוצר א* מוצר ב*
מבצע הנחות א*| מבצע הנחות ב'| מבצע הנחות א* | מבצע הנחות ב*
15
220
תרשים 4.18: טבלה עם ארבעה מימדים מקוננים.
מובן שהמשתמש יכול לבחור לשנות את סדר הצגת המימדיס המקונניס, למשל לבחור
במימד מבצע ההנחות ובתוכו את המוצרים. התרשיס הבא מציג את הטבלה לאחר השינוי
בסדר הצגת המימדיס המקוננים.
מבצע הנחות א* מבצע הנחות ב*
הנותא | 0 | שאו
מ = | ₪ |
המות | 830 | 320 | גג | 25 |
הנותא | 200 | 605 | 65 | 450 |
יום ב' חנות בי | טנ | סנל | 12 | 00 |
ה רה
תרשים 4.19: טבלה עם ארבעה מימדים מקוננים לאחר שינוי סדר הקינון.
ניתן להציג מספר רב יותר של מימדיס מקונניס בטבלה אחת. התרשיס הבא מציג כותרות
של שלושה מימדים אנכיים מקוננים - מבצעי הנחות, מוצרים, חנויות.
ברור שככל שנציג יותר מימדים, הופכת הטבלה למורכבת יותר, וקשה יותר להציג אותה
במסך.
פרק 4: ניתוח מידע רב-מימדי | 95
מבצע הנחות א* מבצע הנחות ב*
מוצר א* מוצר ב* מוצר א* מוצר ב*
חנות א* חנות ב' |חנות ג* |חנות א* חנות ג* |חנות א* חנות ג* |חנות א* | חנות ב' |חנות 5
תרשים 4.20: שלושה מימדים אנכיים מקוננים
פעולות יסוד בניתוח מידע רב-מימדי
אחד היתרונות הגדולים של המוצריס התומכים בניתוח מידע רב-מימדי הוא העושר
באופרטורים המאפשרים למשתמש לבצע מיגוון רחב של פעולות בקוביה, בצורה
ידידותית וקלה מאוד. אופרטורים אלה שוניס באופן מהותי מהאופרטורים הרגילים של
שפת -501, באמצעותה מקובל לפעול מול בסיסי הנתונים הטבלאיים. באמצעות
אופרטורים אלה יכול המשתמש לפעול בקוביה הרב-מימדית ולבצע, בין היתר, פעולות
כגון בחירת המימדיס להצגה, סיבוב הקוביה על ידי החלפת המימד האנכי והאופקי,
פריסה וחיתוך הקוביה, קידוח מטה לקבלת רמת מידע מפורטת יותר ועוד. מכיון שרוב
המוצרים התומכים בניתות הרב-מימדי פועלים בסביבה חלונאית, הס משתמשים בכל
מיגוון האפשרויות שסביבה זו מעמידה לרשות המשתמש - תפריטים נפרשים, שיטות
הצבעה וגרירה (קסזם 6ח8 חָפזס), אובייקטים ויזואליים שוניס וכדומה. רוב המוצריס
עושים גם שימוש נרחב בגרפיקה עסקית להצגת המידע באופן גרפי, כאשר המשתמש
שולט בגרף הרצוי (גרף מוטות, גרף לינארי, גרף עוגה וכדומה). כעת, נסקור בקצרה את
האופרטוריס הנפוציס ביותר בניתוח הרב-מימדי, אופרטורים הנתמכים על ידי רוב
המוצריס המסחריים.
*+ בחירת מימדים (הסו58!60 חסופחסוחוכ): הפעולה הבסיסית ביותר היא כמובן
בחירת המימדיס להצגה. בחירה זו יכולה להתבצע בצורות שונות כאשר הנפוצה
ביותר היא על ידי בחירה מתפריט מיוחד.
+ החלפת מימדים (סַחוחס)ו/ש5 הסופח6ווכ): פעולה המאפשרת למשתמש להחליף את
המימדיס המוצגיס. הפעולה מאפשרת בחירת מימדים חדשים, או הוספת מימדיס
למימדים המוצגיס, לקבלת הצגה מקוננת. רוב הכליס מאפשריס ביצוע פעולת שינוי
סדר הצגת המימדים על ידי פעולה פשוטה של גרירה (קסזזם 6חה חְזס).
> סיבוב מימדים (340%9%0): פעולת הסיבוב מאפשרת החלפה בין המימדים האנכייס
והאופקייס. לדוגמה, אס המימד האנכי הוא מוצרים והמימד האופקי הוא זמן, נוכל
לבצע פעולת סיבוב, כך שהמימד האנכי יהיה המימד זמן והמימד האופקי יהיה
המימד מוצרים.
. סייבוב מימד - -₪
לפני
תרשים 4.21: סיבוב המימדים.
6 מחסני נתונים
.*
+*
סיבוב סביב ציר (פָחטסטוש): פעולה המאפשרת לבחור נתון מסוים, להגדיר אותו
כציר (סטום) ולהציג אותו במיגוון גדול של נקודות מבט שונות. למשל, ניתן לבחור
במכירות של חנות מסוימת ולהתבונן בנתון מנקודת המבט של חנויות נוספות,
מנקודת מבט של מוצרים, מנקודת מבט של זמן וכדומה. פעולה זו דומה לפעולת
סיבוב המימדים, אבל מרחיבה אותה במובן שניתן לסובב את הנתון סביב כל
המימדיס האפשריים, לא רק על ידי החלפת המימד האנכי במימד האופקי.
פריסה וחיתוך (סָחוסוש ח8 פַחוסו|5): פעולה גו מאפשרת להתבונן במבנה הנתוניס
הרב-מימדי מנקודות מבט שונות. כלומר, פעולה המאפשרת את החלפת המימדיס
המוצגים, על פי הצורך. ניתן להתייחס אל כל פרוסה כאל תת-קבוצה של הקוביה,
כך שערכיס של מימד (או מימדים) מסוימיס נשמריס קבועים. לדוגמה, ניתן להגדיר
פרוסה של יוס מסוים, ואז להציג את המכירות באותו יום של כל המוצרים לפי
חנויות, או את המכירות באותו יוס לפי חנויות ומבצעי הנחות.
חנות א*| 1,850
00
תרשים 4.22: החלפת מימדים.
.*
+*
חישוב נתונים (2818 08!0018160): אחת הפעולות הבסיסיות ביותר המאפשרת לנו
להציג עמודות או שורות הנובעות מחישוב כלשהו ולאו דווקא נתוניס המנוהליס
בבסיס הנתוניס. הפעולה הנפוצה ביותר היא ביצוע סיכומיס של שורות או עמודות.
בדוגמה הבאה הוספנו סיכוס עמודה המציגה את סך כל המכירות לחנות לפי מוצר,
לפי חנות והסך הכל הכללי.
סה*כ לחנות
000
| חנותב' | 4,130 | 2,294 | 6,424
תרשים 4.23: טבלה דו-מימדית עם סיכומים.
אמנס הפעולה הנפוצה ביותר היא סיכומים, אבל באותה מידה ניתן להפעיל נוסחה
מתמטית כלשהי לקבלת העמודה המחושבת, בדומה למקובל בגיליון אלקטרוני.
כשמבצעים פעולות סיכום בהיררכיה של מימד, כמו למשל סיכוס המכירות של חנות
לאזור, מקובל לקרוא לפעולה זו גס בשס ח0ו08%ו!50ח00 או סש ווסח. כדי לשמור
על ומני תגובה מהירים, מקובל לבצע חלק מהחישוביס מראש, ולשמור אותס
בקוביה.
קידוח מטה (חששסס ו!וזם) בהיררניית המימד: פעולה המאפשרת לרדת כלפי מטה
בהיררכיית מימד לקבלת רמת פירוט גבוהה יותר. זו אחת הפעולות הבסיסיות
ביותר בניתוח רב-מימדי המתחיל בדרך כלל במבט-על כלשהו, מבט המאפשר לראות
מגמות או חריגים, ומשס מתחיל תהליך הקידוח כדי לקבל פירוט נוסף על פי הצורך.
פרק 4: ניתוח מידע רב-מימדי 97
נתחיל בהדגמת תהליך הקידות על ידי פירוט המבנה ההיררכי במימד החנויות. נזכיר
עוד שמימד וה מכיל את הרמות ההיררכיות הבאות: סהייכ כללי, סהייכ למרחב,
סהייכ לאזור, סהייכ לחנות. הטבלה הבאה מציגה את סך כל המכירות למוצר א' ו-בי.
תרשים 4.24: טבלת סה"כ מכירות לפי מוצרים.
לאחר הצגת טבלה סיכומית זו, מבקש המשתמש לראות את פירוט המכירות לפי
שלושת המחוזות. בדרך כלל, הקידוח מטה מתבצע על ידי לחיצה כפולה בעכבר,
כאשר הסמן מצביע על השורה המבוקשת. באמצעות הפעלת אופרטור הקידוח, הוא
יקבל את הטבלה הבאה:
-- פירוט לפי מחוזות "יש ->-
לפני אחרי
סה*ב מכירות 0 | 45,100
סה*כ למחוז הצפו 0 | 10,920
, ,
סה"ב מכירות | 55,210 | 45,100 סה*כ למחוז המרבו | 2,450 | ,11
סה*כ למחוז הדרום | 14,960 | 15,930
תרשים 4.25: קידוח מטה לקבלת פירוט לפי מחוז.
במצב זה יכול המשתמש לבקש רמת פירוט נוספת, לפי האזוריס בכל המחזות או רק
למחוז מסוים. נניח, שהמשתמש ביקש לראות פירוט נוסף - לפי אזורים במחוו
המרכז בלבד. הוא יקבל את הטבלה המופיעה בתרשים 4.26.
פירוט לפי אזורים
לפני אחרי מוצר א* | מוצר ב*
סה*ב מבירות 0 | 45,100
ודה
|" סה"כ למחוז המרכד | 22,450 | 18,250
= סה":כ לאזור הרצליה| 2,000 | 550 | |
סה*כ למחוז הדרום 0 | 15,930
תרשים 4.26: קידוח מטה לקבלת פירוט לפי אזורים בתוך מחוז.
מהתמונה המתקבלת ניתן לראות שהמכירות באזור הרצליה נמוכות יחסית לאזוריס
האחרים, ולכן יכול המשתמש לבקש לראות פירוט נוסף, לפי החנויות באזור
הרצליה. הוא יקבל את הטבלה הבאה.
8 מחסני נתונים
- פירוט לפי חנויות "= 4
0 : סה*ב מכירות 00 0
סה**כ למחוז הצפו 1.000 1000
סה'"כ מכירות 0 | 45,100
סה"כ למחוז המרכז | 22,450 | 18,250
סה*כ למחוז הצפו 0 | 10,920 סה"*כ לאזור רמת ג 0 1,000
סה*כ למחוז המרכז | 22,450 | 18,250
סה*כ לאזור חולו 0 20
סה"כ לאזור רמת גן | 7,450 | 10,970 סה"כ לאזור הרצליה| 2,000 | 550 | |
סה*כ לאזור חולו 0 | 6,730 סה"כ לחנות א* | 650 | | 320 | |
סה"כ לאזור הרצליה | 2,000. | 550-.. | סה"כלחנות ב' | | 920 | | 120 | |
סה*כ למחוז הדרום | 14,960 | 15,930 סה"כ לחנות ג" | 430 | 110 |
סה"*כ למחוז הדרום 11000 100
תרשים 4.27: קידוח מטה לקבלת פירוט לפי חנויות בתוך אזור.
כפי שניתן לראות, כמות הנתוניס שיש להציג הולכת וגדלה. לכן, ניתן להגביל את
הנתוניס המוצגיס רק לשורות או העמודות המבוקשות. בתרשים הבא מוצגת
הטבלה לאחר שהמשתמש ביקש לראות רק את השורות המתייחסות לאזור הרצליה.
| סה"כ לאזור הרצליה | 2,000 | 550 |
סה"כלתנות א' | 650 | 320 |
| סה"כלתנותב' | 920 | 120 |
תרשים 4.28: הצגת הטבלה המפורטת לאחר צמצום השורות.
> קידוח מטה (חששסס וווזם) על ידי הוספת מימד נוסף: ניתן לבקש פירוט נוסף לא
רק על ידי ירידה בהיררכיית המימד, אלא גס על ידי הוספת מימד מקונן נוסף.
הפעם, נתחיל את פעולת הקידוח לאחר שקיבלנו את הטבלה המציגה את המכירות,
לפי מוצרים וזמן.
תרשים 4.29: טבלת מכירות מוצרים לפי ימים.
נניח שבמצב זה, וּיהה המשתמש בעיה מסוימת באחד הימים. לכן, ניתן לבקש
להוסיף את מימד החנות למימד הזמן, כדי לאתר באיזו חנות נוצרה הבעיה. נקבל
את הטבלה המוצגת בתרשיס 4.30.
פרק 4: ניתוח מידע רב-מימדי | 99
פירוט לפי חנויות
לפני אחרי
יום א | חנות בי | 065 | 820 |
| יוא | 2,945 | 2730 | 0
: נות א
ו
| חנו גי ] 430 | 225 |
תרשים 4.30: קידוח מטה על ידי הוספת מימד אופקי נוסף.
קבלת הפרטיס יכולה להתבצע עד לרמה הנמוכה ביותר הנדרשת. נוכל לבקש רמת
פירוט נוספת על ידי הוספת מימד נוסף למימדים האנכייס או האופקייס שכבר
מוצגים. בדוגמה שלנו, נוכל לבקש להוסיף את מימד מבצע ההנחות למימד האנכי
של מוצרים.
ל פירוט לפי ב .
לפני אחרי
מוצר א*
מוצר ב*
מוצר א* | מוצר ב*
-(שחאורוש ה ה ה ה
וס אי| חנות בי |[ 665 | 0 | 0 | 00 |
5 ] | |ותב | א | א | 8 ןפ
| חנות א*| 985 | | 895 | חנות ג
יום ב' | חנות בי | 1,620 |[ 464 | |תמתאי| | 360 | | | 468 | | | 665 | | 458 |
הת | 489 | פנגם | יב תמאב | פמ | ג ו 7
| ₪ ]אק ן-29 |
תרשים 4.31: קידוח מטה על ידי הוספת מימד אנכי נוסף.
+ קבלת פירוט מעבר למנוהל בבסיס הנתונים הרב-מימדי (חחָטסזחד ה4680):
לעיתים, מבקש מנתח המידע לקבל פירוט, מעבר לרמה הנמוכה ביותר הנשמרת
במערכת הרב-מימדית. למשל, לאחר בדיקה של מכירות בחנות מסוימת בתאריך
כלשהו, הוא מבקש לקבל מידע לגבי המכירות לפי כל שעה ביום, מידע שאינו נשמר
במערכת הרב-מימדית. במקרה זה, יש לבצע פעולת מעבר מהמערכת הרב-מימדית
אל בסיס נתוניס טבלאי, על ידי שיגור פקודות .5601 מתאימות. רוב המערכות
המודרניות מחוללות את פקודות 501 באופן אוטומטי, ושקוף למשתמש.
תרשיס 4.32 מציג את המעבר מהקוביה הרב-מימדית אל בסיס הנתוניס הטבלאי,
המנהל את כל הנתוניס ברמה הפרטנית. כפי שניתן לראות, הקוביה הרב-מימדית
מנהלת מספר מצומצם יחסית של סיכומים, בעוד שבסיס הנתוניס הטבלאי מנהל
מיליוני שורות.
0 מחסנל נתונים
0 מלליון שורות
5
₪ ה
5% 1
סייכומים -00028405/ פירוט -123+3 6031100
תרשים 4.32: מעבר מרמה סיכומית לרמת פירוט בבסיס נתונים טבלאי.
+ קידוח מעלה (סש וווזפ): זו פעולה הפוכה לפעולת הקידות. היא מאפשרת מעבר
מרמה מפורטת כלשהי לרמת סיכום גבוהה יותר. לדוגמה, סיכום המכירות מרמת
החנות הבודדת לרמת האצור, ומשס לרמת המחוז ועד לסיכום הכללי. בפעולה זו אנו
מתחילים מרמה כלשהי בהיררכיית המימד, ועולים כלפי מעלה. לעיתים יש צורך
בביצוע פעולות אריתמטיות מורכבות יותר מאשר רק חיבור אלגברי.
סה*ב בללי
לפני אחרי
0
| סה"'כ מכירות | 55,210 | 45,200
סה"כ למחוז הצפון | 17,800 | 10,920
סה*כ למחוז המרכז | 22,450 | 18,250
סה*כ למחוז הדרום | 14,960 | 15,930
תרשים 4.33: מעבר מרמת פירוט לרמה סיכומית גבוהה יותר.
+ הגדרת המידע המוצג על ידי אופרטורים קבוצתיים (9ז0061910 561): פעולה זו
מאפשרת למשתמש לבחור את המידע המוצג, תוך שימוש באופרטוריס מתורת
הקבוצות. אלה הס אופרטוריס כגון 0חג, זס, %6%, חסוחנו, 5601ז6)ח! וכדומה.
למשל, המשתמש יכול לבקש לראות את המכירות בחנויות חדשות, הממוקמות
בקניוניס בלבד באזור חיפה ורמת גן. ניתן גם להגדיר קבוצות שונות, ולהפעיל את
האופרטוריס על קבוצות אלה.
פרק 4: ניתוח מידע רב-מימדי
מגבלות גודל הקוביה הרב-מימדית
מקובל לחשוב שהקוביות הרב-מימדיות מוגבלות במספר המימדים שהן מסוגלות לטפל.
למרות שקיימות מגבלות במספר מימדים, המגבלה החשובה יותר שיש לתת עליה את
הדעת היא מספר התאים בקוביה. ככל שמספר המימדים גדל, גדל גם מספר התאים
בקוביה אותם יש לנהל. אס בפנינו שני מימדים, מימד מוצרים, עס 500 מוצרים שונים,
ומימד זמן, עס 52 שבועות - בפנינו קוביה ובה 26,000 תאים. אם נוסיף מימד נוסף,
חנויות, ובו 300 חנויות שונות גדל מספר התאיס וצומח עד 7,800,000 תאים. נוסיף מימד
נוסף, מבצעי מכירות, שגודלו 50 והקוביה שלנו צמחה לגודל 39,000,000 תאים. כפי
שניתן לראות, קוביה עס עשרה מימדים שוניס יכולה להגיע בקלות למספר מיליארדיס
של תאים. רוב המערכות המסחריות, התומכות בקוביות רב-מימדיות, מגבילות את מספר
התאים. לכן, על מעצב המערכת לשקול היטב מהו מספר המימדים, וכמה ערכים שוניס
יכול לקבל כל מימד, כדי לבחון האס יש גלישה ממגבלות גודל הקוביה.
סוגיה מעניינת נובעת מהעובדה שלא כל התאיס האלה אכן מכילים נתוניס. לדוגמה, לא
כל מוצר נמכר בכל חנות בכל יוס. חלק מהחנויות אפילו אינן מחזיקות מלאי של מוצריס
מסוימים, ולכן הן כלל אינן מוכרות מוצריס אלה. בהנחה שזה אכן המצב, נמצא שאחוז
גדול מכלל התאיס בקוביה הרב-מימדית, יהיו למעשה ריקיס. לקוביה בה מספר התאיס
הריקיסם גדול מקובל לקרוא קוביה דלילה (0008 56ז608).
תרשים 4.34: קוביה דלילה.
המערכות התומכות בניתוח מידע רב-מימדי יודעות לטפל במצביס אלה ואינן שומרות
תאיס ריקיסם, אלא רק תאים המכילים תוכן. שיטת ניהול זו של קוביות דלילות מאפשרת
להתמודד עס מגבלות מספר המימדים והערכיס.
2 מחסני נתונים
סיכום
בפרק וה הראינו ששיטת ניתוח הנתונים הרב-מימדית היא שיטה נוחה מאוד לניתוח
והצגת מידע למקבלי החלטות. בשל כך, היא מתאימה מאוד לסביבות של מחסני
הנתוניס. שיטה זו הפכה לפופולרית מאוד בשל הפשטות היחסית שלה, ויכולתה להציג
את הנתוניס בצורה נוחה, תוך שימוש במושגיס עסקייס הברוריס לכל משתמש.
תפיסת הניתוח הרב-מימדי מתאימה מאוד לאופי של ניתוח מידע לתמיכה בתהליכי
קבלת החלטות, מכיון שהיא מאפשרת למשתמשים לנתח את המידע באופן אינטואיטיבי,
מהיר וגמיש, תוך שימוש במושגיס עסקייס מוכרים. תהליכי קבלת ההחלטות וניתוח
המידע הם רב-מימדיים מטבעם, מכיון שנוח מאוד לארגן את הנתונים לפי מימדיס
עסקיים, לבצע את ניתוח הנתוניס על סמך המימדים שלהם, להתבונן במידע מנקודות
מבט שונות וברמות פירוט שונות. המשתמשים יכולים לנווט בבסיס הנתוניס או על ידי
פעולות קידוח לקבלת פירוט נוסף, או על ידי הגדרת נתון מסויס כ-סטום, והתבוננות
בנתון מנקודות מבט שונות. היכולות לבצע שאילתות על פי מימדים (לקביעת רמת
הסיכוס ושימוש בפילטריס המגדיריס את המידע המתקבל), הן הפעולות היסודיות ביותר
לניתוח מידע לקבלת החלטות. לדוגמה, אם במערכת מנוהלים שני מימדים, מוצר וזמן,
יוכל המשתמש לראות את המידע בחתכים ובצירופים שונים של מימד המוצר, או מימד
הזמן, או צירוף כלשהו של שניהס גס יחד. ניתן לראות מה היו המוצרים שנמכרו בשבוע
מסוים, או לגבי מוצר מסויס - כמה יחידות ממנו נמכרו לאורך זמן. בדומה, יכול
המשתמש להשוות את המכירות של שבוע אחרון עס השבוע המקביל בחודש קודם, רבעון
קודסם או שנה קודמת.
פרק 4: ניתוח מידע רב-מימדי 103
פרק 5: ארכיטקטורות של מוצרים
לניתוח רב-מימדי -
5 וזה 7 01
מבוא
הניתוח הרב-מימדי, או 01.5 כפי שהוא מכונה לעיתיס קרובות, הפך לאחת משיטות
ניתוח הנתוניס הפופולריות ביותר, תוך מתן דגש לניתוח מידע ברמות סיכומיות. למשל,
סך כל המכירות לפי סניף ואזור, סך כל דקות שיחה של לקוחות לפי יעדים, תקציב מול
ביצוע וכדומה. ככל שמנתחי המידע למדו להעריך את עוצמת כלי הניתוח החדשיס
ולשאול שאלות מתותכמות יותר, הס נתקלו במצב בו המידע הסיכומי לא ענה על
הדרישות והס היו וקוקיס למידע ברמה פרטנית יותר. למשל, כדי לקבל תמונה מדויקת
יותר של התפלגות שיחות הלקוח לא מספיק המידע על סך כל דקות שיחה לפי יעדים,
אלא צריך לרדת גס לרמת השעה ביממה בה בוצעה השיחה, ואולי אפילו עד רמת השיחה
הבודדת. ניהול מידע ברמה פרטנית כל כך הוא מעבר ליכולות הרגילות של כלי הניתוח
הרב-מימדיים. על רקע צורך זה בניתוח ותחקור מידע ברמה פרטנית מאוד, החלה
להתפתח ארכיטקטורה נוספת של מוצרי 01/5. מוצריס שעבדו באופן ישיר עס בסיס
הנתוניס הטבלאי של מחסן הנתונים, וענו על הצורך בניתוח רב-מימדי ברמה פרטנית
יותר ובנפחי נתוניס גדוליס מאוד.
אחת השאלות המעניינות היא האס כדי לספק מבט רב-מימדי על הנתונים (טוטו
שש6ו/ |חסופחסוחוכ) צריך לנהל את הנתוניס בצורה פיסית מיוחדת, או שניתן לקבל מבט
רב-מימדי גס תוך שימוש בבסיסי נתוניס טבלאייס (שהם, כידוע, מבוססיס על טבלאות
דו-מימדיות פשוטות בלבד). במשך מספר שניס רב, היתה מקובלת הגישה שמוצר קג 01
צריך להיות מבוסס על בסיס נתונים רב-מימדי, כלומר על מבנה נתוניס ייעודי. עס
ההתפתחות והתפוצה הרבה של בסיסי הנתונים הטבלאייס התברר שניתן לבנות מבט
רב-מימדי גם על בסיסי נתוניס טבלאיים, כלומר מתן מבט רב-מימדי לוגי על בסיס
נתוניס דו-מימדי פיסי. לכל אחת משתי ארכיטקטורות אלה יש יתרונות וחסרונות.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 105
בשניס האחרונות החלו להתפתח מוצריס המשלביס את שתי התפיסות. מוצריס אלה
מסוגלים לספק זמני תגובה מהירים, יחד עס יכולות ניתוח מורכבות, על ידי ניהול נתוניס
סיכומייסם בבסיס נתונים ייעודי, במשולב עס היכולת לגשת למידע פרטני המנוהל בבסיס
הנתוניס הטבלאי. המציאות הוכיחה ששילוב בין שתי התפיסות הוא הפתרון הנכון.
מבין כל הטכנולוגיות המרכיבות את מרחב ניתוח המידע, זכתה טכנולוגיית הניתוח
הרב-מימדי לפופולריות גדולה מאוד. עד כדי כך שאנשיס נוטיס לחשוב שניתות
רב-מימדי, ניתוח מידע ומחסן נתוניס הס מושגיס נרדפים, ולא כך הוא הדבר. לבלבול זה
תורמת לא מעט העובדה שכלי הניתוח הרב-מימדי נקראים כלי = 01, כלומר כלים
לעיבוד אנליטי מקוון (שהיא הפעילות הכוללת לניתוח מידע בסביבת מחסן הנתוניס),
במקוס להיקרא כלי ניתוח רב-מימדל (פו5ע|ח// |החסופחסחום טוטו). בלבול וה החל
בתקופה בה יצרני טכנולוגיה זו נאבקו ביצרני בסיסי הנתוניס הטבלאיים, וביקשו להוכיח
שניתוח רב-מימדי אינו בר מימוש על בסיס הנתוניס הטבלאיים. הוא דורש בסיס נתוניס
במבנה מיוחד וייעודי - בסיס הנתונים הרב-מימדי.
אחת החברות המובילות באותה תקופה, 50876 זססזה (הנקראת כיוס חהסחפסץ
5חסוזט!60), פנתה אל אבי המודל הטבלאי, 6000 .=.=, וביקשה ממנו לבחון את הנושא.
החברה פרסמה מאמר ובו התייחסותו של 6000 לנושא. המאמר כלל 12 כללים הקובעים
מהס המאפיינים של מוצר המבקש להיקרא מוצר 018₪. 0000 הוא זה שנתן
לטכנולוגיה זו את השם 0 01. השס בה להדגיש שצו טכנולוגיה חדשה, שמטרתה עיבוד
אנליטי מקוון, לעומת טכנולוגיית עיבוד התנועות המקוון (= ד 01), עבורה פותחו בסיסי
הנתוניס הטבלאייס. צמידות ו של הופעת המונח החדש קג 001 יחד עס מאבק יצרני כלי
הניתוח הרב-מימדיים מול יצרני בסיסי הנתונים הטבלאיים, גרס לכך שיצרני הכליס
החלו לכנות את הטכנולוגיה שלהם 37 01. עס הזמן הוכיחו יצרני בסיסי הנתוניס
הטבלאיים ויצרני צד שלישי שניתן לספק מבט רב-מימדי גם על בסיסי נתוניסם טבלאייס.
הס קראו לטכנולוגיה זו בשס ג 401 (ג.01 |8חסוז56|8), ואילו לטכנולוגיה המבוססת
על בסיסי נתוניס רב-מימדיים קניינייס קראו בשם קג !סו ((החסופחסחו. טוט
קה |0).
כדי להוסיף לבלבול הקייס בין המושגים, יש לא מעט אנשיס שמבלבלים בין המונת
ק 01 לבין המונח מחסן נתונים. האמת היא שהניתוח הרב-מימדי הוא רק ענף מסויס
של התהליכים האנליטיים לניתוח מידע. אלו, ברובס הגדול, מתבצעיס בצורה מקוונת
ומהוויס חלק מתפיסת מחסן הנתונים, שהינה תפיסת קצה לקצה של כל תהליך אספקת
הנתוניס לתמיכה בקבלת החלטות. עקרונית ניתן לבנות מחסן נתוניס שאינו מכיל כלי
ניתוח מידע רב-מימדי, למרות שמצב זה יהיה די נדיר.
6 מחסנל נתונים
חלופות למימוש ארכיטקטורה למוצר 7 01
כתוצאה מהאפשרויות השונות למימוש המבט הרב-מימדי, התפתחו במשך השנים מספר
ארכיטקטורות שונות, כאשר ההבדל העיקרי ביניהן מתבטא בשני פרמטריס עיקריים:
היכן מנוהלים הנתונים, והיכן מתבצעיס העיבודיס.
נתבונן תחילה בנושא מיקוס הנתוניס. בעיקרון, קיימות שלוש חלופות שונות לאחסון
הנתוניס המשתתפים בניתוח הרב-מימדי:
.*
+*
בסיס נתונים רב-מימדי (23180856 |החסופח6חוכ טוווא) - הנתונים מאוחסניס
בבסיס נתוניס רב-מימדי מיוחד המנוהל במחשב השרת. הנתוניס הדרושיס לניתוח
נגזריס מבסיס נתונים טבלאי המנוהל במסגרת מחסן הנתונים, או נגזרים ישירות
ממערכות תפעוליות. הנתוניסם הגזוריס עובריס תהליך עיבוד, הכולל את סיכוס
הנתוניס ברמות ובחתכים שונים וביצוע חישוביס מיוחדים, במידה ונדרשים. בסיס
הנתוניס הרב-מימדי מבוסס על מבני נתונים של מערכים (עְפזז3) ואינדקסיס
מיוחדים, המנוהליס בדיסק המקומי ובחלק מהמקריס בזיכרון השרת, לשיפור
הביצועים. בדרך כלל, בסיסי נתוניס אלה מאפשרים למספר רב של משתמשים גישה
לקריאה בלבד (עץ|וח0 4880), אך אינס מאפשרים עדכון בו-זמני על ידי מספר
משתמשים.
בסיס נתונים טבלאי (8+80856כ והּחסו46]31) - הנתוניס מאוחסניס בבסיס נתוניס
טבלאי רגיל במחשב שרת, אבל בעיצוב מיוחד (מבנה כוכב לא מנורמל), מכיון
ששיטת העיצוב הרגילה של בסיסי נתוניס טבלאיים אינה מתאימה לניתוח
רב-מימדי. הנתונים והסיכומיס מנוהלים במסגרת טבלאות רגילות של בסיס
הנתוניס. לנושא עיצוב בסיסי נתוניס טבלאייס עבור ניתוחים רב-מימדייםס מוקדש
פרק שלס בהמשך.
מבנה נתונים מיוחד במחשב האישי (ח0ז5ץ5 16 28560 000א65כ) - הנתוניס
הדרושים לניתוח הרב-מימדי מנוהליס במחשב האישי המקומי (תחנת העבודה),
במבנה קבציס מיוחד עבור הניתוחים הרב-מימדיים. בדרך כלל, מבנה נתוניס וה
איננו בסיס נתוניס במובן האמיתי של המושג, אלא ממומש במערכת הקבצים של
המחשב האישי. הנתוניס הדרושים יכוליס להיגזר ישירות מבסיס נתונים טבלאי, או
מבסיס נתוניס רב-מימדי, המנוהלים בשרת. גס במקרה זּה, חלק מהנתונים יכוליס
להיות מנוהליס בדיסק המקומי וחלק מנוהל בזיכרון המחשב המקומי לשיפור
הביצועים.
לכל אחת מהחלופות המוזכרות יש יתרונות וחסרונות, מבחינת היכולת לטפל בנפתי
נתוניס גדולים, מבחינת הביצועים, מבחינת כושר הגידול ועוד. בדרך כלל, יהיו הביצועיס
של בסיס הנתוניס הרב-מימדי המנוהל בשרת או במחשב האישי טובים יותר מבסיסי
נתוניס טבלאיים, אבל בנפחת נתוניס מצומצס יותר.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 107
הפרמטר השני במימוש ארכיטקטורה של מוצר 01.40 מבוסס על ההחלטה היכן יבוצעו
העיבודים הדרושיס לצורך הניתוח הרב-מימדי. מעבר למורכבות הנובעת מעצס ניהול
הנתוניס בצורה יעילה ומתאימה לניתוח רב-מימדי, חשוב להדגיש שניתוח מידע
רב-מימדי מבוסס גם על מספר רב של עיבודים, שחלקס יכוליס להיות מורכבים מאוד.
לדוגמה, השוואת מכירות לפי סניפים, בין שניס שונות, איתור חמשת הלקוחות הגדוליס
ביותר, חישוב אחוזי סטייה בין תכנון וביצוע תקציבי, וכדומה. חישוביס אלה מבוצעיס
תוך כדי הניתוח, לא מראש. שלוש החלופות למקוס ביצוע העיבודיסם הן:
.%
+
במנוע רב-מימדי בשרת (פַחוחָח= :567/60 |החסופח6חחום טוטו): בשל מורכבות
החישוביס והעיבודים הרב-מימדיים, ניתן לפתח מנוע רב-מימדי מיוחד הפועל
בשרת. קיימות שתי חלופות עיקריות למימוש המנוע הרב-מימדי - מנוע העובד עס
נתוניס המנוהליס במבנה רב-מימדי ייעודי, או לחילופין מנוע העובד באופן ישיר עס
בסיסי נתוניס טבלאיים. עבור מערכות המנהלות את הנתוניס בבסיס נתוניס
רב-מימדי מיוחד המנוהל בשרת, המקוס הטבעי לבצע את כל החישוביסם והעיבודיס
הוא, כמובן, באותו שרת. הקרבה בין הנתוניס המנוהליס בשרת לבין החישוביס
המתבצעים בזיכרון של אותו שרת, יכולה להשפיע רבות על הביצועיס הטוביס שניתן
לקבל במצב זה. במשך הזמן התפתחו גס מערכות המבוססות על מנוע רב-מימדי
הפועל בשרת, ואילו הנתוניס מנוהליס בבסיס נתוניס טבלאי, המנוהל באותו שרת
או בשרת אחר. מנוע זה משגר פקודות .501 לבסיס הנתונים, ומבצע את כל
החישוביס הדרושים. ברור, שלשיטה זו יש את יתרון העבודה הישירה מול הנתוניס
הפרטניים, אבל יש לו את החסרון של זמני תגובה איטייס יותר (מכיון שאינו מבצע
חלק מהחישוביס מראש).
במנוע בסיס הנתונים הטבלאי (פחוְחָח= |החסופחפחו שוטו |8ה46!800):
החישובים והעיבודים יכוליס להתבצע כחלק ממנוע בסיס הנתוניס הטבלאי. יצרני
בסיסי הנתונים הטבלאייס מנסיס לשכלל את מנוע בסיס הנתונים ככל הניתן, כדי
שמירב החישוביס יבוצעו בצורה היעילה ביותר וכחלק ממנוע בסיס הנתוניס. הבעיה
היא ששפת 50031 אינה תמיד השפה האידיאלית לביצוע חישוביס אלה. היא אינה כזו
מכיון שאינה תומכת באופן ישיר בחלק מהפעולות הנדרשות, ובדרך כלל צריכה
לבצע מספר רב של מעברים על הנתוניס (5001 0855 0וט]/) לביצוע החישובים.
במחשב המקומי (סחופָח= |החסופחסוחו טוטו 65000כ): בהתתחשב בעובדה
שהמחשבים האישיים הופכים למחשבים רבי עוצמה, ניתן לבצע חלק מהחישוביס
הנדרשיס במחשב האישי עצמו, ולא בשרת. נדגיש רק שתפיסה זו מתנגשת, במידה
מסוימת, במגמה העולמית של מעבר למחשבי לקוח רזים (ח6וו0 חוחד).
בהתבסס על החלופות השונות לאחסון הנתוניס ולמקוס ביצוע העיבודים, נקבל 9
ארכיטקטורות שונות של מערכות ₪ 01.
8 מחסנל נתונים
מיקום הנתונים
במחשב
האישי
תרשים 5.1: סוגי ארכיטקטורות למימוש מוצר קג 01.
מבין כל הארכיטקטורות האפשריות המוזכרות בתרשים 5.1, קיימות מספר
ארכיטקטורות נפוצות יותר:
.*
+*
ארכיטקטורת 47 01 : בה מנוהליס הנתוניס בבסיס נתונים ייעודי בשרת, ובו גס
מתבצעים רוב העיבודים. המוצריםס הנפוצים ביותר בקטגוריה וו הס 655זקא₪
זז של חברת קז0ס0 80!8זכ), 5סו₪40 של חברת 56890816, 5550896 של חברת
סח! פחסטט|ס50 חסוחסקע ואחריס.
ארכיטקטורת ₪015 : בה מנוהליס הנתוניס בבסיס נתונים טבלאי רגיל בשרת,
והעיבודיס מתבצעיםס במנוע בסיס הנתוניס עצמו (או בשרת חישוביסם ייעודי). יש
לשיס לב לכך שמקובל לקרוא לארכיטקטורה זו 01₪0א, גם אס העיבודיס
מתבצעים כחלק ממנוע בסיס הנתונים, כחלק ממנוע רב-מימדי נפרד מבסיס
הנתוניס או בשילוב מסויס ביניהם. רוב יצרני בסיסי הנתוניסם הטבלאייס נמצאיס
בשלב זה או אחר של פיתוח מנוע רב-מימדי, כחלק ממנוע בסיס הנתוניס. המוצריס
הנפוציס ביותר בקטגוריה זו הס 6%90006! של חברת כזס6 אוחחזסזחו, 8/2
017 של חברת ם!, אחספה 55 של חברת ץ5₪9%00 סזסוו,
6 של חברת 0%8906ה0/8 הסטה8 חזסזה!, ק/]0 ז0ע567 ]50
58 של )ספסזסוו/.
ארכיטקטורת 0145 (קג 01 685600כ) - בה מנוהלים הנתוניס והחישוביס
במחשב האישי של המשתמש. ברור שארכיטקטורה זו מיועדת למשתמשיס
המבצעיס ניתוחיסם רב-מימדייס פשוטיס יחסית, בנפתחי נתוניס קטנים. בין כליס
המבוססיס על ארכיטקטורה זו נציין את עְב3|קזפשסק של חברת 05ח000,
8 25188585 של חברת 5 20[6005) 855ח051ו.
אוכיטקטורה מעוובת !₪401 (ק01 ההפעץה) - בנוסף לארכיטקטורות
המוזכרות כאן ניתן גס לבנות ארכיטקטורה מעורבת, המשלבת את בסיס הנתוניס
הרב-מימדי חייעודי עס בסיס הנתוניס הטבלאי, על ידי מתן אפשרות מעבר נוחה
ביניהס. ארכיטקטורה זו מתאימה מאוד לארכיטקטורה רב-שכבתית של מחסן
הנתונים, בה בסיס הנתונים הייעודי הוא חלק ממרכול הנתונים, ואילו בסיס
הנתוניס הטבלאי הוא חלק ממחסן הנתוניס הארגוני. בין הכלים המבוססים על
ארכיטקטורה זו נציין את 655זקְא= של חברת 0780!6, העושה מאמציס לשלב בין
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 109
בסיס הנתוניס הייעודי לבין בסיס הנתוניסם הטבלאי של החברה, 6018/₪5ו! של
חברת 50660876 ואת זפצז56 חסוז9ז60)ה! הסוזסקץ של חברת חהסחססעה,
המאפשר למשתמשים מעבר קל מהמידע הסיכומי המנוהל ב-₪552856 לנתוניס
פרטנייס, המנוהליס בבסיס נתוניס טבלאי ומוצריס אחריס.
כעת, נסקור בצורה נרחבת יותר את הארכיטקטורות העיקריות של מוצרי קג 01.
מוצרים המבוססים על
בסיסי נתונים רב-מימדיים
(ק 01 |ההסופח6וחו0 וט - קה וס₪א)
תפיסת ניתוח הנתונים הרב-מימדי פותחה לפני מספר רב של שנים (תחילת שנות ה- 70).
באותה תקופה היו בסיסי הנתוניס הטבלאייס חדשיס יחסית, ובעלי יכולות מוגבלות.
מכיון שהתפיסה הטבלאית מבוססת על שורות ועמודות בטבלאות דו-מימדיות פשוטות,
יש לבצע פעולות חוס מורכבות למדי כדי לקבל את המבט הרב-מימדי. מסיבות אלה
החליטו מספר חברות לפתח את התפיסה הרב-מימדית בהתבסס על בסיס נתוניס ייעודי
מיוחד - בסיס הנתונים הרב- מימדי (08180856 |החסופחס6חחוס טוטוש - פסש). עס חלוף
השניס החלו לקרוא לארכיטקטורה זו בשס 45 ₪01 - <ג.01 |החסופחסחופ ווטוא. שס
ארכיטקטורה זו מטעה, מכיון שזהו שס כוללני לכל מוצר המאפשר ניתוח רב-מימדי.
השס הנכון צריך להיות 40 1ס-שסו/, אולס מכיון שהוא אינו נפוצ, נשתמש ב-קג |סו.
בסיס נתוניס זה ניצל את המבנה הרב-מימדי באופןו מיוחד, כדי לקבל ומני תגובה
אופטימליים. מוצריס אלה מנהליס את הנתוניס במבנה מיוחד של מעין מטריצות דלות
(אוז)9!/! 586ז508), הלוקחות בחשבון שלא בכל הצטלבות ערכי המימדים אכן קיימות
עובדות אותן יש לנהל. יצרני המוצריס הרב-מימדיים פיתחו שיטות מיוחדות לניהול יעיל
של קוביות דלות ערכיס.
מכיון שנושא הסיכומיס נפוצ מאוד בניתוח רב-מימדי, בחרו יצרניס אלה לבנות מראש
מספר רב של סיכומים, בחתכים שונים, כך שתוך כדי ביצוע השאילתה לא יהיה צורך
לבצע את הסיכומים. טכניקות אלה הביאו לזמני תגובה טוביס מאוד של מוצריס אלה.
זמני תגובה אלה הושגו לא מעט על חשבון זמן הטעינה של הקוביה, הזמן בו מבצעת
המערכת את החישוביס השונים, ומכינה את האינדקסים המיוחדים שלה. תיאור
המנגנוניס הפנימייס של מערכות המבוססות על בסיסי נתוניס רב-מימדייסם הס מעבר
למטרות ספר זה.
בסיס נתונים
רב מימדי
תרשים 5.2: ארכיטקטורה עקרונית של מערכת קג וסוש.
0 מחסנל נתונים
הארכיטקטורה המוצגת בתרשים 5.2 היא ארכיטקטורה טיפוסית של מערכת ק וס
המבוססת על שתי שכבות (6זטז160וח6ז זסוד סצו1) - שכבת שרת הנתונים, המנהלת את
בסיס הנתוניס הרב-מימדי ואת המנוע המנהל את בסיס נתונים וּה, ושכבת הלקוח,
המכילה ממשק אל המנוע ואת אוסף כלי הצגת המידע.
מוצריס אלה (כגון 655זקא= 2780!8), ₪550896 חסהחפסער ואחרים) מבוססים על כלי
ניתוח רב-מימדי, ועל שרת רב-מימדי המנהל את בסיס הנתונים הרב-מימדי. בסיס
הנתוניס הרב-מימדי נטען מעת לעת ממחסן הנתונים, או לפעמיס ישירות ממערכות
תפעוליות (באותס ארגוניס בהס מחסן נתוניס לא קייס). מבחינת ארכיטקטורת מחסן
הנתוניס, ניתן להסתכל על בסיס הנתוניס הרב-מימדי כחלק ממרכול נתונים (811!ש פַּוָהּכ)
הנטען בנתוניס ממחסן הנתוניס. קיבלנו כאן את הארכיטקטורה הרב-שכבתית של מחסן
הנתוניס. במשך השניס הוסיפו יצרני הכלים הרב-מימדיים שכלולים רביס. אחת
האפשרויות שהתווספה היתה היכולת לבצע שאילתות רב-מימדיות מול בסיס הנתוניס
הרב-מימדי, ותוך כדי תהליכי הקידוח להפעיל באופן אוטומטי שאילתות 501 ישירות
מול בסיס הנתוניס הטבלאי של מחסן הנתונים, לשס קבלת המידע הפרטני. לתכונה זו
מקובל לקרוא חפטסזח ד 2855 .5001 או חפְָטסזחד ח680.
ו
ו
סיס נתוניט |
רב מימדי |
ו
ו
ו
ו
תרשים 5.3: שילוב ארכיטקטורת קג וסו עם בסיס נתונים טבלאי.
בסיסי נתונים טבלאיים בעיצוב רב-מימדי
(ס5בְַּבּ+03 |בּחהסופ5חס6וחופ ובּהסוז26!3)
עס השיפוריס שחלו בביצועיס של מערכות לניהול בסיסי הנתוניס הטבלאיים (5!פפח -
8 2856 28% |חסוז49!8) המסחרייס ועס הפופולריות ההולכת וגוברת של
מחסן הנתוניס בכלל ותפיסת ניתוח המידע הרב-מימדית בפרט, התברר שניתן לבצע
ניתוחיס רב-מימדייס גם על בסיסי נתוניס טבלאיים. ואת, בתנאי שהסם יעוצבו בצורה
מיוחדת - העיצוב הרב-מימדי של בסיס הנתוניס הטבלאי.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 111
טכניקות עיצוב הנתוניס הרגילות, המבוססות על נירמול נתוניס (חסו281ו|פוחחזסא הַּוהּכ),
ושיטות ניתוח של יישויות וקשריס (פחחַזחָ3ום קותפחסוז₪9|8 עְטחה= - כחם), אינן
מתאימות לניתוח הרב-מימדי הנדרש על ידי מקבלי ההחלטות. דבר זה נכון במיוחד אס
ארגון מבקש לבנות קשריסם מורכביס בין מספר רב של יישויות עסקיות. לדוגמה, חברה
המבקשת להבין את הקשרים בין עלויות הייצור, גודל המוצר ומספר יחידות המוצר
באריוה, תתקשה מאוד לעשות זאת באמצעות מודל נתוניס טבלאי רגיל. הדרך הרגילה
של בניית אוסף טבלאות מיוחדות לכל יישות, ואחר כך שימוש בפעולות חוסנ. מורכבות,
היא דרך מורכבת מאוד. בדרך זו יהיה קשה מאוד לבצע ניתוח מגמות, השוואות בין
מוצריס שוניס וכדומה. התברר שיש לגשת לבעיה זו בדרך שונה לחלוטין מבחינת עיצוב
בסיס הנתוניס, גישת העיצוב הרב- מימדית. ההבדל בין שתי תפיסות עיצוב אלה (תפיסה
רגילה של נירמול נתוניס לעומת תפיסה של עיצוב רב-מימדי) הוא מנקודת מבטו של
מנתח המידע ומקבל ההחלטות, כמו ההבדל בין להתמקד בבעיות המחשב לעומת
התמקדות בבעיות העסקיות של הארגון.
תפיסת העיצוב הרב-מימדית (ח65!0 8180856 |החסופח6חחוכ |8ח0ו46!30) של בסיסי
נתוניס טבלאייס פותחה במשך השנים על ידי גורמיס שונים, אולס ללא ספק ח58|0
וו8פחזו, שכתב את הספר המצוין ישוא|סס ד 6פטסחס6ז3/ הזכ 6חדיי וכן בסדרה ארוכה
של מאמריסם בעיתון המקצועי ייפפפ'י, הוא ה שהביא תפיסה זו לכדי תפיסת עיצוב
שלמה, בוכות עצמה. בעקבותיו נכתבו מספר רב של ספריס ומאמרים, אולס זכות
הראשוניס היא לו. כיוס, רוב מחסני הנתוניס המודרנייס מבוססיס על תפיסת העיצוב של
וו8סחזו4 הסופח.
מעבר לתפיסה הרב-מימדית של העיצוב הלוגי, החלו החברות המייצרות מערכות
5 להוסיף תכונות מיוחדות, המיועדות בעיקר עבור מחסני נתוניס. בין תוספות
אלו ניתן לציין שיפוריס מיוחדיס ברכיב האופטימיזציה (2617וחו1ק0), המזאהה את המבנה
המיוחד של העיצוב הרב-מימדי, הכנסת מימד מקביליות (ח8!ו|9||6זהק) כמעט לכל רכיבי
בסיס הנתוניס כדי לאפשר ניצול טוב יותר של החומרה להשגת ביצועיס טובים, שיפוריס
מיוחדיס בוכיב הטעינה (08060)), הוספת אפשרויות לניהול חכס של מחיצות
(פחסוזו+זהק), טבלאות ועוד.
למרות העיצוב הרב-מימדי של בסיס הנתוניס הטבלאי, שפת .501 אינה שפה מספיק
עשירה וגמישה כדי לבצע את כל הפעולות והחישובים, המהוויס חלק בלתי נפרד מהניתות
הרב-מימדי. העיצוב הרב-מימדי של בסיס הנתוניס הטבלאי הוא רק ההתחלה של הניתוח
הרב-מימדי וכדי לספק את מירב הפונקציונליות הנדרשת היה צורך להשלים את העיצוב
הרב-מימדי בכלים ייעודיים המתמחיס בביצוע כל החישובים והפעולות המקובלות
בניתוח הרב-מימדי. וּהו מקור התפתחותה של טכנולוגיית ₪ ₪01, טכנולוגיה המשלימה
את בסיס הנתוניס הטבלאי המעוצב בצורה מיוחדת, במיגוון רחב של פונקציות תומכות.
בכל מקרה, כל כלי ₪01.45 יוצאיס מההנחה שבסיס הנתוניס מעוצב בצורה רב-מימדית.
בשל החשיבות ורוחב היריעה של שיטת עיצוב זו, יוקדש לה כל הפרק הבא.
2 מחסני נתונים
מוצרים לניתוח רב-מימדי
מבוסס בסיס נתונים טבלאי
(קג 01 והּחסוז6|3= - קה 1ו0ס=)
כאמור, בניית בסיס נתוניס טבלאי בעיצוב רב-מימדי מהווה רק את הצעד הראשון
לקראת אפשרות ניתוח רב-מימדי של מידע. במקביל לשינוייס בעיצוב בסיס הנתוניס נוצר
הצורך לשפר את כלי הגישה והניתוח, העובדיס עס בסיס הנתוניס הטבלאי שעוצב
בתפיסה הרב-מימדית. כפי שהוסבר, ניתוח רב-מימדי הוא הרבה יותר מאשר רק מבט
רב-מימדי על הנתוניס, והוא כולל עיבודים וחישוביס מורכביס מאוד. גישה המבוססת על
פעולות 501 בלבד היא עדיין מורכבת מדי, ושפת .501 חסרה מספר פונקציות חשובות
מאוד מבחינת מנתח המידע.
טכנולוגיית 47 ₪01 מבוססת על בניית מנוע מיוחד, הנקרא בדרך כלל פַחוּפַח= סג 01,
שהוא שכבת תוכנה מיוחדת היודעת לבצע ולתמוך בכל הפעולות המיוחדות של הניתוח
הרב-מימדי. שכבה זו מבצעת חלק גדול מהחישובים, ומשלימה את :כולות בסיסי
הנתוניס בכל הקשור לניתוח רב-מימדי. המנוע הרב-מימדי מבוסס על מילון נתוניס
(חסצוזכ 2818 1618), המקבל את בקשות המשתמש, מתרגם אותן לפניות .501 חכמות
לבסיס הנתונים, מנהל באופן אוטומטי טבלאות סיכוס שונות, מבצע חישובים מיוחדיס
ולבסוף מחזיר את התוצאה למשתמש. המנוע מבצע כל ואת בזמן הריצה. במשך השניס
נוצרו מספר ארכיטקטורות מימוש שונות של המנוע הרב-מימדי:
> ארכיטקטורת 9 401 בה המנוע הרב-מימדי הוא שכבת תוכנה נפרדת ממנוע בסיס
הנתוניס הטבלאי. עקרונית, ניתן לממש את המנוע הרב-מימדי הן בשרת מרכזי והן
במחשב הלקות. ארכיטקטורת 401.47 הפועלת בשרתים מיושמת על ידי יצרני צד
שלישי, כגון 5₪0₪06חסו8ו260 של חברת 0871806 חסוזהחזסזחו, חפה 55 של
חברת ,5178100 סזסוו/] ואחרים. מוצריס אלה משלימים את בסיסי הנתוניס
הטבלאיים ביכולות ניתוח רב-מימדיות מיוחדות.
תרשים 5.4: ארכיטקטורת קג 401 עם מנוע ייעודי.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 113
+ ארכיטקטורת ₪017 בה המנוע הרב-מימדי הוא חלק ממנוע בסיס הנתוניס
הטבלאי. ארכיטקטורה זו מיושמת על ידי יצרני מערכות 5\םכח, השוקדים כל
הזמן על אינטגרציה הולכת וגדלה של יכולות 01/9 בתוך בסיסי הנתונים שלהם.
חלק מיצרניס אלה רכשו חברות המתמחות בנושא קג.01, ומשלבות טכנולוגיות אלו
באופן מתמיד למוצרים העיקרייס שלהם. ניתן להבחין במגמה זו כשלומדיס על
רכישתה של חברת |4]! (יצרנית 655זקאם) על ידי 80|6ז0, רכישת 0זסזח518
סטסז עְפָס|סהח60ד (יצרנית 0006 618ו) על ידי חברת אוחזסזחן, רכישת 0! על
ידי חברת 5/0856, רכישת חברת 8חחה8זסח3? הישראלית על ידי אספסזסוו/!, שילוב
הטכנולוגיה של ₪550896 כחלק מבסיס הנתוניס 082 של חברת ₪₪ו, ועוד.
הב |
%>
שרת בסיס הנתונים
4
₪
תרשים 5.5: ארכיטקטורת קג 401 המהווה הרחבה של מנוע בסיס הנתונים הטבלאי.
ללא קשר לצורת המימוש של המנוע הרב-מימדי, הנמצאת בתוך או ממעל בסיס הנתוניס,
ניתן להתייחס לארכיטקטורה העקרונית של מערכת 401/47 כאל ארכיטקטורה תלת
שכבתית (6זט11601ח6ז זס ד 66זח ד) - שכבת בסיס הנתונים הטבלאי, המבוסס על עיצוב
רב-מימדי, שכבת מנוע 01.4₪א, המבצע את כל החישובים ומשמש כממשק גישה לבסיס
הנתוניס הטבלאי ושכבת הלקות, המכילה את הממשק למנוע ואת כלי הצגת המידע.
ללא קשר לצורת מימוש המנוע הרב-מימדי, טכנולוגיית קה ₪01 מאפשרת את הניתות
הרב-מימדי, ללא צורך בניהול הנתוניס בבסיס נתוניס רב-מימדי מיוחד. טכנולוגיה זו
אינה טכנולוגיה נפרדת, העומדת בזכות עצמה, אלא מהווה נדבך נוסף מעל בסיס הנתוניס
הטבלאי, ומשלימה אותו במספר יכולות הקשורות לניתוח המידע הרב-מימדי. במובן
מסויס, ניתן להתייחס לטכנולוגיה זו כאל טכנולוגיה משלימה לטכנולוגיית בסיסי
הנתוניס הטבלאיים. קיימות שיטות שונות למימוש מנוע 5 01, לכל שיטה היתרונות
והחסרונות שלה. נסקור כאן בקצרה את השיטות הנפוצות.
4 מחסנל נתונים
ארכיטקטורת 6006 .591
בארכיטקטורה זו נשענות רוב היכולות הרב-מימדיות של המנוע על יכולות בסיס
הנתוניס. המנוע מייצר פקודות 50.1 מורכבות, כדי לגשת אל הטבלאות הרגילות
והטבלאות הסיכומיות בבסיס הנתונים, ומבצע את כל ה-5חו0(, הסיכומים והחישוביס
הרב-מימדיים במנוע בסיסי הנתוניס הטבלאי. תוך כדי התהליך בונה המנוע הרב-מימדי
מספר רב של טבלאות ביניים, לקבלת המבט הרב-מימדי.
פעולות צירוף ,סיכומים
וחישובים מבוצעים
בבסיס הנתונים עצמו
7777---------; פקודת | | כ הכה ההכ בה
1
ו 500
: מורכבות
1
1 סגמסת 04000 תגזסת ו שרת בסיס הנתונים
תרשים 5.6: מבנה עקרוני של ארכיטקטורת 6ט0 501.
התלות המוחלטת של ארכיטקטורה זו ביכולות מערכת ₪015 יוצרת מספר בעיות
קשות. כל החישוביס הרב-מימדיים מוגבליס רק לאלה הנתמכיס באופן ישיר על ידי
בסיס הנתונים. חישובים מורכבים *ותר, כגון ממוצעיס משוקללים, השוואות
רב-תקופתיות וכדומה, מורכביס מאוד למימוש באמצעות פקודות .501 וטבלאות ביניים.
בעיה נוספת בארכיטקטורה זו היא יכולת מוגבלת מאוד בתמיכה במספר רב של
משתמשים. התקורה הנוצרת כתוצאה מבניית טבלאות הביניים גדולה מאוד, וזמני
התגובה נוטיס להידרדר מהר מאוד עס הוספת משתמשים נוספים. רוב מוצרי ₪ 501
מהדור הראשון היו מבוססיס על ארכיטקטורה זו.
ארכיטקטורת 606 זססץ
ארכיטקטורה זו מבוססת על מנוע רב-מימדי ייעודי, הפועל בנפרד ממנוע בסיס הנתוניס
הטבלאי. המנוע הרב-מימדי יכול לפעול בשרת נפרד, או בשרת בסיס הנתוניס עצמו. מנוע
זה מייצר פקודות 501 פשוטות, כדי לבנות ולשמור קוביה רב-מימדית בזיכרון השרת.
ניתן להתייחס אל פקודות .501 כאל פקודות שמטרתן לבצע טעינה של נתונים לציכרון.
חישובים רב מימדיים מבוצעים
בזיכרון של השרת רב מימדי פקודות
-7--רדדה-----ז . שש ב
1 '
פשוטות
| נתונים
גולמיים
1
1
תרשים 5.7: מבנה עקרוני של ארכיטקטורת 6סט60 זססעו.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 115
עס גמר בניית הקוביה הרב-מימדית בזיכרון, היא נשמרת שם וכל גישה נוספת של
המשתמש היא אל הקוביה, ולא אל בסיס הנתוניס עצמו. היתרון העיקרי של
ארכיטקטורה זו הוא ביכולת לתמוך בחישובים רב-מימדייס מתותכמים, מכיון שהקוביה
מנוהלת בזיכרון על ידי מנוע רב-מימדי ייעודי, ואינה מוגבלת על ידי אילוצי מערכת
5ופסם.
החסרונות העיקריים של ארכיטקטורה זו הס במגבלות ניהול קוביות רב-מימדיות גדולות
מאוד, בשל מגבלות הזיכרון של השרת וזמן התגובה הרב שנמשכת הבנייה הראשונית של
הקוביה בויכרון. לאחר שהקוביה כבר מוכנה בויכרון, משתפרים זמני התגובה, אבל
הבנייה הראשונית יכולה להימשך זמן רב. הקוביה עצמה נשמרת רק לאורך השיח
(חסו5899) עס המשתמש, ולאחר מכן נמחקת. פנייה נוספת אל הקוביה בתוס השית
מחייבת את בנייתה מחדש, דבר שכאמור יכול לארוך זמן רב. תפיסה זו אינה מתאימה
למספר רב של משתמשים, מכיון שבשל מגבלת הזיכרון לא ניתן לבנות מספר גדול של
קוביות פעילות בו-זמנית.
ארכיטקטורת 6006 זוססץה ק0ס%א65%
ארכיטקטורה זו דומה לארכיטקטורה הקודמת של בניית קוביה רב-מימדית בזיכרון,
אלא שהפעם הקוביה איננה נבנית בזיכרון השרת, אלא בזכירון של מחשב הלקוח. לאחר
בניית הקוביה במחשב הלקוח, ניתן להתנתק מהשרת ולבצע סדרה שלמה של ניתוחים,
מבלי ליצור עומס בשרת. המגבלות של שיטה זו הן מגבלות הזיכרון של מחשב הלקוח.
בשל הצורך להעביר כמויות גדולות של נתוניס משרת בסיס הנתוניס הטבלאי אל מחשב
הלקוח דרך רשת התקשורת, נוצר עיכוב נוסף בזמן התגובה. שיטה זו טובה לאותס
מקריס בהם הקוביה קטנה ואין צורך בשיתוף הקוביה בין מספר מנתחי מידע - כל מנתח
עובד על הקוביה שלו בלבד.
מוצריס אלה הס בדרך כלל זוליס יותר מהמוצריס מבוססי שרת.
חישובים רב מימדיים מבוצעים
בזיכרון של מחשב הלקוח
1
| נתונים | |
ו גולמ"ם |
1
1 1
תרשים 5.8: ארכיטקטורת 006 זססערו 65%000.
6 מחסנל נתונים
ארכיטקטורת 606 ח5ב3!-
ארכיטקטורה זו מהווה שילוב מסויס של שתי הארכיטקטורות הקודמות - ארכיטקטורת
86 501, המטילה את רוב החישוביס הרב-מימדיים על בסיס הנתוניס הטבלאי,
וארכיטקטורת 0008 זפסץ, המטילה את רוב החישובים על מנוע רב-מימדי נפרד.
ארכיטקטורת 0088 ח85!= דומה לארכיטקטורת 0006 זפסעץה, אבל המנוע שלה עושה
שימוש נרחב יותר ביכולות מערכת 5פסח. בדרך זו, החישובים הרב-מימדייס מבוזרים
בין מנוע בסיס הנתוניס הטבלאי לבין המנוע הרב-מימדי. גס בארכיטקטורה זו ניתן
להפעיל מנוע הרב-מימדי בשרת נפרד או באותו שרת, כמו מערכת 081/5. בהתבסס על
חוקיס הנשמריס במילון נתוניס, מקבל המנוע הרב-מימדי החלטה היכן לבצע את
הפעולות הרב-מימדיות - בבסיס הנתונים הטבלאי או במנוע הרב-מימדי הייעודי. המנוע
הרב-מימדי מכיר את מבנה בסיס הנתוניס ואת הטבלאות שלו, טבלאות רגילות וטבלאות
סיכומיות, ועושה שימוש בידע זה כדי להחליט לאיוו טבלה לפנות, איזו פקודת .501
לייצר ואילו עיבודיס נוספיס לבצע בשרת הרב-מימדי.
בדומה לארכיטקטורת 0008 .501, גס בארכיטקטורה וו מתבצעיס חלק מהעיבודיס
בבסיס הנתוניס הטבלאי. כתוצאה מכך יש פחות עומס על הרשת, בשל הצורך להעביר
נתוניס מבסיס הנתוניס החוצה, אל הקוביה בזיכרון (של השרת או של הלקוח). מכיון
שחלק מהפעולות מתבצעות ישירות במערכת 5פסא, ניתן לטפל גס בטבלאות גדולות
מאוד. עס זאת, תפיסה זו אינה מגבילה את עצמה רק ליכולות הקיימות במערכת
5 בלבד. היא משלימה אותו בסדרה שלמה של פעולות רב-מימדיות המתבצעות
במנוע הרב-מימדי. ארכיטקטורה גו יכולה לתמוך במספר רב של משתמשים בו-זמנית.
חישובים רב מימדיים מבוצעים בזיכרון של השרת רב מימדי
או במנוע בסיס הנתונים
ו 0
ו פקודות | !
.1 1
פשוטות
ו
תוצאות
תרשים 5.9: מבנה עקרוני של מערכת מבוססת 8סט0 ח85!=.
ארכיטקטורה רב-מימדית מעורבת
(םה. 01 סוופעה)
במשך תקופה מסוימת התפתחו מאבקים שיווקיים בין יצרני כלי התוכנה מבוססי
טכנולוגיית = 01/₪, לבין יצרני מערכות 081/5, שהוסיפו ושיכללו את המוצריס
שלהם לקבלת יכולות 01.5 בבסיס נתוניס טבלאי רגיל ולבין יצרני מערכות :ג 501
שהשלימו את יכולות בסיס הנתוניס הטבלאי, על ידי הוספת מנוע ייעודי חיצוני.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 117
בשניס האחרונות נחלש מאבק זה וכמעט נעלם, הן מכיון שהגבולות הפכו לעמומים והן
בשל ההבנה שלכל ארכיטקטורה יש יתרונות מסוימים, וכי הדרך הנכונה היא לשלב
ביניהן.
התברר, שבאופן מעשי אלה שתי תפיסות משלימות, ולא מתחרות. במחסן הנתוניס
המודרני יש מקוס לשתי התפיסות. בשל נפחי הנתוניס הגדולים של מחסן הנתוניס,
טכנולוגיית 301/47 מתאימה מאוד. התאמה זו נובעת מכך שטכנולוגיית :ג ₪01
מאפשרת ניתוח מידע רב-מימדי, באופן ישיר מעל בסיס הנתוניס של מחסן הנתוניס, ללא
צורך בגזירות והעברות נתוניס נוספות. מצד שני טכנולוגיית =( 01, המצטיינת
בביצועיס מעולים וכלי ניתוח מתקדמים יותר, הפכה לטכנולוגיה המתאימה ביותר
לניהול מרכול נתוניס. הנוחות במעבר המהיר מבסיס הנתונים הרב-מימדי לבסיס
הנתוניס הטבלאי, העומד בלב מחסן הנתוניס, רק חיוקה את התפיסה שאלו הן תפיסות
משלימות, לא מתחרות.
5
=
בסיס נתוניס
רב מימדי ו ק א ם 5 קל ה
פקודות
תרשים 5.10: שילוב בסיס נתונים רב-מימדי עם בסיס נתונים טבלאי.
הארכיטקטורה המשולבת מנסה ליהנות מהיתרונות בשני העולמות גס יחד - העוצמה,
העושר הפונקציונלי, מהירות התגובה של תפיסת קג 101 בכל הקשור לנתוניס ברמה
סיכומית יחד עס האמינות, היכולת לנהל את הרמה הפרטנית של הנתוניס של תפיסת
]₪0 וגס כושר הגידול. לארכיטקטורה זו מקובל כיוס לקרוא 45 ₪01. קג וס
מאפשרת מידה רבה של שקיפות, מבחינת המשתמש, בגישה הן לרמות הסיכומיות
(המנוהלות בבסיס נתוניס רב-מימדי ייעודי), והן לרמות הפרטניות (המנוהלות בבסיס
הנתוניס הטבלאי).
בנוסף ליצרני מערכות 08115, המרתיביס כל הזמן את היכולות הרב-מימדיות של
בסיסי הנתונים שלהם, הופיעו יצרנים נוספים המציעים מוצרי 5 01. ביניהס ניתן
לציין את המוצר =//16019/] של חברת 6ז50660/9. כל המוצריס האלה יודעיס לעשות
שימוש במידע המנוהל בקטלוג של בסיס הנתוניס הטבלאי (8)8 16!8/), ללא צורך
בניהול ותחווקה כפולה של מידע זה. מוצריס אלה יודעיס לחולל פקודות 5001 הנבנות
באופן אוטומטי, וללא ידיעת המשתמש.
8 מחסנל נתונים
סקירת מוצרי 47 01
על פי מטריצת הארכיטקטורות
לאחר שסקרנו את הארכיטקטורות השונות למימוש מוצרי 01/40, נסקור את המוצריס
הנפוציס בתחוס גּה, על פי המטריצה שהוצגה בסעיף הקודם.
מנוע בסיס הנתונים 0
68 1648000 אומזיז10 ות
הטבלאי 4 ג ואמ
מיקוס הנתונים
מיקוס החישובים בסיס נתונים בסיס נתונים מבנה נתונים
טבלאי רב מימדי במחשב האישי
255 5073100 ססו 1
30 סה 8
במנוע רב מימדי ע6עו50 01.47 282 1881 0
בשרת 5 6 אנותזס!ה1 .5 0
(1066 1 8001) 110105 500866 מו 070 545
(1000/ 15001.1 1501088 616גיוכ) 0+
00 1 ופ
זס/507 918ַעְ1/. )ווק
נמ
(20010) 501'0) 0/0118 208805 16 0 ו
במנוע רב מימדי סק ץד ץאוס 008808
606 016
במחשב האישי
וצ
2 = - ץז סו
1]אך
תרשים 5.11: טבלת מוצרי קה 01 לפי הארכיטקטורה.
להלן מספר הערות לטבלה שבתרשים 5.11 :
.*
+*
משבצת 1: מוצריס אלה ידועיס בשס 35 ₪01. הס מבוססים על מנוע רב-מימדי
מיוחד (הפועל בשרת), ליד או בנפרד ממערכת 08115. מבין מוצריס אלה, השנייס
הראשוניס מבוססים רק על תפיסת ג 01, בעוד שאחריס מבוססים על שילוב
מסוים בין קה ₪01 ו-קג וס.
משבצת 2: למוצרים אלה מנוע רב-מימדי המהווה חלק ממנוע בסיס הנתוניס עצמו
ונמצאיס בשלבי פיתוח כאלה ואתחריס. חלק מהחברות כבר שחררו גרסאות
ראשוניות, המכילות את מנוע העיבוד הרב-מימדי כחלק ממנוע בסיס הנתוניס.
למשל, חברת אווחזס1ח! ששחררה גירסה של ז8/ז58 |הפזסעוח( אוחחזסזחו, המכיל
אופציה של מנוע רב-מימדי פנימי. גסם חברת יבמ שחררה לשוק מוצר דומה במערכת
2 שהאיא משווקת.
משבצת 4: אלה מוצרי 49 101 המובילים. הס מבוססים על מנוע רב-מימדי ובסיס
נתונים רב-מימדי, הפועלים בשרת.
משבצת 6: אלה המוצרים המובילים לניתוח רב-מימדי, המבוססים על תחנת
העבודה האישית של המשתמש.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 119
ראוי להדגיש שקיימיס הבדלים מהותייס בין המוצרים השונים, אפילו אס הם מופיעיס
באותה משבצת. כל אחד מהמוצריס נבדל בעוצמת המנוע הרב-מימדי, ברמת תתכוס
האופרטוריםס המיוחדיס בהס הוא תומך, בידידותיות למשתמש, בביצועים, בנפח הנתוניס
שהוא מסוגל לנהל וביכולת הגידול שלהס. מסיבה זו סביר להניח שנמצא באותו מחסן
נתוניס מספר מוצריס שוניס, כל אחד עבור המשימות אותן הוא מבצע טוב יותר.
מה הארכיטקטורה המומלצת ?
איו תשובה אחת לשאלה זו, אולס ברור שכיוסם שאלה זו הופכת לפחות ופחות רלוונטית,
בשל השילוב שנוצר בין הארכיטקטורות השונות. יחד עם ואת, קיימיס מספר קריטריוניס
עליהס יש לתת את הדעת בעת ההחלטה על המוצר והארכיטקטורה המתאימה ביותר
לארגון.
.%
+*
גודל בסיס הנתונים (5!20 סִפהס818כ): נכון להיום, טכנולוגיית בסיסי הנתוניס
הייעודייס בארכיטקטורת ג 01 מסוגלת להתמודד עס נפת נתוניס בתחום של 10
ועד 20 גייגה-בית (08). למרות שאלה נפחים מכובדיס למדי, סדר הגודל של מחסני
הנתוניס המודרנייס כיוס נמנה במאות ג'יגה-בית ויותר. מכאן, ברור שארכיטקטורת
ק ]0ו תתאים ביותר לניהול מרכול הנתוניס, שהוא בדרך כלל מצומצס יותר
בנפחו, מכיוןו שהוא מכיל בעיקר מידע סיכומי. כשצריך לבצע ניתוחי מידע ברמה
פרטנית יותר על נפתי נתונים גדוליסם, הארכיטקטורה המתאימה ביותר היא
ארכיטקטורת 39 ₪01.
קצב השינויים (עו|ו81|ס/ 2818 06זט50): אס הנתונים המשמשיס את תהליכי
ניתוח הנתוניס משתנים בתדירות גבוהה, נוצרת בעיה בארכיטקטורת קג |סוו.
ארכיטקטורה זו מבוססת על בסיס נתונים נפרד, ולכן יש לבצע את טעינתו מחדש
בתדירות גבוהה. תהליך טעינה זה יכול להימשך זמן רב ולצרוך משאבי מחשוב
רביס. ארכיטקטורת ג ₪01, מכיוו שהיא עובדת ישירות מעל מערכת 08/5,
אינה סובלת מבעיה זו.
ביצועים (8706ז0זז6ק): ארכיטקטורת =( 001 נהנית מביצועיס טוביס יותר.
זאת מכיון שחלק גדול מאוד מהחישוביס והסיכומיס מתבצע תוך כדי תהליך
הטעינה. לעומתה, ארכיטקטורת 37 ₪01, למרות שגם היא מבוססת על ביצוע
סיכומיס תוך כדי טעינה, עדיין אינה מגיעה לרמת הביצועיסם של בסיסי הנתוניס
הרב-מימדייס הייעודיים, אס כי הפער הולך ומצטמצם כל הזמן.
פונקציונליות רב-מימדית (עז|8ח60חט=] |החסופח6חו. טוטו): ארכיטקטורת
ג ]סו מכילה עושר פונקציונלי רב יותר מאשר ארכיטקטורת 37 01א, אס כי
הפערים הולכים ומצטמצמים. צריך לזכור שניתוח רב-מימדי הוא הרבה יותר מאשר
הצגת הנתוניס במבנה רב-מימדי. הוא דורש תמיכה באופרטוריס מיוחדיס ובביצוע
חישוביס מורכבים המהוויס חלק מתהליך בניית המודלים. חלק מפונקציונליות זו
מזכירה את הגיליונות האלקטרונייס ואת יכולותיהס להגדיר נוסחאות מורכבות,
אריתמטיקה של מטריצות, ביצוע תהליכי סיכומיס מהיריס וכדומה.
0 מחסנל נתונים
> רמות הסיכומים (חסווְהּטְזְחָטָ זס 1.8/8/5) : ככל שרמת הסיכומיס השוניס הנדרשת
גבוהה יותר, ארכיטקטורת 3 01 מתאימה יותר. התאימות הגבוהה נובעת מכך
שממילא מתבצעים מספר רב מאוד של סיכומיס תוך כדי הטעינה. לעומת זאת,
ניהול הסיכומים בארכיטקטורת ]₪0 מורכב יותר, ובשלב זה עדיין אינו
אוטומטי. דבר זה מחייב התערבות של מנהלי בסיס הנתונים בבניית הסיכומיס.
בנוסף, רוב כלי השאילתות עדיין אינס יודעיס לנצל באופן אוטומטי את הטבלאות
הסיכומיות.
> בסיס נתונים נפרד (28180856 5608/816): ניהול בסיס נתוניס רב-מימדי ייעודי
מוסיף רמה נוספת של סיבוכיות תפעולית. צריך להכיר את כלי הניהול של בסיס
הנתוניס הרב-מימדי, לדאוג לכוונון שלו, לעדכן אותו מעת לעת, לוודא שהוא שותף
בתהליכי גיבוי ושחזור וכדומה. מכיון שזהו רובד נוסף במחסן הנתונים, באופן טבעי
קיימת כאן רמת סיבוכיות נוספת.
> שפת גישה קניינית (00806ח8 ]1 00055 2818 עזפזסוקסזק): רוב המערכות
המבוססות על ארכיטקטורת =( 101 משתמשות בשפת גישה מיוחדת לנתונים. זו
שפה שונה משפת .5001, ולחלקן יש ממשקי תכנות (|₪) מיוחדים. דבר זה מחייב
לימוד שפת גישה נוספת, ובנוסף מאפשר רק למספר מוגבל של כלי צד שלישי גישה
לבסיס הנתונים הרב-מימדי.
כללי 6000 להגדרת מוצרים רב-מימדיים
בשנת 1993 פרסס 6066 מאמר, שהוזמן על ידי חברת 6ז8/ש508% זספזה. המאמר הנושא
את הכותרת 430816 ד| חגא :8!/518ח חב 05015 סז קג 01 חמוסוטסזפיי הציג אוסף
של 12 כללים המגדיריסם את התכונות אותן חייב מוצר :01 לקייס ובהן הוא חייב
לתמוך. 0000 הוא חוקר ומדען בעל מוניטין רביס בקרב אנשי טכנולוגיית המידע, כאשר
עיקר פרסומו בא מתחוס בסיסי הנתוניס הטבלאייס ונחשב לממציא מודל הנתונים
הטבלאי. למרות פרסומו הרב והמוניטין המקצועייס שלו, עורר מאמר זה ויכוחיס רביס
בקרב אנשי המקצוע, בעיקר בשל העובדה שהוא הוזמן על ידי חברה מסחרית. מחלוקת
נוספת התפתחה מכיון שהכללים נוסחו באופן כוללני מדי, ונותר מקוס רב לפרשנויות
שונות. למרות המחלוקות שמאמר זה עורר, ולמרות שאין להתייחס למאמר זה כאל
מאמר אקדמי מבוסס (אלא יותר כאל מסמך שפורסם על ידי גורס מסחרי), החשיבות שלו
נובעת מהעובדה שהוא מגדיר מספר עקרונות בהס מוצריס המבקשים להיקרא מוצרי
₪ ]01 צריכיס לתמוך ולקיים.
נציג כאן את 12 הכללים (למרות שבשנת 1995 הס הורחבו ל-18 כללים) במטרה לאפשר
לקורא להתרשס מהס עקרונות מוצרי 9 01. הכרת כללים אלה יכולה לסייע בהבנת
מוצרי 01/47 ושיטות המימוש השונות שלהם. ניתן לומר, שרוב המוצריס המסחריים
הקיימיס כיוס אינס תומכיס באופן מלא בכל הכללים, אלא רק בחלקם.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 121
+ כלל מספר 1 - מבט לוגי רב-מימדי (שסו/ |0070660108 |החסופח6חחוכ טוטוא) - זהו
הכלל הבסיסי ביותר הקובע שעל המוצר לתמוך במבט הרב-מימדי על הנתונים, על
כל המשתמע מכך. הפרק הקודס הסביר מהו המבט הרב-מימדי, לכן לא נחזור כאן
על התכונות הנדרשות.
> בלל מספר 2 - שקיפות (ְסחפזהספחהּזד) - כלל זה דורש שקיפות מירבית, מנקודת
מבט המשתמש, לגבי מקור הנתונים. המשתמש יכול לפנות למנוע 01.5 לקבלת
נתוניס תוך שהוא עובד עס ממשק של המוצר או ממשק אחר (כמו גיליון אלקטרונ.
הוא אינו צריך להיות ער לכך שהנתוניס מגיעיס מבסיס הנתוניס של המוצר, או מכל
מקור אחר. כדי לתמוך בתכונת השקיפות, על המוצר לאפשר קשר מקוון חס עס
מספר מקורות הטרוגנייס של נתונים.
> כלל מספר 3 - נגישות (עו|ו0ו00855) - כלל זה קובע שהמוצר צריך להתבסס על
מנוע 01.4 הנמצא בתווך, בין מקורות הנתוניס לבין ממשק המשתמש.
> כלל מספר 4 - ביצועי דיווחים אחידים (06ח8 סק ההוהסק6 חזסזוחט) - כלל
זה קובע שביצועי המוצר חייביס להיות טובים ואחידים, גם אם מספר המימדים (או
נפח בסיס הנתונים) גדל. כלל וה מכיל סתירה מסוימת והיא, שמצד אחד ככל
שמספר הנתוניס שיש להציג גדל, סביר להניח שזמן התגובה יהיה גדול יותר ואילו
מצד שני, מכיון שמספר המימדים גדול יותר, לכן סביר להניח שנרצה להציג יותר
נתוניס. כלל זה נותן העדפה מסוימת למוצרי :ג 101, מכיוו שהס מבצעיס טעינה
מראש של הנתוניס. לכן, הקנס על ריבוי/הגדלת מספר המימדיס יהיה בעיקר בזמן
הטעינה, לאו דווקא בזמן עבודת המשתמש. מוצרי 49 ₪01, המבצעיס חלק גדול
יותר של החישוביס בזמן אמיתי, סובלים מירידה בביצועים עס גידול מספר
המימדים.
+ כלל מספר 5 - ארכיטקטורת שרת/לקות (86ז0ש160וח0ז4/ ז6צ567/%ח6ו|0) - כלל זה
קובע שהמוצר חייב להתבסס על ארכיטקטורת שרת/לקוח. עוד הוא קובע שרכיב
השרת של המוצר חייב לאפשר ללקוחות שוניס להתחבר אליו בצורה נוחה, קלה
וללא מאמצי תכנות רביס.
> בלל מספר 6 - רב-מימדיות כללית (עזו|חסופחפוחו 86ח06)) - כלל גה קובע
שהתמיכה מבחינת המבנה, והפעולות בכל המימדיס חייבים להיות זהים. יחד עס
דרישה זו לאחידות הטיפול בכל המימדים, מאפשר הכלל לתמוך בפעולות מיוחדות
למימדים ייחודיים (כמו למשל, מימד הומן). כלל וה עורר ויכוחיס רביס בין אנשי
המקצוע, מכיון שהכלליות חשובה אולס גס ניצול תכונות ייחודיות של מימד
חשובה, ויכולה להקל במידה רבה את הטיפול במימד.
> בלל מספר 7 - התאמה אוטומטית של הרמה הפיסית (01 1ח15%00ו[40/ סוה וחסזגוה
|6צ6.] וףסופעֶחק) - כלל גה דורש כי המוצר יעדכן באופן אוטומטי את הסכימה
הפיסית שלו כתוצאה משינויים במודל, משינוייס בנפתי הנתוניס ומשינוייס
בדלילות הקוביה הרב-מימדית.
2 מחסנל נתונים
כלל מספר 8 - תמיכה בריבוי משתמשים (זססקט5 ז058 טוטוא) - כלל גה קובע
שהמוצר צריך לתמוך במספר משתמשים הניגשיס למודל בו-זמנית. הכלל מרחיב
יכולת זו מעבר ליכולת קריאה בלבד (עץ|חכ) ₪680) של נתונים, מכיוו שחלק
מהניתוחים מחייבים עדכונים לצורך סימולציות וניתוחי ]| 8ח/ש.
כלל מספר 9 - פעולות חוצות מימדים ללא הגבלה (07055 65%160%60זח(
87810 |החסופח6וכ) - כלל זה קובע שכל החישובים והפעולות השונות
צריכים להיתמך בכל המימדים.
כלל מספר 10 - טיפול אינטואיטיבי בנתונים (חסוה8|טוסוחהּו הוה 6טוווטוחו) - כלל
זה קובע שכל ממשק המשתמש חייב להיות ידידותי ונוח, תוך מתן אפשרות לבצע
את מירב העבודה באופן ישיר בתאים המוצגים.
כלל מספר 11 - דיווח גמיש (סַחודוסק36 0!6ןא8ות) - כלל זה קובע שהמוצר צריך
לאפשר הצגת המימדים במיגוון גדול של אפשרויות, על פי צרכי המשתמש.
כלל מספר 12 - מספר מימדים ורמות סיכומיות בלתי מוגבל (60זחו!חנ
8 חסוְַהּחָזַחָטָ סח פהסופח6חחוכ) - כלל וה קובע שעל המוצר לתמוך במספר
בלתי מוגבל של מימדים ורמות סיכום. במציאות, ברור שלא ניתן לקיים כלל זה,
בשל מגבלות שונות כמו גודל זיכרון, עוצמת המחשב וכדומה. מוצר התומך ב-15 עד
0 מימדים צריך להספיק לכל צורך מעשי. לעיתים די נדירות נדרשיס יותר מ-10
מימדים. לכן, גס תמיכה במספר קטן יותר של מימדיס סבירה.
סיכום
בפרק זה סקרנו את הארכיטקטורות השונות של מוצרי 5ג/01. במשך השניס הופיעו
ארכיטקטורות שונות, בעיקר בשל הפופולריות העצומה שקיבל נושא הניתוח הרב-מימדי.
שתי הארכיטקטורות העיקריות למימוש ניתוח המידע הרב-מימדי הן - ארכיטקטורת
ק|ס), המנהלת את הנתוניס בבסיס נתונים רב-מימדי בעל מבנה מיוחד או
ארכיטקטורת 47 401, המוסיפה שכבה של מנוע רב-מימדי ליד (או אל תוך) בסיס
הנתוניס הטבלאי, המעוצב בצורה במבנה רב-מימדי.
שתי ארכיטקטורות אלו משלימות אחת את השנייה, וברוב המקריס נמצא את שתיהן
מיושמות זו לצד וו במחסן הנתוניס:
.*
+*
ארכיטקטורת 37 01א, הפועלת ישירות מול בסיסי הנתוניס הענקיים ונותנת
יכולות ניתוח רב-מימדיות, אס כי לא תומכת באופן ישיר בכל עושר האופרטוריס
וסוגי הניתוחיס שמספקים מוצרי קג וסו.
ארכיטקטורת 2( 101 המיושמת כחלק ממרכול נתוניס, כאשר טעינת הנתוניס
מתבצעת מבסיס הנתוניס הטבלאי של מחסן הנתוניס. מוצריס אלה מאפשריס גישה
ישירה מכלי הניתוח הרב-מימדייס אל בסיס הנתוניס הטבלאי, לקבלת מידע ברמה
פרטנית.
פרק 5: ארכיטקטורות של מוצרים לניתוח רב-מימדי 123
למרות שהיצרניס השונים היו רוציס שנחשוב שיש כאן שתי תפיסות עולס שונות באופן
מהותי, מומלצ לחימנע מלהיכנס למלחמה זו. רצוי להביןו ששתי התפיסות חשובות וכי
לשתיהן מקוס במחסן הנתונים. הצורה הנכונה יותר להסתכל בטכנולוגיית כלי הניתוח
הרב-מימדייס היא בהתאס לעוצמת היכולות האנליטיות של הכלים, ועל פי רמת תתכוס
הניתוחיסם להס זקוקיסם המשתמשים. בהקשר וה, מקובל לחלק את הכלים לשלוש
קטגוריות :
+> כלים המיועדים בעיקר להצגת נתונים בצורה רב-מימדית, ובעלי יכולות ניתוח
מוגבלות.
+> כלים המאפשרים, בנוסף, גס יכולות ניתוח מורכבות כגון ממוצעים נעים, הצגת
5 קסד וכדומה.
> כלים המאפשרים, בנוסף, גם יכולות ניתוח מתקדמות, כגון אלגוריתמים לחיווי,
ניתוח תבניות, כללים להקצאה וכדומה.
מכיון שכל אחד מכליס אלה מתאים, בדרך כלל, לאוכלוסיית משתמשים שונה, מקובל
מאוד למצוא באותו מחסן נתוניס מספר כלים שונים, כל אחד עבור אוכלוסיית מטרה
שונה.
4 מחסנל נתונים
פרק 6: עיצוב רב-מימדי של בסיסי
נתונים טבלאיים (והּחסו₪6!3
חו065 סִפבּסַבּז3כ |ההסופהסוחום)
מבוא
בפרק וה נציג את העקרונות לעיצוב בסיס הנתוניס הפועל בסביבת מחסן הנתונים. במשך
שניס למדו ארגוניס ואנשי תוכנה לבנות מערכות מקוונות לעיבוד תנועות - קד01 (חס
9חו06659ז ה0ו580%ח8זד 6חו1) שמטרתן העיקרית היא עיבוד ואיסוף נתוניס, ובסופו
של דבר, אוטומציה של תהליכי העבודה החוזריס על עצמס מספר פעמים רב. מודל
הנתוניס נבנה במטרה לייעל ככל הניתן את תהליכי הזנת הנתונים (עזו1ח= 348כ), וקייס
בו דגש קטן מאוד על אחזור הנתוניס למטרות קבלת החלטות.
מטרותיו של מחסן הנתוניס שונות מאוד. בעוד איסוף הנתוניס ועיבודס מתבצע על ידי
המערכות התפעוליות, תפקיד מחסן הנתוניס הוא לתמוך בתהליכי הצגת וניתוח המידע
לדרג מקבלי ההחלטות בארגון. יש לזכור שמודל הנתוניס של מחסן הנתוניס חשוף מאוד
למשתמשי הקצה, והם פועלים על המודל באופן ישיר באמצעות מחוללי שאילתות ודוחות
למיניהם. טכניקת העיצוב המוצגת בפרק זה היא כללית, וניתן ליישמה בכל בסיסי
הנתוניס הטבלאיים המסחריים הנפוצים, וביניהס 0780|6, אוחחזסזח!, 5856ץ5, 82,
או 080818 ד, זס/ז60 .5001 ואחרים.
הטכניקה העיקרית בה נעשה שימוש היא טכניקת עיצוב בסיסי נתונים רב-מימדיים
(סכו - 281908568 |החסופחסחחו טוטו). זו טכניקת עיצוב מיוחדת שפותחה עבור
סביבות תומכות החלטה. היא פותחה ושוכללה בעיקר על ידי ||הסחו4 חסופח .זפ,
ומוצגת בספרו המצוין שוא|ססך 6פטסחפזה8/ 808 6חדיי. חלק גדול מהרעיונות
והדוגמאות המופיעות בפרק וה מבוססות על ספר זה. נדגיש, שטכניקת עיצוב גו מתאימה
הן עבור מחסן הנתוניס והן עבור מרכול הנתוניס.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 125
מדוע נדרשת טכניקת עיצוב מיוחדת
אחת השאלות הראשונות שעלינו לשאול היא מדוע צריך טכניקת עיצוב חדשה של מודל
הנתוניס. האס כל מה שלמדנו על עיצוב בסיסי נתוניס בסביבות תפעוליות, לא יכול
להתאים גםס למחסן הנתוניס! ובכן, מסתבר שבאופן חלקי מאוד. אין זה צריך להפתיע,
בהתחשב בכך שמטרות עיצוב מודל הנתוניס בסביבת מחסן נתוניס שונות באופן מהותי
ממטרות העיצוב בסביבה עתירת תנועות.
נתייחס למספר מאפייניס ועקרונות עיצוב, בהס יש מספר חסרונות בולטיס לטכניקות
העיצוב של בסיסי נתונים הפועליס בסביבות עיבוד תנועות, לעומת הצרכיס של עיצוב
בסיסי נתוניס הפועליס בסביבת מחסן נתוניס.
שיקולי עיצוב עיקריים בסביבת עיבוד תנועות (₪ד01)
נסקור בקצרה את הדגשים והשיקולים העיקריים בעיצוב בסיס נתוניס הפועל בסביבת
עיבוד תנועות (₪ד01). טכניקות עיצוב אלה התפתחו במשך מספר שנים, ומבוססות על
מודל יישויות- קשרים (|06ס! 2818 קוהפחסוז6|8 עווזחם), ועל טכניקת נירמול הנתוניס
(חסו281ו|החזזסא 88כ), שמטרתה העיקרית לצמצם עד למינימוס את כפילות הנתוניס.
זמן ביצוע תנועה (פַסחהּז0ס1ו6ק הסו536%הגּוד)
טכניקות העיצוב של בסיסי הנתוניס בסביבות עיבוד תנועות ממוקדות מאוד בנושא
ביצועי תנועות המעדכנות את בסיס הנתונים. מכיון שבסיסי הנתוניס התפעוליים
מעודכניס במהלך יוס העבודה ממאות ואלפי תחנות קצה בו-ומנית, יש חשיבות מרובה
להגיע לזמני עיבוד תנועה קצריס ביותר (שניות ספורות, לכל היותר). מכיון שרוב
המערכות התפעוליות המודרניות הן מערכות מקוונות, המשרתות את העבודה השוטפת
של הארגון (כמו ביצוע פעולה במכשיר אוטומטי של בנק, רישוס קריאת שירות לתיקון
מכשיר חשמלי, בירור מצב החשבון האחרון שנשלח ללקוח, רישוס תנועה חדשה במערכת
המלאי, שינוי סטטוס הוזמנת רכש וכדומה), ומן התגובה הוא אחד הפרמטריס החשובים
ביותר בהצלחת יישוס המערכת.
במערכת תפעולית, בה אותה תנועה מבוצעת פעס אחר פעם, לעיתיס מאות ואלפי פעמים
באותו יוס, אילוצ זמן התגובה הוא אילוצ מרכזי. לכן, מוקדש מאמצ ניכר להבטיתח
שעיבוד תנועה יסתיים בתוך שנייה, עד מספר בודד של שניות. אחת הסיבות שניתן לעמוד
באילוץ ומני התגובה הקצריס מתבסס על העובדה שתנועות מקוונות מעדכנות, בדרך
כלל, מספר קטן של טבלאות. בדרך כלל אמוריס הדבריס לגבי טבלה בודדת ועשוייס,
במקריס המורכבים יותר, להגיע עד כדי 10 טבלאות. רק במקרים נדיריס צריך שאותה
תנועה תעדכן מספר רב יותר של טבלאות. לעומת מצב זּה, בסביבת מחסן הנתונים לא
מתבצע עדכון, אלא רק אחזור נתונים. לכן, מיקוד מעצב בסיס הנתוניס במקרה זה הוא
להבטיח ששאילתות שכיחות תסתיימנה בפרקי ומן קצריס.
6 מחסנל נתונים
מורכבות אינה בעיה
מכיון שהגישה לנתוניס במערכת תפעולית מתבצעת תמיד דרך יישומיס הנכתבים על ידי
מהנדסי תוכנה מקצועיים, יכול העיצוב המתקבל להיות מורכב מאוד. שיקולי פשטות
העיצוב אינס מהוויס שיקול מרכזי. לעיתים, מערכות תפעוליות מורכבות מבוססות על
מאות רבות של טבלאות אותן יש להכיר היטב, כדי לעדכן בצורה נכונה את בסיס
הנתוניס. מפתחי התוכנה עובריס תקופות הכשרה מתאימות עד ללימוד מבנה בסיס
הנתוניס, וגס אז הס בדרך כלל מתענייניס בקטעיס מאוד מוגבליס שלו. זאת, מכיון שכל
תנועה מטפלת, בדרך כלל, במספר קטן של טבלאות.
מסלולי גישה ידועים מראש (23+7 66655 60ח60611זק)
מכיון שמערכות תפעוליות מבצעות מספר גדול מאוד של תנועות בעלות אופי גהה (למשל,
במערכות של חברות תעופה מתבצעת תנועה של רישוס הזמנה לכרטיסי טיסה עשרות
אלפי פעסם ביום) ניתן לתכנן באופן מדויק מהו המסלול אותו תעבור התנועה בבסיס
הנתונים (חסוְהטְו8] 2856 2818). ידיעה מראש זו מאפשרת למעצב בסיס הנתוניס
לקבל החלטות איזה אינדקסיס לבנות, היכן לוותר על מבניס מנורמלים לטובת מבניס
מנורמלים פחות, ולהשתמש במנגנונים נוספים שבסיס הנתונים מספק. לעומת מצב זה,
מחסן הנתוניס מתמודד עס שני סוגיס של שאילתות - שאילתות ידועות מראש ושאילתות
מזדמנות. עבור שאילתות ידועות מראש ניתן להכין מסלולי אופטימיוציה מתאימים.
הבעיה הגדולה היא בשאילתות המזדמנות. כאן אין למעצב כל יכולת לצפות מראש כיצד
השאילתה תתנהג.
התמקדות בנתונים שוטפים ולא היסטוריים
מערכות תפעוליות ממוקדות בעיקר בניהול היומיומי של הארגון. לכן, אך טבעי הוא
הדבר שהנתונים הנדרשים הם, בדרך כלל, הנתוניס השוטפים (מה רמת המלאי הנוכחית,
מה מצבה של ההזמנה כרגע, האם עדיין נותרו מקומות לטיסה הקרובה לפריס וכדומה).
בדרך כלל, מערכות תפעוליות ממוקדות פחות בנתוניס היסטוריים, אם כי יהיה זה לא
נכון לומר שהס אינס מטפליס בהיסטוריה כלל. לדוגמה, במערכת חיוב וגבייה של חברת
טלפוניס נשמריס נתוני החשבון לפרק זמן של מספר חודשים, כדי לאפשר ללקוח לבצע
בירוריס שוניס. בשל העובדה שנתונים היסטוריים מענייניס מערכות תפעוליות באופן
מוגבל, גם נפחי הנתונים המנוהליםס במערכות אלו מוגבלים. לעומתם, מערכות מחסן
הנתוניס המשמשות לתהליכי קבלת החלטות חייבות לשמור את הנתוניס לפרקי זמן
ארוכים, בעיקר כדי לאפשר ניתותחי מגמה (915ץ|8ח/ 6חפזז). צבירת הנתוניס
ההחיסטורייס מביאה לגידול מתמיד בנפח הנתוניס המנוהל במחסן הנתונים, ומהר מאוד
אנו ניצביס בפני אתגר מורכב מאוד, ניהול בסיסי נתוניס ענקיים. טכניקות העיצוב של
בסיסי נתוניס ענקייס (28565 2818 1806 עז6 - 108/) הן שונות, ומבוססות על
מנגנוניס שוניס (כמו, למשל, חלוקת הנתוניס למחיצות שונות וכדומה).
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 127
שיקולי עיצוב עיקריים בסביבת מחסן נתונים
לעומת שיקולי העיצוב שהוזכרו קודס לכן, בסביבת מחסן הנתוניס הדגשים שוניס
לחלוטין. מכיוון שבסביבת מחסן הנתונים לא מתבצע עדכון, אלא רק אחזור הנתוניס,
צריך מעצב בסיס הנתונים להתמקד במציאת האיזון בין שלושה שיקולים שוניס,
ולעיתיס סותרים - נוחיות ופשטות המבנה מנקודת מבט המשתמש, ומני הביצוע של
השאילתות וזמני טעינת הנתונים אל מחסן הנתוניס.
עיצוב
בסיסי
הנתונים
תרשים 6.1: האילוצים בעיצוב בסיסי נתונים בסביבת מחסן נתונים.
נסקור בקצרה את שיקולי העיצוב העיקרייס בסביבת מחסן נתוניס.
נוחות המשתמש
מכיוו שהמשתמשיס בסביבת מחסן הנתוניס פועלים באופן ישיר על בסיס הנתונים, יש
חשיבות רבה לכך שהעיצוב שלו יהיה פשוט ומובן לכל. בסיסי נתוניס מורכבים הדורשיס
רמה גבוהה של התמצאות בו הם, בדרך כלל, מתכון לכישלון בסביבת מחסן הנתוניס. על
המעצב לקחת עובדה זו בחשבון, ולעצב בסיס נתוניס פשוט.
ביצועי שאילתות (66חאוחז0ס+ו06 עזסווב))
זמן ביצוע השאילתות מהווה גורס חשוב מאוד לעיצוב. למרות שהנטייה הראשונית היא
להניח שבסביבת מחסן נתוניס לא יהיה נורא כל כך אס שאילתה תרוצ עוד זמן מה,
המציאות היא שלא בכל המקרים נכון הדבר. עבור אותס משתמשיסם המפעילים שאילתות
קבועות בתדירות גבוהה, ומן תגובה קצר הוא בהחלט שיקול חשוב, כזה שיבטית
שהמשתמש אכן ינצל את מחסן הנתוניס במלואו. עבור אוכלוסיית מנתחי המידע
המפעיליס שאילתות מורכבות ומזדמנות, זמן התגובה יכול לנוע ממספר דקות ועד מספר
שעות. הבעיה היא, שבקלות רבה מאוד ניתן למצוא שאילתות שרצות עשרות שעות ועדיין
אינן מסיימות את פעולתן. גם כאן יש להבין את מהות שאילתות אלה, ולנסות להפחית
את זמן התגובה שלהן, תוך שימוש בטכניקות עיצוב שונות.
8 מחסנל נתונים
נחזור ונדגיש שאחת הבעיות העיקריות של מחסן הנתונים, המשפיעה באופן דרמטי על
זמן התגובה, היא נפח הנתוניס שעל השאילתה לסרוק עד למציאת התשובה.
זמן טעינת הנתונים (6וחוד חְבּס.-| בּזְהּ)
להבדיל ממערכות תפעוליות, המעדכנות את הנתוניס באמצעות תנועות, מערכות מחסן
נתוניס מתעדכנות בדרך כלל במנות, או אצוות (ח8840). מנות אלו נוצרות בתהליכי גזירת
והכנת הנתונים, ובסיוס תהליכים אלה מתבצעת טעינת כמויות גדולות של נתוניס בבת
אחת. לדוגמה, בחברת טלפוניס לא גדולה סביר להניח שמדי יוס תידרש טעינה של עשרות
מיליוני רשומות של פירוט שיחות. מכיון שחלון הזמן לעדכון הנתונים הוא מוגבל, יש
להשקיע מאמצ עיצוב מיוחד כדי לקחת בחשבון את כמות הרשומות שיש לטעון, ולוודא
שניתן יהיה לסיים את הטעינה במסגרת חלון הזמן.
נירמול נתונים (חסו284ו!חחזוסא בּ+ב03) אינו יתרון
בסביבת מחסן נתונים
נירמול נתוניס (ח0סו281ו|8חוזס ַ81כ) היא טכניקת עיצוב ותיקה, שפותחה בתחילת שנות
ה-70 על ידי 0000 .=.₪ .זס, אבי מודל הנתוניס הטבלאי (|08סו 088 |8ח0ו46|81).
מטרתה העיקרית של טכניקה זו היא להביא לפישוט מבנה הנתונים, על ידי הפחתה
דרמטית בכפילות הנתוניס. טכניקה זו מבוססת על פירוק יישויות ליישויות קטנות יותר,
למניעת כפילות נתוניס. תהליך הנירמול מגדיר את השיטה בה אוסף כלשהו של טבלאות
מפורק לאוסף אחר בעל אותו תוכן מידע, כך שבכל טבלה מתקיים קשר הדוק בין מפתח
הטבלה ליתר עמודות הטבלה. אוסף חדש זה של טבלאות הוא בעל אותו תוכן סמנטי כמו
האוסף המקורי, אולס ללא כפילות נתונים. הפחתת כפילות הנתונים מביאה לכך שכל
פיסת מידע מנוהלת בבסיס הנתוניסם פעס אחת בלבד. ניהול כל פיסת מידע פעס אחת
בלבד מונעת את הצורך לעדכן מספר טבלאות כאשר הנתון משתנה. התוצאה המתקבלת
במודל מנורמל היא, בדרך כלל, מספר רב מאוד של טבלאות פשוטות, בהן יודעת מערכת
6% לטפל באופן יעיל מאוד. המודל המנורמל המתקבל הוא מודל גמיש מאוד, אולס
הוא מורכב יותר להבנה, בשל ריבוי הטבלאות.
בעיית הביצועים
הטבלאות עצמן קשורות ביניהן דרך עמודות בעלות משמעות סמנטית זהה, המופיעות
בטבלאות שונות. החיבור חזרה ליישויות לוגיות מתבצע על ידי שימוש באופרטור הצירוף
(חוסנ), שהוא אופרטור יקר מבחינת ביצועים. בחלק מהמקרים, מוותרים מעצבי בסיס
הנתוניס על אלגנטיות המודל המנורמל, לטובת מודל המכיל מידה מסוימת של כפילות
נתוניס. הס עושיס ואת כדי להשיג ביצועיס טובים יותר. המודל הלא מנורמל דורש פחות
פעולות צירוף, ולכן הוא בעל ביצועיס טוביס יותר באחזור נתוניס. כל עוד ההתמקדות
העיקרית היא בתהליך העדכון, כמובן שטכניקת הנירמול היא טכניקה טובה מאוד.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 129
הבעיה העיקרית במודל המנורמל של בסיס הנתוניס מתחילה ברגע שמבקשים לשאול
שאילתות. כלומר, מתמקדיס באחזור הנתוניס, ופחות בעדכון שלהסם. המידע על יישות
לוגית אחת יכול להימצא במספר רב של טבלאות שונות. לדוגמה, אס נסתכל על טבלת
הזמנות מלקוחות נמצא בה רק את קוד הלקות, אבל לא את שמו וכתובתו. אלה נמצאיס
בטבלה נפרדת, טבלת הלקוחות. כמו כן, נמצא בטבלת הזמנות הלקוחות רק את קוד
החנות בה בוצעה ההזמנה, אבל לא את שס החנות. שס החנות נמצא בטבלה נפרדת,
טבלת החנויות. שיטה זו נוחה מאוד עבור טרנזקציות שמטרתן לעדכן את בסיס הנתונים.
לדוגמה, אס כתובת הלקוח משתנה, כל שעלינו לעשות הוא לעדכן שורה אחת בטבלת
הלקוחות, וזאת למרות שייתכן וללקוח ה יש מאות הזמנות פתוחות.
כותרת הזמנה
מספר הזמנת
סניפיסם תאריך הזמנה
קוד מטבע
/ "ך קוד לקות
2 2 0 שם לקוח
/
כתובת קוד לקות כתובת לקוח
העדות
מוצרים מספר הזמנהת
קוד מוצר קוד מוצר
תיאור כמות
*חידת מידה מחיר ליחידה
תרשים 6.2: מודל יישויות קשרים מנורמל.
תרשיס 6.2 מציג את מודל היישויות-קשריםס של בסיס נתוניס העוסק ברישוס הזמנות
למוצרים. המודל משתמש במלבן לייצוג יישות (כמו סניף, מוצר וכדי). בכל מלבן מופיע
שס היישות ואחריו מוצג אוסף התכונות שלה. המפתח העיקרי של היישות מסומן בקו
תחתי. בין היישויות מתקיימיס קשריס, שבדרך כלל הס מסוג אחד לרבים (או א:1, כפי
שמקובל לכנותם). לדוגמה, בין היישות יילקותיי לבין היישות ייכותרת הומנהיי מתקייס
קשר כזה. כלומר, ללקוח אחד יכולות להיות קשורות הזמנות רבות, אולס כל הזמנה
קשורה ללקוח אחד בלבד.
אם נבקש לקבל את כל הנתונים על הזמנת לקוח זה, ומכיון שהמידע על היישות הלוגית
'יהזמנת לקותיי מפוצל בין מספר רב של טבלאות, עלינו לצרף את כל הטבלאות הללו.
בשפת 501 תתקבל שאילתה כגון:
+07
,6 0085 ,01 מאן] אמפחס תס תתפ הח התסתס ]0
₪ )א תת ,+ 6ד6טפסאץ
עאג פ]ז אמזא 6.0010 = פז] ]0510 אס מתמד
עאג אמתפואטא המתסתס.1ס = הממואטא אמפאס תס
עאג פז ז6ספסחץ.ץ = פז ז6טפסחץע.1ס
עז א חפ = פז זא םס
₪ ₪ ש 0 +
וווו וכ ונוו בו
0 מחסנל נתונים
מעבר למורכבות, הנובעת מהפיצול למספר רב של טבלאות, והצורך של המשתמש להכיר
את כל הטבלאות האלו, כדי להשתמש בהן בצורה נכונה במשפט .501, מתעוררת כאן גס
בעיית ביצועיס. ידוע שפעולות הצירוף יקרות מבחינת צריכת משאבי מחשב. הבעיה
מחריפה במיוחד אס הטבלאות המשתתפות בשאילתה הן ענקיות.
מדיון קצר ה ניתן לראות שטכניקת נירמול הנתוניס, השמה דגש חזק מאוד על מניעת
כפילות נתונים (בעיקר כדי למנוע בעיות בעת עדכון הנתוניס), אינה מתאימה במיוחד
למערכות שהדגש בהן הוא אחזור נתוניס.
כפי שנראה בהמשך, אחד הרעיונות בעיצוב בסיס הנתוניסם בסביבת מחסן הנתוניס הוא
לוותר על רמה גבוהה של נירמול, או במיליסם אחרות להסיר את הנירמול
(חסו)28ו|8חחזסח6כ). אס נשתמש בדוגמה הקודמת, נוכל לקבל טבלה אחת בלבד אשר
תכיל את כל פרטי הזמנות הלקוח.
הזמנות לקוח
מספר הזמנת
תאריך הזמנה
קוד מטבע
קוד מוצר
תיאור
*חידת מידה
קוד סניף
שם סניף
כתובת סניף
קוד לקוח
שם לקוח
כתובת לקוח
כמות
מחיר ליחידה
תאריך אספקה
הערות
תרשים 6.3: מבנה נתונים לאחר הסרת הנירמול.
המחיר שנשלס במקרה זה הוא נפח האחסון, מכיון שחלק מהנתוניס (כמו כתובת הלקות)
יחזרו על עצמס בכל אחת מהזמנות הלקוח. מצד שני, קיבלנו טבלה שטוחה ופשוטה בה
כל הנתוניס הדרושים מהוויס חלק ממנה. לכן, למטרות אחזור הטבלה השטוחה מאוד
יעילה, מכיון שאין צורך בביצוע פעולות צירוף.
בעיית ניהול מידע דינמי מול מידע היסטורי במחסן הנתונים
מכיון שמחסן הנתוניס מנהל נתוניס היסטוריים, לתהליך דה-נירמול הנתוניס יש חשיבות
נוספת. זו נובעת מההבדל בין מערכת תפעולית, הצריכה לייצג את הקשריסם העדכניים בין
הנתוניס, ובין מחסן נתונים, שצריך לייצג את הקשרים כפי שהיו קיימיס בעבר. כדי
להסביר את הנושא נשתמש בדוגמה. נניח, שכל מוצר שייך לקבוצת מוצר מסוימת.
בהתבסס על חוקי הנירמול, ננהל טבלה נפרדת של קבוצות מוצר ונוסיף מפתח זר לטבלת
המוצרים, כדי לנהל את הקשר בין המוצר לבין קבוצת המוצר אליה הוא משתייך.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים 131
לקוחות
כותרת הזמנה
קוד סניף מספר הזמנת קוד לקות
שם סניך תאריך הזמנת שם לקות
כתובת קוד מטבע כתובת לקוח
קוד סניף
קוד לקוח
קבוצות מוצרים העות
קוד קבוצת מוצר
תיאור קבוצת מוצר
שורה בהזמנה
| / מספר הזמנה
, קוד מוצר
מוצרים 2-0
קוד מוצר
תיאור
*חידת מידת
מחיד ליחידה
ד קבוצת מוצר
תרשים 6.4: מצב בסיס הנתונים המנורמל.
מעת לעת יכולה החברה לארגן מחדש את קווי המוצר שלה ולשנות את שיוכו של מוצר
לקבוצת המוצר. סביר להניח שבמערכת התפעולית ננהל את השיוך העדכני ביותר. לעומת
זאת, במחסן הנתוניסם המנהל את הנתוניס ההיסטוריים, אנו רוציס לנהל את השיוך הנכון
של כל מוצר לקבוצת המוצר שלו, על ציר הזמן. אס נבצע דה-נירמול של הטבלאות,
ונכניס את קוד קבוצת המוצר אל הטבלה החדשה, נקבל את השיוך הנכון של המוצר כפי
שהיה בעת ההזמנה.
הזמנות לקות
מספר הזמנה
תאריך הזמנה
קוד מטבע
קוד מוצר
תיאור
קוד קבוצת מוצר
תאוד קבוצת מוצר
*חידת מידה
קוד סניף
שם סניף
כתובת סניף
קוד לקוח
שם לקוח
כתובת לקוח
כמות
מחיר ליחידה
תאריך אספקה
העדות
תרשים 6.5: טבלה לא מנורמלת עם קוד ותיאור קבוצת מוצר.
2 מחסנל נתונים
בדומה, יכול תהליך הדחה-נירמול לסייע לניהול נתוניס המשתניס כל הזמן, כגון מחירי
פריט וכדומה. הכנסת הנתון אל תוך הטבלה הלא מנורמלת, מקפיאה את הנתוניס לאורך
זמן.
כפי שניתן לראות מדוגמאות אלו, תפיסת הנירמול מתאימה מאוד לניהול הקשרים
הדינמיים בין הנתונים במערכות תפעוליות, אולס אינה מתאימה למחסן הנתוניס המבקש
להקפיא את מצבס של נתוניס לאורך ציר הזמן.
סיכום ההבדלים העיקריים
ננסה לסכם, בתמציתיות, מדוע טכניקות העיצוב של בסיסי נתוניס בסביבת עיבוד תנועות
אינו מתאימות לעיצוב בסיס נתוניס בסביבת מחסן נתוניס.
.*
+*
אינו מתאים לניתוח מידע וב-מימדי - כפי שהוסבר בפרק הקודם, הניתות
הרב-מימדי מהווה גורס חשוב ביכולת מנתחי המידע להפיק את המירב ממחסן
הנתוניס. עיצוב הנתוניס המנורמל אינו תומך בצורת ההסתכלות הרב-מימדית של
בסיס הנתונים, ולכן אינו מתאיס לתהליכי תמיכה בקבלת החלטות.
קשה להבנה על ידי המשתמש - כתוצאה משימוש בטכניקות של נירמול נתונים,
העיצוב המתקבל יכול להיות מורכב מאוד ולהכיל עשרות, ולפעמיס אף מאות
טבלאות. משתמש רגיל אינו יכול להבין את מבנה בסיס הנתונים, ומכיון שבסביבת
מחסן הנתוניס המשתמש ניגש באופן ישיר לבסיס הנתונים (ללא ההגנה של יישומיס
כתוביסם מראש) המבנה המורכב המתקבל מציב קושי גדול מדי בפני המשתמשים,
מה שבסופו של דבר עלול לגרוס לכישלון מחסן הנתונים.
בעיות ביצועים - בהיות העיצוב מבוסס על פירוק בסיס הנתוניס לעשרות טבלאות,
למניעת כפילות נתונים, נוצרת בעיית ביצועיס חמורה בזמן שאילתות הצריכות לבצע
מספר גדול מאוד של פעולות צירוף.
עקביות מקומית לעומת עקביות גלובלית - עיצוב בסיס הנתוניס התפעולי מבוסס על
שמירה מתמדת של עקביות מקומית של התנועה (הסֶסאפההזד |008|
ץ5191600ח00)). כלומר, על המערכת לדאוג לכך שעס סיוס התנועה, בסיס הנתוניס
יחיה עקבי ותקין. מכיון שמערכת תפעולית משרתת מאות ואלפי משתמשים,
המבצעיס תנועות בו-זמנית, סוגיית השמירה על העקביות של התנועה היא סוגיה
מורכבת מאוד, ובסיס הנתוניס מכיל מספר מנגנוניס מיוחדיס למטרה זו - קובצ יומן
אירועיס (18= 08/), יכולת גלגול אחורה אוטומטית של תנועה (סוזהחסזטה
86%!|ס חסו5361ח8זד), מנגנוני נעילת רשומות (פְֶחואסס .1 566010) ואיתור נעילות
ללא מוצא (חסו261661 2680100%), וכדומה. לעומת ואת, בסיס הנתוניס של מחסן
הנתוניס מבוסס על עקביות גלובלית (ץ0ח000919+0 |01008), מכיון שהנתוניס הס
אינטגרטיבייס ברמת הארגון, ולא ברמת תהליך עדכון זה או אחר. מכיון שבסיס
הנתוניס מתעדכן רק במנות, ולא על ידי תנועות, רוב המנגנוניס לשמירת עקביות
התנועה הס חסרי חשיבות בסביבת מחסן הנתוניסם.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים 133
+ מימד הזמן חסר - מנקדות מבטו של משתמש טיפוסי במחסן הנתונים, מימד הזמן
הוא אחד המימדיס העיקריים. כדי להבין ולנתח את המגמות (מה קרה החודש
לעומת החודש הקודם, מה קרה החודש לעומת החודש המקביל לפני שנה, מגמות בין
רבעוניס וכדומה) מסתכליםס מנתחי מידע ומקבלי החלטות על המידע בצורה של
ייפרוסות על ציר הזמן (שפו/ 6חחוך +06 06ו|5)יי. עיצוב הנתוניס עבור מערכות
תפעוליות מתבסס בעיקר על נקודת המבט של התנועות (ש6ו/ |8ח0ו5864ח9זד) שעל
המערכת לבצע, ולכן הוא מתעלס כמעט לחלוטין ממימד הזמן.
+ אין כל התייחסות לנושא הסיכומים - בסביבת מחסן הנתוניס נושא הסיכומיס
(פַסזהחַָזַ8ֶחָ) הוא בעל חשיבות רבה מאוד. טכניקות העיצוב של בסיסי נתוניס
בסביבות עיבוד תנועות אינן מתייחסות לסוגיה זו כלל, ואינן מספקות הנחיות
כלשהן כיצד לנהל את הסיכומיס.
> התמקדות במצב העדכני ולא בהיסטוריה - מערכת תפעולית ממוקדת מאוד במצב
השוטף (0ח8זזט0) ובמצב קרוב לשוטף (ח6זזו ז68א), ולא בהיסטוריה. הצורך
לנהל נתונים היסטוריים מציב אתגריס מיוחדים, גם מעבר לצורך לנהל נפחי נתוניס
גדולים. למשל, אס מתרחש שינוי במבנה הארגוני של ארגון כלשהו וסניף עובר
ממחוז צפון למחוז מרכז, מבוצעיס במערכות התפעוליות שינוייס מסוימיםס כדי
לשקף את המצב החדש. לעומת זאת, במחסן נתוניס לא בהכרח נרצה לשבש את כל
סטטיסטיקות העבר על ידי שיוך הסניף למחוז המרכז. אם נרצה להשוות ביצועיס
של המחוזות לאורך השניס, נצטרך למצוא דרכיס כיצד לבטא את העובדה שעד
תאריך מסויס השתייך הסניף למחוז הצפון, והחל מתאריך זה הוא שייך למרכז.
לסיכוס ניתן לומר שמערכת, שעיקר יעודה הוא תמיכה בתהליכי קבלת החלטות וניתוח
מידע, צריכה להיות מבוססת על בסיסי נתוניס שנבנו ועוצבו מראש למטרות אלו.
מושגי היסוד - עובדות ומימדים
עיצוב רב-מימדי של בסיסי נתונים טבלאיים היא טכניקת עיצוב שמטרתה לבנות בסיס
נתוניס, במבנה ייעודי לנושא תמיכה בתהליכי קבלת החלטות, שצריכיס לתמוך בעיקר
באחזור נתונים וניתוח מידע. מבנה בסיס הנתונים המתקבל מתאים במיוחד לסביבות
מחסן נתוניסם, הוא פשוט וקל להבנה על ידי המשתמשים והוא גם בעל ביצועיס טובים,
בכל הקשור לאחזור נתונים. טכניקה זו מבוססת על רעיונות הניתוח הרב-מימדי,
המהוויס שיטה פופולרית ונוחה לניתוח נתוניס בתהליכי קבלת החלטות. היא משתמשת
בבסיס הנתוניסם הטבלאי כתשתית למימוש הרעיונות.
בעוד שעיצוב בסיסי נתוניס לסביבות תפעוליות מבוסס על מושגים כגון יישויות, קשריס,
פירוק פונקציונלי ונירמול נתוניס, הרי שהעיצוב הרב-מימדי משתמש באוסף שונה
לחלוטין של מושגים - עובדות, מימדים, סיכומים וכדומה. היתרונות העיקריים של
טכניקת עיצוב זו הס שהמודל המתקבל הוא פשוט וקל להבנה על ידי משתמשים, ובמובן
מסויס טבעי עבורס, מכיון שהוא נבנה סביב רעיונות ברוריס ומובניס כגון מוצרים,
4 מחסנל נתונים
לקוחות, מכירות, סניפים, זמן וכדומה. יתרון בולט נוסף בא לידי ביטוי בעובדה שהמודל
יציב יותר לאורך זמן, ועמיד יותר לשינוייס.
טכניקת עיצוב רב-מימדי של בסיסי נתוניס באה להתמודד עס הניסיון לבנות מודל
נתוניס שיבטיח פשטות, יחד עס רמה גבוהה של ביצועים, למיגווו רחב של שאילתות בלתי
ידועות מראש. יחד עס זאת, מה שמאפיין שאילתות אלה הוא שהן מבוססות על עובדות -
כמה מוצריס רכש לקוח מסוים, מי הס היעדים המועדפיס לשיחות טלפון בשעות הלילה
בימי גי בשבוע, מהס סוגי התביעות הנפוצות ביותר השנה בהשוואה לאלו של שנה קודמת,
באיזו שנה היתה העונה המוצלחת ביותר מבחינת מכירות מנוייס לתיאטרון וכן הלאה.
על בסיס תכונה מעניינת זו של השאילתות הטיפוסיות בסביבת מחסן הנתונים, פותחה
טכניקת עיצוב מיוחדת, העיצוב הרב-מימדי. טכניקה וו מחלקת את אוסף כל היישויות
המנוהלות בבסיס הנתוניס לשתי קטגוריות - עובדות ומימדים.
עובדות (פ5+ס33-)
ברמה הבסיסית ביותר, מחסן הנתוניס מנהל בעצס אוסף גדול של עובדות המייצגות את
האירועיס הבסיסיים הנובעיס מהפעילות העסקית השוטפת של הארגון, והס בעלי
משמעות מנקודת מבטו. בדרך כלל, אירועיסם אלה נרשמיס במערכות התפעוליות השונות
של הארגון, התומכות בתהליכיס התפעולייס השוניס.
עובדה (סּת) היא אירוע בעל משמעות עסקית לארגון והנובע מהפעילות השוטפת שלו.
לכל עובדה יש מספר תכונות (65זאוסוזז4) רלוונטיות.
להלן מספר דוגמאות של עובדות הנובעות מהפעילות העסקית השוטפת של הארגון:
> מכירה - אירוע של מכירת מוצר ללקוח ברשת מרכוליס.
> שיחת טלפון - אירוע של התקשרות ברשת הטלפונים בחברת טלקומוניקציה.
> תביעה - אירוע של הגשת תביעה על ידי לקוח בחברת ביטוח.
+ תנועה בחשבון עוייש - אירוע של פעולה כלשהי בחשבון לקוח בבנק.
> מנוי בתיאטרון - אירוע של רכישת מנוי להצגות בתיאטרון.
+ שחרור חולה - אירוע של שחרור חולה מבית חוליס לאחר אשפוז.
+ קריאת שירות - אירוע של קבלת תלונה מלקוח אודות תקלה במכשיר שרכש.
% רכישת כרטיס טיסה - אירוע של רכישת כרטיס טיסה ממקום ליעד כלשהו.
> תקלה בקו ייצור - אירוע של דיווח על תקלה בקו ייצור של מוצר כלשהו.
כפי שניתן לראות מדוגמאות אלו, אלה האירועיס הבסיסיים ביותר בארגון והס
מתרחשיס מאות ואלפי פעמים ביוס. המערכות התפעוליות רושמות אירועיס אלה כחלק
מתהליכי העבודה של הארגון.
פרק 6: עיצוב רב-מימדי של בסיסי נתוניסם טבלאייס | 135
לכל אחד מעובדות אלו יש מספר תכונות (165ט0ו)) המאפיינות את האירוע. להלן
מספר דוגמאות לתכונות בעלות משמעות עבור העובדות המוזכרות מעלה.
מכירה - כמות הרכישה, מחיר הרכישה.
שיחת טלפון - משך השיחה בדקות, מחיר השיחה, ומן תחילת שיחה.
תביעה - סכום התביעה.
תנועה בחשבון עוייש - סכוס התנועה.
מנוי בתיאטרון - מספר כרטיסי המנוי שנרכשו, מספר ההצגות במנוי.
שחרור חולה - משך האשפוז, הסכוס לתשלום.
קריאת שירות - הסכום ששולס לתיקון התקלה, משך הומן שהמכשיר היה מושבת,
משך התיקון.
רכישת כרטיס טיסה - הסכוס ששולס.
תקלה בקו ייצור - משך התקלה.
כפי שניתן לראות, רוב התכונות הן נומריות, אם כי זה לא חייב תמיד לחיות כך. כמובן
שעובדות אלו אינן מעניינות במיוחד, מכיון שחסר לנו ההֶקָשֶר העסקי שלהן. הֶקְשֶר
(000%6%0) זה יבוא ברגע שנוסיף את המימדיס העסקיים.
את התכונות הנומריות ניתן לחלק לשלוש קטגוריות :
.%
*%
.%
+
.%
+
תכונות ברות חיבור (165ט1]0 6ע00/0) - אלה תכונות נומריות שניתן לבצע עליהן
פעולות אריתמטיות במיגוון רחב של חתכים שוניס, ולקבל תוצאה בעלת משמעות.
לדוגמה, סכוס המכירה בשייח. כל הפעולות בהמשך הן בעלות משמעות ונכונות -
סה'ייכ המכירות לפי סניף, סהייכ מכירות ללקוח, סהייכ מכירות לתקופה מסוימת,
ממוצע מכירות בין שתי תקופות, הפרש סהייכ מכירות בין תקופות וכדומה. דוגמה
נוספת לתכונה ברת חיבור היא כמות המכירה, או מספר הדקות שמנוי שוחח
בטלפון.
תכונות שהן ברות חיבור למחצה (165ט40710/ 6עו400/ והח56) - אלו תכונות נומריות
שניתן לבצע עליהן פעולות אריתמטיות מסוימות בלבד. לדוגמה, היתרה בחשבון
עוייש בבנק. תכונה זו אינה ברת חיבור לאורך זמן כלומר, אין משמעות לחבר את
היתרה בחודש אחד עם יתרה בחודש שני, מכיוו שכל יתרה חדשה מחליפה את
היתרה הקודמת. לעומת זאת, כן יש משמעות לחשב את היתרה הממוצעת לאורך
זמו. דוגמה נוספת לתכונה ברת חיבור למחצה היא יתרה של פריט במלאי.
תכונות שאינן ברות חיבור כלל (165ט110 6צו40011/ חסאז) - אלו תכונות המנוהלות
בטבלת העובדות, אולס אין כל משמעות לביצוע פעולות אריתמטיות עליהן. דוגמה
לתכונה כוּאת היא תאריך ביצוע תנועה בחשבון בנק.
6 מחסנל נתונים
מימדים עסקיים (פ5הסו5ח6וחו 655הו505)
המימדיס הס נושאים, או פרמטריס עסקייס הנותניס את המשמעות וההקשר לעובדות.
מימד (חסו)חסוחום) הוא נושא עסקי הנותן משמעות לעובדות. למימדים, בדומה
לעובדות, יש מספר תכונות רלוונטיות.
אם נדמיין לרגע מרחב בו כל ציר הוא מימד עסקי כלשהו, ניתן להתייחס אל העובדות
כאל ערכיס המופיעים בהצטלבות בין הציריס. להלן מספר דוגמאות למימדיסם עסקייס
רלוונטייס לכל אחת מהעובדות הנייל.
> מכירה - לקוח, מוצר, סניף, ומן, איש מכירות.
> שיחת טלפון - לקוח, ומן, סוג תעריף, סוג שיחה (רגילה, בינלאומית, גוביינא), טלפון
מקור, טלפון יעד, מרכות.
+ תביעה - לקוח, זמן, סוג תביעה, סוכן ביטוח.
> תנועה בחשבון עוייש - לקוח, זמן, סניף בנק.
> מנוי בתיאטרון - לקוח, ומן רכישת המנוי, זמן פג תוקף המנוי.
> שחרור חולה מבית חולים - חולה, אמן אשפוז, זמןו שחרור, מחלקה, רופא אחראי.
+ קריאת שירות - לקוח, מוצר מקולקל, ומן רישוס הקריאה, ומן גמר תיקון, סניף
מטפל.
> רכישת כרטיס טיסה - לקות, ומן רכישה, זמן המראה, זמן נחיתה, שדה תעופה
מקור, שדה תעופה יעד, סוג מחלקה.
> תקלה בקו ייצור - מוצר, קו הייצור, סוג תקלה, זמן דיווח תקלה, עובד מדווח.
בדומה לעובדות, לכל אחד מהמימדים יש מספר תכונות המאפיינות אותו. להלן מספר
תכונות רלוונטיות למימדיס השוניס:
> לקוח - מספר לקוח, שס לקוח, כתובת, מספר לקוח, סוג לקוח, רמת אשראי.
* זמן - תאריך, יוס בשבוע, יוס בשנה, סוג היוס (רגיל, חג, חול המועד).
+ מוצר - קוד מוצר, תיאור מוצר, יחידת מידה.
> שדה תעופה - שם שדה התעופה, קוד שדה התעופה, אורך מסלול, רמת תחזוקה.
+ סניף - שס סניף, כתובת הסניף, סוג הסניף, שם מנהל הסניף.
> מחלקת אשפוז - שס מחלקה, מספר מיטות, סוג המחלקה.
כפי שניתן לראות, תכונות המימדים הן מסוגים שונים - נומריים ואלפאנומריים.
התכונות הלא נומריות הן בדרך כלל תיאוריות (6שו0650101כ), מכיון שהן מתארות את
המימד - שם לקוח, לקות עסקי או פרטי, מוצר בעל אריוה סטנדרטית או לא וכדומה.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 137
ייצוג יישויות על ידי טבלאות (65וסַב3ּד)
בבסיס נתוניס טבלאי מיוצגות כל היישויות על ידי מבנה אחד ויחיד - הטבלה
הדו-מימדית. לכל טבלה יש שסם, מספר עמודות ומספר שורות. מבחינת בסיס הנתוניס
הטבלאי אין הבדל בין טבלה המייצגת עובדות לבין טבלה המייצגת מימד.
טבלת מוצרים טבלת מכירות טבלת לקוחות
מספר מספר סכוס כמות מספרל שס כתובת סוג
מוצר | לקות מכירה | מכירה לקו | לקוח לקוח
תרשים 6.6: עובדות ומימדים הן טבלאות.
לכל טבלה במודל הטבלאי יש מפתח עיקרי (ע46 עזהּחוזק), המוגדר כעמודה אחת או
יותר המזהה באופן חד משמעי שורה מסוימת בטבלה. לדוגמה, בטבלת הלקוחות המפתח
העיקרי הוא מספר לקוח, המזהה באופן חד-ערכי מופע (שורה) של לקות. בטבלת
המכירות יהיה המפתח העיקרי מפתח מורכב (ע46 אחהקווטו), המורכב ממספר המוצר
וממספר הלקות. זהו המצב הנפוץ ביותר, אולס יש מצביס בהם המפתח יכול להיות גם
מפתח מלאכותי (נומרטור למשל), הניתן באופן אוטומטי על ידי המערכת התפעולית.
טבלת מוצרים טבלת מכירות טבלת לקוחות
מספר | מספר סכוס כמות מספל שס כתובת סוג
| שח | שה | 7 | שה |
שביו פב = 4 שה כ רכ ||ם רש 15 = =
מפתחות עיקריים - 6678 ץוג טוק
תרשים 6.7: מפתחות עיקריים.
בין טבלאות העובדות והמימדיס מתקיימיס קשרים לוגיים. לדוגמה, מכירה מסוימת
שייכת ללקוח מסויס ובוצעה בסניף מסוים, שיחת הטלפון בוצעה על ידי לקוח מסויס
בתאריך מסויס וכדומה. הדרך לייצג קשריס אלה בבסיס נתוניס טבלאי היא על ידי
שימוש במפתחות זרים (75ץ46 חש|6זס=). מפתח זר יוגדר כעמודה אחת, או יותר המופיעה
בטבלה מסוימת, ומשמשת כמפתח עיקרי בטבלה אחרת.
בדוגמה שבתרשיס 6.8, מספר המוצר בטבלה מוצרים הוא חלק מהמפתח העיקרי בטבלה
מכירות, אך הוא גס מפתח זר. בדומה, מספר לקוח שהוא מפתח עיקרי בטבלת לקוחות,
הוא החלק השני של המפתח העיקרי בטבלה מכירות, וגם הוא מוגדר בה כמפתח זר.
מפתחות זריס אלה הס שיוצריס את הקשריס הלוגייס בין הטבלאות במודל הטבלאי.
8 מחסנל נתונים
0
טבלת מוצרים טבלת מכירות טבלת לקוחות
מספר שס סוג מספר | מספר סכום כמות מספר שס כתובת סוג
מוצר מוצר מוצר מוצר לקות מכירה מכירה לקות לקוח לקוח
ו ו
מפתחות עיקריים - 6678 ץוג מזוזץ
תרשים 6.8: קשרים בין טבלאות באמצעות מפתחות זרים.
סכמת כוכב (3ה6ח56 זְב+5)
מבנה
אס ניקח את טבלת העובדות ונשיס אותה במרכז, וסביבה נשים את כל טבלאות
המימדיס נקבל מבנה מיוחד, של כוכב. במקרה זה מקובל לומר שבסיס הנתוניס הטבלאי
הוא בעל סכמת כוכב, להבדיל מסכמות רגילות הנובעות מעיצוב בסיס הנתונים עבור
מערכות תפעוליות.
4
תרשים 6.9: מבנה סכמת כוכב.
המבנה המיוחד המתקבל קל מאוד להבנה על ידי משתמשים, בהשוואה למודל נתוניס
מנורמל. טבלת העובדות הנמצאת במרכז הכוכב, היא בדרך כלל הטבלה הגדולה ביותר,
מכיון שהיא מכילה שורה עבור כל אירוע. גודל טבלת העובדות נקבע, בעיקר, על ידי כמות
האירועיס לתקופת זמן, ומספר תקופות הזמן שיש לנהל במחסן הנתונים. יחסית לטבלת
העובדות, טבלאות המימדים קטנות יותר.
לכל אחת מטבלאות המימדים יש מפתח עיקרי (כמו קוד מוצר בטבלת המוצרים וקוד
סניף בטבלת הסניפים). כל העמודות האלו מופיעות גס בטבלת העובדות, ומרכיבות את
המפתח העיקרי (ע48 עץזהחוזש +זהקטוטו). בנוסף, כל אחת מהעמודות המרכיבות את
המפתח העיקרי היא גם מפתח זר, כלפי טבלאות המימדים. מבנה וה משקף קשרי א:1,
ביו טבלאות המימדיס לטבלת העובדות, או לחילופין קשרי :א, ביו טבלאות המימדיס
לבין עצמן. לטבלת העובדות יכול להיות מפתח עיקרי משלה (כמו למשל מספר מכירה),
או לחילופין מפתח עיקרי המורכב מכל המפתחות הזרים. התרשיס הבא מציג את סכמת
הכוכב, תוך פירוט המפתחות העיקריים והעמודות של כל אחת מהטבלאות.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 139
מכירות
קוד מוצר
קוד סניף קוד זמ
שם סניף מכידות ביחידות קוד מוצ2
כתובת מכידות בש"ח תיאוד מוצר
תרשים 6.10: פירוט טבלאות, עמודות ומפתחות בסכמת כוכב.
אני מניח שבשלב זה נראית טבלת הזמן מוזרה במקצת, ואתס בוודאי שואליס את עצמכס
יימדוע לא להוסיף עמודה המכילה את תאריך המכירה בטבלת המכירות, ולוותר על טבלת
הזמוזיי. בשלב זה, נשאיר שאלה זו פתוחה. כאשר נחזור אליה בהמשך נראה שיש הגיון
רב בהגדרת מבנה זה.
הגדרת הטבלאות בשפת .501 מתבצעת בצורה רגילה. בהמשך, מופיעה הגדרת טבלת
המוצריס וטבלת המכירות. ספרור השורות מופיע רק לשם נוחיות, והוא אינו חלק
מההגדרה.
5 ,ץז ד דג א
,דא פז ז6טפסחץ)
(20) )את צ מזאגא ז6טפסתץ
(עכע] ז6טפסאתע) צמא צאגואזחץ
9% ₪ ם-
בוו םב
5 .ד 1
,)דא עז זסטסטפסאץ) 2
דא עו ת)אג את 3
,)דא סז פסזחמץ +
,(62) 10 צצדאג 0 5415 .5
2 דאססאא 5415 6
וכז פסזאמץ ,כז ואג א ,פז ד6טפסתץ) צמא צא ג אזתץ 7
, 0000615 ₪5-)א₪ תח זא נפז ז6ספסע) צמא א6שזתתסץ 8
, 1186-)א/ 53 6-)א אמא (פ] ם)אאם) צםא א6ז אס 0
( 81005 56)א/ המת נפז פסזחמץ) צמא א6שזמתסץ .10
בהגדרת טבלת המוצריס מגדיר משפט 4 את המפתח העיקרי. בהגדרת טבלת המכירות,
שהיא טבלת העובדות, מגדיר משפט 7 את המפתח העיקרי. מפתח זה מורכב משלוש
עמודות. לאחר מכן, משפטים 8 עד 10 מגדיריס את המפתחות הזריס ליצירת הקשר הלוגי
בין טבלת העובדות לכל טבלאות המימדיס שלה.
לכל אחת מהטבלאות ניתן להגדיר את האינדקסיס שלה.
(פז 06 0אץ) פד6טפסחתץ אס אפז ד6טספסחץ אתפאז 65 1
(עז ₪ואדד ,סז זזאאת ,פז ד6ספסתץ) 515 אס אפ 54156 אתפאז פד 2
0 מחסנל נתונים
שאילתות כוכב (ץָז6ש3) ז549)
השימוש בשפת .5001 מאפשר לשאול שאילתות רבות ומגוונות, כאשר כולן מבוססות על
אותס עקרונות - מגדיריס אילוציס על עמודות בטבלאות המימדים, ומבצעים צירוף של
כל טבלת מימד עס טבלת העובדות. נציג שאילתה המציגה עבור כל מוצר את סך כל
המכירות בעונת האביב, אם המוצר הוא בקבוצת מוצרי היוקרה. את התוצאה יש למיין
לפי סכוס הרכישה, בסדר יורד.
6 1027 8. (+מנוסנתנ, 668165 ]50% מזאגא דסטספסאץ - 50/07
דפמסותתץ,ץ דסא ,5 5 51 ][אסתץ
כא '6080+ = צת560ד6 ד6טספסתץ.ץ וו
עא 'קפוצפפי = א55₪450.ד
עאג פז 02001 = פז ד6טכסחתץ.ץ
סז 5.5102 = פז פסזאמץ. ד
מאגא ז6ספסאץ צם קשסא6
5 דד צם המפחס
₪ 10 0
ה שר יש
כפי שניתן לראות, שורות 3 ו-7 מגדירות את האילוצים על טבלאות המימדים השונות,
ושורות 5 ו-6 מבצעות את פעולת הצירוף של כל אחת משתי טבלאות המימדים אל טבלת
העובדות. אחת השאלות המעניינות היא כיצד תבוצע האופטימיוציה של שאילתה זו.
נשאיר נושא וה לשלב מאוחר יותר.
יתרונות עיקריים של סכמת הכוכב
לסכמת הכוכב יש מספר יתרונות חשוביס בסביבת מחסן נתוניס. אם היה נעשה שימוש
בטכניקות עיצוב רגילות, המבוססות על טכניקות יישויות וקשרים (55), יתרונות אלה
לא היו באיס לידי ביטוי.
> מבנה קבוע - המבנה הקבוע של סכמת כוכב, בו טבלת העובדות היא במרכז וסביבה
אוסף של טבלאות מימדים, מאפשר בניית כלי קצה (כגון מחוללי שאילתות או
מחוללי דוחות) היכולים להתבסס על מבנה זה. מחד, יספקו כלים אלה ממשק
משתמש פשוט ומאידך יאפשרו לרכיב האופטימיוציה להגדיר מסלולי גישה מהיריס
ויעילים, המביאיס בסופו של דבר, לביצועיס טובים. לדוגמה, מכיון שרוב האילוציס
בשאילתה הס סביב תכונות המופיעות בטבלאות המימדים, יכולים כלים אלה להציג
בצורה נוחה את התכונות, ולאפשר למשתמש להגדיר את האילוציס (ערך מסוים,
קבוצת ערכים, טווח וכדומה).
> סימטריות - כל אחד מהמימדים יכול לשמש נקודת כניסה של השאילתה. סימטריות
זגו מאפשרת היענות וּהה למספר גדול ביותר של שאילתות שונות, וכל ואת ללא
ידיעה מראש מהן השאילתות הנפוצות יותר או פחות במחסן הנתוניס.
> היענות נוחה לשינויים - המודל המתקבל מסוגל להסתגל במהירות רבה, ובנוחיות
לשינויים עתידיים. שינוייס אלה יכולים להיות הוספת תכונות חדשות לטבלאות
העובדות או המימדיס, הוספת מימדים חדשים, ניהול היסטוריה של שינוייס
וכדומה. נושא ה מוצג ביתר הרחבה בהמשך.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 141
מבנה המפתחות של הטבלאות
(061065ו+ס /406)
הקשרים הלוגיים בין הטבלאות בבסיס נתוניס טבלאי מבוססיס על מפתחות עיקריים
ומפתחות ורים. טבלת העובדות, הנמצאת בלב סכמת הכוכב, מכילה את כל המפתחות
הוריס ליצירת הקשרים עס טבלאות המימדים. קביעת המפתחות של כל יישות בבסיס
הנתוניס היא קביעה חשובה, וכל שינוי במפתחות יכול לגרוס לשינוייסם משמעותיים
בבסיס הנתונים. בפני מעצב בסיס הנתוניסם עומדות שתי חלופות - שימוש במפתח
התפעולי של היישות, או שימוש במפתח חלופי, מלאכותי (ץ6א 0816סזזט5) מיוחד,
המשמש רק את מחסן הנתונים. הנטייה הטבעית היא להשתמש במפתחות הרגילים של
כל מימד כמפתח זר, כלומר להשתמש במפתחות של יישויות אלו כפי נקבעו במערכות
התפעוליות. לגישה זו שתי בעיות עיקריות :
.%
*%
נפח אחסון גדול - לעיתים נקבעיס מפתחות היישויות במערכות התפעוליות בשל
אילוצים שונים. מכיון שקיימת נטייה (לא נכונה) להכניס משמעות למפתחות,
מתקבלים לעיתים מפתחות ארוכים, ומאוד לא נוחים לשימוש. לדוגמה, קוד מוצר
יכול בקלות להגיע ל-12 תוויס, למרות שבמציאות אין יותר מ-10,000 מוצרים. אורך
המפתח נקבע בשל הניסיון לתת משמעות לקוד המוצר - 3 תוויס לקבוצת המוצר,
3 תוויס למחלקה המייצרת, והיתר למספר מזהה. שימוש במפתחות ארוכים אלה
מגדיל באופן משמעותי את נפח טבלת העובדות.
שינוי במפתת - בשל הכנסת המשמעות למפתח, צריך לשנות את המפתח בעקבות
שינוייס במערכות התפעוליות או שינוייס בתהליכי העבודה. לדוגמה, ייצורו של
מוצר מסויס במחלקה אחת מופסק ומועבר למחלקה אחרת. דוגמה אחרת יכולה
להיות הכנסת משמעות למספר סניף, כדי לשקף את השיוך הארגוני שלו: 2 תוויס
למחוז ו-2 תוויס למספור רצ בתוכו. הבעיה יכולה להתעורר כתוצאה משינוי במבנה
הארגוני, בו סניף עובר ממחוז למחוז, או מספר הסניפים מחוז עולה על 99.
גרירת מפתחות - לעיתים, ליישות אין מפתח חד משמעי, אלא אס גוררים אליה
מפתח של יישות אחרת (בדרך כלל תהיה זו יישות הנמצאת מעליה בקשר ההיררכי).
לדוגמה, ייתכן שבמערכת התפעולית נקבע שמספר המוצר יהיה חד משמעי רק
בקבוצת המוצר אליה הוא שייך. משמעות הדבר, שמפתח המוצר הוא שילוב של קוד
קבוצת המוצר ומספר המוצר. מעבר לכך שמפתח משולב זה גדול ולא נוח לשימוש,
הסכנה הגדולה יותר היא שייתכנו שינוייס בקשריס היררכיים אלה, במערכת
התפעולית. העברה של מוצר מקבוצת מוצר אחת לשנייה מצריכה שינוי מפתח
המוצר במחסן הנתוניס, דבר מורכב מאוד לביצוע.
מפתחות תפעוליים שונים לאותה יישות - לעיתים, נתקלים במצבים בהם אותה
יישות מנוהלת במערכות תפעוליות שונות, ובכל אחת מהן עס מפתח שונה. לדוגמה,
מספר לקוח במערכת העוייש של בנק יכול להיות שונה ממספר הלקוח של אותו לקוח
במערכת תוכניות החיסכון.
2 מחסנל נתונים
בשל חשיבות קביעת המפתחות, והקושי לבצע שינוייס במפתחות, יש לשקול אפשרות
נוספת והיא בניית מפתחות מלאכותיים, או כמו שהס נקראים לעיתיס מפתח מחסן
נתונים (9/ץ46 6פט0ח6ז8//). מפתחות אלה חסרי משמעות עבור היישויות במחסן
הנתוניס. השיקול העיקרי לשימוש במפתח מלאכותי הוא הערכת ההסתברות שיחולו
שינוייס במפתח הטבעי. לדוגמה, אס במערכת התפעולית מספר הסניף הוא בעל משמעות,
מומלצ לשקול שלא להשתמש בו כמפתח, אלא לייצר מפתח מלאכותי עבור טבלת המימד
של הסניף.
שימוש במפתחות מלאכותייס נותן רמה גבוהה יותר של גמישות ועמידות לשינוייס, נושא
שהוא בעל חשיבות רבה בסביבת מחסן הנתוניס, שצריך לנהל עומק היסטורי רב. במובן
מסוים, ניתן לומר שמפתח מלאכותי מוסיף רובד של הפשטה בין מחסן הנתוניס לבין
המערכות התפעוליות. רובד וה ימנע את הצורך בשינוי מפתחות בטבלאות מחסן הנתוניס
בכל פעס שמתבצע שינוי במערכת התפעולית. כמו כן, בשל היות המפתחות המלאכותייס
קצריס יחסית, נפח האחסון ונפח האינדקסים יהיה קטן יותר, דבר שיביא לניצול טוב
יותר של משאבי המחשב.
מפתח סניף
קוד סניף
קוד אזור
קוד מחוז
שם מחוז
שם מנהל מחוז
שם אזור
קוד מוצר
קוד קבוצת מוצר שם רבעון שם סניף
קוד קו מוצר קל מל שס חודש כתובת
שם קו מוצר תארי תאליך התחלה
שם קבוצת מוצר מפתח סנ
תיאוד מוצר מכידות ביחידות
מכידות בש"ח
תרשים 6.11: מבנה כוכב עם טבלת סניפים המכילה מפתח מלאכותי.
בתרשיס 6.11 המפתח המלאכותי היחידי הוא של הסניף. יתר המפתחות - קוד המוצר,
מספר לקוח והתאריך הס מפתחות טבעיים של חיישות.
ההחלטה על שימוש במפתחות מלאכותיים צריכה להיות סלקטיבית, מכיון שהיא מכניסה
סיבוכיות נוספת בשלב הכנת הנתונים לטעינה למחסן הנתונים. בדוגמה הנייל, בעת טעינת
סניפים למחסן הנתוניס, יש לייצר מפתחות מלאכותיים. למשל, על ידי ניהול נומרטור
מיוחד אותו יש לקדס עס הכנסת רשומה חדשה. הבעיה מורכבת עוד יותר בעת טעינת
טבלת העובדות. המורכבות נובעת מכך שעל כל רשומת אירוע המגיע מהמערכת
התפעולית יש להוסיף עיבוד, המבצע את התרגוס מהמפתח התפעולי למפתח המלאכותי.
לדוגמה, עבור כל רשומה המכילה את סך כל המכירות היומיות של כל מוצר בכל סניף
ומתקבלת מהמערכת התפעולית, יש לבצע תרגוס ממספר הסניף למפתח המלאכותי של
הסניף, על ידי חיפוש בטבלת תרגוס מיוחדת המנוהלת על ידי תהליך הגזירה והטעינה.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 143
סוגיות מיוחדות בנושא טבלאות המימדים
היררכיות של מימדים (עֶ0ח67376ו1] 5חסופחסוחוס)
אס נתבונן במימדיס העסקיים נראה שלרובס יש מבנה פנימי של היררכיה, המתארת את
הקבצות המימד ברמות שונות. נתבונן במימדיס הבאיס ונראה מספר היררכיות אפשריות
בכל אחד מהם:
+ זמן - יוס, שבוע, חודש, רבעון, שנה
%
> מוצר - מוצר, קבוצת מוצרים, כל המוצריס
% סניף - סניף, אזור, מחוז, כל החברה
> מחלקה - מחלקה, אגף, חטיבה, כל הארגון
התרשיס הבא מציג את היררכיות המימדיס בצורה גרפית.
מוצרים מבנה ארגוני גליאוגרפיה
תרשים 6.12: היררכיות מימדים.
מבחינת טכניקות העיצוב, המבססות על נירמול נתוניס, ברור שכל היררכיה כזו תיוצג על
ידי אוסף טבלאות, תוך יצירת קשרי א:1 ביניהן. ביצוע נירמול של היררכיות המימדים
יביא לקבלת מבנה כוכב מורכב יותר ממבנה הכוכב הרגיל.
המבנה המוצג בתרשיס 6.13 מניח שהמפתחות בהיררכיה הס חד משמעיים - לדוגמה, קוד
המוצר הוא חד משמעי באופן גלובלי, כלומר הוא אינו יכול לחזור על עצמו בקבוצות
מוצר שונות. אס גה לא המצב אזי יש לגרור את המפתח מהרמה הגבוהה בהיררכיה אל
הרמה הנמוכה יותר, וכמובן גס אל טבלת העובדות. בדוגמה שלנו משמעות הדבר שמפתח
טבלת המוצרים יהיה מורכב מקוד המוצר וקוד קבוצת המוצר, וקוד קבוצת המוצר יוכנס
גס לטבלת העובדות.
ברור שהמבנה המתקבל הוא מורכב יותר, ודורש מהמשתמש לכתוב שאילתות מורכבות
יותר, המבוססות על מספר רב יחסית של פעולות צירוף. כדי למנוע הוספת רמת סיבוכיות
נוספת זו לעיצוב מחסן הנתוניס, מקובל להשתמש במבנה לא מנורמל (260!ו|8חזסחסכ).
4 מחסנל נתונים
קבוצת מוצר
קוד אזור קוד מחוז קוד קבוצת מוצר
קוד מחוז שס מחוז שם קבוצת מוצר
שם אזור
קוד מוצר
קוד סניף
קוד סניף קוד זמן קוד מוצר
קוד אזור מכירות ביחידות קוד קבוצת מוצר
שם סניף מכידות בש"ח תיאוד מוצר
כתובת
שס חודש
תאריך התחלה
תאריך סיום
עונת
קוד סניף קוד מוצר
קוד אזור קוד סניף קוד מוצר
שם אזור קוד זמן קוד קבוצת מוצר
קוד מחוז מכירות ביחי7ת = |לללל שם קבוצת מוצר
שם מחוז מכירות בש"ח תיאור מוצר
שם סניף
כתובת
תאריך
שס חודש
תאריך תחילת חודש
תאריך סיוס חודש
עונה
תרשים 6.14: מבנה כוכב לא מנורמל.
מבנה הכוכב הלא מנורמל המתקבל הוא פשוט, מנקדות מבטו של המשתמש, ויעיל יותר,
מכיון שאין צורך במספר רב כל כך של פעולות צירוף. המחיר שנשלסם, כדי לקבל מבנה
פשוט זה, הוא הגדלת נפחי האחסון של טבלאות המימדיס (בשל כפילות הנתוניס
שהכנסנו למודל). לדוגמה, שס המחוז יופיע בכל הסניפים השייכים לאותו מחוז. כמו כן,
בניית מבנה נתוניס לא מנורמל דורשת מאמצ נוסף, בעת בניית הנתונים שנגזרו
מהמערכות התפעוליות, לקראת טעינתס למחסן הנתונים. מכיון שסביר להניח שהמבנה
המנוהל במערכת התפעולית הוא מנורמל צריך, בעת הכנת הנתוניס לטעינה למחסן
הנתוניס, לבצע עיבוד נוסף.
פרק 6: עיצוב רב-מימדי של בסיסי נתוניס טבלאייס | 145
מימד הזמן (חסופחסוחוכ 6וחוד)
מדוע זהו מימד מיוחס
מימד הזמן הוא מימד מיוחד, הקיים בכל מחסן נתונים, ובמובן מסיים ניתן להתייחס
אליו כאל מימד יסוד של מחסן הנתונים. מחסן הנתונים, מעצס הגדרתו, נועד לשמור
היסטוריה, במטרה לאפשר ניתוחים אנליטיים של השינויים על ציר הומן. המשתמש
הטיפוסי במחסן הנתונים מסתכל על פרוסות זמן שונות ועורך השוואות ביניהן. מכיון
שמימד וה מקבל חשיבות רבה, עיצוב נכון שלו יכול לפשט מאוד את השימוש במחסן
הנתונים.
נכון להיוסם, רוב כלי האחזור אינס מוהיםס את מימד הומן כמימד מיוחד, ולא מספקים
תמיכה ישירה בביצוע שאילתות על ציר הזמן. סביר להניח שעם הזמן חלק גדול מהכלים
לאחזור נתונים יטפל במימד זה באופן חכס כלומר, יוהו את מימד הזמן ויאפשרו ביצוע
פעולות שונות המבוססות על סמנטיקה של חמימד.
בעקרון קיימות טכניקות שונות לנהל את הזמן במודל הנתוניס - ניהול של הזמן ישירות
בטבלת העובדות, או הוספת טבלת מימד מיוחדת המנהלת את מימד הזמן בצורה מפורשת.
ניהול מימד הזמן ישירות בטבלת העובדות
זהו המצב הפשוט ביותר, ואולי הטבעי ביותר, עבור רוב המעצביס. הוספת עמודת תאויך
לטבלת העובדות מוסיפה את מימד הזמן בצורה הטבעית וחיעילה ביותר. מכיון שכל
מערכות 80815 תומכות באופן ישיר בטיפוס נתונים (6סץד ּו8כ) מסוג תאריך, הוא
מנוהל בצורה יעילה ונוחה בבסיס הנתונים. ניתן לבצע על תאריך זה את כל פעולות
האריתמטיקה המותרות על תאריכים: למשל, החסרת תאריך מתאריך, הוספת מספר
ימיס לתאריך לקבלת תאריך חדש, וכדומה.
טכניקה זו טובה עבור מיקריס פשוטים, בהס שאילתות הפונות לטבלת העובדות מוסיפות
אילוצים ישירים על תאריכים. למשל, כל המכירות שבוצעו בין תאריך מסויס לתאריך
אחר כלשהו.
ניהול מפורש של מימד הזמן
החסרון העיקרי בניהול ישיר של תאריך בטבלת העובדות הוא, שהמשתמש הטיפוסי
במחסן הנתוניס משתמש במימד הזמן באופן מתוחכס מאוד, ופתרון פשוט זה אינו תומך
בכך. לדוגמה, השוואת המכירות בין ימי ראשון שוניס של השבוע השני בכל הרבעוניס
האחרונים, או בחינת המגמה בין המכירות בעונת קיצ השנה, לעומת עונת הקיצ בשנה
קודמת, או בחינת אחוז הגידול במכירות ערב חג לעומת יוס רגיל. טיפול ישיר בתאריכיס
עבור שאילתות אלו הוא מורכב מאוד, ולכן נדרש פתרון שונה.
6 מחסנל נתונים
הפתרון המקובל במחסני הנתוניס הוא הוספה של טבלת מימד זמן מפורשת, ויצירת קשר
בינה לבין טבלת העובדות. בטבלת מימד הזמן ניתן לנהל, עבור כל תאריך, מספר רב של
תכונות שיסייעו מאוד בתהליכי התשאול השונים.
תאליך
יום בשבוע
שבוע בשנה
חודש
לבעון
שם לבעון
תקופה פיסקאלית
דגל יום חג
גל ?וס ראשון בחודש
גל ?וס אחלון בחודש
עונת
אידוע מיוחד
תרשים 6.15: מבנה טיפוסי של טבלת מימד הזמן.
בדוגמה המופיעה בתרשים 6.15 מופיעות מספר רב של תכונות רלוונטיות לתאריך: למשל,
ציוו האס זהו יוס חג, ציוו התקופה הפיסקאלית, ציון העונה, ציוו האס זה יוס תחילת
חודש או סוף חודש, ציון אס זהו אירוע מיוחד (כמו למשל יוס הי בו יש משחק של מכבי
תל אביב). תכונות אלו מאפשרות אחזור פשוט, על סמך נתוניס אלה. טבלת מימד הזמן
היא טבלה קטנה - 365 שורות לכל שנה. גם אס ננהל היסטוריה של מספר שנים, עדיין
מדובר במעט שורות באופן יחסי. הדרך המקובלת היא, לפתוח מראש את כל השורות
בטבלת מימד הזמן, למספר שנים קדימה.
השאילתה המופיעה בדוגמה הבאה מציגה את סך כל כמות המכירות של מוצר מסוים,
בימי בי ברבעון השני של שנת 1998.
5 107 48 (4מוסנח 63[66) [א60 ,]זאג א זסטספסחץ - 5₪0₪07
7 075 ,5 51.05 ]אסא
סאג '02+ = תד טס 0.ד מאתתצש
עא ג 1998 = 43 מ צ. ד
עא 'זְג0 םסוא = אממצשי עס צגפ.ד
עא '486-1345* = פז ז6ספסחץ.ץ
עאג פז 01 5.0 = פז ז6ספסחץ.ץ
סז פסזאמע. = פ]ז פסזתתק.ך
שאגא 1?)סכסאץ צם קט0סגי)
מזאגא 1?)כסאץ צם התסגאס 10
4 % ₪ ₪2 0 9 ₪ פק
,+ סברק 800
ריבוי היררכיות במימד הזמן
למרות שממבט ראשון מימד וה נראה פשוט, הנושא יכול בהחלט להסתבך. למימד הזמן
תכונה מעניינת, בכל הקשור להיררכיה. הבעיה העיקרית מתחילה מכך שהיררכיית הזמן
אינה טרוויאלית, ולא ניתן לבצע סיכומיס מלמטה כלפי מעלה (סש |וס₪ עזפּח ת60)
באופן פשטני. כתוצאה מכך, גס השוואות בין תקופות הופכות למורכבות יותר. בדרך
פרק 6: עיצוב רב-מימדי של בסיסי נתוניס טבלאייס | 147
כלל, מייצגת ההיררכיה מצב בו הרמות הנמוכות יותר מתקבצות בצורה ברורה לרמה
גבוהה יותר, וחוזר חלילה. לדוגמה, הסניפיס מתקבציס לאזור מכירות, אזורי המכירות
מתקבצים למחוז ואילו המחוזות מתקבציס לכל החברה. דווקא במימד הזמן אנו
מוצאיס מצב חריג, בו ההקבצות אינן פועלות כפי שאנו מצפים. למשל, חימיס מתקבציס
לשבועות אולס שבועות אינס מתקבציס בצורה פשוטה לחודשים, מכיון שחודש יכול
להתחיל באמצע שבוע. אס צריך לנהל את הנתוניס גם לפי חודשיס וגם לפי שבועות, יש
ליצור שתי היררכיות מקבילות במימד הומן. ברמה הבסיסית ביותר, שבוע עבודה מכיל
5 ימי עבודה. הבעיה היא שחודש יכול להסתיים גם באמצע שבוע. לכן עשוייס להתקבל
שבועות המכילים פחות מ-5 ימי עבודה. כתוצאה מכך גס יתקבלו חודשיס המכיליס
5 שבועות, ולא רק 4 שבועות, כמקובל.
פתרון אפשרי לבעיה זו היא ניהול היררכיות מקבילות במימד הזמן: היררכיה אחת בה
היוס מסתכס לחודש אליו הוא שייך, והיררכיה שנייה בה היוס מסתכם לשבוע אליו הוא
שייך.
רבעון חודש יוס
תרשים 6.16: ריבוי היררכיות במימד הזמן.
מימדים מנוונים (5חסופח6וחו 678%6ח0606)
לפעמים נוצר מצב בו קיים מימד שמאחוריו אין טבלת מימדים, אולס מפתח המימד
מופיע בטבלת העובדות. לדוגמה, במודל נתוניס העוסק במעקב אספקות נרצה לנהל את
מספר ההזמנה בטבלת העובדות. עקרונית, ניתן להסתכל על ההזמנות כעל מימד
האספקות, אולס אם אין לנו עניין לנחל מידע נוסף אודות ההזמנה, מימד וה הופך למימד
מנוון.
סטטוס אספקות
מחסנים
תאדיד הזמנה
קוד מוצל
קוד מחסן
מספר ספק
מספד הזמנה
מספר שורה בהזמנה
כמות שהתקבלה
מחיר יחידה
כמות שנלחתה
כמות שהוחזלה
כמות למלאי
מוצרים
תרשים 6.17: מימד מנוון.
8 מחסנל נתונים
טיפול במימדים גדולים (פחסופחס6וחופ 6ו)
לפעמים, טבלת המימדים יכולה להיות טבלה ענקית כמו, למשל, במודל נתוניס של חברת
טלפוניס המשרתת מספר מיליוני לקוחות. אחת האפשרויות היא להוסיף לכל לקוח
נתוניס דמוגרפיים כגון רמת הכנסה, גיל, מצב משפחתי וכדומה. כל תוספת של נתון אותו
יש לנהל ברמת הלקוח הבודד, מייד מוכפלת במספר מיליוניס, בשל הכמות הגדולה של
לקוחות.
אפשרות אחרת היא לבנות טבלה דמוגרפית נפרדת, המכילה שורה אחת עבור טווחיס
בלבד - למשל רמת הכנסה בין 100,000 ל-150,000 שייח בשנה, קבוצת גיל בין 30 ל-40
ומצב משפתתי נשוי. ניתן ליצור מראש את כל הצירופיס המענייניס את הארגון. כל שורה
כוו מקבלת מפתח מלאכותי בטבלת הדמוגרפיה, שלעיתים ניתן לקרוא לה גס מיני מימד
דמוגרפי (חסופחפוחוכ וחוו/] סוהק8זטסוהפכ). מפתת וה מוכנס כמפתת זר בטבלת
השיחות, שהיא טבלת העובדות, וכן בטבלת מימד הלקוחות.
את השאילתות הדמוגרפיות ניתן לבנות על ידי פנייה ישירה מטבלת הדמוגרפיה לטבלת
העובדות, ללא צורך בפנייה לטבלת מימד הלקוחות. למשל, שאילתה כגון סה'יכ
ההכנסות בגין שיחות של לקוחות השייכים לקבוצת גיל מסוימת, ובמצב משפחתי
מסויסם. עקרונית, ניתן לבנות גס מספר טבלאות מיני מימד דמוגרפי, כך שכל טבלה
תכיל אוסף מסויס של תכונות דמוגרפיות רלוונטיות.
שיחות טלפון
מספר לקות לקוחות פרטיים
דמוגרפית מספר טלפון קורא לספו לקום
מפתח דמוגרפיה מספד טלפון נקרא שם פרטי
טווח הכנסה אלץ מוצא שס משפחה
קבוצת גיל א כתובת
מצב משפחתי תאדיד
מץץ מפתח דמוגרפיה
סוג לקוח משך שיחה מפתח דמוגדפיה
עלות השיחה
תרשים 6.18: פיצול טבלת מימדים לטבלת מיני מימד.
מימדים סיבתיים (פ5חהסו5חהס6וחוכ !63503)
מימד סיבתי הוא מימד המתאר מצב מסוים אשר יכול להוות סיבה להיווצרות אירוע
שיירשס כעובדה בטבלת העובדות. לדוגמה, אירוע שיחת טלפון יכול להתרחש בעת
שמבצע הנחות מסויס על שיחות בשעות הלילה היה בתוקף. דוגמה אחרת יכולה להיות
שרכישת שירות חדש, כגון תא קולי, קרה בתקופה בה בוצע פרסוס מסיבי אודותיו
בעיתונות ובטלוויויה. כמובן שאין כל דרך לדעת אס קיומו של מבצע זה או אחר היה
הסיבה האמיתית לאירוע, אלא אס שואליס את הלקוח באופן ישיר. בכל מצב אחר אנו
יכולים, במקרה הטוב, לחשוד שהמבצע הוא שגרס להתרחשות האירוע.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 149
מפתח סניף
קוד סנין
קוד אזור
שנה קוד מחוז
לבעון שס מחוז
מכירות חודש שם מנהל מחוז
שבוע שם אזור
קד מוצר שס לבעון שם סניך
תאריך
, שם חודש כתובת
מפתח סנ אריך התחלה
מפתח מבצע
ב | כירות ביחידות |
7 מכירות כש"ה |
מבצעים
מפתח מבצע
שם מבצע
תאדיך תחילת מבצע
תאריך סיום מבצע
קוד מוצר
קוד קבוצת מוצר
קוד קו מוצר
שם קו מוצר
שם קבוצת מוצר
תיאור מוצר
תיאור מבצע
תרשים 6.19: מימד סיבתי.
קישור העובדות אל המימד הסיבתי יכול להתבצע במערכת התפעולית, או במחסן
הנתוניס. לדוגמה, המערכת התפעולית יכולה לרשוס על כל תנועת מכירה גס את קוד
המבצע. במצביס בהס המערכות התפעוליות אינן רושמות את הקשר למימד הסיבתי,
צריך ליצור קשר זּה, תוך כדי טעינת העובדות למחסן הנתוניס. בתהליך הטעינה ייבדק
אס בזמן האירוע היה מבצע כלשהו בתוקף, ואם כן - יבוצע הקישור. בתוך מימד המבצע
נחזיק גם שורה אחת מיוחדת עבור מצב של ייאין מבצעיי. כל העובדות יקושרו לשורה זו
עבור מצביס בהס לא התקייס מבצע כלשהו.
קיומו של מימד סיבתי יכול לאפשר לארגון לשאול שאלות כגון - האס המבצע היה כדאי,
האס היה שינוי במכירות כתוצאה מהמבצע.
ריבוי קשרים בין מימד לעובדות
(חסופ5ח6וחוכ הוחט!0ס6 6וקשוט₪א)
לפעמים, מתקיים יותר מקשר לוגי אחד בין טבלת העובדות לבין טבלת מימד מסוימת.
לדוגמה, עבור מודל נתוניסם העוסק במעקב אספקות, נרצה לנהל מספר תאריכיס שוניס
הקשורים לאספקה מסוימת - תאריך ההזמנה, תאריך האספקה הראשונה ותאריך
הקבלה האחרונה. במקרה זה, נגדיר את שלושת התאריכיס האלה כמפתחות זרים כלפי
טבלת מימד הזמן, ונקבל שלושה קשרים לוגייס בין שתי הטבלאות.
0 מחסני נתונים
סטטוס אספקות
תאריד הזמנה מחסנים
קוד מוצר
קוד מחסן
מספר ספק
מספד הזמנה
מספר שודה בהזמנה
כמות שהתקבלה
מחיר יחידה
כמות שנדחתה
כמות שהוחזלת מוצריס
כמות למלאי
תרשים 6.20: ריבוי קשרים בין טבלת עובדות וטבלת מימד.
ריבוי קשריס ה מאפשר לנו לבצע שאילתות שונות כמו ניתוחי עונתיות באספקות, ניתוח
קבלות ברבעון מסויס וכדומה.
סוגיות מיוחדות בנושא טבלת עובדות
הגדרת רמת הפירוט (עֶז31|טח3ו)
אחד מנושאי העיצוב העיקרייס של טבלת העובדות היא קביעת רמת הפירוט שלה. ככל
שרמת הפירוט המנוהלת בטבלת העובדות גבוהה יותר, כך נפח הנתוניס שינוהל במחסן
הנתונים יהיה גדול יותר. במערכות תפעוליות רמת הפירוט המנוהלת היא הרמה הפרטנית
ביותר הנדרשת - שיחה בודדת במערכת טלקומוניקציה, שורת הזמנה במערכת הזמנות,
המכירה הבודדת במערכת מכירות וכדומה. בבואנו לעצב את טבלת העובדות של מחסן
הנתוניס, ההחלטה על רמת הפירוט אינה קשורה ישירות לרמת הפירוט המנוהלת
במערכת התפעולית. היא קשורה לרמת הפירוט הנדרשת בתהליכי קבלת ההחלטות. מובן
שלא ניתן לנהל רמת פירוט גבוהה יותר מאשר במערכת התפעולית, אולס בהחלט ניתן
לנהל רמת פירוט נמוכה יותר. לדוגמה, במחסן נתוניס של חברת טלקומוניקציה ניתן
להחליט על רמות פירוט שונות. נציג שלוש חלופות שונות לרמת פירוט:
+ משך השיחה הבודדת - לכל שיחה שהלקוח ביצע תישמר רשומה אחת.
> משך השיחות של לקות ביום - לכל לקוח תישמר רשומה אחת ליוס ובה יופיע מספר
הדקות הכולל של משך השיחות באותו יוס. במידת הצורך, ניתן לעדן רמת פירוט זו
על ידי ניהול משך דקות השיחה לפי שלוש רצועות זמן ביממה (לדוגמה: שלוש
רצועות זמן של 8 שעות כל אחת).
+ משך השיחות של לקוח בשבוע - לכל לקוח תישמר רשומה אחת לשבוע ובה יופיע
משך דקות השיחה הכולל במהלך השבוע. במידת הצורך ניתן לעדן רמת פירוט זו על
ידי ניהול משך דקות השיחה בכל אחד מימי השבוע, באמצעות שבעה מוניס נפרדיס
באותה רשומה.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס 151
כפי שניתן לשער, לכל אחת מרמות פירוט אלו יש השלכה שונה על גודל טבלת העובדות.
נתבסס על מספר הנחות, כדי לחשב את גודל הטבלה. אס נניח שלקוח מבצע 10 שיחות
ביוס, נקבל בממוצע 300 שיחות לחודש, או 3,600 שיחות לשנה. אס לחברה יש 10 מיליון
לקוחות ולכל שיחה יש לשמור 50 בתים, נקבל שעבור רמת הפירוט המקסימלית נצטרך
לנהל 36 מיליארד שורות לשנה. גודל טבלה זו יהיה 180 מיליארד בתים, או 180
טרה-בתיס (%6ץ76782).
זהו ללא ספק נפת נתונים גדול. ההחלטה לנהל רמת פירוט ליוס בלבד, יכולה להקטין נפח
זה באופן משמעותי. ככל שרמת הפירוט נמוכה יותר, נפח הנתוניס יקטן, אולס כמוהו גס
תקטן יכולת קבלת ההחלטות. למשל, אס רמת הפירוט היא משך השיחות ליוס, לא ניתן
לנתח מגמות ברמת השעה הבודדת.
טבלת עובדות נטולת עובדות (130|!6 36%: 655!+ס36-)
כל הדוגמאות שהוצגו עד לנקודה וו הכילו טבלת עובדות המורכבת משני מרכיביס
עיקרייס - אוסף של מפתחות זרים, היוצריס את הקשריס עם טבלאות המימדים, ואוסף
של תכונות, המייצגות את הנתוניס שיש לנהל לגבי כל אירוע. בנוסף למצביס אלה קיימיס
מצביס בהס טבלת העובדות אינה מכילה שוס תכונה נוספת מעבר למפתחות הזריס של
המימדים. במצב כזה טבלת העובדות משמשת רק ליצירת המפגש בין המימדים. הדוגמה
הבאה מתייחסת למודל נתוניס העוסק במעקב אחר נוכחות סטודנטיס בהרצאות
באוניברסיטה. המימדיס המענייניס הס מרצים, סטודנטיס, קורסים וזמן. שורה בטבלת
העובדות מייצגת, במקרה זה, את האירוע המפגיש את ארבעת המימדים - כלומר סטודנט
נוכח בהרצאה בקורס שניתן על ידי מרצה בזמן כלשהו. מעבר לעצם נוכחותו של הסטודנט
בקורס, אין תכונות רלוונטיות נוספות.
מספר קורס
שם קורס
4 קוד מחלקה
מספד סטודנט מספר קל | שם מחלקה
תעודת זהות מל]] מספר מוצת נקודות זכות
שם סטודנט תארי מספר מרצה
כתובת מספר סטודנט. תעודת זהות
כתובת
התמחות
תרשים 6.21: טבלת עובדות ללא עובדות.
מודל נתוניס וּה יכול לשמש לקבלת מידע אודות נושאים כגון - מהס הקורסים
הפופולרייס ביותר, כמה קורסים לקח כל סטודנט בכל אחת מהשנים בהס הוא לומד
באוניברסיטה ועוד. נשיס לב שרוב שאילתות אלו מבצעות תהליכי מנ*יה (פַח₪חט00).
2 מחסני נתונים
לדוגמה, השאילתה הבאה מציגה את מספר הסטודנטיס שלמדו אצל כל מרצה בסמסטר
מסויס.
(ע]ז עסזתתץ) דאס60 מאגא אמת6אתד | ₪07
ץ 10705 ,4 א)אג פא דד ,ד פ>אמ גמד ]0
עאג '731198* = ₪8 5151 מאמתשש
עאג פז אמג ד.א = סז אהמ )גמד ד
עז פסזאמץ .א = כז פסזאמץ.ץ
משאגא תםז) תד צם עטסגי)
משזאבא המד תד צם התסגאס
₪ 2 ש ₪ +
בור ו ו ו ו
מכיון שרוב השאילתות במודל זה הן בעלות אופי של מנייה, יש כאלה המוסיפים לטבלת
העובדות עוד עמודה אחת, המכילה תמיד את הערך 1. כך, ניתן גס להשתמש בפונקציה
ה טפ, לא רק ב-1חהט00.
ריבוי טבלאות עובדות (7301!65 +36: 6!וסזו₪)
עד כאן התייחסנו אל מחסן הנתוניס כאל בסיס נתוניס שיש בו כוכב אחד בלבד, כלומר
יש בו טבלת עובדות אחת בלבד. המציאות מורכבת בהרבה, והסיכוי לבנות מחסן נתוניס
המכיל טבלת עובדות אחת בלבד, קלוש. במחסן נתונים אמיתי, בו יש מספר כוכבים וחלק
מהמימדים משותפים למספר כוכבים, תתקבל למעשה סכמה מורכבת יותר. לעיתים,
נקראת סכמה זו גס בשס סכמת גלקסיה (808ח50 /א08|3).
תרשים 6.22: סכמת ריבוי כוכבים.
נתבונן לדוגמה במחסן נתוניס של בנק, המספק מיגוון רחב של מוצריםס בנקאייס
ללקוחותיו - חשבונות עוייש, תוכניות חיסכון, תוכניות השקעה, כרטיסי אשראי,
משכנתאות וכדומה. אחת השאלות הבסיסיות בבואנו לעצב את מודל הנתוניס היא, האס
נבנה טבלת עובדות אחת בלבד, או שלכל מוצר בנקאי נבנה טבלת עובדות נפרדת.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 153
ממבט ראשון, ברור שלכל המוצרים הבנקאים המוזכרים יש מספר תכונות משותפות
(כגון מי הלקוח, איוה סניף מנהל את המוצר, מה יתרת החשבון של הלקוח וכדומה).
אולס, ברור גם שלכל מוצר יש תכונות האופייניות רק לו - לחשבון עוייש יש תכונות כגון
תקרת אשראי, ריבית, עמלות שירות מיוחדות, ואילו לחשבון חסכון יש תכונות כגון סכוס
הפקדה ראשוני, סכוס הפקדה חודשי וכדומה. לכרטיסי אשראי יש תכונות כגון תאריך
הנפקת הכרטיס, נקודות שנצברו במועדון לקוחות וכדומה. כלומר, לפנינו מספר מוצרים
הטרוגניים.
חלופה אחת לעיצוב מודל הנתוניסם היא לבנות טבלת עובדות אחת, המכילה את האיחוד
של כל התכונות מכל סוגי המוצריס הבנקאיים, כפי שמודגס בתרשיס 6.23.
מוצרים בנקאיים ה
סניף
תאליך מפתת סניף
מספד לקות מספד לקת שם סניף
שם לקוח מספר סניף כתובת
כתובת תכונות חשבון עו'ש
מספר טלפון תכונות תוכנית חסכון
תכונות כרטיסי אשראי
.תכונות תוכניות משכנתאות |.< תארי
תכונות של תוכניות השקעתה שנה
: רבעון
חודש
שבוע
שם רבעון
שם חודש
תרשים 6.23: טבלת עובדות אחת למוצרים הטרוגניים.
בניית טבלת עובדות אחת למצב בו קיימות מספר רב של עובדות הטרוגניות, מאפשרת
בניית מבנה כוכב אחד. אבל והו מצב בעייתי מאוד. טבלת העובדות תכיל מספר גדול
מאוד של תכונות, כאשר ברוב השורות תהיינה חלק מהתכונות ריקות. מכיון שאו הטבלה
הגדולה ביותר בבסיס הנתונים, ניתן לראות ששטחי האחסון אינס מנוצלים היטב. מעבר
לכך, כל פעס שהבנק יחליט להוסיף מוצר בנקאי נוסף, נצטרך להרחיב את טבלת העובדות
המרכצית, כדי לנהל את התכונות הייחודיות החדשות. עיצוב זה אינו עמיד לשינויים, ולכן
אינו יעיל.
הפתרון הנכון למצב שתואר כאן הוא בנייה של מספר טבלאות נפרדות לכל אחד
מהמוצרים השונים. בנוסף לטבלאות השונות המנוהלות עבור כל מוצר, ניתן גם לנהל
טבלה אחת המשותפת לכל המוצרים - אם מצאנו שיש מספר תכונות שהן משותפות לכל
המוצרים. ניהול טבלה משותפת כזו חוסך מקוס אחסון, אולסם מצד שני מסבך את
השאילתות, מכיון שגס בשאילתות המתעניינות במוצר אחד בלבד נוצר הצורך לעבוד עס
שתי טבלאות עובדות במקביל. מסיבה וו מומלץ לעיתים לנהל את הנתוניס המשותפים
בכל טבלה בנפרד, כך שהשאילתות תהיינה פשוטות יותר.
4 מחסני נתונים
קיבלנו כאן מספר מבני כוכב שיש להס מספר מימדיס משותפים - כמו לקוחות, סניפים,
זמן - ומספר מימדים ייחודיים, כמו המוצר הבנקאי. והו מבנה מורכב יותר מהמבנה
הרגיל, אולס הוא מאפשר גמישות בהוספת מוצריס חדשים, ומנצל באופן יעיל יותר את
שטחי האחסון. שאילתות המתייחסות למוצר אחד בלבד הן פשוטות. שאילתות
המבקשות לקבל בו-זמנית מידע אודות מספר מוצרים (ע6ט) 66ט0סזש 0558ז0) הן
מורכבות יותר, ודורשות תתכוס רב יותר של כלי האחזור ושל המשתמש.
טבלה משותפת |?.
מספר חשבון
תאליד
מספר לקות
מספר סניף
*תרה בחשבון מפתח סניף
מונה תנועות בחשבון שם סניך
כתובת
תנועות עו'ש | -= תאריץ
חשבונות עו ש מספד השב שנה
מספר חשבון עיי ש תארידך רבעון
שם בעל חתימה לאשונה מספר לקוח חודש
שם בעל חתימה שניה מספר סניף שבוע
תקדת אשראי סכום תנועה שם רבעון
דיבית סוג תנועה הלל שם 7
חשבונות חסכון מספר חשבון מספר לקוח
מספד חשבון חסכון תאלי1 שם לקות
דיבית מספר לקות כתובת
תקופת חסכון מספר סניף מספר טלפון
תאדיך פתיחת חשבון סכום הפקדה
סכום משיכה
תרשים 6.24: ריבוי של טבלאות עובדות.
סכמות פתיתי שלג (3 5660 6א3)!)/וסח6)
במקריס מסוימים, שימוש בסכמת כוכב לא מנורמלת יוצר בעיות הנובעות מרמת כפילות
הנתוניס הגבוהה. לדוגמה, אס בכל רמה היררכית יש לנהל מספר רב של תכונות, יכיל
המבנה הלא מנורמל רמה גבוהה מאוד של כפילות נתוניס. לכן הוא גס יתפוס נפח אחסון
רב מאוד. מאידך, נירמול רגיל של היררכיית המימדים גורס למבנה מורכב מאוד, שקשה
להבינו ולהשתמש בו. התרשים הבא מציג את מבנה הכוכב, כאשר כל ההיררכיות שלו
במצב מנורמל.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 155
אזול קבוצת מוצר
קוד אזור קוד מחוז קוד קבוצת מוצר
קוד מחוז שס מחוז שם קבוצת מוצר
שם אזור
קוד מוצר
קוד סניף
קוד זמנ קוד מוצר
קוד אזור מכידות ביחידות קוד קבוצת מוצר
שם סניף מכירות בש"ח תיאוד מוצר
כתובת
שס חודש
תאדיך התחלה
תאריך סיום
עונה
תרשים 6.25: מבנה כוכב עם מימדים מנורמלים.
כפי שניתן לראות, נירמול מלא של המימדים גורס למבנה כוכב מורכב, ובאופן טבעי גס
לביצועיס לא טוביס של השאילתות. השאילתה הבאה מציגה את סך כל המכירות במחוז,
בתקופה מסוימת.
(דאשססואא 641.85) ]50 ואבא ז)תדפום - 0]₪07 1
1 ,0 75 ד ,4 45 מ גג ,5 פ-)א א ,5 541.05 ][אסתץ .2
כעא 'גט160 = ודאסא ד א .3
עאג יתסא = מואבא 1-)זת .כ .4
עאג '486-1345* = פ] ז6ספסחץ.ץ .5
עאג פז אא אם.ם = פז א .5 6
עאאג פ] התחג. = פז החחג.ת 7
עאג פז דא ד15כ.כ = פז 1-)ות דפזס. ג 8
סז עסזאמע.5 = פ]ז פסזתמע.ך .
אגא 1) ד צם 6002 10
אגא 1)ת ד צם התא .11
פתרון בינייס מסויס הוא מבנה סכמת פתיתי שלג. סכמה וו דומה בעיקרון לסכמת כוכב,
למעט העובדה שסביב חלק מהמימדים מופיעות טבלאות נוספות, המייצגות את
היררכיות המימדים. להבדיל מהמבנה ההיררכי הרגיל, במקרה זה יוצריס קשר ישיר בין
המימד לבין כל ההיררכיות שלו. בתרשיס הבא מופיע מבנה פתיתי שלג סביב מימדי
הסניפים, המוצריס והומן. ההחלטה מהס המימדים שיישארו במבנה לא מנורמל, ואילו
מימדים ינוהלו במבנה פתיתי שלג, מבוססת על רמת כפילות הנתונים אותה נהיה מוכניס
לנהל בבסיס הנתונים, לעומת הפשטות והביצועיס של מבנה הנתוניס.
6 מחסני נתונים
קוד אזול
שם אזור
מחוז משפחת מוצר
קוד מחוז קוד קבוצת מוצר קוד משפחת מוצר
שם מחוז שם קבוצת מוצר שס משפחת מוצר
קוד סניף
קוד אזור קוד מוצר
קוד מחוז קוד קבוצת מוצר
שם סנין קוד משפחת מוצר
תואור מוצר
שם רבעון תאריך תחילת חודש
תאריך תחילת רבעון תאריך סוף חודש
תאריץ סוף רבעון
תרשים 6.26: מבנה סכמת פתיתי שלג.
במבנה זה ההיררכיה אינה מנוהלת באופן ישיר, אלא עוטפת את המימד. בדרך זו מתקבל
מבנה פשוט יותר. מבנה זה עדיין מורכב יותר להבנה, יחסית למבנה הכוכב הלא מנורמל
הרגיל, אולס הוא פשוט יותר להבנה לעומת מבנה כוכב עס מימדים מנורמלים. הביצועיס
במקרה זה פחות טוביס מאלו של מבנה הכוכב הלא מנורמל. הגורס לכך הוא הצורך
בפעולות צירוף נוספות. נציג כאן את מבנה השאילתה הקודמת, כפי שהיא נראית בסכמת
פתיתי שלג. מכיון שקוד המחוז מופיע ישירות בטבלת המימד של הסניף, אין צורך לבצע
צירוף עס טבלת האצוריס.
(דאטססואג 641.06 ]אש6 זאג א 61זא דפס ₪107
,כ 175 15 ,5 פתד)א את ,5 541.05 ]א0אץ
עא 1690 = חדאסוא. ד מתתצ
עאג יפוסא = אגא זז ד1פ.כ
עא '456-1345: = פ] 1?)ספסאץ.ץ
עאג פ] א אחט.ם = פז א .5
עאג פז 161 ד5זכ.כ = פז ד)זא דפוס.ג
כעז פסזאמץ. = פז פסזאמע.ד
אגא תס צם עססתט6 .
אגא תס צם התסת 10.0
5% ₪ ₪ 9 ₪ ס
ב פב סקר רק רש וא ובר
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 157
ניהול שינויים (ח6וח 306 ח3! סטַחהה6)
מדוע יש לנהל שינויים
אחד המאפייניס העיקרייס של מחסן הנתוניס היא העומק ההיסטורי שלו. כלומר, הצורך
לנהל את הנתוניס לאורך זמן רב, ממספר חודשיס עד מספר שנים. אחד האתגריס
העיקרייס הנובעיס מעובדה זו היא שהארגון משתנה במשך הזמן. כתוצאה מכך, לאורך
הזאמן משתנה גס מבנה הנתונים במערכות התפעוליות. לדוגמה, הארגון יכול לשנות את
המבנה הארגוני, תמהיל המוצריס שהוא מציע ללקוחותיו משתנה, נתוניו של מימד
מסויס משתנים (למשל, שינוי במצב המשפחתי של הלקות) וכדומה.
המערכות התפעוליות מתמודדות עם שינוייס אלה בקלות, מכיון שהן צריכות לשקף
בעיקר את המצב העדכני האחרון, והן שמות דגש קטן יחסית להיסטוריה. לעומת
המערכות התפעוליות, מחסן הנתוניס צריך להתמודד עס שינוייס אלה ולשקף נכונה את
המצב על ציר הזמן. לדוגמה, אס רוציס להשוות בין כמות שיחות הטלפון של לקוחות
פרטייס, שמצבס המשפתתי הוא רווק, לעומת כאלה שמצבס המשפחתי הוא נשוי, על
מחסן הנתונים לדעת מתי חל שינוי במצבו המשפחתי של הלקוח, ולשייך את השיחות
בהתאם. דבר זה מוסיף רמת סיבוכיות נוספת לעיצוב מודל הנתוניס של מחסן הנתונים.
אפיון קצב השינויים
בעיית ניהול השינויים מתמקדת בעיקר בטבלאות המימדים, ולא בטבלת העובדות.
הסיבה לכך היא שטבלת העובדות מייצגת אירוע בזמן (שיחת טלפון, פעולה בנקאית,
רכישת מוצר וכדומה), ולכן הוא קשור למימדיס הנכוניס באותה עת. הבעיה היא
במימדים המשתניס לאורך הזמן - מצבו המשפחתי של הלקות היה יירווקיי בנקודת ומן
מסוימת והשתנה ליינשוייי בנקודת זמן אחרת. או, למשל, סניף מסוים היה שייך למחוז
המרכז בנקודת ומן מסוימת וכתוצאה משינוי במבנה הארגוני הוא שייך למחוז הצפון
החל מנקודת זמן אחרת. לכאורה, אחד הפתרונות האפשרייס לכך הוא לרשוס בטבלת
העובדות את מצבו של כל מימד, כפי שהוא היה נכון בעת האירוע. במציאות, פתרון מסוג
זה אינו אפשרי, מכיון שהוא גורס לכפילות נתוניס בלתי נסבלת כתוצאה מהצורך לנהל
את כל נתוני המימדיס בכל אירוע.
לפני שנציע מספר פתרונות להתמודד עס שינויים אלה, נאפיין את המימדים לפי קצב
השינוייס. כפי שמייד נראה קיימים מימדים יציבים דיים, ולעומתס מימדיס בהס קצב
השינוייס הוא גבוה יחסית. מקובל לאפיין את השינוייס לשלוש קטגוריות עיקריות:
> מימד יציב (חסופחסוחו 549016) - מימד שאינו משתנה, ונשאר יציב לאורך ומן.
למשל, מימד הזמן הוא מימד יציב, מכיון שהיררכיות הזמן הן קבועות.
> מימד המשתנה באיטיות (חסופחסחוכ פַחופֶחִהח0 עושסופ) - מימד המשתנה בקצב
איטי, יחסית לאורך הזמן. למשל, סביר להניח שמימד המבנה הארגוני ישתנה אולס
בקצב איטי - למשל כל שנה. לא סביר להניח שמימד וה ישתנה, למשל, כל חודש.
8 מחסני נתונים
> מימד המשתנה במהירות (חסופח6וחוכ פַחופַחהת0 +85ת) - מימד המשתנה בקצב
מחיר, יחסית לאורך הזמן. למשל, סביר להניח שחברת טלקומוניקציה תציע כמעט
מדי חודש שירותיס חדשים, בנק יציע כל חודש מוצריס בנקאייס חדשים וכדומה.
מימד מוצרים מימד אלגוני מימד הזמן
2
[|
1 |
שינוי מהיר שינוי איטי מימד יציב
תרשים 6.27: סיווג השינויים לפי הקצב.
ברור שמימד יציב אינו דורש טיפול בשינוייס. לעומתו, מימדיס המשתניס באיטיות או
במהירות דורשיס טיפול מיוחד.
טכניקות לטיפול בשינויים במודל הנתונים
נסקור כאן אוסף של טכניקות שונות, שמטרתן לאפשר את שינוי מודל הנתוניס. השינוייס
ינבעו כתוצאה משינוייס במערכות התפעוליות, או שינוייס בדרישות משתמשי מחסן
הנתוניס.
הוספת תכונות חדשות לטבלאות העובדות או המימדים
תוך כדי תפעול מחסן הנתונים מתעורר הצורך בהוספת תכונות חדשות, הן לטבלת
העובדות והן לטבלאות המימדים. שינוייס אלה יכוליס לנבוע כתוצאה משינוייס בתהליכי
העבודה, כפי שהס משתקפיס במערכות התפעוליות, או כתוצאה מדרישות חדשות של
משתמשי מחסן הנתוניס. סוג וה של שינוייס מטופל בקלות רבה מאוד, בשל יכולת
מערכות 50815 להוסיף עמודות חדשות לטבלאות, אפילו תוך כדי פעולה. משמעות
הדבר היא, שאין צורך להפסיק את פעולת מחסן הנתוניס כדי לבצע את השינוי. הוספת
העמודות החדשות לטבלה תתבצע תוך שימוש בפקודת 18016 ז9) בשפת .5001.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 159
הוספת מימד חדש למודל
הוספת מימד חדש מתבצע על ידי הגדרת הטבלה החדשה והוספת נתוניס לתוכה. הבעיה
העיקרית היא הקישור שלה לטבלת העובדות. הקשר הלוגי בין טבלת המימד החדשה
לטבלת העובדות, מתבצע על ידי הוספת מפתח זר חדש בטבלת העובדות. בדרך כלל,
מפתח טבלת העובדות הוא מפתח המורכב מהמפתחות הזרים. משמעות הדבר היא שיש
להוסיף עמודה חדשה, להגדירה כחלק מהמפתח העיקרי, להגדיר אותה כמפתח זר, לעדכן
את האינדקס על המפתח העיקרי ולבנות אינדקס חדש על פי המפתת הצר. ביצוע פעולות
אלו הוא מורכב יחסית, ומחייב עצירת פעולת בסיס הנתונים, שינוי הגדרת הטבלה
וטעינתה מחדש. מכיון שטבלת העובדות גדולה, פעילות זו צורכת משאבי מחשב רביס
ועלולה להימשך זמן רב.
ניהול שינויים בהיררכיות של המימדים
נציג כאן מספר חלופות לטיפול בשינויים, הנובעיס משינוייס בהיררכיות המימדים.
ניהול ערכים עדכניים בלבד (65ט!3/ 6!) שחו)+ועצוסצטס)
מכיון שהטיפול בשינוייס לאורך ומן מכניס סיבוכיות למודל הנתונים, קיימיס מצביס
בהס ניתן להחליט כי מוותריםס על הייצוג ההיסטורי הנכון, על חשבון פשטות מבנה
הנתוניס. בשיטה זו מעדכניס את הנתון הרלוונטי, ולא שומריס היסטוריה. לדוגמה, אס
כתוצאה משינוי במבנה הארגוני, עבר סניף מסויס ממחוז אחד לשני, נעדכן בטבלת הסניף
את קוד המחוז ואת שס המחוז, כך שרק המבנה הארגוני החדש ישתקף במחסן הנתונים.
ברור, שצורת טיפול זו היא פשוטה מאוד, אולס היא גורמת לייצוג לא נכון של הנתוניס
על ציר הזמן.
קוד סניף מכירות קוד מוצר
קוד אזור קוד מוצר 7 קבוצת מוצר
שם אזור קוד סניף ם קבוצת מוצר
: קוד זמן תיאור מוצר
מכירות ביחידות
שם סניף מכירות בש"ח
כתובת
תאדיך
שם חודש
תאריך תחילת חודש
תאליך סיום חודש
עונה
תרשים 6.28: עדכון ערכים.
0 מחסנל נתונים
בניית רשומת מימד חדשה
באותס מקריס בהס להיסטוריה יש חשיבות, ניתן ברגע שאחד מנתוני המימד העיקרייס
משתנה, לבנות רשומת מימד חדשה. לדוגמה, כתוצאה משינוי במספר המחוזות ובפריסה
הארצית של כל מחוז, יש להעביר סניף מסויס ממחוז המרכז למחוז הצפון. כדי שלא
לעוות את המידע המסופק ממחסן הנתונים, יש חשיבות להציג את מצב המכירות הנכון,
כפי שבוצעו על ידי סניפי המחוז. במקרה זה, ניתן ליצור רשומה חדשה עבור סניף, ובה
נתוני המחוז המעודכניס. לרשומה החדשה ניתן להקצות מפתח מלאכותי חדש לחלוטין,
או לחילופין להוסיף למפתח המלאכותי הקודס סיומת מתאימה.
ו
ו
ו
0-00 צפון 111 צפון 1
ו
ו
7 א == טבלת מימד סניפים 7 שב
1 הנור אווש כ וי | הו ,ריק הוביו הריכה הי בויב ,בר וי ורי א יתיב ומ כ ו
ו ו
, == ו ו
ו ו
ו ו
| == ו
. == מכירות לאחר השינוי ו
[ ו
י ] מכירות לפני השינוי ו
ן טבלת מכירות ו
ו
תרשים 6.29: יצירת רשומת מימד חדשה.
בתרשיס 6.29 רואים שיצירת הרשומה החדשה משמרת בצורה נכונה את המידע. כל
המכירות שבוצעו על ידי הסניף, כל עוד היה שייך למחוז המרכז, ייוקפו למחוז המרכז.
כל המכירות שבוצעו על ידי הסניף לאחר שהועבר למחוז הצפון, ישויכו למחווז הצפון.
פתרון וה אינו מחייב את המשתמשים לדעת את התאריכים בהם בוצעו השינויים
הארגוניים, מפני שהשיוך מתבצע באופן טבעי לחלוטין. כאשר משתמש שואל שאילתה
לגבי סך כל מכירות מחוז המרכז, הוא יקבל את מכירות סניף נתניה, רק לתקופה שהסניף
היה שייך למחוז וה. שיטה זו מחייבת סיבוך מסוים של תהליך הטעינה למחסן הנתוניס,
כדי לאתר את השינוייס שחלו בטבלת המימד ואת יצירת הרשומה החדשה בהתאם.
נתבונן בדוגמה נוספת לשינוייס במימד - שינוייס במימד המוצר. בדרך כלל, מקובל לשייך
כל מוצר לקבוצת מוצר מסוימת. לדוגמה, מוצר מסוים יכול להשתייך לקבוצת חולצות
גברים ואילו מוצר אחר יכול להשתייך לקבוצת חולצות נשים. רשתות השיווק מבצעות
מעת לעת שינוייס בשיוך המוצריס לקבוצות המוצר. למשל, יכול להיות שחולצת עבודה
השתייכה עד כה לקבוצה מיוחדת של חולצות עבודה, ואילו עכשיו מבקשת הרשת לשייך
אותה לקבוצה חולצות גבריס. הבעיה מתעוררת במידה ויש לנהל את ההיסטוריה של
השינויים, כדי להיות מסוגלים לבצע השוואות במכירות בתקופות שונות. אם נרצה
להשוות את מכירות חולצות גבריס השנה לעומת שנה קודמת, יש לשיס לב שבשנה
קודמת חולצות העבודה כלל לא היו שייכות לקבוצה חולצות גברים. לכן, כדי לקבל
השוואה אמיתית אין להתחשב במכירות חולצות העבודה בשנה קודמת. הדרך להתמודד
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים 161
עם בעיה זו היא על ידי פתיחת רשומת מימד חדשה עבור חולצת העבודה, כדי לציין את
השינוי שחל בקבוצת המוצר. בכל רשומת מימד ננהל גם את תאריכי התוקף שלה, כלומר
מאיוה תאריך ועד איוה תאריך המידע המופיע ברשומה נכון.
1
][מפתח | | שסם מוצר קבוצה | מתאריך | עד תאריך |][מפתח || שם מוצר קבוצה |מתאריך |עד תאדיץך |
ו
רשה 5508 9 [ הרטמהו או
1
1
1
לכ טבלת מלמד מוצרים
הי ורוו .ל וקו ורק רו
ו יו יו לי ד ליי הי יו יי יי ףייר *ר יכ יי יר וי הי יל ילייה ל ץ הייקית רד די הר תי ה יי שי ו
מכירות לאחר השינוי
מבירות לפני השינוי
טבלת מכירות
תרשים 6.30: ניהול רשומות שינויים עם תאריכי תוקף.
תרשיס 6.30 מציג את שתי רשומות המוצר בהן מופיע השינוי שחל בהשתייכות לקבוצות
המוצר, יחד עס תאריכי תוקף השינוי. אם נרצה להשוות את המכירות של שנת 1998
לעומת אלו של שנת 1997, יש לבצע שתי שאילתות שונות.
(צאשססואא 541.₪5) ]50 וב
ץ 0010015 ,5 541.85 ]א0אץ
כעא "זנגסוופת16+ = 63002 [6ספסאץ.ץ מאתצי
עא 1/01/1997 =< 0475 זאג דץ
עא 3/12/1997 => מדגפ פאם.ץ
סז זכסאץ.ץ = פז 1 5.0
₪ ₪ ₪ 0
+ דב 8 הקרוש רש
את התוצאה המתקבלת משאילתה זו נשווה לתוצאותיה של שאילתה בה התאריכיס
מתייחסיס לשנת 1998. אס נרצה להשוות את מכירות חולצות הגברים בעונת החורף של
שנת 1997, עס עונת החורף של שנת 1998, נשתמש בשאילתה הבאה:
(דאססואא 5105 7
1 ,5 515 ]אא
א ותא = 63002 7?)סכסאץ.ץ מאתתשש
עאג '1997 0)פנ/צ* = א450 55. ד
פאג דאס פאם.ץ פאאג מדג תג דע אתתאודת מדגפ מואזד. ד
עז ז?)וכסאץ.ע = פז 061 5.0
0% ₪ ₪ 0
בוו כו
שאילתה זו מחשבת את מכירות כל המוצריס שהשתייכו לקבוצה חולצות גברים בחורף
7. שים לב למשפט 5, המבצע צירוף בין מימד הזמן לבין המכירות, בהתבסס על טווח
תאריכי תוקף המוצר.
ניהול מצב עדכני ומצב נוסף
בטכניקה זו מנוהלת ההיסטוריה באופן חלקי בלבד. ברשומת המימד נשמור את הערך
הנוכחי ואת הערך הקודם. לדוגמה, אס השיוך הארגוני של הסניף שונה, נשמור ברשומה
את קוד ושס המחוז החדש, וגם את קוד ושס המחוז הקודס.
2 מחסני נתונים
| מפתח |שם סניף |קוד מחוז |שם מחוז נוכחי |קוד מחוז |שם מחוז מקורי
[
[ ו
[ ו
]| =] פר] א[ | 6] שו =
[
[ ו
[ ו
טבלת מימד הסניפים
טבלת מכידות
תרשים 6.31: ניהול ערך נוכחי וקודם.
על המעצב להחליט מה לעשות אם יהיה שינוי נוסף - האס לשמור את המצב המקורי, או
את המצב הקודם. בדוגמה שהוצגה קודס לכן, אם מתבצע שינוי נוסף והסניף עובר למחוז
עמק חפר, יש להחליט האס במחוז הקודם יישמר המחוז המקורי, כלומר מחוז המרכו,
או לחילופין המחוז הקודם, כלומר מחוז הצפון. עקרונית ניתן להצמיד לרשומה גם
תאריך המצביע על מועד ביצוע השינוי בשיוך הסניף למחוז.
ניתן להתייחס אל טכניקה זו כאל פשרה מסוימת בין שתי הטכניקות הקודמות - מצד
אחד לא מתעלמים לחלוטין מהשינויים כמו בשיטה הראשונה, ומאידך לא מנהלים את כל
היסטוריית השינויים כמו השיטה השנייה. טכניקה זו קלה יותר ליישוס, מפני שאין צורך
ביצירת רשומה נוספת והקצאת מפתח חדש. החסרון המרכזי שלה נובע מאיבוד הרצף
ההיסטורי וחיכולת לשייך במדויק את המכירות למצב האמיתי בכל עת.
ניהול סיכומים (וחִסחחִסִהַבּהה13] 00760316 )
הצורך בניהול סיכומים
סיכומיס מהוויס מרכיב חשוב בתפיסת מחסן הנתוניס. מספר רב מאוד של שאילתות
המופעלות בסביבת מחסן הנתוניס מתייחסות לסיכומיס ברמות שונות - מה היה סך כל
התביעות שקיבלנו בשנה אחרונה לסוג מסויס של לקוחות חברת הביטוח, מי הס סניפי
הבנק בהס סך כל ההפקדות לתוכניות חסכון מסוג מסויס היו הגבוהות ביותר בחודשייס
האחרונים, מי הס יעדי השיחות בחברת טלקומוניקציה שסך כל דקות השיחה אליהס
היה הנמוך ביותר ברבעון האחרון, וכדומה. ניתן לבצע סיכומיס אלה תוך כדי ביצוע
השאילתה, מתוך הנחה שכל הנתוניסם הדרושיס לביצוע הסיכומיס מנוהלים במחסן
הנתוניס. הבעיה היא ומן העיבוד הנדרש לאחזור כל השורות וביצוע הסיכומים. ניתן
להשיג שיפור דרמטי בביצוע השאילתות אס מחסן הנתוניס יכיל סיכומיס מחושביס
מראש (007608168 608|00!8160זק).
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 163
החשיבות בניהול הסיכומים נובעת משיפור הביצועיס המשמעותי אותו ניתן להשיג.
שיפור זה בא על חשבון גידול בנפח אחסון הנתוניס וסיבוכיות נוספת, הנובעת מתחזוקת
הסיכומים. הגידול בנפח הנתוניס והסיבוכיות הנוספת הס כתוצאה מכך שעס כל טעינה
חדשה של נתוניס למחסן הנתוניסם יש לעדכן, או לחשב מחדש, את כל הסיכומים
הרלוונטייס.
השאלה היא, כיצד ניתן לסכס את הנתוניס באופן משמעותי, או מהן הדרכיס שתשפרנה
את השאילתות הנפוצות. אס נתבונן במימדיס המנוהליס במחסן הנתוניסם נראה את
ההיררכיות הפנימיות: מוצר, קבוצת מוצר, קו מוצר או סניף, מחוז, אזור או יוס, שבוע,
חודש, רבעון וכדומה. אלה הס המועמדיס הטבעיים לניהול סיכומיס ברמות השונות של
ההיררכיה (קט!|ס4 60816ז007).
ניתן לנהל סיכומים בכל מימד בנפרד, עבור רמות היררכיות שונות של אותו מימד ועבור
צירופים מסוימיסם של מימדים והיררכיות בתוך המימדיס. מכיון שכמות הצירופיס
האפשריים גדולה מאוד, אין כל הגיוו בחישוב מראש של כל הסיכומיס האפשריים. את
הסיכומיס יש לבנות מראש עבור השאילתות הנמצאות בשימוש בתדירות גבוהה. קשה
מאוד לדעת מראש מה תהיינה השאילתות הנפוצות ביותר. לכן מקובל לבנות תחילה
כמות מצומצמת מאוד של סיכומים, לעקוב אחר השאילתות ולבנות סיכומיס המבוססיס
על סטטיסטיקות של השאילתות. בהתאס לסטטיסטיקות אלו ניתן להוסיף סיכומיס
חדשים, או למחוק סיכומיס שהשימוש בהם נדיר.
טכניקות לניהול סיכומים
בעיקרון קיימות שתי שיטות עיקריות לניהול סיכומים: ניהול הסיכומים בטבלה נפרדת,
או ניהול הנתוניס יחד עם שאר הנתוניס בטבלת העובדות. למרות ששתי השיטות דומות,
מבחינת נפח הדיסק הנוסף הנדרש לניהול הסיכומים, הן נבדלות באופן משמעותי בצורת
השימוש, נוחות הניהול וצורת העדכון שלהן.
ניהול הסיכומים בטבלת העובדות
מטרת שיטה זו לנצל את מודל הנתונים הקייס כדי לנהל את הסיכומים, מבלי להוסיף
טבלאות חדשות. הסיכומיס עצמס מנוהליס בטבלת העובדות, בתור שורות מיוחדות.
נשתמש בדוגמה המופיעה בתרשים הבא כדי להסביר את השיטה. נניח שאנו רוציס לנהל
את סך כל המכירות ברמת המימד הגיאוגרפי, כלומר סניף, אזור ומחוז. משמעות הדבר
היא שיהיה צורך לנהל בטבלת המכירות מספר שורות מיוחדות - שורה אחת עבור סך כל
המכירות לכל סניף, שורה אחת עבור סך כל המכירות לכל אזור ושורה אחת עבור סך כל
המכירות לכל מחוז. לדוגמה, אס יש 70 סניפים, 10 אזוריס ו-4 מחוזות נצטרך לנהל 84
שורות נוספות בטבלת העובדות. לכל אחת מ-84 שורות אלו נצטרך לקבוע מפתח מיוחד.
נוסיף לטבלת המימד של הסניפים 84 שורות נוספות, ולהן ניתן מפתח חד משמעי. כמו כן,
נוסיף עמודה מיוחדת לטבלת הסניפים - רמת הסיכוס. עמודה זו תקבל אחד מארבעת
הערכיס האפשריים - 1 יציין שו שורה של מידע מפורט, 2 יצייו שאו שורת סיכוס ברמת
סניף, 3 יציין שאו רמת סיכוס ברמת האזור ו-4 יציין שזו רמת סיכוס ברמת המחוז.
4 מחסנל נתונים
מפתח מיקום
קוד מחוז
קוד אזור
קוד סניף
שם מחוז
ם מנהל מחוז
שם אזור
-
ו שם דבעו[ כתובת
קוד מוצר קוד מוצר שס חודש דמה
קוד קו מוצר תאליך תאריך התחלה
קוד קבוצת מוצר מפתח מיקום
שם קו מוצר מכידות
שסם קבוצת מוצר ביחידות
תיאור מוצר מכירות בש"ח
ו רמה1- סה"כ לסניף
| 7מה2- סה"כ לאזור
דמה3- סה"כ למחוז
תרשים 6.32: מבנה כוכב עם סיכום ברמת סניף, אזור ומחוז.
בתרשיסם הבא נדגיס את תוכן טבלת העובדות וטבלת הסניפים. מטבלת הסניפים ניתן
לראות שסניפים 51, 52, ו-53 שייכים כולס לאזור ₪1 במחוז 21. סניפיס 54 ו-55
שייכים לאזור ₪2 במחוז ₪01. המפתח 46 בטבלת הסניפים מציין שזוהי שורת סיכוס
עבור כל הסניפים השייכים לאזור ₪1 במחוז 21. בדומה, המפתח 07 מציין שזוהי שורת
הסיכום של כל הסניפים השייכים לאזור ₪2 במחוז 1כ. ואכן, אם נסתכל בטבלת
העובדות על השורה שהמפתח שלה הוא 6א, נראה שהעמודה מכירות בש''ח מכילה את
סיכוס המכירות של סניף 51. בדומה, השורה עס מפתח 47 מכילה את סיכום המכירות
של סניף 52. השורה עס מפתח 48 מכילה את סיכוס המכירות של כל הסניפים השייכיס
לאזור 1, וכן הלאה.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 165
טבלת עובדות טבלת מימד גיאוגרפי
מכירות | מפתח | מפתח מפתח רמת קוד מפתחת |מפתח | מפתת
בש"ח | זמ מוצר סני סיכום | סניף |אזור מחוז סניף
1 1 | 1 0 1 1 231 1
0
0
0
0
1
1
2
2
3
תרשים 6.33: תוכן טבלת עובדות וסניפים עם סיכומים.
החסרון העיקרי של שיטה זו הוא שכל שאילתה צריכה להכיל התייחסות לעמודה
המציינת את רמת הסיכוס. התעלמות מעמודה זו יכולה להביא לתשובה שגויה של
השאילתה. גס שאילתה המבקשת לראות את השורות הפרטניות חייבת להגביל את
השאילתה לשורות עס רמת סיכוס 0, אחרת גם שורות סיכומיות יצטרפו לתוצאה.
בהמשך, מופיעה שאילתה המבקשת להציג את סך כל המכירות עבור כל אחד משלושת
המחוזות צפון, מרכז ודרוס.
נאססאג 4106 אגא [0זאזפום - ₪07]ע .1
15 ][אסתץ .2
אצמא 51085 שא .3
צמא 1085 זי 1 6) .+
5
פא ג ('5000* ,'1131מ6)* ,'תוצוטסא) אז מ]א א 15161 מאתצשו
(3 = ,1 וט 1
0 4
87 ו
מכיון שמציין רמת הסיכוס מופיע רק בטבלת הסניפים יש תחילה לשלוף, באמצעות תת
שאילתה, את מפתחות רשומות הסיכוס ברמת המחוצ (כלומר, אלה בהס מופיעה רמת
סיכוס 3) ולמסור מפתחות אלה לשאילתה הראשית, כדי להציג את סך כל המכירות. שים
לב שלמרות ששאילתה זו מציגה סיכומים, היא אינה משתמשת בפונקציה הט5 של שפת
1. ואת מכיון שהסיכום כבר מחושב ומנוהל בטבלת העובדות.
6 מחסנל נתונים
בנוסף לחסרון המוזכר, שיטה זו היא קשיחה ומחייבת קביעה מראש של רמות הסיכוס
המבוקשות. כל שינוי ברמות הסיכוס הוא מורכב, ודורש טיפול בטבלת העובדות (הטבלה
הגדולה ביותר, והטיפול בה הוא המורכב ביותר).
ניהול טבלאות סיכומים נפרדות
בשיטה זו מנוהליס הסיכומיס בטבלאות נפרדות וייעודיות. בתרשיס הבא מופיעה דוגמה
לסכמת פתיתי שלג, המכילה גם שתי טבלאות סיכומיות - סיכוס מכירות עבור האזור
ועבור המחוז. היתרון העיקרי של שיטה זו נובע מההפרדה הברורה בין טבלת העובדות
לבין טבלאות הסיכומים. אין צורך להתייחס בכל שאילתה לעמודה המיוחדת של רמת
הסיכום, והפנייה לטבלאות הסיכומים מתבצעת רק כאשר השאילתה צריכה להציג
סיכומים. שיטת ניהול טבלאות אלו היא פשוטה - מייד עס סיוס טעינת נתוניסם חדשיס
למחסן הנתוניס מתבצעת מחיקת טבלאות הסיכומים ומופעלות פקודות 501, ליצירה
מחדש של טבלת הסיכומים.
קו מוצר
קוד קו מוצר
שם קו מוצר
סה"כ לאזור
קוד אזול
קוד מוצל
קבוצת מוצר 0
קוד קבוצת מוצר
שם קבוצת מוצר
תיאור מוצר
קוד מחוז
קוד מוצר
תאליך
מכידות בש"ח
|/ מחוז
יי
מפתח קוד מחוז
(פתח סנ .
קוד ל 4 שם מנהל מחוז
קלוד פוב
כ- מפתח סנל
מכירות ביחידות |
קוד מחוז
, ₪
מכירות בש "הת קוד אזור
שם סניף
כתובת
תרשים 6.34: סכמת פתיתי שלג עם שתי טבלאות סיכומים.
יתרונות וחסרונות שיטות ניהול הסיכומים
לכל אחת מהשיטות המוזכרות כאן יש יתרונות וחסרונות. הטבלה הבאה מציגה באופן
תמציתי את עיקרי ההבדלים בין שתי השיטות.
הס שימוש במצייני רמת סיכום ניהול טבלאות סיכומים נפרדות
מספר מספר הטבלאות המנוהלות אינו מספר הטבלאות גדל. החלטה לנהל
הטבלאות משתנה כתוצאה מניהול הסיכומים. | מספר רב של סיכומים יכולה להגדיל
פרק 6: עיצוב רב-מימדי של בסיסי נתוניס טבלאייס | 167
- שימוש במצייני רמת סיכום ניהול טבלאות סיכומים נפרדות
הסיכומים מנוהליס במבנה הטבעי באופו משמעותי את מספר הטבלאות.
של בסיס הנתוניס.
סייבוך
השאילתה
מחייב את המשתמש להבין את
מצייני הרמה, ולהשתמש בהם בכל
שאילתה. אי שימוש במצייני הרמה
עלול להביא להצגת תוצאות לא
נכונות.
ביצועים ביצועיס טוביס פחות, מפני
שהסיכומים מנוהליס כחלק מטבלת
העובדות הרגילה (שממילא היא
הטבלה הגדולה ביותר). אינדקסיס
של טבלת העובדות מסייעים בשיפור
ביצועי השאילתה.
ניהול
בסיס
הנתוניס
רגישות
לשינויים
פשוט יחסית. אין שינוי לעומת מצב
רגיל, מפני שכמות הטבלאות אינה
משתנה.
גדולה יותר. הוספת סיכומיס
חדשים יכולה להיות מורכבת למדי,
בשל הצורך לגעת בטבלאות
העובדות והמימדים. הוספת רמת
סיכוס בין רמות קיימות, יכולה
להיות פעולה מורכבת מאוד.
מורכב יותר. הלוגיקה של מצייני
הרמה מורכבת יותר, ובדרך כלל
מחייבת שימוש בתוכניות מיוחדות.
חישוב
הסיכומים
מחייב את המשתמש להכיר את
טבלאות הסיכומים, ולהפנות את
השאילתה לטבלאות הסיכומים, או
לטבלת העובדות. כיוס, קיימים כליס
המאפשריס הגדרת טבלאות הסיכוס
במילון הנתונים, וביצוע המרה
אוטומטית של משפטי .501 הפוניס
לטבלאות העובדות לפני הפנייה
לטבלאות הסיכוס.
ביצועים טובים, אם צריך רק בנתוניס
הסיכומים. אס צריך לבצע צירוף עס
טבלאות נוספות הביצועים יורדים.
מורכב יותר, מפני שמספר הטבלאות
גדול יותר. מבחינת גיבויים/שחזורים -
שיטה זו מורכבת יותר.
קטנה יחסית. פעולת הוספת סיכוס
חדש, או ביטול סיכוס קיים, אינה
משפיעה על יתר הטבלאות. כל שנדרש
הוא לבנות טבלת סיכומיס חדשה, או
לבטל טבלת סיכומים קיימת.
פשוט יחסית. ניתן להכין את טבלאות
הסיכומיס באמצעות פקודות 501
פשוטות - מחיקת טבלת הסיכומיס
והכנת טבלה חדשה.
השיטה המועדפת כיוס על מעצבי בסיסי הנתוניס בסביבת מחסן נתוניס היא ניהול נפרד
של טבלאות הסיכומים, בעיקר בשל פשטות השיטה ואי רגישותה לשינוייס בדרישות
לניהול הסיכומיס.
קביעת מספר טבלאות הסיכומים שיש לנהל
במובן מסויס, ניתן להסתכל על טבלאות הסיכומיס כהרחבה טבעית של טבלת העובדות.
הוספת טבלאות הסיכומיס אינה משנה את המבנה הבסיסי של טבלאות העובדות. לכן,
סכמה של בסיס הנתוניסם נשארת במבנה סכמת הכוכב, או פתיתי שלג. כל ההבדל הוא
שרשומות מטבלת העובדות מסוכמות, וזאת כדי ליעל את השאילתות.
ההחלטה אילו טבלאות סיכומים ינוהלו, אינה החלטה פשוטה. מאחר והשאילתות
המופעלות בסביבת מחסן הנתוניס משתנות, יהיה צורך לשנות גסם את טבלאות הסיכומיס
8 מחסנל נתונים
בהתאם. בכל מקרה, יש להגדיר לפחות את האוכלוסיה הראשונית של טבלאות
הסיכומיס, ומעת לעת להתאימה לדרישות. למרות הנטייה הטבעית להגדיר מספר רב של
טבלאות סיכומים, יש לבחון את הצורך בטבלאות הסיכומים. יש לבנות רק את אלו
שסביר שיתבקשו על ידי המשתמשים וסביר שיביאו לחסכון משמעותי בומן העיבוד.
מכיוו שבדרך כלל קשה לנחש מראש את הסיכומים הדרושים, מומלצ לבנות רק סיכומיס
שברור שידרשו, ובהמשך לעקוב אחר השימוש במחסן הנתוניס ולבנות טבלאות חדשות,
או לבטל קיימות, לפי הצורך.
לדוגמה, נתייחס למחסן נתוניס העוסק במכירות, ויש בו טבלת עובדות המכילה את סך
כל המכירות היומיות לכל מוצר וסניף, ושלוש טבלאות מימדים - מוצרים, סניפים וזמן.
בתוך מימד המוצרים קיימת היררכיה של מוצרים וקווי מוצר, ובתוך מימד הסניפים
קיימת היררכיה של סניפים ואזורים.
תאריך
שנה מפתח סניף
רבעון קוד סניף
מכירות חודש קוד אזור
קוד מוצל שבוע שם אזור
קוד קו מוצר קוד מוצכ שס דבעון קוד מחוז
שם קו מוצר תארי שם חודש שם מחוז
קוד קבוצת מוצר מפתח סניך התחלת שם סניף
שם קבוצת מוצר מכירות ביחידות | כתובת
תיאור מוצר מכירות בש"ח |שם מנהל סניף
תרשים 6.35: סכמת כוכב עם שלושה מימדים.
בכל אחד מהמימדיסם קיימות היררכיות במספר רמות. רמת הפירוט המנוהלת בטבלת
העובדות היא הרמה היומית, כלומר סך כל המכירות למוצר, לסניף ביוס. אס נרצה לנהל
סיכומיס מעבר לרמת הפירוט המנוהלת בטבלת העובדות, נצטרך לבנות טבלאות
סיכומיס מתאימות. בתרשיס הבא מופיעה טבלת סיכוס המכילה את סיכוס המכירות
למחוז, בחודש. שיס לב שהטבלה קשורה רק למימד הזמן ומימד הסניף, ולא למימד
המוצרים, מפני שהסיכוס מתייחס רק למכירות לפי מחוז וחודש, ולא לפי מוצר.
סיכום מכידות למחוז לחודש
קוד מחוז
חודש
סה"כ מכירות בש"ח
מפתח סניף
קוד סניף
קוד אזור
מכלילות שם אזוד
קוד מחוז
שם מחוז
שס סניף
כתובת
שם מנהל סניף
קוד מוצר
קוד קו מוצר שם רבעון
שם קו מוצר שם חודש
קוד קבוצת מוצר מפתח סניך התחלה
שס קבוצת מוצר מכירות ביחידות |"
תיאוד מוצר מכירות ב |=לל
תרשים 6.36: סכמת כוכב עם טבלת סיכום מכירות לפי מחוז וחודש.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאיים | 169
ניתן ליצור מספר רב מאוד של צירופים שונים המייצגיס רמות סיכוס שונות. בעיקרון,
יכולנו ליצור טבלת סיכוס עבור כל רמה בהיררכיית המימד, תוך שמירה על רמת הפירוט
בכל יתר המימדים. אס נתייחס רק לשני מימדים, כאשר לכל אחד מהס ח ו-ח רמות
היררכיות בהתאמה, יתקבלו ח א ח צירופים אפשריים. ככל שמספר המימדים ומספר
הרמות ההיררכיות בתוך המימד גדלים, כך גס גדל באופן דרמטי מספר הצירופיס
האפשריים. התרשיס הבא מציג דוגמה של הצירופים האפשריים עבור מימד הזמן ומימד
הסניף בלבד. שיס לב שאין צורך לנהל את הרמה היומית של הסניף, מפני שזו רמת
הפירוט המנוהלת בטבלת העובדות.
2% 1 2% 41 1 סה"'ב בללי
41 ו 2% 41 2% מחו
2% 2% 2% 2% 2% אזור
סניף
סה"כ כללי ובעוני חודשי שבועי יומי
תרשים 6.37: צירופים אפשריים של סיכומים עבור שני מימדים.
נתבונן בדוגמה נוספת, של צירופים אפשרייס עס שלושה מימדים. נציג רק חלק מבין כל
הצירופיס האפשריים. בתרשים הבא מופיעים מספר צירופים אפשריים וכל צירוף כוּה
קיבל מספר מזהה. לדוגמה צירוף 1 מייצג סיכום של מוצר לאזור ביום. צירוף 4 מייצג
סיכוס של משפחת מוצר למחוז בשנה. ניתן ליצור מספר רב של צירופים שוניס.
סה"כ למוצר ,לאזור ,ליוס
סה''כ למוצר ,למחוז ,לחודש
סה"כ לקו מוצר ,לסניף ,לרבעון
רבעון סה"כ למשפחת מוצר ,למחוז ,לשנה
תרשים 6.38: צירופים שונים של רמות סיכום.
מקובל לחלק את טבלאות הסיכומים למספר קטגוריות, בהתאס למספר רמות הביניים
המשתתפות בסיכוס (מעבר לרמת הפירוט הבסיסית). הרמה הבסיסית, בדוגמה שלנו,
היא סך כל המכירות למוצר, לסניף ביוס. רמה זו מנוהלת ישירות בטבלת העובדות. אס
0 מחסני נתונים
בטבלת הסיכוס משתתפת רמת בינייס אחת, נאמר שטבלת הסיכום היא ברמת סיכוס
בינייס אחת (פוהחָ6ז8פָ עְ3\ 6ח0). אס בטבלת הסיכוס משתתפות שתי רמות ביניים,
נאמר שטבלת הסיכום היא בשתי רמות סיכוס בינייס (סזַהּחָפִזְפֶחָ עְה3\ סשוד), וכן
הלאה. לדוגמה, בטבלת סיכוס לקו מוצר לסניף ליוס, קו המוצר הוא ברמת סיכוס
ביניים. לעומתו, שני המימדיס האחריס נמצאיס ברמת הבסיס, לכן אהו סיכום ברמה
אחת. לעומת ואת, טבלת הסיכוס למשפחת מוצר, למחוז לשנה היא ברמה שלוש.
כעת, ננסה לתכנן את מספר טבלאות הסיכוס אותן יש לנהל. מספר זה תלוי בדרישות
ובשאילתות הטיפוסיות שיפעילו המשתמשים.
נניח, לצורך הדוגמה, שזיהינו את הדרישות הבאות לניהול סיכומים :
> סיכוס המכירות לפי קו מוצר ולפי סניף/אוור במימד הסניפים ולפי יוס/חודש
במימד הזמן.
+> סיכום המכירות לפי אזור ולפי מוצר/קו מוצר במימד המוצרים ולפי יוס/חודש
במימד הזמן.
> סיכום המכירות לפי חודש ולפי מוצר/קו מוצר במימד המוצר ולפי סניף/אזור
במימד הסניפים.
התרשים הבא מייצג את כל הצירופיסם של טבלאות הסיכומיס הנדרשות כדי לתמוך
בדרישה צו.
5 5
סה"כ למוצר ,לסניף ,לחודש
סה"כ למוצר ,לאזור ,לחודש
סה''כ למוצר ,לאזור ,ליום
סה"כ לקו מוצר ,לסניף ,ליום
סה"כ לקו מוצר ,לסניף ,לחודש
סה"כ לקו מוצר ,לאזור ,ליום
סה"כ לקו מוצר ,לאזור ,לחודש
תרשים 6.39: טבלאות סיכומים.
להלן רשימת הטבלאות המתקבלת לפי הקטגוריות של רמות הסיכוס :
* רמה אחת (פהּחָפזַחְחָ עְ3) 6ח0) - סך הכל לקו מוצר לסניף ליוס
*> רמה אחת (00760816 ע3\ 8ח0) - סך הכל למוצר לסניף לחודש
*> רמה אחת (08760816 ע9\ 6ח0) - סך הכל למוצר לאזור ליוס
פרק 6: עיצוב רב-מימדי של בסיסי נתוניס טבלאייס 171
+ שתי רמות (סוהחַפזִחֶחָ עְּ/ סששד) - סך הכל לקו מוצר לאזור ליוס
> שתי רמות (ס1ָ6ז00ָ עֶ3ּ\ סצוד) - סך הכל לקו מוצר לסניף לחודש
+> שתי רמות (סזהחַפזִחֶחָ עְּ/ סששד) - סך הכל לקו מוצר לאזור ליוס
+> שתי רמות (ס0החַפזְחֶחָ עְ3\ סששד) - סך הכל למוצר לאזור לחודש
+ שלוש רמות (פוַהּחָפז0ֶ0ָ/ עְ3) 66זחד) - סך הכל לקו מוצר לאזור לחודש
התרשיס הבא מציג את סכמת בסיס הנתונים, יחד עס טבלאות הסיכומיסם.
סה"כ לקו מוצר | |] סה"כ לקו מוצר | |] סה"כ לקו מוצר | |] סה"כ לקו מוצר סה"כ למוצר סה"כ למוצר סה"כ למוצר
לסניף לסניף לאזור לאזור לאזור לאזור לסניף
ליום לחודש ליום לחודש ליום לחודש לחודש
תאריך
שנה
רבעון
מכירות 6 מפתח סניף
שבוע
.
קוד מוצר קוד מוצר שם רבעון קוד סניף
קוד קו מוצר תאריד שם הדש קוד אזור
שם קו מוצר מפתח סניף תאליץ תתה ם מנהל מחוז
תיאור מוצר שם אזור
מכירות בש"ח שם סניף
כתובת
תרשים 6.40: סכמת כוכב עם טבלאות סיכומים.
למרות שמספר הצירופים האפשרי לניהול טבלאות סיכומיס יכול להיות גדול מאוד,
החדשות הטובות הן שמיותר לנהל טבלאות סיכומיס מסוימות, למרות שהן נדרשות על
ידי המשתמשים. מאחר וכל טבלת סיכומיס דורשת ניהול ותופסת מקוס אחסון, מומל
לבחון היטב אילו טבלאות סיכוס ינוהלו בבסיס הנתוניס. צמצוס מספר טבלאות
הסיכומיס שננהל יתרחש אם נשיס לב לכך שניתן לחשב סיכומיס ברמות גבוהות יותר
בהיררכיה, מתוך סיכומים ברמות נמוכות יותר. לכן, ייתכן שנעדיף שלא לנהל באופן
ממשי טבלאות סיכום מסוימות, אלא לחשב את הסיכומים תוך כדי ביצוע השאילתה.
לדוגמה, ניתן לחשב סיכוס מכירות רבעוני מתוך הסיכוס החודשי, על ידי סיכוס 3 שורות
בלבד. בדומה, ניתן לחשב את הסיכוס השנתי על ידי סיכום 12 שורות של סיכומיס
חודשיים. לעומת זאת, לא ניתן לחשב את הסיכוס הרבעוני או השנתי מתוך סיכומיס
שבועיים, מכיון ששבוע מסויס יכול להתפרס על פני יותר מרבעון או שנה מסוימת. דוגמה
אחרת יכולה להיות ניהול סיכומיס לקו מוצר. אס, בממוצע, לכל קו מוצר יש 10 מוצרים,
אזי ניתן להגיע בקלות אל סיכוס קו מוצר, לסניף, בחודש על ידי סיכוס 10 שורות מטבלת
סיכוס מוצר, לסניף בחודש. לעומת זאת, אס בקו מוצר יש בממוצע אלפי מוצרים, ברור
שעדיף לנהל את טבלת הסיכומיס באופן ממשי. צורת התבוננות זו יכולה לצמצס באופן
משמעותי את מספר טבלאות הסיכומיס שננהל בבסיס הנתונים.
2 מחסני נתונים
קביעת המפתחות והעמודות של טבלת הסיכומים
על המעצב לקבוע לכל טבלת סיכומיסם את המפתח ואת העמודות הנוספות שינוהלו
בטבלה. בדרך כלל מקובל להשתמש בטבלאות הסיכומים במפתחות טבעיים - כגון קוד
המוצר, קוד הסניף - ולא במפתחות מלאכותיים. להזכירך, הסיבה העיקרית לשימוש
במפתחות מלאכותייס היא כדי לאפשר לנהל בצורה קלה יותר שינוייס אפשרייס לאורך
זמן במפתחות הטבעיים. מכיון שטבלאות הסיכומיס ממילא נבנות מחדש כל פעם, אין כל
צורך להשתמש במפתחות מלאכותיים.
סך הכל לקו סך הכל לקו מוצר
מוצר לסניף ליום לאזור לחודש
קוד קו מוצר קוד קו מוצכ
קוד סנין קוד אזור
חש
שנה
תאריך
סה"כ מכידות בש"ח / 2
מונה מספר מכירות סה מכולות כש. חח
מונה מספר מכירות
תרשים 6.41: תוכן טבלאות סיכומים.
נשיס לב שבדוגמה המופיעה בתרשיס 6.41, טבלת הסיכומיס מכילה רק את המפתח הזר
לטבלת המימדיס הרלוונטית. דבר זה מחייב לבצע פעולת צירוף, ביןו טבלת הסיכומיס
לבין טבלאות מיוחדות המכילות את התיאורים, בכל גישה לטבלת הסיכומים. כדי לחסוך
פעולה זו, ולייעל את השאילתות הסיכומיות, ניתן להחזיק בטבלת הסיכומים את הקודיס
ואת תיאורי המימדים.
סך הכל לקו סך הכל לקו מוצר
מוצר לסניף ליום לאזור לחודש
קוד קו מוצר קוד קו מוצר
קוד סנ קוד אזור
תאריך חודש
תיאור קו מוצר שנת
שם סניף תיאור קו מוצר
סה"כ מכירות בש"ח שם אזוך
2 2
מונה מספר מכירות סה כמכידות בש ה
מונה מספד מכירות
תרשים 6.42: טבלת סיכומים עם תיאורים.
לאחר קביעת מפתחות טבלת הסיכומיס, צריך המעצב להחליט איזה סיכומים ינוהלו -
למשל, סך הכל מכירות בשייח, סך הכל מכירות בדולר וכדומה. תנאי בסיסי לניהול
הסיכוס הוא היות העמודה ברת סיכוס (8צו400/0) בהיררכיה, כלומר לסיכוס יש משמעות
והגיון. בנוסף לסיכומים הברורים, הנובעיס מהנתוניס המנוהליס בטבלת העובדות, יש
לפעמיס צורך לנהל גם נתוניס מצטברים נוספים כגון ממוצע המכירות לתקופה, המכירה
היומית המקסימלית לתקופה, המכירה היומית הנמוכה ביותר לתקופה וכדומה. ניהול
פרק 6: עיצוב רב-מימדי של בסיסי נתוניס טבלאייס 173
נתוניס מצטבריס אלה, ישירות בטבלת הסיכומים, יכול לשפר את השאילתות הזקוקות
לסוג זה של נתוניס.
שים לב שנתון כגון כמות אינו בר סיכוס (8צ/40010 1הח56) בהיררכיות השונות. אין טעס
לסכם את כמות המכירות של מוצר מסויס לסה'יכ לפי קו המוצר, מאחר ולסיכוס זה אין
משמעות מפני שמוצרים שוניס יכוליסם להיות בעלי יחידות מידה שונות, כמו מטריס
וליטרים.
סך הכל לקו סך הכל לקו מוצר
מוצר לסניף ליוס לאזור לחודש
קוד קו מוצ
קוד קו מוצר קוד אזול
קוד סניף חולש
תאליך שנת
סה"כ מכירות בש"ת סה"כ מכידות בש"ח
מונה מספר מכירות ממוצע מכירות בש"ת
מקסימוס מכירות בחודש
מינימוס מכירות בחודש
מונה מספר מכידרות
תרשים 6.43: תוכן לדוגמה של טבלאות סיכומים.
זיהוי אוטומטי של טבלאות הסיכומים
(הסו+3שועב3 4007603%6 6וזּ וחס+זוו)
כל עוד כלי האחזור אינס מזהים טבלאות אלה כטבלאות סיכומים, על המשתמש לקבוע
לאיזו טבלה הוא מבקש להפנות את השאילתה. אס המשתמש אינו מודע לקיומן של
טבלאות הסיכומים, הוא יכול להפנות שאילתות ישירות לטבלת העובדות ולבזבז משאבי
מחשוב רביס ולסבול מזמני תגובה גרועיס. מצב זה אינו טוב, מכיון שהוא מחייב את
המשתמש לדעת אודות אוכלוסיית טבלאות הסיכומיס המנוהלות בבסיס הנתונים, ועליו
לעשות שימוש בידע וה בכל שאילתה.
שיפור משמעותי למצב זה הוא מצב בו כלי האחזור מכיר את הסמנטיקה של הטבלאות
ומחליט באופן אוטומטי לאיוו טבלה להפנות את השאילתה. המשתמש כלל אינו מודע
לקיומן של טבלאות הסיכומים, ובונה את השאילתה באופן רגיל. כלי האחזור בודק, מול
מילון הנתוניס, את הטבלאות ומבצע באופן אוטומטי את המרת השאילתה. למעשה,
נוצרת כאן שכבה נוספת של תוכנה, המקבלת את שאילתת המשתמש, בודקת אותה מול
מילון הנתוניס ומבצעת המרה של השאילתה לשאילתה דומה (מבחינה סמנטית), אך
בהבדל אחד - השאילתה עושה שימוש בטבלאות הסיכוסם. בשיטה זו, ניהול טבלאות
הסיכומיס הוא שקוף, מבחינת המשתמש. הארכיטקטורה המתקבלת מתוארת בתרשיס
הבא.
4 מחסני נתונים
כלי אחזור
שאילתת
"ב
בסיסית
]| מ10)הקסיוט0 שכבת ניווט
סטטיסטיקות סיכומים שאילתת
"ב
שעברה המרה לשימוש
בטבלאות
מערכת ניהול
בסיס הנתונים
סיכומים
תרשים 6.44: ארכיטקטורה של מערכת עם ניווט טבלאות סיכומים.
טבלאות עובדות ,מימדים 0
וסיכומים
נציג דוגמה כיצד מבצעת שכבת ניווט הסיכומיס את המרת השאילתות. נניח, שבסיס
הנתונים כולל, בין היתר, טבלאות סיכומים לקו מוצר, לאזור, בחודש. המשתמש משגר
את השאילתה הבאה, המופנית לטבלת העובדות :
(דאטססואג 64106 זאש5 ,זאג א מאזז זסטספסתץ 7 1
,ד 005זאמץ ,ץ 015 0חץ ,₪ סמדא 3 ,5 541.85 ]אסצוז .2
כעא 160 = ודאסא ד שאמ 3
סאג יפוסא = מזאבא )א דפופ.כפ +
עאג 'ד 070 = פ]ז מאזז 61)ספסאץ.ץ .5
עאג פ]ז אא אם.ם = פז א .5 6
סאג פז ד6טכסאע.ץ = פז 5.01 7
כעז פסזאמץ. = פז פסזחאמק.ך .8
משאבא תאז ז?)טכסאץ צם עטססגאטס 9
משאהא תאז 1?)כסאץ צם תתא 10.0
שכבת ניווט הסיכומים מקבלת את השאילתה ומנתחת אותה. מכיון שהדרישה כאן היא
להציג את סך כל המכירות לקו מוצר מסוים - מוצרי מכולת, בחודש פברואר לאזור הצפון
ניתן להחליף את השאילתה בשאילתה הבאה:
]א דאשססואא 54106 אאגא מאזז דסטספסחץ 5₪0₪07פ
,15 עדאסוא צם )דוס צם תאז צם ,זג דסד ]א0אץ
51 ,כ 75 ד 2 פ6[5טספסחץ
עא 16 = חדאסוא. ד מאמתצש
סאג יפוסא = ואבא 1?)זת דופ.כע
פא ' 00 = פז מאז.ז ז?)טכפסאץ.ץ
סשאג פז )אא אם.ם = פז תא א.5ך
עאג פז ד6טפסתץ.ץ = פז ד)כסת2.פד
כעז פסזאמע.ד = פז פסזתתע.5ך
אגא תאז ז?)כפסגץ צם עט0סג
מעאגא מאזז ד6טספסתץ צם המפתס 10
₪ ₪ 5 ₪ ₪ + ₪ פק
4 גרפ ץק קוא ובר
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 175
זמן התגובה של השאילתה החדשה יהיה מהיר מאוד, בשל היכולת להביא את השורה
המבוקשת במהירות רבה, תוך שימוש באינדקסיס של טבלת הסיכומים. דוגמה זו
מבוססת על ההנחה ששס קו המוצר מנוהל בטבלת הסיכומיס. אם לא זה המצב, יידרש
ביצוע פעולת צירוף עס טבלת קווי המוצר.
כיום, קיימיס כבר מספר כלים המבצעים ניווט אוטומטי בטבלאות הסיכומים. ביניהס
ניתן למנות את 10490008 של חברת אוחזסזח!, 5086ח0ו9ו60כ של חברת חהסוזההזסזח!
68 זפשז56 255 של חברת 548160 סזסוו/!. יצרני מערכות 0815 פועלים
להכניס את התמיכה בניווט בטבלאות סיכומיס למנוע בסיס הנתוניס. לדוגמה חברת
אווחזסזח! שילבה את המוצר 6+890006! כאובייקט בגרסת זפצז06 |88ז6עוח( אוחזזס)ח!
שלה.
חישוב נפח בסיס הנתונים
אחד הפרמטריס החשוביס ביותר של מחסן הנתוניס הוא נפח הנתוניס הצפוי. פרמטר זה
מכתיב את גודל הדיסקים הנדרשים ואת עוצמת השרת. שיטת חישוב נפח בסיס הנתוניס
פשוטה. השלביס לחישוב נפח בסיס הנתוניס הס:
+ חישוב נפח טבלאות המימדים, על סמך גודל כל טבלה ומספר השורות הצפויות בח;
+ חישוב נפח טבלת העובדות, על סמך רמת הדלילות (ע018ז508) (המכתיבה את מספר
השורות הצפויות);
> חישוב נפח אינדקסים צפויים ;
> חישוב נפח שטחי עבודה.
נפח טבלאות המימדיס והעובדות נקרא נפח הנתונים הגולמיים (2849 שעש48), סיכוס נפח
הנתוניס הגולמיים, יחד עס שטחי האינדקסים ושטחי העבודה, נקרא סך כל נפח מחסן
הנתונים. לעיתים, מקובל להשתמש בכללי אצבע להמרה מנפתח האחסון של הנתוניס
הגולמייס לסך כל נפח מחסן הנתוניס. כלל אצבע כזה קובע שנפח שטחי האינדקסיס
והעבודה המקובליס הם פי 2 עד פי 4 מנפח הנתוניס הגולמיים. ככל שנשאיר שטחי עבודה
גדולים יותר, יש לצפות לזמני תגובה טובים יותר. זאת, מכיון שמערכת פשפסה
משתמשת בשטחים אלה תוך כדי ביצוע השאילתה לאחסון תוצאות בינייס, לביצוע
מיוניס וכדומה.
הדרך הפשוטה ביותר להדגים את שיטת החישוב היא להשתמש בדוגמה. נתבסס על
הדוגמה של סכמת כוכב, המכילה את טבלת העובדות המכילה את סך כל המכירות
לחנות, למוצר, ביוס, וסביבה מספר טבלאות מימדים.
6 מחסני נתונים
מכירות מוצל
קוד מוצ
קוד מוצל לאוד מוצר
קוד סניף
קוד מבצע מבצעים
קוד זמן
ל קוד מבי
שם מבצע
מכידות בש"ח סוג מבצע
תאריך תוקף מבצע
תרשים 6.45: דוגמת סכמת כוכב לחישוב נפחים.
חישוב נפח טבלאות מימדים
יש לחשב בנפרד את נפחה של כל אחת מטבלאות המימדים, בהתבסס על מספר השורות
הצפוי ומספר העמודות בכל טבלה. כדי לפשט את העניין נניח שכל שדה נומרי תופס 4
בתים, וכל שדה טקסט 20 בתים.
> נפח טבלת מוצרים - בהנחה שיש 40,000 מוצריס שונים, לכל מוצר שדה נומרי אחד
ושדה טקסט אחד - יתקבל נפח של 40,000 א (4 + 20) = 960,000 בתים.
+ נפח טבלת סניפים - בהנחה שיש 200 סניפים שונים, לכל סניף שדה נומרי אחד ושני
שדות טקסט - יתקבל נפח אחסון של 500 א (4 + 40) = 22,000 בתיסם.
+ נפח טבלת זמן - בהנחה שנשמור היסטוריה של שנתיים, בכל שנה 365 ימים - יתקבל
2 א 365 א (4+4+20) = 20,440 בתים.
+ נפח טבלת מבצעים - מכיון שסביר להניח שזו טבלה קטנה, נתעלסם ממנה לצורך
חישוב הנפחים.
סך כל נפח האחסון של טבלאות המימדים יהיה 960,000 + 22,000 + 20,440 = 1,002,440
בתים, כלומר כ- 108. והו הנפח הגולמי. אס נניח יחס של פי 3 להמרת נפח גולמי לנפת
כולל, נקבל במקרה זה 40₪.
חישוב נפח טבלת העובדות
בהתחשב בנתונים הקודמים, מספר האפשרויות יכול להגיע לכדי 40,000 א 200 א 730 =
0 רשומות אפשריות בטבלת העובדות, כלומר כמעט 6 מיליארד רשומות.
למרבה המצל, לא בכל יוס מוכריס כל מוצר בכל חנות, ולכן חישוב וה הוא תיאורטי
בלבד. כאן נכנס לתמונה יחס דלילות הנתוניס (עְופַזה50 ַּו8כ), כלומר מהו היחס בין
מספר המצביס האמיתיים, למספר המצבים האפשריים. נניח שבכל יוס מוכריס רק 2,000
מוצריס בכל חנות, כלומר מקדס הדלילות יהיה 40,000 / 2,000 = 0.05. בבסיס הנתוניס
נשמור שורה אחת בבסיס הנתוניס עבור כל מכירה של מוצר בכל חנות, ולא נשמור שורות
עבור מצביס תיאורטיים. בדרך זו, מספר השורות יהיה קטן בהרבה.
פרק 6: עיצוב רב-מימדי של בסיסי נתונים טבלאייס | 177
נקבל 2,000 א 200 א 730 = 292,000,000 שורות, כלומר כמעט 300 מיליון רשומות.
בטבלת העובדות יש שישה שדות נומרייס ולכן יתקבל נפת אחסון גולמי:
0 << 6 א 4 = 7,008,000,000 בתים, כלומר כ- 708.
על פי אותו יחס המרה של נפת גולמי לנפח כולל, נקבל 2108.
8 מחסני נתונים
פרק 7: כריית נתונים
(פָחוחוו/ בּוְב)
מבוא
כריית נתוניס היא אחד הנושאיםס החמיס ביותר בתחוס מחסני נתוניס. כשעסקנו בפרק 3
בנושאי המרחב האנליטי, ראינו שטכנולוגיית כריית הנתוניס היא זו המאפשרת לנו
להפוך נתוניס למידע ולידע על בסיס מודל הגילוי, ולא על בסיס מודל האימות. בשניס
האחרונות אנו עדיס לגידול מרשיס בכמות הנתוניס המנוהלים באופן אלקטרוני. יש
הקוראיס לתופעה זו גם "התפוצצות המידעיי. עלות יחידות אחסון הנתוניס נמצאת
במגמת ירידה מתמדת, ולכן התלבטות הארגון לגבי איסוף הנתוניס הופכת לפחות ופחות
רלוונטית. ההתלבטות החשובה יותר היא, בעצם, מה ניתן לעשות עס הנתוניס
המצטבריסם תוך כדי הפעילות השוטפת. טכנולוגיית כריית הנתוניס היא אחת
הטכנולוגיות העיקריות המאפשרות לארגון לעשות שימוש טוב יותר בנתונים, ולנצל
משאב חשוב זה.
בפרק גה נסביר מהי טכנולוגיה זו, מדוע היא כה חשובה ומושכת תשומת לב וכיצד היא
משתלבת בתפיסת מחסן הנתונים. נושא כריית הנתוניס הוא נושא רחב מאוד, בחלק
מהמקריס הוא יכול להפוך גם לטכני מאוד, ובקלות ניתן להקדיש לו ספר שלם. מטרת
פרק זה היא לסקור בתמציתיות נושא חשוב זה, מבלי להעמיק יתר על המידה
באלגוריתמים ובטכניקות המתמטיות העומדות בבסיס התפיסה.
מהי כריית נתונים
כריית הנתוניס היא אחד היישומים החשובים ביותר במסגרת תפיסת מחסני הנתונים,
מכיון שהיא מאפשרת זיהוי תבניות וחוקיות בנתוניס. תהליך כריית הנתוניס קיבל את
שמו מההקבלה שניתן למצוא בין תהליך הכרייה במכרה יהלומיס לאיתור מעט אבני חן
עתירות ערך מבין טונות רבות של אדמה, לבין תהליך הכרייה בהר נתוניס לאיתור המידע
החשוב והבלתי ידוע, כלומר ייהיהלומיס העסקייס'י.
קיימות הגדרות שונות למושג ייכריית נתוניםיי, כמעט כמספר החוקרים העוסקיס בתחוס
זה וכמספר היצרניס המפתחים כלי כריית נתוניס. יצרני כלי התוכנה מאמציס מושג זה
פרק 7: כריית נתוניס | 179
בחופשיות רבה, ולכן המציאות היא שכמעט כל יצרן מגדיר מחדש את המושג, על פי
הבנתו ורצונו. אפשר כמובן להסתפק בהגדרה רחבה מאוד, הטוענת שכריית נתוניסם היא
תהליך המבוסס על כלים שוניס המאפשרים, בסופו של דבר, הבנה טובה יותר של
הנתוניס. תחת הגדרה רחבה זו ניתן גם לקרוא לכל מחולל שאילתות פשוט כלי לכריית
נתונים. וה אינו המצב, וקיימת הגדרה ממוקדת יותר לכריית נתוניס. מאחר ואין הגדרה
אחת מוסכמת, נציג מספר הגדרות.
1: כריית נתונים היא תפיסה העוסקת בהפעלת טכנולוגיות מחשוביות ואלגוריתמים
לומדים במטרה לגלות ולמצות תבניות, מגמות, סתירות וידע מתוך הנתונים.
2: כריית נתונים היא יישום של טכניקות אינטליגנציה מלאכותית (כגון |פזטסצ
5זסשזסא, סוחס 1 עץ22טת=, פתזוסט|ה 0260806 וכדומה) במאגרי נתונים גדולים
במטרה לגלות מגמות נסתרות, תבניות וקשרים בין הנתונים, וכדי להפוך ידע זה
להחלטות עסקיות וביצועיות.
3: כריית נתונים היא תפיסה העוסקת באוסף של טכניקות אוטומטיות ממוחשבות
שמטרתה לחקור, לגלות ולהציף יחסים וקשרים מורכבים במאגרי נתונים גדולים.
4: כריית נתונים הוא תהליך של חיפוש אחר יחסים ותבניות כלליות הקיימות בבסיסי
נתונים גדולים, אך נסתרים בים הנתונים. יחסים אלה מייצגים ידע בעל משמעות לארגון
ולתהליכי קבלת ההחלטות.
מקריאת הגדרות אלו ניתן לאגהות את המכנה המשותף העומד בבסיס כריית הנתוניס :
* זו תפיסה המתבססת על מיגוון רחב של טכניקות ואלגוריתמיס מתותכמים שונים,
שרובס לקותחים מתחום האינטליגנציה המלאכותית והסטטיסטיקה. אין שיטה אחת
המתאימה לכל הצרכים, ולכן יש להפעיל טכניקות שונות עבור בעיות שונות. כפי
שנראה בהמשך, עצס ההבנה איזו טכניקה יש להפעיל עבור איזו בעיה, היא בעצמה
מהווה אתגר לא טרוויאלי.
+ וו טכניקה המבוססת על עבודה מול אוספי נתוניס גדוליס. כלומר, טכניקות הגילוי
דורשות מספר רב של אירועיס כדי שניתן יהיה לגלות תבנית או מגמה כלשהי.
התבססות על מספר קטן של אירועיס יכול להביא לתוצאות מוטעות.
*+ זו טכניקה המהווה חלק מתפיסת מחסן הנתונים, ואינה מחליפה אותו. כדי להפעיל
את האלגוריתמים השוניס צריך נתוניס, ומקורס הטבעי הוא מחסן הנתונים. הסיבה
לכך היא שנתונים אלה המנוהלים במחסן נתוניס עברו תהליכי ניקוי, המרה,
אינטגרציה ובקרת איכות. אספקת נתוניס לא איכותיים לאלגוריתמים האוטומטייס
יכולה להביא למסקנות חסרות כל שחר ואחיזה, וכתוצאה מכך לקבלת החלטות
שגויות.
0 מחסנל נתונים
כדי להבין טוב יותר את האבחנה בין מחוללי שאילתות וכלי ניתוח סטנדרטיים, לבין
טכניקות כריית הנתוניס, נבחן את הנחת העבודה העומדת בבסיסה של כל אחת
מהשיטות. בעיקרון, ניתן לאזהות שתי קטגוריות עיקריות של תהליכי ניתוח נתוניס -
תהליכי ניתוח מבוססי אימות ותהליכי ניתוח מבוססי גילוי. למרות שנושאים אלה הוצגו
בפרק 3 בספר, נחזור כאן על חלק מהדבריס, לטובת שטף הקריאה.
.*
+*
תהליכי ניתוח מבוססי אימות (8]515ח/ 28560 ח0800וו0/): מספר רב של כלי
ניתוח מידע מבוסס על העיקרון שהמשתמש בונה הנחה כלשהי - היפותזת - ומתחיל
להפעיל טכניקות גילוי שונות שאמורות לאושש, או לסתור, הנחה זו. תהליכיס אלה
מבוססיס על המשתמש, על יכולתו להניח את ההנחות הנכונות, על שיקוליו בבואו
לבחון את ההנחות ועל הפרשנות שלו לממצאים. במיליס אחרות, תפיסה זו מבוססת
לא מעט על כישוריו של המשתמש, על האינטואיציה שלו ועל יכולתו להניח הנחות
ולבנות את השאלות הנכונות, כדי לבחון אותן. יעילות שיטה וו תלויה במידה רבה
במספר רב של גורמים. ביניהס, ביכולת מנתח המידע לחרוג 'ימהקופסה'י, כלומר
לבחון גס תבניות ומגמות לא גלויות. מחוללי השאילתות והדוחות שייכיס לקטגוריה
זו, ומאפשריס למשתמש לחולל בקלות משפטי .501 מורכבים, ולקבל במהירות
יחסית את התוצאות. כליס אלה אינס מנחיס באופן כלשהו את המשתמש איזה
שאילתות עליו לשאול, ומה המסקנות המסתתרות בתוצאה המתקבלת.
כלי הניתוח הרב-מימדיים מאפשרים את הצגת הנתוניס בצורה מתוחכמת
ומתבססים, במידה רבה, על חישובים שוניס הנעשיס מראש. כלי ניתוח סטטיסטייס
מאפשרים את הניתוח בין מספר משתנים, ומאפשרים להגדיר את המובהקות
הסטטיסטית ביניהם. כדי להמחיש את תהליך הניתוח המבוסס על אימות נשתמש
בדוגמה מתחוס השיווק והדיוור הישיר. חברה מבקשת לצאת במבצע שיווק למוצר
חדש, ועליה להחליט למי מלקוחותיה לשלוח מידע על המוצר חדש. מטרת הדיוור
היא להגיע ללקוחות לגביהם קיימת הסבירות הגבוהה ביותר שיהיו מעונייניס
לרכוש את המוצר. מנתח המידע בונה לעצמו מודל כלשהו המניח מה הן התכונות
הרלוונטיות ביותר של הלקוחות (כגון אזור מגוריס, רמת הכנסה, תבנית רכישות
קודמות של הלקוח וכדומה). בהתבסס על מודל זה הוא מתחיל להפעיל סידרת
שאילתות על הנתוניס, או אמצעי ניתוח אחרים. הוא בוחן את התוצאות, מתקן את
השאילתות וחוזר חלילה, עד שהוא מגיע לרשימת הלקוחות הרצויה. לא ניתן לומר
שבתהליך זה נוצר ידע חדש, אך מתבצע אימות של הנחות מול הנתונים.
תהליכי ניתוח מבוססי גילול (פו5ץ|הח/ 28560 עזסצסספוכ): טכניקת כריית
הנתוניס המבוססת על טכניקות גילוי, פועלת באופן שונה. כאן, המשתמש אינו מניח
הנחות כלשהן, אלא מאפשר לכלים האוטומטיים לפעול מול הנתוניס ולהציף את
התבניות המסתתרות בנתוניס. אס להשתמש באנלוגיה בה כבר השתמשנו, המשתמש
מאפשר לכלים האוטומטיים לגלות את היהלומיס העסקיים המסתתרים בנתונים.
כלי כריית הנתוניס בוחניס מספר רב של משתנים בו-ומנית, ויכולים להציף יחסיס
שוניס בין הנתוניסם, להצביע על קשריס מובהקים או על חריגיס מיוחדים.
פרק 7: כריית נתוניס 181
כריית הנתוניס יוצאת מתוך הנתוניס ומנסה לזהות בהס את היחסים, ההקבצות,
התבניות וההקשרים. בדרך כלל פועליס תהליכים אלה באופן טוב יותר מול בסיסי
נתוניס גדולים, המייצגיס מספר רב של תצפיות או עובדות. אס נשתמש בדוגמה
הקודמת, של הגדרת אוכלוסיית הלקוחות למבצע המכירות, הרי שבטכניקות כריית
הנתוניס נפעיל תהליכים שוניס לסיווג הלקוחות לקבוצות שונות, מבלי להניח מראש
מהי קבוצת הלקוחות המתאימה ביותר למבצע. לאחר שנאתר את ההקבצות השונות
האפשריות של הלקוחות, נחליט מהי הקבוצה המתאימה ביותר למבצע. במקרה זה,
החיפוש אחר ההקבצות מבוצע ללא הנחה כלשהי מראש. למעשה, מתבצע כאן
תהליך גילוי ההקבצות השונות, לפיהן ניתן לקבצ את אוכלוסיית הלקוחות.
מדיון ה ברור שטכניקות כריית הנתונים שונות מאוד מטכניקות מקובלות לניתות
נתונים. ניתן לומר, שההבדל העיקרי ביניהן הוא מי מניח את הנחה ובודק אותה. במקרה
של תהליכיס מבוססי אימות - המשתמש הוא זה המניח את ההנחה (818160ח06 ההחטר]
5סעח) ובוחן אותה. לעומת זאת, בתהליכים מבוססי גילוי, המחשב מניח את
ההנחה ובודק אותה (0178918ק/ץח 878100ח06 6חוחס3!/). התהליכים מבוססי גילוי
טומניס בחובס את ההבטחה לספק למנתתחי המידע כליס מתותכמים, כדי לאפשר להס
לאתר קשריס מיוחדים ותבניות חדשות (ולא מקובלות) המסתתרות במרחב הנתוניס
(00806 8!/518ח מַזה0).
מו הראוי להדגיש שיש להתייחס לשני תהליכי הניתוח כאל תהליכים משלימים, ולא
תחליפיים. הכליס לכריית נתוניס אינס מחליפים את מחוללי השאילתות והדוחות
השוניס. הס מהוויס נדבך נוסף מעל כלים אלה, כדי לאפשר מיצוי נרחב יותר של הידע
מבסיס הנתוניס. חלק מהידע יכול להיווצר באמצעות מחוללי שאילתות. אולס, קייס
רובד נוסף של ידע המסתתר בבסיס הנתוניס ואינו בר גילוי באמצעות שאילתות .591,
מתוחכמות ככל שתהיינה. לדוגמה, לא נוכל לנסח שאילתה שתבנה ותציג מהס פלתי
הלקוחות, או מהן מגמות הקנייה בשנתייס האחרונות. ניתן לנסות ולענות על שאלות
כאלה באמצעות שאילתות רגילות, אולס הו תהליך מייגע הדורש הבנה מעמיקה מאוד
של הפרמטרים השונים. לשס כך יש להניח מספר רב של הנחות ולהתחיל בתהליך ניתוח,
שברובו מבוסס על ניסוי וטעייה (זסזח= 0חה |החד). תהליך כזה יכול להימשך זמן רב,
ואין כל ביטחון שאכן ימצה את הידע המצוי בבסיס הנתונים.
בהכללה מסוימת ניתן לומר כך: אס אתה *ודע מה שאתה מחפש - השתמש במחוללי
שאילתות ובניתוח רב-מימדי רגיל. אס אינך יודע - השתמש בטכניקות כריית נתונים.
תחומי המחקר שתרמו
להתפתחות כריית הנתונים
נושא כריית הנתוניס מבוסס על מחקר ממספר תחומי מחקר. התחומיס העיקריים הס
סטטיסטיקה, אינטליגנציה מלאכותית, מערכות לומדות, תהליכי לימוד מלאכותייס
ומודליס ללימוד והיסק. כל תחומי המחקר והטכניקות שהתפתחו בהם, תרמו רבות
להופעת טכנולוגיית כריית הנתונים.
2 מחסנל נתונים
סטטיסטיקה
לסטטיסטיקה יש יסודות מדעיים מוצקיס ופורמליים. הטכניקות הסטטיסטיות תרמו
רבות להתפתחות נושא כריית הנתונים, והן משמשות כבסיס בחלק גדול מהמוצריס
והיישומיס. הטכניקות הסטטיסטיות הנפוצות שתרמו לנושא כריית הנתוניס הן ניתוחי
שונות, חישובי סטיית תקן, ניתוחי אשכולות (8|/519ח/4/ ז010910), ניתוחי רגרסיה
(518ץ|8ח/ ה0ו4607055), ניתוחי סדרות עתיות (8ו9ץ!8ח/ 56765 6חוד), מרווחי
מובהקות ושונות (8|9/זס%ח! 6000806006 סח זההחומוזספוכ), ועוד. הבעיה העיקרית
היא שהבנת ופענוח התוצאות של המודליס הסטטיסטיים השוניס דורשת מיומנות
מיוחדת. כלים סטטיסטיים פופולריים כגון 5056 ו-546 משמשים כבר משך שנים רבות
לאיתור תבניות ויחסים בין נתוניס מתוך מדגס גדול של נתונים. כאמור, נושא כריית
הנתוניס עושה שימוש נרחב בטכניקות סטטיסטיות שונות.
אינטליגנציה מלאכותית
להבדיל מהטכניקות הסטטיסטיות, האינטליגנציה המלאכותית מבוססת על ניסיון
לחקות את מוח האדם, לצורך פתרון בעיות שונות. טכניקות אלה נקראות היורסטיות
(71607151109), והן דורשות בדרך כלל עוצמת חישוב גדולה בהרבה מטכניקות סטטיסטיות
רגילות. רמת ההצלחה של יישומיס אלה, לעומת הציפיות, היתה מוגבלת ועס מספר
יישומיסם מצומצם, אבל המחקר בשטח זה הוליד מספר רעיונות ששימשו בסיס לנושאי
מחקר אחרים.
מערכות לומדות (פַחוח'ו1.63 6חוח₪36)
המערכות הלומדות מהוות הכלאה מסוימת בין טכניקות שמקורן באינטליגנציה
מלאכותית וטכניקות סטטיסטיות. אחת התכונות העיקריות של מערכות המבוססות על
אינטליגנציה מלאכותית היא יכולת הלמידה שלהן. כלומר, היכולת של מערכות אלו
להשתנות באופן דינמי תוך כדי פעולה ולהשתפר עס הזמן, ככל שהן מטפלות ביותר ויותר
מקריס. טכניקות האינטליגנציה המלאכותית מבוססות על למידה מדוגמאות, למידה
באמצעות מדריך או מומחה ועוד. תהליך אה משתדל להגיע להכללה (חסו678|!284ח06))
מהמקריס או מהדוגמאות שהמערכת פוגשת. נושא האינטליגנציה המלאכותית הוא רחב
מאוד, ויכול לשמש למטרות שונות לגמרי מאשר לכריית נתוניס (למשל, כדי לאמן רובוט
לבצע מלאכות מסוימות). לכן, מקובל לומר שנושא כריית נתוניס והפקת מידע מנתוניס
הוא יישוס מסוים של האינטליגנציה המלאכותית. בעוד שנושא כריית הנתוניס עוסק
בעבודה עס מדגמיס גדוליס מאוד, מערכות מבוססות אינטליגנציה מלאכותית בדרך כלל
עובדות עס מדגמיס קטנים יחסית.
פרק 7: כריית נתוניס 183
לימוד והיסק
ההיסק הוא תהליך הפקת מידע מנתוניס בו נבנה מודל כלשהו על ידי ניתוח הסביבה או,
במקרה שלנו, בסיס הנתוניס. בדרך כלל עוסק תהליך זה בסיווג אובייקטיס דומיס
למחלקות, ובהגדרת ובניית כללי הסיווג. כללי סיווג אלה יאפשרו בהמשך את סיווגס של
אובייקטיס חדשיס ולא מוכריס לאחת המחלקות, או לבניית מחלקה חדשה. תהליך וה
עוסק בניתוח מאפייני האובייקטים, ומציאת מאפיינים וערכס המאפשרים את הקבצת
האובייקטיס למחלקות שונות. במובן וה ניתן לומר שתהליך הלימוד הוא בעצס תהליך
הסקת תבניות וכלליס פשוטים, מתוך מכלול רחב של אובייקטים ומאפייני האובייקטים.
בעיקרון, קיימות שתי טכניקות לימוד והיסק:
+ לימוד מונחה (0חוחז68.] 67/1560ק5) - בתהליך זה לומדים מדוגמאות. כלומר,
המנחה מסייע ללומד על ידי הגדרת המחלקות ועל ידי מתן דוגמאות כיצד לשייך את
האובייקטיס למחלקות. המערכת הלומדת צריכה להסיק את כללי הסיווג
מהדוגמאות, על ידי הבנת המאפיינים המשותפים לאובייקטים (למשל, אותו צבע,
אותה צורה - אס אנו עוסקיס באובייקטים גיאומטריים - או אותו גיל, אותו אזור
מגוריס - אס אנו עוסקיס בנתוניס לגבי קבוצת הלקוחות). ברגע שכללי הסיווג נבנו
מהדוגמאות, ניתן להשתמש בכללים אלה כדי לסווג אובייקטיס חדשים. כלומר,
כאלה שלא היו חלק מהדוגמאות.
+ לימוד לא מונחה (מָחוחז63.] 60פועז6קטפח) - בתהליך וה הלימוד מתבסס על
תצפיות וגילוי. המערכת הלומדת מקבלת את האובייקטים, אבל שוס מחלקות
ודוגמאות לא ניתנות. על המערכת להסיק, ולגלות לבד מהתצפיות, מהן המחלקות
האפשריות. כלומר, תהליך יהוי המחלקות הוא תהליך לא מונחה, אלא עצמי.
הבעיה העיקרית בתהליכי הלמידה היא שקיימיסם מצביםס אפשריים רבים ולכן, תמיד
איכות הכללים שבונה המערכת אינה מבטיחה איכות סיווג מושלמת. בדרך כלל, גם לא
ניתן לבחון את המודל עבור כל המצביס האפשריים.
יישומים, טכניקות, אלגוריתמים
ומוצרים לכריית נתונים
דרך נוחה להתבונן ולהבין את נושא כריית הנתוניסם היא להתייחס לשלש שכבות שונות -
יישומים, טכניקות ואלגוריתמיס.
היישומיס מיועדיס לפתור בעיה מעשית מסוימת, כמו למשל איתור הונאות בחברת
כרטיסי אשראי. ניתן לפתור את הבעיה תוך שימוש בטכניקה אחת או יותר, כמו למשל על
ידי טכניקות סיווג או טכניקות ניתוח אשכולות. כל טכניקה יכולה להיתמך על ידי
אלגוריתס אחד או יותר. הטכניקות והאלגוריתמיס באיס ארוזיס במוצרים ייעודיים, או
כחלק ממוצר בעל שימושיס נרחביס יותר. מוצר אחד יכול לתמוך ביותר מאשר טכניקה
או אלגוריתס אחד. נרחיב כעת את הדיון בשלוש השכבות האלו.
4 מחסנל נתונים
איתור הונאות
וז
וה תתתתתתתתתתותתתוררייק
סייווג ניתוח אשכולות =
קה
= טכניקות
יתמים יצביות /
אלגור רשתות עיצביות עצי החלטה ות ויזואליזציה
ומודלים
00 מ0ו סו 336% 0 דיאגרמות
תוס 5 פומגוטהו תלת מימדיות
תרשים 7.1: יישומים, טכניקות ואלגוריתמים.
יישומים (פחסוז63ו!כסג)
ניתן לסווג את יישומי כריית הנתונים כאוסף בעיות בעלות מאפיינים דומים, עבור
נושאיס שוניס. הפרמטריס של היישוס תלוייס בכל פלח שוק או תעשיה, ולעיתים גס בין
יישוס ליישוס. לדוגמה, ניתן להשתמש באותה טכניקה ובאותסם אלגוריתמיס ומודליסם,
כדי לבנות יישוס לאיתור הונאות (חסוז6%60 800ז=) עבור בנק או חברת ביטוח. ההבדל
העיקרי בין יישומיס אלה נובע מהפרמטרים השוניס המסופקים ליישוס. פרמטרים אלה
שוניס עבור בנק או עבור חברת ביטוח, והםס מנותחיס ומפורשים באופן שונה.
פרויקטי כריית נתוניס נמצאיס עדייו בשלב ראשוני ועדיין לא זכו לתפוצה רחבה. למרות
זאת, ניתן למצוא יישומי כריית נתוניס במיגוון רחב של נושאיס ושווקיס. מסקרים שוניס
עולה שהיישומים הפופולרייס ביותר לכריית נתוניס הס מתחוס המכירות ועוסקיס
בפילוח לקוחות, שיווק ממוקד וניתוח סל הקניות. נסקור בקצרה מספר יישומיס
אופיינייס.
+ פילוח לקותות (חָחו|ו1סזק ז6ו9%0ט0) - בקטגוריה זו נמצא יישומיס העוסקיס
בוּיהוי והגדרת פרופיל הלקוחות, תוך פילוח אוסף הלקוחות לאשכולות שונים. כל
זאת במטרה להבין מהן תכונותיו של לקות ייטוב ונאמן'י, לצורך חיזוי קהל המטרה
למבצעיס שיווקייס שוניס. יישומיס אלה יכוליס למצוא תבניות תכונות מקובצ
הלקוחות הנוכחי, ולהשתמש בתוצאות הפילוח כדי להגדיר את קהל לקוחות המטרה
למבצעים שוניס.
+ ניתוח נטישה (%ח806706ח89! חזטת0) - בקטגוריה זו נמצא יישומיס העוסקיס
בניתוח הלקוחות שנטשו את החברה לטובת המתחרים, כדי להבין את הסיבות
לעוּיבה ואת תבנית תכונות לקוח שעזב. בדרך זו ניתן להחליט כיצד לנהוג ואילו
שיטות להפעיל כדי למנוע נטישה. כידוע, שמירה על לקוח הוא תהליך זול בהרבה
מאשר רכישת לקוח חדש, לכן, יישומיס אלה הס בין החשוביס ביותר המופעליס
בארגונים.
פרק 7: כריית נתוניס | 185
חלק מהיישומיס מאפשריםס להגדיר הסתברות נטישה ולתת כיווני מחשבה על
הפעולות שהחברה יכולה לנקוט בכל מצב. למשל, אס הסתברות הנטישה בחברת
טלקומוניקציה היא מעל 80% ניתן להציע ללקוח קו טלפון נוסף חינס. במקרה
שהסתברות הנטישה נמוכה יותר, נניח 50%, ניתן להציע ללקוח 100 דקות שיחות
חינס כבונוס מיוחד. איתור מוקדס של לקוחות פוטנציאלייס לנטישה וטיפול בהס
יכול להקטיןו באופן דרמטי את מספר הלקוחות הנוטשיס.
+ ניתוח סל הקניות (פוַףּעְוהח/ 285%6% 61אז18) - בקטגוריה זו נמצא יישומיס
העוסקיס בניתוח הרגלי הקנייה של לקוחות, במטרה להבין איזה מוצריס ירכשו על
ידי לקוח מסוים, לאורך ומן. הבנה וו מסייעת לארגוניס לקבוע איוּה מוצרים כדאי
למכור לאיזה לקוחות (פְחו|ו56 07055), לקבוע רמות מלאי בחנויות, לתכנן את שטח
המדפיס וצורת הצגת המוצרים וכדומה.
> שיווק ממוקד (סַחו61אז8!/! 8106160ד) - בקטגוריה זו נמצא יישומים העוסקיס
בניתוח סל הקניות של לקוחות, במטרה להגדיר את אוכלוסיית המטרה למבצעי
שיווק שוניס, למבצעי דיוור ישיריס (009ו08ו08 !ו 666זוס), לקבוע לאיזה
לקוחות כדאי לשלוח איזה קטלוגיס של מוצרים, ניתוח יעילות מבצעי שיווק
וכדומה. יישומיס אלה מבוססים על טכניקות שונות לניתוח סל קניות של הלקוח.
> איתור הונאות (ח06+6000 0ַ80ז-) - בקטגוריה זו נמצא יישומיס העוסקיס באיתור
הונאות פוטנציאליות במיגווו רחב של תחומים (כגון בנקאות, מסחר ניירות ערך,
טלקומוניקציה, ביטוח, שירותי בריאות וכדומה). בין היישומיס ניתן למנות איתור
שימוש חריג בכרטיסי אשראי, איתור שימוש חריג בשיחות טלפון בינלאומיות
וכדומה.
+ דירוג אשראי (סחוזס560 +604ז0) - בקטגוריה זו נמצא יישומיס העוסקים בניתות
הסיכוניס במתן אשראי ללקוחות, זיהוי לקוחות העומדיס לשנות את דירוג האשראי
שלהם, זיהוי יחסים לא גלוייס בין אינדיקטורים פיננסייס שוניס.
> יישומי ביטוח ובריאות (6ז08 ח:|68 0ח8 6סחפזטפח!ו) - בקטגוריה זו נמצא
יישומים העוסקיס בניתוח תביעות מבוטחים כגון, אילו טיפוליס רפואייס בדרך כלל
מתבצעים ביחד, זיהוי לקוחות שיירכשו פוליסות חדשות, זיהוי תבניות התנהגות של
לקוחות מסוכנים, יהוי הטיפוליס המוצלחיס למצבי מחלה מסוימים וכדומה.
+ בקרת איכות (|0ז004 עוה00) - בקטגוריה זו נמצא יישומים העוסקים בניתות
תקלות בקווי הייצור, תוך ניסיון לחזות גורמי תקלה, תקלות בתהליכי הייצור,
ניתוח תלונות לקוחות אודות פגמיס במוצר וכדומה. כל זּאת במטרה לשפר את
תהליכי הייצור ואת איכות המוצרים.
לסיכוס סקירה קצרה זו נאמר שהפוטנציאל ביישומי כריית נתוניס הוא גדול, ועס הזמן
הולך וגדל עוד יותר. מכיון שרוב יישומיס אלה הס יישומיס אסטרטגיים עבור הארגונים,
הס אינס נוטיס לפרסס ברביס את השימוש בהם, ומתייחסיםס אליהם כאל נושאיס בעלי
יתרון תחרותי.
6 מחסנל נתונים
טכניקות (710065ח66ד)
כל יישום כריית נתוניס נתמך על ידי אוסף טכניקות המשמש להפקת חידע מהנתונים.
הטכניקות נבדלות ביניהן בסוגי הבעיות אותן הן מסוגלות ומיועדות לפתור. בשוק
קיימים כיום כלים התומכים במספר טכניקות בו-ומנית, ולעיתים אותה טכניקה נתמכת
על ידי יותר מאלגוריתס אחד. נסקור בקצרה את הטכניקות העיקריות המקובלות בכריית
נתוניס.
הצגה ויזואלית של נתונים (766010₪65ד הסו15031/28%/)
השימוש בטכניקות פשוטות ומתוחכמות להצגת נתוניס נפוצ מאוד בתהליכי כריית
נתוניס. עצס היכולת להציג את הנתוניס למשתמש באופן ויוואלי מהווה שיפור ביכולת
המשתמש להבין ולפענח את אותס נתונים. קיימות מספר רב של טכניקות ויזואליוציה
העושות שימוש בצבעיס, בהצגה תלת מימדית (חסו1808|281/ 3), ביכולות דינמיות של
התבוננות בתמונה מכיווניס שונים, וכדומה. אחת הטכניקות הנפוצות ביותר היא
דיאגרמת פיזור (18078₪09ו₪ 656860). דיאגרמה דו-מימדית זו מציגה את פיוור מרחב
הנתוניס, לפי שני פרמטריס בכל פעסם. למשל, בחברה המוכרת תקליטים ניתן להציג מה
פיזור האוכלוסיה, לפי רמת הכנסה וגיל כאשר ההתייחסות היא לכל לקוחות החברה.
מהתבוננות בדיאגרמת הפיזור ניתן, למשל, לגלות שרוב רוכשי התקליטים הס צעיריס
בעלי רמת הכנסה בינונית.
₪ אוכלוסיית מדגם
₪ אוכלוסיית לקוחות .
'ווו
ווו
ה ו 7-7
ו . וויו פ
וו יוו ' ת
/. ' | ייוו ₪
ו 5
י' יי .וי תַ
ו זי ווף''' גו,' ור'! 5
י 'ו ווו 8 ן של
י'וה|!, א ן
ורוג" | '' ב" ו
יי : ו ור'י !)ו
ו גת
+
גיל לקוח
תרשים 7.2: דוגמה לדיאגרמת פיזור.
פרק 7: כריית נתוניס | 187
הסקת חוקים ויחסים בין הנתונים (65!₪ חסו+ה3ו5506)
טכניקות גילוי החוקים והיחסים בין נתוניסם, ממוקדות בזיהוי איה נתונים קשוריס
באופן הדוק עס נתון אחר. תוצאה של טכניקות אלו היא, בדרך כלל, הצגת חוקיות
הסתברותית כלשהי, כדוגמת '"'אם מוצר ג נרכש, אזי ההסתברות לרכישת מוצר 8 באותו
אירוע היא סיי. טכניקות הסקת החוקים והיחסים מתאימות במיוחד עבור אוסף בעיות
שמקובל לכנותן בשס ניתוח סל הקניות (235%61 +6אז9ּ!). בעיות אלו עוסקות בניתוח סל
הקניות של הלקוח (למשל, המוצריס שלקוח קונה במרכול) במסגרת עסקת רכישה אחת
בודדת. המטרה היא למצוא את המגמות, הרגלי הקנייה והיחסים בין סוגי המוצריס
הנרכשים, וכל זאאת בהתבסס על מדגס גדול מאוד של עסקאות. הידע הנוצר כתוצאה
מתהליך ניתוח ה יכול לשמש לקביעת רמות המלאי המוצריס השוניס בחנות, לקבוע את
צורת ארגון המוצריס על המדפים בחנות, לקבוע אילו מוצריס כדאי לשתף במבצעי הנחות
ועוד.
המקור של טכניקות אלו הוא ברשתות המזון, אך ניתן להפעיל אותן גס בפלחי שוק
אחרים כמו למשל, אילו שירותים קוניס לקוחות יחד בשוק הבנקאי, אילו שירותיס כדאי
להציע יחד בשוק הטלקומוניקציה, אילו טיפולים רפואייס כדאי לתת יחד עס טיפוליס
אחרים וכדומה.
בדרך כלל, מחזירות טכניקות אלו תוצאות המבוססות על אחוזי מובהקות. למשל:
* 806 מכלל הרכישות בהן נרכשה גבינה לבנה דלת שומן, כללו גס רכישת מעדן חלב
דל שומן אחר כלשהו;
> 85% מהרכישות בהן נרכשה שתייה קלה כלשהי, כללו גס רכישה של חטיפיס
מלוחים כלשהם;
> 92% מהלקוחות להם יש מנוי לירחון העוסק בבתים וגינות ומנוי לירחון העוסק
במוסיקה, יש להם גם מנוי לירחון העוסק במכוניות;
%> 84% מהפעמיס בהס נרכש טוסטר מתוצרת מסוימת נרכשה גס מסחטת מי.
רוב הכליס מאפשריס קביעת סף כלשהו של אחוזי מובהקות, כדי למנוע הצפת מקריס
טרוויאליים. טכניקה זו היא איטרטיבית באופייה כלומר, הצפת יחסים מסוימים יכולה
להוביל לניסיון לנתח יחסים חדשים או לנתח פרמטריסם חדשים.
ניתוח סדר הופעה (3|515ח/ 23560 766ח50006)
טכניקות הניתוח והסקת החוקים והיחסים הרגילות בסל הקניות, עוסקות באוסף
מוצריס הנרכשיס בעסקה אחת בודדת בנקודת ומן כלשהי. שכלול מסוים של טכניקה זו
היא להתבונן על אוסף עסקאות על ציר הזמן, ביניהן יש מכנה משותף כלשהו. למשל,
מספר כרטיס אשראי, מספר חשבון, מספר חבר במועדון הנוסע המתמיד וכדומה. בניתוח
זה, מעבר לחשיבות שבהופעת מוצרים שוניס באותו סל קנייה, מנסים גם להבין את
תבנית וסדר ביצוע העסקאות, כפי שהן משתקפות על ציר הזמן.
8 מחסנל נתונים
מניתוח זה יכולים לחזות תבניות רכישה מסוימות ולצפות מראש לרכישה עתידית.
לדוגמה, בחברה העוסקת בביטוח רפואי ניתן לאתר תהליכי טיפול עתידיים, הצפויים
כתוצאה ממחלה או תרופה מסוימת. חוקיות שמתגלה כתוצאה מהפעלת טכניקה זו
יכולה להיות ייאם ניתן טיפול ד אזי ההסתברות להופעת דלקת לאחר שבועיים היא ='י.
חברה העוסקת במסחר במניות יכולה להשתמש בטכניקה זו כדי לאתר חוקיות בתהליך
המסחר, ולמצוא חוק כגון ייאם מניה 4 עולה ביותר מ- 20%, בעוד מדד המניות יורד, אזי
מניה 8 תעלה כעבור שבוע בהסתברות :'".
ניתוח אשכולות (515ץ!3ח// ז5+6ט!6)
טכניקות אלו עוסקות בפילוח אוכלוסיות אובייקטיס גדולות לאוסף כלשהו של אשכולות
בעלי הגיון פנימי כלשהו. כלומר, קייס דמיון מסויס בין האובייקטיס השייכים לאשכול,
בהתבסס על קריטריון כלשהו. המטרה היא למצוא הקבצות השונות אחת מהשנייה, ואת
הדמיון בין חברי ההקבצה.
ב
תרשים 7.3: תהליך בניית האשכולות.
תהליך השיוך לאשכול כלשהו מבוצע באופן אוטומטי על ידי אלגוריתמים לבניית
אשכולות המזהים את המאפייניס המשותפים לאוכלוסיה, ומבצעיס את החלוקה
לאשכולות. החכמה באלגוריתמיס אלה היא שאין צורך לקבוע מראש אילו פרמטריס
ישמשו לקביעת החלוקה, או להגדיר מראש אילו אשכולות יש לבנות. הבנת ופענוח
תוצאות ההקבצה מתייבים מיומנות והבנה טובה בנתוניס. בדרך כלל, משמשיםס
אלגוריתמיס אלה לפילוח אוכלוסיית הלקוחות לאשכולות של לקוחות בעלי מאפייניס
דומיס. תוצאות אלגוריתמים אלה משמשים כנקודת פתיחה טובה לחקירה וניתות
מעמיקים יותר.
סיווג (חסו6|35511163%)
טכניקה זו היא אחת הנפוצות בתחוס כריית הנתונים, ומשמשת בעיקר לתהליכי חיווי.
טכניקת הסיווג מאפשרת לבנות מודל סיווג כלשהו מבסיס נתוניסם חיסטורי. בדרך כלל,
טכניקת הסיווג משתמשת בהקבצות ידועות מהנתונים כדי לפתח את שיטת הסיווג, או
להגדרת הקבצות חדשות ובלתי ידועות מהנתונים. שימושים כגון קביעת קהל מטרה
למבצעי שיווק ממוקדים, איתור הונאות וניתוח סיכוניסם במתן אשראי, מתאימים
פרק 7: כריית נתוניס | 189
במיוחד לטכניקה זו. גישה זו מבוססת, בדרך כלל, על אלגוריתמיס עצי החלטות, או
רשתות עצביות. קיים קשר בין טכניקות חיזוי וטכניקות סיווג - ניסיון לחזות אס לקות
מסוים ינהג בדרך מסוימת, דומה לבניית הנחה שהלקוח משתייך לקבוצת סיווג מסוימת.
נציג בפירוט נוסף את השימוש בשתי טכניקות עיקריות אלו לפתרון בעיות סיווג.
עצי החלטה (665זד חסו6615)
עצי החלטה הס טכניקה המאפשרת זיהוי גורמיס משפיעים, ולמיין אותס על פי סדר
החשיבות שלהם. צורת הצגת תוצאות הניתוח היא של עצ היוצא משורש, מסתעף למספר
ענפים ומסתייס בעלים. עצי החלטה הס דרך נוחה לייצוג ידע, מכיוו שהס מאפשריס
הקבצת אוכלוסיה מסוימת לאוסף הקבצות סופי. האובייקטים מסווגים על ידי מעבר בע
ההחלטות, מהשורש שלו ועד לעלה בקצה העצ, וכל זאת על סמך הערכיס השונים
הנמצאיס בצמתי הביניים.
תהליך השימוש בעצי החלטה מבוסס על החיפוש איזו תכונה מנבאת באופן הטוב ביותר
התנהגות מסוימת. נתחיל בדוגמה המציגה עץ החלטות להגדרת לקוח מבחינת רמת
הסיכון במתן האשראי. מניתוח אוכלוסיית לקוחות הבנק שקיבלו אשראי והחזירו אותו,
או שהיו בעיות בהחזרת האשראי, ייתכן שנקבל את עץ ההחלטות הבא :
הכנסה שנתית
עובד ברציפות | -
מעל 4 שנים
מעל 100,000
חסכונות בבנק
מעל 40,000 ש*ח
למןגמוה
תרשים 7.4: עץ החלטות לקביעת סיכוני אשראי.
עצ ההחלטות המוצג כאן מאפשר למי שצריך לקבל החלטה לגבי מתן אשראי לברר מספר
נתוניס אודות הלקות, ועל סמך כך להבין את רמת הסיכון במתן האשראי. מובן שהעצ
המוצג כאן הוא פשטני מאוד. במציאות, בניית עצ החלטות להגדרת סיכוני אשראי הוא
תהליך מורכב הרבה יותר. בסופו של תהליך עשוי להתקבל עצ עס מספר רב מאוד של
ענפים והסתעפויות
דוגמה אחרת לשימוש בעצי החלטות תהיה לחיזוי הפיכת לקוח בפוטנציה ללקוח בפועל.
אס ננתח את אוכלוסיית היעד של הלקוחות הפוטנציאליים (0506619זק) ואנו יודעיס את
גילו של כל לקוח, רמת הכנסתו ואזור מגוריו, נשאלת השאלה אילו מהתכונות המוזכרות
כאן מנבאת באופן הטוב ביותר את הפיכתו מלקות פוטנציאלי ללקוח אמיתי
(9ז005+000). אס אנו משעריס שגיל הלקוח הוא המנבא הטוב ביותר, עלינו למצוא אס
קייס סף מסוים המבדיל בין לקוחות פוטנציאליים ללקוחות אמיתיים.
0 מחסנל נתונים
קיימים אלגוריתמיס להסקת עצי החלטות הסורקים את בסיס הנתונים, ועל סמך בחינת
גיל הרוכשים לעומת כלל האוכלוסיה יכולים למצוא ערכי סף. בתרשיס הבא ניתן לראות
עצ החלטה המציג מצב בו גיל הסף הוא 38. כל מי שגילו מעל 38, ההסתברות להפיכתו
לרוכש הוא 85%, לעומת הסתברות של 25% אם גילו מתחת ל-38.
גיל מתחת ל 38 -->(09% )
אס נמשיך לחפש אחר עץ ההחלטות המנבא בצורה הטובה ביותר את הפיכת הלקות
הפוטנציאלי ללקוח בפועל, נוכל לקבל עץ החלטות כמוצג בתרשיס הבא.
הכנסה מעל
000
גיל מעל 29
מתרשים זה ניתן לומר שלקות שהוא מתחת לגיל 29, ורמת הכנסתו מתחת
ל-50,000 שייח, לא יהפוך ללקוח בפועל. לעומת ואת, לקוח שגילו מעל 45 יהפוך ללקוח
בפועל, כך בהסתברות של 89%.
תרשים 7.5: עץ החלטות עבור הגיל.
גיל מתחת ל 38
הכנסה מתחת
000(
תרשים 7.6: עץ החלטות עבור מספר תכונות.
בנוסף להצגה הוויזואלית של עצ ההחלטות, ניתן להפוך את הע לאוסף כללי החלטה,
כלל אחד עבור כל עלה בעצ. לדוגמה:
> אם גיל מעל 45'י אז סיכוי הפיכתו ללקוח הוא 89%
> אם גיל בין 38 ל-45'' אז סיכוי הפיכתו ללקוח הוא 80%
+ אס ייגיל מתחת 38" וגס ''הכנסה מעל 50,000 אז סיכוי הפיכתו ללקוח הוא 85%
> אם גיל בין 29 ל-38'' וגס ''הכנסה מתחת ל-50,000'י אז סיכוי הפיכתו ללקוח הוא
1%
*> אם ייגיל מתחת 29'' וגס 'הכנסה מתחת 50,000" אצ סיכוי הפיכתו ללקוח הוא 0%
פרק 7: כריית נתוניס 191
השימוש בעצי החלטות מתבצע בדרך כלל במספר שלבים :
> בניית העץ (חססט0ח! 66זד חסו9ו60כ) - בשלב וה מציגיס לאלגוריתס את הנתוניס
ונותניס לו לבנות את העצ הנובע מהם.
.%
+ בדיקת סבירות ופישוט העצ (סָחוחחטזק 66ז7) - בשלב זה בודקים את סבירות העצ
שהתקבל ומבצעיס בו מספר תיקוניס, למשל על ידי איחוד ענפים, פיצול ענפים,
שינוי תנאי סף וכדומה. שלב ה מתבצע על ידי מומחי יישוס, המכירים את נתוני
האימון ומסוגליס לבדוק את איכות התוצאות. בדרך כלל, מקובל בשלב זה להפעיל
את האלגוריתם על אוסף נתוניס נוסף ולבדוק את סבירות התוצאות המתקבלות.
+ קבלת החלטות - בשלב זה משתמשיס בעצ לקבלת החלטות. בדוגמה שלנו, ניתן
להציג לאלגוריתם נתוני לקוחות פוטנציאלייס ולתת לו לסווג אותס. בתוצאות ניתן
להשתמש לצורך מבצע שיווק ישיר על ידי פנייה אל אותס אנשים. יישוס אחר של
עצי החלטה יכול להיות לצורך חיזוי סיכוני אשראי (8ַח60100ז₪ ₪156 0700).
לאחר שמציגיס לאלגוריתס אוסף נתוני לקוחות לא מסוכנים, וכאלה שלא עמדו
בהחזר האשראי - בוניס את עצ ההחלטות. כעת, ניתן להפעילו בנפרד לגבי כל לקות
של הבנק המבקש לקבל אשראי.
עצי החלטות הפכו לכלי כריית נתוניס פופולרי מאוד בשל היותס קליס להבנה ובעלי רמת
דיוק גבוהה למדי. המשתמשים יכוליס להבין בקלות את התוצאות, להבדיל משיטות
אחרות בהן התוצאה מוצגת כייקופסה שחורהיי ללא יכולת להסביר כיצד האלגוריתס
הגיע אליה. בדרך כלל, תהליך בניית עצי ההחלטות קצר יותר ממשך הזמן שלוקת
להשתמש בטכניקות אחרות, כגון רשתות עצביות. צורת ההצגה הוויזואלית של עצי
ההחלטות, והיכולת להפיכתס בקלות סבירה לאוסף כלליס ברוריס, הפכה מודל זה לנות
וקל מאוד להבנה.
יחד עם יתרונות אלה, צריך לציין שלטכניקת עצי החלטות יש גס מספר חסרונות - עציס
אלה אינס מתאימים לכל סוג נתונים, לעיתים התוצאות המתקבלות מורכבות ודורשות
תהליכי פישוט. ברוב המוצריס הנפוצים לכריית נתוניס מופיעיס מספר אלגוריתמיס
לבניית עצי החלטות. בנוסף לכלים ייעודיים לכריית נתונים, כגון זפחוו 1ח6פווופוח! של
חברת 5! או +656חוו של חברת 105ח2:80) חססווופ, הוסיפו גס חלק מיצרני כלי ₪ 01
מודול נוסף לבניית עצי החלטות, כדי לאפשר למשתמשיסם צורת ניתוח הנתוניס נוספת.
לדוגמה, ב- 20[8018) 855ח8₪91 קייס מודול המאפשר בניית עצי החלטות מהנתונים,
וזאת בנוסף למודול מחולל שאילתות ומודול ניתוח רב-מימדי.
טכניקת עצי ההחלטה התפתחה כתוצאה ממחקר שבוצע באוניברסיטת מישיגן, ונקרא
חסו61664 ₪ה860ז0+ח! סוזהחסוטג - ס!ה. שיטה זו מבוססת על אלגוריתס הבודק באופן
אוטומטי את הערכים, ומזאהה את אותס ערכיס הקשורים באופן חזק לערכי פלט אותס
בודקיס. הערכים אותסם מוצא האלגוריתס הס בעלי יכולת להסביר ולנבא את הנתוניס.
בהמשך פותח אלגוריתם נוסף, שנקרא | חַ6ז50088 וח6 - ס|04 שהרתיב את יכולות
האלגוריתס הקודם, על ידי הוספת הטכניקה הסטטיסטית, וח6 בריבוע.
2 מחסנל נתונים
חוקר אוסטרלי, בשס ח8!וח8טכ) ₪055 מאוניברסיטת סידני, נחשב לאבי נושא עצי
החלטות לאחר שפיתח בשנת 1983 אלגוריתס לו קרא 3!. אלגוריתס וה מפתת עצי
החלטות ומסוגל למיין אותס על פי סדר החשיבות. בהמשך התפתחו אלגוריתמיס
מתקדמים יותר כגון 4ס!, 6ס!, 64.5 ו-וחוס.
רשתות עצביות (5אזסעש6%א וב3ּזזט6א)
ניתן לפתור בעיות סיווג גס באמצעות ענף חדש יחסית של אינטליגנציה מלאכותית,
רשתות עצביות. זהו ענף של מדעי המחשב המבוסס על פיתוח מבנים מתמטיים בעלי
יכולת לימוד עצמית. הבסיס העומד מאחורי ענף מחקרי זה נולד משילוב ענפי מחקר
העוסקים בחקר המוח ובחקר תהליכי למידה. מקובל לתאר את המוח כרשת עצבית
המורכבת ממספר גדול מאוד של נוירוניס (פחסזט6]) המחובריס אחד עס השני באמצעות
סינפסות (569ְ8חע5), ולכו מתקבלת רשת עצבית ענקית. נוירון בודד יכול להיות מחובר
לנוירוניסם אחרים באמצעות אלפי סינפסות. מנגנוו פשוט זה מאפשר לבצע פעולות
מורכבות ביותר, ומשמש כבסיס לאחד המנגנוניס המופלאים ביותר - מנגנון הלמידה.
מבנה זה שימש חוקרים שוניס לבניית מודליס ומכונות בעלי יכולת למידה. המודל מבוסס
על אוסף צמתיס (המחולקיס לצמתי קלט, צמתי בינייס וצמתי פלט) המחובריס ביניהס
ברשת גדולה. צמתי הקלט מקבליס את הבעיה וצמתי הפלט מציגיס את התוצאה. צמתי
הביניים משתתפיסם בתהליך פתרון הבעיה. השימוש ברשתות עצביות מורכב משני שלביס
עיקרייס - שלב הקידוד (פַחו600חם), בו מציגיסם לרשת אוסף דוגמאות ומאמניס את
המערכת לפתור בעיות מסוימות, ושלב הפענוח (פֶחו06600כ), בו מציגיס למערכת מקריס
ומשתמשיס בהס לביצוע פעולות סיווג, חיווי ולימוד נוסף. במובן מסוים, ניתן להתייחס
לרשת כזו, לאחר שעברה את תהליך האימון, כאל י'מומחהיי בתחוס מסוים.
כבר לקראת סוף שנות ה-50, בנה חוקר מאוניברסיטת ||8חז6 שבמדינת ניו-יורק,
מערכת לה קרא בשס ח87080470ק. ככל הידוע, מערכת זו היא היישוס הראשון של רעיון
הרשתות העצביות. במהרה, הוכיחו מדעניס שבעיות אותן ניתן לפתור באמצעות
ארכיטקטורה זו, מוגבלות למדי. רק בשנות ה-80 החלו להתפתח ארכיטקטורות
מתותחכמות יותר, המבוססות על שכבות ביניים ועל שיטת חסוְהּפָּקסזק 280%. הרעיון
הוא, שכל הצמתיס בשכבת הבינייסם מכיליס בתחילה משקלות אקראיות. בשלב הלימוד
מציגיס לרשת דוגמאות ומשניס ומכווניס את המשקלות, עד לקבלת התוצאה הרצויה.
לאחר אימון סביר של הרשת, היא יכולה להפוך לכלי חיזוי טוב מאוד.
התרשים הבא מציג רשת עצבית, שמטרתה לסווג איזה לקוחות יקנו איזה סוג של
מכוניות. הסיווג מתבסס על ארבעה פרמטרים - גילס, האס כיוס יש ברשותם מכונית,
האס הס בעלי השכלה אקדמית ורמת הכנסתם. שיס לב, שהפרמטר גיל מחולק לשלושה
טווחים ואילו הפרמטר רמת הכנסה מחולק לשני טווחים. מובן, שבמציאות מספר
הפרמטרים גדול בהרבה, ולכן בעיית הסיווג היא בעיה מורכבת.
פרק 7: כריית נתוניס 193
שכבת שכבת שכבת
הקלט ביניים הפלט
מוסתרת
מכונית סטיישן
מתחת ל 25
גיל <> בין 25 ל 45
מעל 45
בעל מכונית
מכונית ספורט
0%
/(
,
0
גייפ
(
0
/
השכלה אקדמית
₪
/
/
7
|
מכונית מסחרית
/
מעל ל 100,000-------> ()
תרשים 7.7: רשת עצבית לסיווג רוכשי מכוניות.
כפי שניתן לראות מהתרשים, כל צומת בשכבת הבינייס מקושרת לכל צמתי הקלט ולכל
צמתי הפלט. משמעות הדבר היא שכל מה שהרשת לומדת מבוסס על כל הקלטיס
המתקבלים. לכל ערוצ קלט המגיע לצומת ביניים נקבע משקל מסויסם, והצומת מבצעת
חישוב המבוסס על שקלול כלשהו של כל הקלטים. משקל כל צומת נקבע תוך כדי תהליך
אימון הרשת, בו מציגיס לה את הקלטים השונים, יחד עס הפלט הרצוי.
נא 7
או
2 - ... + 3או*3צ + 2או*2צ + 1אוי*1צ = (01)ע7
3
64 33
4 או
6 5
7 6
לג
תרשים 7.8: שקלול הקלטים בצומת בשכבת הביניים.
מובן שזו הצגה פשטנית של הרשת העצבית, ובמציאות האלגוריתמיס לשקלול מורכביס
יותר. מקובל לבצע טרנספורמציות לא לינאריות על תוצאות השקלול, לשיפור תוצאות
החיזוי של הרשת.
בנוסף לקביעת משקל הערוצים השוניס בכל צומת בשכבת הביניים, יש להגדיר את
הקלטיס עצמס. ההחלטה לגבי הפרמטריס והטווחיס אינה החלטה טרוויאלית. היא
דורשת עבודה מקדימה המבוססת, בין היתר, גם על הנתוניס הומיניס אודות כל לקוח.
אס למשל, אין בידי החברה נתוניס לגבי התפלגות ההכנסות, אזי אין כל הגיון להגדיר
פרמטר זה. לחילופין, יש לעשות מאמצ להשיג נתוניסם אלה באופן ישיר, על ידי פנייה
ללקוחות, או באופן עקיף - למשל דרך אזור מגורי הלקוח. על סמך נתוני מכירות העבר,
מתחילים את שלב הקידוד, בו מציגיס לרשת דוגמאות של לקוחות שקנו מכוניות, ואת
הפרמטרים שלהם, ומשחקים עס המשקלות עד לקבלת התוצאה הנכונה. תרשים 7.9 מציג
דוגמה אחת של פרמטריס של לקות - גיל 32, בעל מכונית, בעל השכלה אקדמית ובעל
הכנסה מעל 100,000 שייח בשנה - שרכש מהחברה מכונית ספורט.
4 מחסנל נתונים
> 7
תהתלכ5 ---->
גיל <ו ל ----> 600 2 <<
מעל 45 ל >
2
ג*ים
| |---שמתחת ל 100,000---->: ( .6 אוב
הכנסה
77>מעל ל 100000 ---> (- )0
תרשים 7.9: רשת עצבית במצב קידוד.
בדרך זו מתחילים להציג למערכת אוסף גדול של דוגמאות, ומשחקיס עס המשקלות כך
שנקבל את התוצאה הרצויה. תהליך גה יכול לקחת זמן רב, ודורש מיומנות והבנת
הפרמטריס והמשקלות. בגמר התהליך, ניתן להתחיל להציג למערכת אוכלוסיית לקוחות
פוטנציאליים גדולה, ולהשתמש בה לביצוע הסיווג. בהתבסס על תוצאות הסיווג, ניתן
לשלוח בדיוור ישיר פרסומים ממוקדים לגבי היצע הדגמים השונים הרלוונטיים לסוג
הלקות.
דוגמה נוספת לשימוש ברשתות עצביות יכולה להיות עבור יישוס לאיתור הונאות בתחוס
הטלקומוניקציה. בשלב הקידוד, ייבנה אוסף רשומות שיחות טלפון, המייצגות מקרי
הונאה (למשל, שיחות ארוכות מאוד ליעדים מסוימים, מספר שיחות רב ליעדים מסוימיס
ביו שעות מסוימות וכדומה), וכן דוגמאות לשימוש תקין. בשלב ראשון, יוגדרו
מאוכלוסיות הדוגמה מהס הפרמטרים הרלוונטיים, כדי לאתר את מצב ההונאה ואת
מאפייניו. עס בניית הפרמטרים, המאפייניס ומתן השקלול לצמתים (על סמך אוכלוסיית
הדוגמה), מופעל האלגוריתס על האוכלוסיה האמיתית. כעת, הוא ינסה לאתר את
המצביס הדומים. שימוש נוסף יכול להיות הפעלת טכניקה לסיווג לקוחות שמסוכן לתת
להס אשראי.
השימושיס המתאימים ביותר לרשתות עצביות הס עבור מודליס לא לינארים. כלומר, לא
ניתן לייצג את הנתוניס על ידי משוואות לינאריות, או עבור בסיסי נתונים המכיליס
הרבה נתוניס לא אמיניס, או נתוניס חסרים. כמו כן, אלגוריתמיס אלה עובדים רק על
נתוניס נומרייס, דבר הגורס לקשיים בייצוג הנתונים. לדוגמה, אס אחד הפרמטריס הוא
אזור גיאוגרפי וקיימים 20 אזוריס גיאוגרפיים, יהיה צורך להכין רשומת קלט שתכיל 20
שדות המכילים אפס, או אחד, בהתאם. משמעות הדבר, יש צורך בתהליך הכנת הנתוניס
במבנה מיוחד עבור האלגוריתס, ובדרך כלל לא ניתן להפעילו באופן ישיר על הנתוניס כפי
שהס מאוחסנים במחסן הנתוניס.
אחת הבעיות העיקריות בשימוש ברשתות עצביות היא שתוצאות הסיווג המתקבלות
קשות להסבר, ולכן מקובל להתייחס לרשתות אלה כאל ייקופסה שחורהיי. העדר יכולת
ההסבר מונעת את הרחבת השימוש בטכניקה זו, למרות התוצאות הטובות המתקבלות.
חסרון נוסף הוא שתהליך אימון רשת יכול להיות ארוך, וקייס קושי להגדיר מתי להפסיק
את האימון. למרות חסרונות אלה, השיפוריס המתמידים בטכניקה זו הפכו אותה לאחת
הטכניקות הנפוצות לחיזוי.
פרק 7: כריית נתוניס | 195
אומדן (חסוז/5%=)
זו טכניקה מסוימת, המהווה שיפור מסוים לטכניקות הסיווג הרגילות, שבדרך כלל
נותנות תוצאה בינארית - כן או לא. בטכניקות האומדן מפתחיס אוסף ציוניס, לא תשובה
בינארית. לדוגמה, במקרה של ניתוח סיכוני אשראי, מפתח האלגוריתס ציון מסויס
המצביע על כדאיות והסיכון במתן האשראי.
טכניקות אחרות
בנוסף לגישות שהוזכרו, התפתחו גישות נוספות בהן ניתן להשתמש בנפרד, או במשולב
עס טכניקה אחרת כלשהי. בין גישות אלו ניתן לציין גישות כמו 8580 068586
9חוח6850ה, לוגיקה עמומה 1080 ץ22טת), | אלגוריתמים גנטיים (800ח26)
חח 0)ה), המרות פרקטליות (5107705ח8 ד 28560 |83018זת) ועוד.
טבלת סיכום יתרונות וחסרונות הטכניקות השונות
כפי שהסקירה הקצרה שהובאה לעיל מראה, לכל אחת מהטכניקות יש יתרונות
וחסרונות, ולכן הן מתאימות לסוג מסויס של יישומיס בלבד. ננסה לתמצת את היתרונות
והחסרונות של טכניקות אלה בטבלה אחת :
עצי החלטות
רשתות
עצביות
בלי
ויזואליזציה
כלים
סטטיסטיים
מערכות
מומחה
מספקת הבנה טובה של המודל
והנתוניס. צורת הצגת התוצאות
נוחה להבנה על ידי רוב
המשתמשים. שילוב הצגת חוקיס
יחד עס הצגה גרפית מקלה מאוד
את השימוש.
מתאים לבניית מודלים
סטטיסטייס המבוססים על נפחי
נתוניס גדוליס, הכולליס גם נתוניס
מזוהמים.
מאפשרים הצגה ויוואלית דו/תלת
מימדית, תוך שילוב אנימציה.
מאפשרים למשתמשים לגלות
תבניות המסתתרות בנתוניס.
מספר רב של אלגוריתמים שוניס,
מאפשר למשתמשים מנוסיס
להסיק מסקנות מהנתוניס.
מתאימות לבעיות מסוימות
ויכולות להביא לתוצאות טובות
מאוד ביישומים מסוימים.
6 מחסנל נתונים
במצביס מסוימים יכוליסם להתקבל
עציס מורכבים מאוד שהופכיס
לבלתי מובניס וקשים מאוד לניתות.
ייקופסה שחורהיי - למרות הדיוק
בהצגת המודל, קייס קושי בהסבר
התוצאות, דבר המרתיע את
המשתמשים.
תלוייס באופן מוחלט ביכולת
המשתמש להבין ולגלות את תבניות
המידע.
מתאים יותר לניתוח נתוניס מאשר
להסקת מידע בלתי ידוע ותבניות
חדשות מהנתונים.
מבוססות על טיב הידע המסופק על
ידי המומחה האנושי, וביכולות הכלי
לנסח את הידע המוצג בפניו.
אלגוריתמים ומודלים (1006!5! 30 5וחח)וזוסף!ה)
כל אחת מהטכניקות שהוצגו עד כה נתמכת על ידי מספר אלגוריתמיס ומודלים מתמטיים
שונים. לדוגמה, קיימיס מספר אלגוריתמיס שוניס המאפשריס הסקת חוקים ויחסים בין
קבוצת פרמטריס. קיימים מספר רב של אלגוריתמיס המסוגליס לבנות עצי החלטות, על
בסיס קובצ מופעים גדול - 031 (71669 ה0ו4607655 0ח3 חה68000ו01855), סו4ח6
(ח0ו6160% ח86%0ז10ח! 8116 וסוט 60זהטף5-וח)), 04.5 ו-65.0 ועוד.
רוב האלגוריתמיס והמודלים העומדים בבסיס הגישות השונות, התפתחו כתוצאה
ממאמצי מחקר בתחומי זיהוי תבניות (הסזוח36600 חִזְסוְַהק) ואינטליגנציה מלאכותית.
חלק מהאלגוריתמיס הם קנייניים, וידועיס רק לחברה שפיתחה אותם, בעוד שחלק אחר
מהאלגוריתמים ידועיס לכל והס סטנדרטיים.
מוצרים לכריית נתונים (5!|ססד ף חוחווא בּו3כ)
שוק מוצרי כריית הנתוניס נמצא עדיין בתהליך התהוות. לכן, פועלות בו מספר רב של
חברות קטנות. השחקנים הגדוליס מתחילים להיכנס לשוק באמצעות פיתוח עצמי,
רכישת חברות, בניית ממשקיס למוצריס אחריס וגס רכישת טכנולוגיות מחברות אחרות
ושילובו במוצריס שלהס. להלן מספר דוגמאות לגבי המתרחש בשוק המוצרים.
* 2807108) חססו!ופ פיתחה מוצר בשס 856%ח1]11, המכיל מיגוון רחב של אלגוריתמיס
לוויזואליוציה, עצי החלטות ועוד.
> ₪ם! פיתחה מוצר בשס זפחוו 1ח86וו6זח!, המכיל כליס מבוססי רשתות עצביות,
כלים להסקת עצי החלטות, אלגוריתמים סטטיסטיים וכלי ויזואליוציה.
* .סזס0 85ח1וח30)!₪ פַחואהוחד, פיתחה את המוצר חושחהּם, המשלב אלגוריתמיס
לרשתות עצביות, אלגוריתמיס גנטייס, ז0פח0ו9ח 68765%ח-א, 800 חהסוז018551108
6 ח0ו3607655 להפעלת תהליכי סיווג וחיזוי.
* 20[6015) ₪₪5|8855 הוסיפה מודל בשם זפחו8551ה₪₪5 למחולל השאילתות
הפופולרי שלה, ושילבה אותו יחד עס מודול 49 01, לניתוח רב-מימדי. הו מוצר עס
דגש חזק לצד תחנת העבודה של המשתמש, ולכן אינו מתאיס לכריית נתוניס בנפחיס
גדוליס וברמת מורכבות גדולה. המוצר תומך בטכניקות גילוי חוקים ויחסים, עצי
החלטות, פילוח אוכלוסיות ועוד.
> 6079|]/876 פיתחה מוצר בשם (₪78016 פאזס//|8זוס!, המשמש לחיזוי על בסיס
רשתות עצביות, סטטיסטיקה, אלגוריתמיס גנטייס ולוגיקה עמומה. המוצר מכיל
רכיב לבניית הדוגמאות בשלב הלימוד (2870ו/ 6ווטם) ורכיב חו3!קא=, המנסה
להסביר את התוצאות המתקבלות.
> ה0א פיתחה את המוצר חסח6שאזס/ עז560/6וכ 066 60ושסח.
% .סזס6 0חוו28%8 פיתחה מוצר לכריית נתוניס וחתמה על הסכס שיתוף פעולה עס
.00 6זּ/ו501 זססזה, המפתחת של כלי הניתוח הרב-מימדי 55850856.
פרק 7: כריית נתוניס | 197
* .סח| 6ז8ש50 ₪1!0% שילבה במוצר הניתוח הרב-מימדי שלה טכנולוגיית עצי
החלטות. המוצר מאפשר הפעלת טכניקות עצי החלטות לפילוח הלקוחות ולהזנת
הפלחים שאותרו להיררכיית המימדיס של המנוע הרב-מימדי.
> 5055, המייצרת את החבילה הסטטיסטית הנפוצה, שילבה במוצר שלה
אלגוריתמיס לרשתות עצביות וטכניקות 6ע01800+ח] 816 סט 6זהטף5 וח
ס|4ח6 - ח610000כ. חלק מהחברות שילבו במוצר שלהן מספר טכניקות שונות
ומאפשרות למוצר לבחור מהי הטכניקה המתאימה, בהתאם להגדרת הבעיה.
חלק מהמוצרים עדיין מתמקד בעיקר בצד האלגוריתמי, ומזניח בדרך כלל את ההיבטים
האחריס (ממשק משתמש, קלות שימוש, מבנה נתוניס לקלט, ביצועים, תפעול הכלי
וכדומה). רוב הכליס דורשים הכנת הנתוניס וגזירתס למבנה נתוניסם שטוח ופשוט, ולא
מעט עיבודים גס של התוצאות. יחד עס זאת, ככל ששוק כריית הנתוניס גדל, משתכללים
גם המוצרים, וניתן למצוא כבר מוצריס בשליס.
רוב המוצריס משתמשים ב-פשוסחו//, או בדפדפן אינטרנט, כממשק הגרפי ומאפשריס
גישה לבסיסי הנתוניס הטבלאייס באמצעות 0086. חלק מהמוצריס המתקדמים (כגון
חושז8 של חברת .קזס6 5ַחוח136 8ַחואהוחד) מתחילים לנצל את הארכיטקטורות
המקביליות של החומרה, לשיפור הביצועים.
תהליך כריית הנתונים
כריית נתוניס אינה פעולה, אלא תהליך מתמשך, ובדרך כלל גס לא חד פעמי. נציג את
השלביס השונים בתהליך כריית הנתונים. בדומה לחלוקת המאמץצ, בכל הקשור להקמת
מחסני הנתוניס, גם כאן הסטטיסטיקה מצביעה על 80% מאמצ בהכנת הנתונים ו- 20%
מאמצ בתהליך כריית הנתונים עצמו.
שלב ו שלב
קידוד ! כריית
הנתונים - ! הנתונים
ו
ו
,
ו ו ו
תרשים 7.10: תהליך כריית נתונים.
שלב
העשרת
הנתונים
שלב
ניקוי
הנתונים
שלב
איתור וגזירת
הנתונים
8 מחסנל נתונים
בעיקרון, תהליך כריית הנתוניס מורכב משלביס אלה:
.*
+*
הגדרת מרחב הבעיה (ח800|טחוזס= וח6!פסזק) - תהליך כריית הנתוניסם מתתיל
בהגדרת הבעיה. כלומר, מהו הידע שברצוננו לקבל ומה מטרת קבלת ידע וה.
לדוגמה, בנק יכול להחליט שהוא רוצה להבין טוב יותר את סוגי לקוחותיו במטרה
לשלוח לכל אחד מהס מכתבים אישיים (59ז60)0! 200ו|8ח6750ק). תוכן המכתב
האישי נקבע בהתאס לקבוצת הלקוחות אליה משתייך הלקוח. בשלב זה, עלינו
לשאול את עצמנו גם שאלות ראשוניות כמו '"*כמה אשכולות אנו רוצים למצואיי. אס
הצורך הוא לארגון מחדש של מחלקת השיווק לפי סוגי הלקוחות, סביר להניח
שנרצה מספר קטן של אשכולות גדוליס (ארבעה עד חמישה), אבל אס מטרתנו היא
לשלוח מכתבים אישיים, ייתכן שנרצה לעדן את הקבוצות ולקבל מספר עשרות
אשכולות שונים. במקביל יש לוודא את יכולת הארגון לנצל את תוצאות תהליך
כריית הנתוניס. לדוגמה, אס מחלקת ההפצה אינה ערוכה להדפיס מכתבים אישייס
ולהפיצם, מה התועלת בבניית אשכולות הלקוחות! מכיון שתהליך כריית הנתוניס
הוא מורכב ויקר, עדיף לשאול את כל שאלות אלו לפני, ולא לעמוד נבוכיס לאחר
שכל המאמצ נעשה.
הכנת סביבת העבודה (ק58%0 +חפותחסזוטח= פחוחוו הּו2) - לפני שמתקדמיס
לשלבים הבאיס עלינו לוודא את מוכנות המרכיביס השוניס בסביבת העבודה
לתהליך כריית הנתוניס. בשלב ה עלינו לוודא את זמינות החומרה, התוכנה, רשת
התקשורת, כלי כריית הנתוניס וכדומה. יש לחשב את ההשקעות הנדרשות להקמת
סביבת כריית נתוניס כהשקעה ארוכת טווח, ולעשות כל מאמצ לבסס סביבה זו על
סביבת מחסן הנתוניס.
איתור וגזירת הנתונים (ח58!60000 848כ) - לאחר שהגדרנו את מרחב הבעיה ואת
מטרת התהליך, והשתכנענו ביכולת לעשות שימוש בתוצאות התהליך, מתחיל שלב
איתור וגזירת הנתונים. שלב וה יהיה קל באופן משמעותי אס הארגון כבר מפעיל
מחסן נתוניס, לעומת מצב בו יש לאתר ולגוור את הנתוניס מאוסף רב של מערכות
תפעוליות. בסביבת מחסן נתוניס, סביבת כריית הנתוניס היא למעשה מחסן משנה
((זהו 818כ) אותו יש לאכלס ולתחזק באופן שוטף. בשלב זה מתבצע מיפוי של
הנתונים הקיימיס, מתבצעת הערכה בדבר איכותס וזמינותס, מכיניס את תוכניות
הגזירה ממחסן הנתוניס או מהמערכות התפעוליות, ותוכניות הטעינה למבנה
הנתונים הנדרש על ידי כלי כריית הנתונים.
ניקוי הנתונים (חַחוח0!08 הּו8כ) - שלב גה מיועד לניקוי ושיפור טיב הנתונים,
בעיקר עבור ארגון המבקש להפעיל תהליך כריית נתוניס ללא מחסן נתוניס תומך.
ההנחה הבסיסית היא שקיומו של מחסן הנתונים מאפשר להניח שטיב הנתוניס
גבוה. בכל מקרה, חובה לבחון את איכות הנתוניס, גס אס ניתן להתבסס על מחסן
נתוניס. לדוגמה, ייתכן שמחסן הנתוניס מכיל רשומות לקוח ללא תאריך לידה,
מכיון שנתון זה לא הוגדר הכרחי. אס נרצה לבסס ניתוח לקוחות גם על פרמטר גיל
הלקוח, לא נוכל לעשות ואת ללא תאריך הלידה שלו. בהחלט ייתכנו מצביס
שכתוצאה מפרויקט כריית נתונים יידרשו שינויים במערכות תפעוליות (למשל,
פרק 7: כריית נתוניס | 199
הפיכת שדה תאריך הלידה לשדה חובה) ושינוייס מסוימיס בתהליכי טעינת מחסן
הנתוניס (למשל, אס עד עכשיו נתון תאריך הלידה לא נוהל בכלל במחסן הנתונים).
> העשרת הנתונים (וחפותחסוזח= הַּוכ) - בשלב זה נעסוק בהעשרת הנתונים, במידת
הצורך. לדוגמה יכול להיות שנוסיף לכל רשומה נתוניס דמוגרפייסם מסוימיס ממאגר
חיצוני שנרכוש במיוחד למטרה זו - למשל, רמת ההכנסה הממוצעת באזור מגוריס
מסוים, מחזור המכירות של חברות וכדומה. לא תמיד קל להפגיש מידע חיצוני עס
נתונים פנימייס של הארגון, וייתכן שנצטרך לבנות תהליכי הפגשה מתותכמים.
> קידוד הנתונים (טַחו000 פַּו8כ) - בשלב זה יש להחליט כיצד אנו רוצים לייצג את
הנתוניס. לדוגמה, נתוניס רציפים (כגון רמת הכנסה) ניתן לייצג על ידי טווחיס,
נתוניסם מסוימיס ניתן לייצג על ידי קודים, וכדומה. למשל, מוצרים מסוימים,
המבוססים על אלגוריתמיס של רשתות עצביות (כפי שתיארנו בסעיפיס הקודמיסם),
יכולים לקבל כקלט רק ערכיס נומריים. אס חילקנו את הארצ ל-20 אזוריס
גיאוגרפייס ולכל אחד קוד אלפאנומרי, יהיה צורך לבנות רשומה ובה 20 שדות
בינארייס, שכל אחד מהס מכיל 0 או 1, בהתאם לאזור הגיאוגרפי של הלקוח. תהליך
בניית הקודים תלוי, לא מעט, בדרישות וביכולות הכלים לכריית נתונים.
+ כריית הנתונים (פַחוחוו/! בּוהכ) - זהו לב תהליך כריית הנתוניס וכאן מופעל למעשה
תהליך הגילוי, שאינו בהכרח השלב המורכב ביותר, כפי שניתן להביו מהשלביס
הקודמים. מסתבר שהכנת הנתונים לכרייה הוא תהליך מורכב מאוד הדורש השקעת
מאמצ רב. בשלב זה יש להחליט באיזו גישה להשתמש, איזה אלגוריתס ספציפי
יופעל, וכל ואת בהתבסס על הכלים שנרכשו או זמינים בארגון. בדרך כלל, מתחיליס
את תהליך הכרייה בהפקת מספר שאילתות או דוחות על הנתוניס, כדי לרכוש קצת
יותר הבנה בנתוניס. לאחר שלב ראשוני זה מתחילים בהפעלת הכלים הייעודיים.
* דיוות (סָחוהסק6ה) - והו השלב בו מנתחים את ממצאי תהליך כריית הנתוניס,
מסכמים את התוצאות, מגבשיס את דרך הצגתם ומציגיס אותס למקבלי ההחלטות.
התהליך המתואר כאן אינו תהליך לינארי חד כיווני, אלא יכול להיות תהליך איטרטיבי -
למשל בחירת נתוניס מחדש לאחר תהליך כריית הנתוניס (בשל גילוי עובדות המחייבות
פרמטריס בהס לא בחרנו, למשל זיהוי נתוניס לא נקיים תוך כדי תהליך הכרייה וכדומה).
בנוסף, תהליך הניתוח יכול לשלב גס טכניקות אנליטיות נוספות, מעבר לכריית נתוניס.
לדוגמה, כתוצאה מכריית נתוניס ייתכן שנחליט לבצע ניתוח רב-מימדי באמצעות כלי
ק ]0 כלשהו, או להפיק אוסף שאילתות באמצעות מחולל שאילתות כלשהו. חשוב
להסתכל על כל הטכניקות האנליטיות כעל טכניקות משלימות העומדות לרשות
המשתמשים, ולא כטכניקות המוציאות זו את זו.
0 מחסנל נתונים
אינטגרציה בין מחסן הנתונים
לכריית הנתונים
כל תכלית קיומו של מחסן הנתוניס בארגון הוא תמיכה בתהליך קבלת ההחלטות.
לעיתים, המידע שניתן להעמיד לרשות מקבלי ההחלטות באמצעות כלי שאילתות מבוססי
, או כלי ניתוח רב-מימדי, מספיקיס בהחלט. הבעיה מתחילה ברגע שקיים קושי
להגדיר בדיוק מה אנו מחפשיםס ביס הנתוניס האגור במחסן הנתונים, וקיימת הבנה
שמספר יהלומים עדיין מסתתרים בו. והו הרגע בו מחליט הארגון להתחיל בתהליך כריית
הנתונים.
כפי שכבר צריך להיות ברור מהדיון בפרק זה, קיומו של מחסן הנתונים אינו תנאי קדס
לשימוש בטכניקות כריית נתונים. אולס, מאידך, קיומו יכול לפשט ולהאיצ באופן
משמעותי את יכולת הארגון לנצל את כריית הנתוניס לאיתור אותס יהלומים. ארגון יכול
להגיע למסקנה שכריית נתוניס יכולה לסייע לו בתהליך קבלת החלטות, ולהתחיל ביישוס
הנושא, ללא קיומו של מחסן נתונים. הארגון יעשה ואת על ידי גזירת נתוניס ישירות
ממערכות תפעוליות. אין כל ספק שתהליך זה מורכב בהרבה, צורך משאבים גדוליס יותר
ולעיתים אף מסכן את איכות התוצאות. מכל האמור לעיל נובע שכריית הנתונים היא
תפיסה המשתלבת באופן טבעי בתפיסת מחסן הנתונים, ומומלצ מאוד לראות את שני
הנושאיס כנושאים אינטגרטיביים.
בדרך כלל, כריית הנתוניס תעשה במחשב נפרד ממחשב מחסן הנתוניסם, וזאת בשל משאבי
המחשב הגדוליס שדורשות טכניקות כריית נתוניס מסוימות. הפעלת טכניקות אלו באופן
ישיר במחשב מחסן הנתונים אפשרית, אולס יכולה לגרוס לירידה משמעותית בומני
התגובה של שאילתות הפועלות בסביבת מחסן הנתוניס. למרות שחלק ממוצרי כריית
הנתוניס פועלים ישירות על בסיסי נתוניס טבלאייס מסחריים רגילים, עדיין קייס הצורך
בתהליך הכנת הנתוניס במבנה מיוחד (למשל, על ידי הפיכת שדות ערכים לשדות טווחים,
העברת שדות מסוימיס למבנה קודים כגון קייס/לא קיים וכדומה). נדגיש, שקיימים גס
מוצרי כריית נתוניס שאינס מסוגלים לפעול באופן ישיר מול בסיס נתוניס טבלאי, אלא
דורשים מבנה נתונים ייעודי, כמו למשל קוב שטות.
בשל דרישות משאבי המחשב, וכן בשל הצורך לבצע תהליכי הכנת נתוניס לקראת כריית
הנתוניס, הדרך הנכונה ביותר היא להתבסס על תפיסת מרכול הנתונים. כלומר, לבנות
מחסן נתונים ייעודי לכריית הנתונים.
פרק 7: כריית נתוניס 201
מחס( נתונים
מרכזי
מדכולי נתונים
לכליית נתונים
תרשים 7.11: מרכולי נתונים לכריית נתונים.
בעיות עיקריות בכריית הנתונים
כריית הנתוניסם אינה פעילות העומדת בפני עצמה. אחת מדרישות הקדם העיקריות היא
קיומו של מחסן נתונים. נסקור בקצרה את הבעיות העיקריות בתהליך כריית הנתוניס.
+ רגישות גבוהה לאיכות הנתונים - שימוש בכריית נתוניס על נתוניס לא אמינים, לא
שלמיס ולא איכותיים, עלול להפיק תוצאות חסרות משמעות, או במקרה הגרוע
יותר - להחלטות שגויות. לצערנו, גס בשטח זה תופס העיקרון יינכנס זבל, יצא זבליי
המוכר כל כך משטחי מחשוב אחרים. חובה להשקיע את המאמצ הנדרש בתהליך
ניקוי הנתוניס, ולכן התבססות על נתוניס שמקורס במחסן הנתוניס (ולא במערכות
התפעוליות) מהווה נקודת התחלה טובה לפרויקט כריית נתונים.
+ העדר נתונים מספיקים - בסיסי נתוניס של מחסני הנתוניס חסריס לעיתים את
התכונות והמאפייניס הדרושיס לתהליכי כריית הנתונים. הבעיה היא שלעיתיס
נתוניסם אלה פשוט אינם קיימיס במערכות התפעוליות, וגס השגתס ממערכות
חיצוניות אינו פשוט. לדוגמה, אם נתוני ספירת כדוריות האדומות בדם אינס
ידועים, אין אפשרות להשתמש בתהליך כריית נתוניס כדי לחזות למי מלקוחות
קופת החוליס יש הסתברות גבוהה יותר לחלות במחלה מסוימת.
+ העדר היכולת להסביר את התוצאות - רוב הכלים אינס יכוליס להסביר את
התוצאות אליהן הגיעו. הכליס מבוססים על אלגוריתמיס מתוחכמים, וקיים קושי
לא קטן להסביר כיצד הגיע האלגוריתס לתוצאה. בעיה זו היא מהותית, מכיון
שקייס קושי להסביר למשתמשיס את דרך ההגעה לתוצאות, ולכן גס קייס חשש
אצל המשתמשיס לבסס את החלטותיהס על התוצאות.
2 מחסני נתונים
> מבנה נתונים ייחודי - חלק מהכליס אינס פועלים באופן ישיר על בסיסי נתוניס
טבלאיים, אלא זקוקיס למבני נתוניסם מיוחדיס (בדרך כלל, קבציס שטוחיס
פשוטים). הצורך לגזור את הנתוניס ממחסן הנתונים, ולהמיר אותס למבנה מיוחד,
גורס לסיבוך נוסף בתהליך כריית הנתונים. מכיון שמבנה הכוכב של מחסן הנתוניס
יכול להכיל רמה גבוהה של דה-נורמליזציה, צריך למפות את מבנה הכוכב למבנה
שטוח. תוך כדי תהליך כריית הנתוניס מתגלות עובדות לא ידועות הדורשות חקירה
נוספת על פרמטרים שלא נגזרו, וצריך לטעון מחדש את הנתוניס פעס נוספת.
+ ביצועים - חלק מהכלים מוגבלים בגודל הקבציס שהס מסוגלים לקבל כקלט. מכיון
שבדרך כלל תהליך כריית הנתוניס מבוסס על 680זחד פְוַפָחופ, יש קושי לנצל את
המבנה המקבילי של המחשב, כדי להגיע לביצועים טובים יותר. למרות שחלק
מהכליס המודרניים מתחילים לתמוך בגישה ישירה לבסיסי הנתוניסם הטבלאייס
הפופולרייס (בסיסי נתוניס התומכים במקביליות), כלי כריית הנתוניס עצמס אינס
תומכיס במקביליות. חלק מהיצרנים מנסיס לעקוף את בעיית הביצועים על ידי
המלצה לעבוד עס קוב המכיל מדגס כלשהו. בניית מדגס כשלעצמה אינה תהליך
טרוויאלי. הוא עלול להטעות את האלגוריתמים, וכמובן את התוצאה המתקבלת.
+ קושי להצדיק את עלות הפרויקט - קיים קושי לבנות את מודל העלות/תועלת של
תהליך כריית הנתונים. לעיתים, דורש תהליך כריית הנתונים חומרה נפרדת,
מהנדסי תוכנה לבניית תהליכי הכנת הנתונים, מומחיס שעברו הכשרה בכלים ובעלי
ידע מתקדס בסטטיסטיקה ובשיטות מתמטיות, ורכישת כלי תוכנה ייעודיים. כל
אלה עולים כסף רב, ויש קושי להתחייב מראש לגבי תוצאות התהליך, איזה עובדות
בלתי ידועות נצליח לגלות ומה תהיה משמעות גילוי וּה, מבחינה עסקית.
סיכום
תפיסת כריית הנתוניסם יוצאת ממעבדות המחקר ונכנסת במהירות למרכזי המחשוב
הגדולים. היא תופסת מקוס של כבוד על במת המערכות לתמיכה בתהליכי קבלת החלטות
ומחסני הנתוניס. ניתן לומר שזו מגמה ברורה, שרק תגבר בשניס הקרובות. הלחציס
התחרותיים דורשיס ניתוח מהיר ומתוחכס של הנתונים, וכריית הנתונים היא כיוס ללא
ספק פסגת התהליכים האנליטיים. ככל שבסיסי הנתונים יגדלו מבחינת נפח ומורכבות,
הצורך בכלים לכריית נתוניס ילך ויגדל. ואת בשל הקושי ההולך וגדל של המוח האנושי
להתמודד עס הבנת וניתוח הנתוניס. למרות שיישומי כריית הנתוניס אינס מתאימיס לכל
סוגי הבעיות, מוצרי כריית הנתוניסם כבר מספקיס תוצאות מלהיבות בכל הקשור לפילוח
לקוחות, איתור הונאות וניתוח סל הקניות. למרות שלא כל חברה וקוקה כיוס
לטכנולוגיה זו, סביר להניח שבזמן זה או אחר רוב החברות תשתמשנה בה, או בנגזרת
כלשהי שלה. טכנולוגיה זו משלימה את הטכניקות האנליטיות האחרות, כגון מחוללי
השאילתות ומוצרי ג .01, ומוסיפה מימד חדש ליכולת ניתוח מידע.
פרק 7: כריית נתוניס 203
פרק 8: הטכנולוגיה המקבילית
בשירות מחסן הנתונים
מבוא
מטרת פרק זה לסקור כיצד תומכת טכנולוגיית העיבוד המקבילי (0חו06655-₪ |פווזֶ8ק)
בדרישות הייחודיות לגבי ביצועים ונפחי הנתוניס בסביבת מחסן הנתונים. הבסיס לעיבוד
המקבילי נובע מארכיטקטורות חומרה מיוחדות המאפשרות עיבוד מקבילי על ידי שימוש
במספר מעבדים. על מצע הארכיטקטורה המקבילית של החומרה פועלת התוכנה. זו
מנצלת את ריבוי המעבדים, כדי לחלק משימה אחת למספר משימות אותן ניתן לבצע
במקביל, וכך לקצר את משך ביצוע המשימה הכולל. מערכות ₪085 המודרניות
מסוגלות לקחת שאילתת .501 אחת ולחלק אותה למספר משימות המתבצעות במקביל.
כדי לאפשר למשימות לפעול במקביליות רבה ככל הניתן פותחה שיטה לחלוקת טבלה
גדולה למספר מחיצות (פחסווווזהק). בדרך זו ניתן לנצל מעבדיס שוניס כך שיסרקו
במקביל קטעים שוניס באותה טבלה.
כפי שנראה, ניתן להפעיל את העיבוד המקבילי במיגוון רחב של משימות. ביניהן:
+> סריקת טבלאות (ח568 8016 ד) וסריקת אינדקסיס (ח568 א06ח!)
+ מיון מקבילי של תוצאות השאילתות 501 13516)
> ניתוח מקבילי של שאילתות (סַחופז₪8 עז26))
> עיבוד מקבילי של פעולות צירוף טבלאות (חוסנ)
+ ורימה מקבילית של מספר שאילתות שונות (פַחוחו|6סוק)
> עדכון מקבילי של טבלה
*> טעינה (080)) וגיבוי (ק280%00) של טבלאות
מערכות מסוימות תומכות בעיבוד מקבילי של חלק מהמשימות שהזכרנו, בעוד שאחרות
מסוגלות לתמוך בעיבוד מקבילי של כולן. תמיכה בעיבוד מקבילי עבור חלק מהמשימות
בלבד עלול להיות בעייתי (למשל, תמיכה בסריקה מקבילית של טבלאות. עס ואת, העדר
תמיכה בטעינה מקבילית של טבלאות עלולה להוות צוואר בקבוק משמעותי). מכאן
החשיבות בהבנת המושגיס השונים ובתינת המערכות המסחריות מנקודת מבט של
תמיכתן בעיבוד מקבילי.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתונים | 205
ארכיטקטורות מרובות מעבדים לעיבוד
מקבילי (5וח5%6ע5 וְסוובּזבק)
לפני שנתייחס לתכונות בסיס הנתונים, נסקור תחילה מספר ארכיטקטורות חומרה
המבוססות על ריבוי מעבדים, ותומכות בעיבוד מקבילי. המושג עיבוד מקבילי הוא רחב
ויכול להתייחס, בקצהו הנמוך, לשני מעבדיס הפועליס בשרתי |46ח! ועד למערכות בהן יש
מאות ואלפי מעבדים. השוני בין המערכות השונות נובע יותר מארכיטקטורת המערכת,
מאשר מהעוצמה של המעבד הבודד.
מטרת הדיון היא להציג באופן כללי ביותר את הארכיטקטורות, ונועד אך ורק לשמש
כבסיס לדיון בשיטות העיבוד המקביליות של בסיסי נתוניס בסביבות מחסני נתוניס.
ארכיטקטורת :511 (0חו6655סזק ו+!ט! 64716 הץ5)
בארכיטקטורה זו אוסף של מעבדים משתפים ביניהס ויכרון (עזסוח6ו 60ז8ח5)
ודיסקיס. בשל שיתוף הזיכרון והדיסקיס בין המעבדיס מקובל גס לקרוא לארכיטקטורה
זו בשס 6זט00וח0ז 8ַחותזע6/ם סַ6ז8ח5. זו ארכיטקטורה סימטרית, המתבטאת
בעובדה שכל המעבדיס שווי וכויות בגישתם לזיכרון והדיסקים. שיתוף הפעולה בין
המעבדיס מתבצע באמצעות הזיכרון המשותף. גישת המעבדים לציכרון נעשית באמצעות
אפיק (8טם) מהיר, או התקן מיתוג מהיר (601חח60ז6+חו |08560 חסזו/ו5).
יש תחרות בין המעבדים ויחידות קלט/פלט על הגישה למשאב המשותף - האיכרון. כדי
למנוע התנגשות דרוש סינכרון בין המעבדיס ותיאוס מתמיד ביניהם, ולכן יש גבול למספר
המעבדים שניתן להוסיף ועדיין לקבל שיפור בביצועי המערכת. החיסרון העיקרי של
ארכיטקטורה זו הוא כושר הגידול שלה. עד מספר מסויס של מעבדים הגידול בעוצמת
המערכת הוא יחסי לעוצמת המעבדים; מעבר לנקודה זו הגידול בעוצמת המערכת קטן
באופן משמעותי לעומת תוספת המעבד. צווארי הבקבוק נוצרים מכיון שמעבדיס רבים
מתחרים על אותס משאבים. מספר המעבדים יכול לנוע, בדרך כלל, בין שני מעבדיס ועד
6 מעבדים. פותחו גם מערכות בהן ניתן להתקין 36, 64 ואפילו 96 מעבדים, תוך השגת
שיפור בביצועים. עס ואת, ברוב המערכות מותקנים בין 12 ל-16 מעבדים.
אחד הפתרונות המשפרים את ביצועי מערכת 5/5 הוא שימוש בזיכרון מטמון (08008
ץְזסוח6!/!) עבור כל מעבד. ויכרון המטמון מאפשר לכל מעבד לקבל שטת זיכרון מסויס
משלו, כך שלא כל הזיכרון משותף לכלל המעבדים. יצרניס פועלים גס להגדיל את עוצמת
ערוצ התקשורת של מערכות =/5, כך שיותר נתוניס יכוליס לעבור בין רכיבי המערכת
השונים. בנוסף להגדלת מספר המעבדים, ניתן גם להחליף מעבדיס חלשיס במעבדיס
חזקים יותר. לכן, עוצמת העיבוד אינה נמדדת רק על פי מספר המעבדים.
6 מחסנל נתונים
846 5
זיכרון משותף
תרשים 8.1: ארכיטקטורת ק;וש5.
אחד מיתרונותיה העיקריים של ארכיטקטורה זו מתבטא בכך שהיא קלה לניהול
ותחזוקה, מכיון שהיא מספקת תמונת מערכת אחת (806ח1 פוַפָחו5), מנקודת מבטה של
מערכת ההפעלה ומערכות התוכנה הפועלות בה. בדרך כלל, אין בורך לשכתב יישומיס כדי
לאפשר להס לפעול בסביבת =51. הגידול בעוצמת עיבוד המערכת הוא שקוף, ואינו דורש
שינוי כלשהו ביישומיס.
להלן טבלה המציגה את היצרניס הנפוציס ביותר של מערכות :פס :
ארכיטקטורת אשכול (6זט461+66% ז5+6ש!6)
בארכיטקטורה זו מתקיניסם מספר מחשבים שונים, שכל אחד מהם :כול להיות
בארכיטקטורת מעבד בודד או בארכיטקטורת 5ו5, ומשתפים ביניהם דיסקים. כל
מחשב משתמש בזיכרון ובמערכת ההפעלה שלו, אולס יש לו גם זכות גישה לציכרון
במחשביס האחרים. מכיון שלכל המחשבים זכויות גישה שוות (806695 10-0681-ז066)
לויכרון המחשביס האחרים, מקובל לקרוא לארכיטקטורה זו זיכרון משותף באשכול.
בדומה, מכיוו שכל המחשביס משתפים ביניהס אוסף משותף של דיסקים, ניתן לקרוא
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניס | 207
לארכיטקטורה וו גם אוכיטקטורת דיסק משותף (₪186 60ז58). התקשורת בין
המערכות מתבצעת על ידי העברת מסרים (טָחו0859 ₪855806) דרך ערוצ תקשורת מהיר
600חהחססז16ח! 50660 תאור). מטרת האשכול היא ליצור תחושה של מערכת גדולה
וחזקה יותר.
להבדיל מארכיטקטורת 515 רגילה, מערכת ההפעלה הסטנדרטית אינה יודעת לפזר,
באופן אוטומטי, את עומס העיבוד על צמתיס שוניס באשכול. מערכות ההפעלה :ודעות
לחלק את עומס העיבוד בצומת =!5, אך לא בין צמתיס שוניס. לכן, נדרש תתכוס מיוחד
של מערכת ההפעלה כדי לתמוך בארכיטקטורת האשכול. שכבת תוכנה מיוחדת פועלת
בכל צומת של האשכול ומנהלת את התקשורת בין המחשביס השונים. היא עושה ואת
באמצעות הערוץ המהיר ותפקידה להביא לתמונה עקבית של זיכרון המטמון (68006
ץ0ח6זח600) ושל הזיכרון הרגיל.
מכיון שהדיסק משותף בין מספר מחשבים, נדרש מנגנון נעילה מיוחד לניהול נעילות
מבוזרות (808ח83 106% %1100160וכ). תפקיד מנגנוו וגה להבטיח שהנתוניס בדיסק
יעודכנו רק על ידי צומת אחת. כמו כן, מכילה שכבת התוכנה מנגנון לניהול תורים,
המאפשר למחשביס באשכול לעבוד מבלי לפגוע באמינות ושלמות הנתוניס בדיסק. בשל
התתכוס הנדרש לניהול האשכול, פותחו מערכות אלו על ידי יצרנים שפיתחו את החומרה,
את מערכות ההפעלה ואת מנגנוני התקשורת בין הצמתים. ארכיטקטורה זו אינה מחייבת
שכל המעבדיס יהיו מאותו סוג, אלא רק שיפעלו עס אותה מערכת הפעלה, ולכן ניתן
לשתף מספר מחשבים בעלי מעבד שונה.
)1 50660 קוח
₪ או ו ו
תרשים 8.2: ארכיטקטורת אשכול.
בנוסף ליכולת העיבוד המקבילי של הפעלת משימות שונות על מעבדיס שונים, מאפשרת
ארכיטקטורה זו רמה גבוהה של זמינות, מכיון שנפילת מחשב אחד מאפשרת המשך מתן
השירות על ידי המחשבים הנותרים. ארכיטקטורה זו מאפשרת גס איזון עומסיס טוב,
מכיון שניתן להחליט איוו משימה תתבצע על ידי איזה מחשב. גס בארכיטקטורה זו
קיימת מגבלה על מספר המחשבים שניתן לשתף מול מערכת דיסקים אחת. ככל
8 מחסנל נתונים
שמוסיפים מערכות לאשכול, הצורך בתאוס בין המערכות והעומס על ערוצ התקשורת
המהיר, הולך וגדל ולכן, התועלת מתוספת עוצמת העיבוד מתחילה לרדת. שיפור
אפקטיבי בעוצמת העיבוד נקבל באשכול המורכב מ-4 עד 8 צמתים. חברת דיגיטל (כעת
6 0 0) היתה בין החלוצות בפיתוח ארכיטקטורה זו במערכות 15//א/ שלה,
בתחילת שנות ה-80. גס חברת ו06₪ח3ד השתמשה בארכיטקטורה זו כדי לבנות מערכות
בעלות רמות ומינות גבוהות מאוד. כיוס ארכיטקטורה זו נתמכת על ידי רוב יצרני
מערכות אוח.
ארכיטקטורת ₪2
(0חו6655סזק |3]3|!6ק צ|6צו₪355)
ארכיטקטורה זו מבוססת על אוסף מעבדים, כאשר לכל מעבד יש את העותק שלו של
מערכת ההפעלה, את הזיכרון שלו ואת אוסף הדיסקים שלו. לכן, מקובל לומר שזו
ארכיטקטורה בה המעבד אינו משתף שוס משאב (פַחוחוּס] 8760ח5). חלק מהיצרניס
מאפשריס שיתוף דיסק אחד לשני צמתים, כדי למנוע מצב של השבתת המערכת (אס
צומת אחד נופל). הארכיטקטורה מאפשרת עצמאות של כל מעבד, יחד עם תקשורת
ושיתוף פעולה ביניהס. התקשורת בין המעבדיס מתבצעת על ידי העברת מסריס
באמצעות ערו תקשורת מהיר, בפרוטוקוליס מיוחדים המפותחים על ידי היצרנים.
לארכיטקטורה זו כושר גידול עצוס, וקיימות מערכות המגיעות למאות ולאלפי מעבדים.
נדגיש, שמערכות אלו דורשות רמת תתכוס בהחלטה לגבי פיזור הנתוניס בין הדיסקים,
כדי להגיע למינימוס צורך בהעברת נתוניס בין הצמתיס. בדומה לארכיטקטורת האשכול,
גם ארכיטקטורה זו וקוקה למנגנוני נעילות מבוזרים, כדי לשמור על אמינות ושלמות
הנתונים, המפוזריס בין מספר דיסקים.
קיימת הסכמה כללית שמערכות אלו מורכבות יותר לניהול, ודורשות מאמץצ ניכר הן
בכתיבת היישומים ומערכות התוכנה שיפעלו בסביבה זו, והן בתחזוקה השוטפת של
המערכות, באופן שיאפשר ליישומים לנצל את עוצמת המערכת.
1 6660 וקו
תרשים 8.3: ארכיטקטורת קסחוש.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניס | 209
ארכיטקטורה זו מחייבת פיזור הנתוניס בין הדיסקיס השוניס, כדי לאפשר למשימות
שונות לרוצ באופן עצמאי בכל צומת. מערכות == מכילות מנגנון המבצע חלוקת טבלה
למחיצות, המפוזרות על ידי החומרה לצמתיס שוניס (טַחוםו5 הַּזהכ). שיטה זו מוסברת
בהמשך, בסעיף המסביר את שיטות החלוקה למחיצות.
אחת הסוגיות המעניינות בארכיטקטורה זו מתייחסת לשאלה מה עובר בין הצמתים
השוניס. בהנחה שיש משימה הפועלת בצומת מסוים, ווקוקה לנתוניס הנמצאיס בצומת
אחר, ניתן לחשוב על שתי חלופות שונות :
+> העברת הנתוניס מהצומת בו הס מאוחסניס לצומת בו מתבצעת המשימה. לשיטה זו
קוראיס שיגור נתונים (סַחוסקוח5 אַוּ8כ). לדוגמה, אס יש לבצע פעולה של צירוף בין
שתי טבלאות הנמצאות בשני צמתיס שונים, יש לשגר טבלה מצומת אחד לצומת
השני. שיטה זו יכולה להעמיס מאוד על ערוצ התקשורת, מכיון שטבלאות יכולות
להיות גדולות מאוד.
> העברת המשימה מהצומת בו היא צריכה להתבצע לצומת בו נמצאים הנתוניס.
לשיטה וו קוראים שיגור משימה (סְַחוססוח5 חסטסחט=). במקרה זה משוגר קוד
מצומת לצומת, דבר שאינו מעמיס על ערוץ התקשורת. שיטה זו יעילה יותר, מכיון
שהיא חוסכת שיגור של כמויות נתונים גדולות מצומת אחד למשנהו בערו
התקשורת המחיר.
נדגיש, שבכל מקרה לא ניתן ליצור מצב בו מתבצע רק שיגור פונקציות ולכן, תמיד יש גס
שיגור נתוניס. על רכיב האופטימיוציה להבטיח את הקטנת שיגור הנתוניס ולהשתמש
בשיטה זו רק כאשר אין אפשרות אחרת.
להלן טבלה המציגה את היצרניס הנפוציס ביותר של מערכות קקוש :
ו
0 ,610000 8ע! חורו
פיתוח מערכות קם! הואץ מאוד, כתוצאה מהופעת תפיסת מחסן הנתוניס, בשל יכולתן
לתמוך בשאילתות הפועלות מול בסיסי נתוניס ענקייס ומשרתיס מספר רב של
משתמשים.
0 מחסנל נתונים
ארכיטקטורת האשא
(6'ו66+00+וחה6ו2 עץוסוח6! הח'וס+וחט הסא)
קיימת הסכמה כללית בין היצרניס השוניס שעס הזמן נהיה עדים להופעת ארכיטקטורה
המשלבת את יתרונות 5 עס יתרונות ק;!. ארכיטקטורת גשא, מייצגת שילוב
מסויס של שתי תפיסות אלו, ומבוססת על אוסף מערכות ₪!51 הקשורות ביניהן באופן
הדוק (60!ק60 עְוְתִפָוד) באמצעות ערוץ תקשורת מהיר ביותר. ערוצ מהיר זה מקשר בין
הזיכרון המקומי של צומת 51 אחד, לבין הזיכרון של צומת !5 אחר. תפיסת גו(א
מבחינה בין הזיכרון הראשי, השייך לצומת מסוים, לבין הזיכרון המשני, שהוא הזיכרון
של צומת מרוחק. מכיון שהערוצ מהיר ביותר, נוצרת תחושה של כמעט זיכרון מקומי, גם
כשנדרשת גישה לנתוניס המאוחסניס בצומת מרוחק. ארכיטקטורה זו מאפשרת למערכת
הפעלה לפעול במצב הדומה לארכיטקטורת =!5, ולא כאוסף מערכות הפעלה הפועלות
בנפרד בכל צומת, כפי שפועלת ארכיטקטורת =ח!]. מספר חברות (ביניהן 1ח8וף56,
060818 בּנהכ, /ם! ואחרות), פיתחו מערכות המבוססות על ארכיטקטורה זו. לדוגמה,
המערכת של חברת +ח560006 מסוגלת לפעול עם 252 מעבדים שוניס.
ארכיטקטורת א50!6ע5 |3||6ז₪3 של חברת יבמ
חברת 5! פיתחה את ארכיטקטורת א50!6ע5 |8|!6ז8ש. ארכיטקטורה זו מחברת אוסף
של מחשבים מרכזיים, שכל אחד מהס מהווה צומת =51, למערכת אחת כוללת
(המזכירה את ארכיטקטורת /()א). צומת !5 מבוסס על מחשב מרכזי הפועל
בטכנולוגיית 01/05 (או אף בטכנולוגיה ז9ּ!סקופ הישנה יותר) ויכול להכיל עד 10
מעבדים. ארכיטקטורת א5/50!6 |₪8/8|!6 מאפשרת שילוב של עד 32 צמתיסם כאלה, ולכן
ניתן לקבל מערכת המורכבת מ-320 מעבדים. 32 הצמתיםס משתפים ביניהס את כל מערך
הדיסקים.
מחשב
גוג ה 13
ן
ן
שחו[ 0 ) ן
0 ן
ו
מחשב
גוג
6 א 5816 [3116זג]
תרשים 8.4: חיבור מחשבים מרכזיים.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניס 211
רכיב מיוחד, ₪ ]/ (זספַהח8ו ההסואזס/)), מפקח על המשאביס בצומת 5₪, או
באשכול המחשביס המחוברים ב- א5/50!6 |8||6ז8=. רכיב זה מפקח על המעבדים, ערוצי
קלט/פלט והדיסקים, ומאזן את השימוש לקבלת ביצועים אופטמליים. רכיב זה מאפשר
קבלת סביבת עבודה מאוזנת, כך שבאותה מערכת מופעלים גם יישומי 01 וגם יישומי
מחסן נתוניס. ניתן לגרוס לכך ששאילתות כבדות של מחסן נתונים לא יגרמו לירידה
בביצועי יישומי ד01. רכיב ₪ 1 מבטיח ששאילתה מסוימת של מחסן הנתוניס לא
תשתלט על כל משאבי המערכת.
עיבוד מקבילי של שאילתות
(0חו06655זק עו6ט3) |סְוובזְבּק)
מהו עיבוד מקבילי של שאילתה
הרעיון הבסיסי בעיבוד מקבילי של שאילתות פשוט להבנה, אם כי מורכב למימוש. הוא
מבוסס על שני מושגיסם בסיסיים - חלוקת טבלה לוגית למספר מחיצות (פחסווו8]1ק)
ויכולת עיבוד שלביס שוניסם של מספר שאילתות, בתפיסת צינור ורימה מקבילית
(פָחוחו|6סוש). לפני שנסקור מושגיס אלה נתבונן תחילה כיצד מתבצעת שאילתה בסביבת
מעבד בודד. השאילתה הבאה מציגה את סך המכירות ללקוחות עסקיים שערך המכירה
היה גדול מ-1000 שייח.
,ע] 608 6 1 .
1 ₪;41 45 (דאשסואא 5418 + צדודאהא טס 6418 ]אפ
6 65 ,5 51.06 ]אסא .
עאג פ]ז 051084 5.6 = פ] א0570]3 6.6 מאמוצ .
כעא\ '2₪156889* = הקעצ 0
0 < דאטשסואא 5.5415 + צדזדאג טס 5.515
41₪ צם אתסתס .
= ₪ +
.+ בופם
השלביס העקרוניים אותס צריכה השאילתה לבצע הם:
> שליפת שורות מטבלת המכירות, בהן ערך המכירה היה גדול מ-1000 שייח.
+ שליפת שורות מטבלת הלקוחות, בהן סוג הלקוח הוא עסקי.
+ צירוף שורות המכירות עס השורות מטבלת הלקוחות.
+ מיון התוצאה בסדר יורד, לפי ערך יורד של המכירה.
בהפשטה, נוכל לומר שהשאילתה מורכבת משלבי הביצוע הבאים:
+ סריקת (ח508) הטבלאות.
* צירוף (חוסנ) תוצאות הסריקה.
> מיון (זספ) תוצאת הצירוף.
> הצגת תוצאת המיון למשתמש.
2 מחסנל נתונים
להבנת התהליך, נניח מספר הנחות פשטניות ביותר. למען הפשטות נניח ששתי הטבלאות
מכילות 30 מיליון שורות כל אחת. במציאות, סביר להניח, שטבלת המכירות תהיה גדולה
יותר מטבלת הלקוחות. כמו כן (שוב, למען הפשטות), נניח שזמן הביצוע של כל אחד
משלושת שלבי השאילתה הוא 5 דקות. התרשיס הבא מציג את שלושת שלבי השאילתה.
במציאות כל שלב יכול לקחת זמן שונה, אולס הנחות אלו מיועדות רק להבנת העיקרון.
שלבא* שלבב'* שלב ג*
סריקה | צירוף
--->
5דקות | 5דקות | 5 דקות
-
0 מיליון שורות זמן
0 מיליון שורות
טבלה 1
תרשים 8.5: ביצוע סדרתי של שלבי השאילתה.
מכיון שכל שלב לוקח 5 דקות לביצוע, סך כל ומן ביצוע השאילתה יהיה 15 דקות.
סריקה מקבילית של טבלאות (ח563 6!סבּד |סוובזבּק)
עד כאן הנחנו שהשאילתה מתבצעת בחומרה עס מעבד בודד. כעת נניח שהשאילתה
מתבצעת בחומרה מרובת מעבדיס. במצב זה ניתן לחלק את השאילתה למספר משימות,
כך שהן תתבצענה במקביל, ולא באופן עוקב כמתואר בדוגמה הקודמת. נתבונן במשימת
הסריקה, הדורשת סריקה של שתי טבלאות. במקוס לבצע את סריקת שתי הטבלאות
באופן עוקב במעבד אחד, ניתן לחלק את משימת הסריקה למספר משימות קטנות יותר -
אחת לסריקת טבלת המכירות, ואחרת לסריקת טבלת הלקוחות. נניח, שסריקת כל אחת
מהטבלאות אורכת 2 דקות בלבד. בדרך זו מצטמצס משך ביצוע השאילתה ל-12 דקות
בלבד.
שלב ב* שלב ג*
0 מיליון שורות
טבלה ₪
2 דקות 5 דקות 5 דקות
0 מיליון שורות
₪
זמן
תרשים 8.6: מיקבול של שלב הסריקה בלבד.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניטם 213
ניתן להביא אפילו לרמת מיקבול גבוהה יותר, אס נחלק טבלה אחת למספר מחיצות
(פחס0וז8ק), כך שניתן לעבד מספר מחיצות (בו-זמנית) על ידי מעבדיס שוניס. נושא
חלוקת הטבלה למחיצות מוסבר בפירוט רב יותר בהמשך הפרק. לדוגמה, אס נחלק כל
אחת מהטבלאות לשתי מחיצות, כך שכל אחת תכיל 15 מיליון שורות, נוכל להקצות את
משימות הסריקה לארבעה מעבדיס שונים - 2 מעבדיס יסרקו את שתי המחיצות בטבלת
המכירות ו-2 מעבדיס יסרקו את שתי המחיצות בטבלת הלקוחות. בהנחה שסריקת
מחיצה בטבלת המכירות אורכת דקה אחת בלבד, מצטמצס משך זמן הסריקה מ-5 דקות
לדקה אחת. בדרך זו, משך ביצוע השאילתה כולה מצטמצס ל-11 דקות. מובן, שחלוקת
הטבלאות למספר רב יותר של מחיצות, ושימוש במספר רב יותר של מעבדים, עשוייס
לגרוס לשיפור נוסף בזמן הסריקה.
צירוף מקבילי של טבלאות (חוס 6וסבּד וסוובַּזבּק)
השלב הבא, לאחר סריקת הטבלאות ושליפת השורות הרלוונטיות, הוא ביצוע פעולת
צירוף הטבלאות. קיימות מספר שיטות שונות לביצוע פעולה זו, וביניהן קסס.| 485100
חוסנ, חוס 6706 1ז60, חוס ח85 ועוד. כפי שנראה, חלק מהשיטות ניתנות למיקבול
באופן נוח יותר מאחרות.
השיטה הבסיסית לביצוע צירוף שתי טבלאות היא שיטת הלולאה המקוננת (465160!
ססס ]). בשיטה זו מתחיל תהליך הצירוף על ידי לולאה חיצונית הסורקת את כל השורות
בטבלה אחת. עבור כל שורה מתחילה לולאה מקוננת (פנימית) בה סורקיס את הטבלה
השנייה, למציאת שורות מתאימות. ניתן לסרוק את הטבלה השנייה באופן סדרתי (מאוד
לא יעיל), או תוך שימוש באינדקס, במידה וכזה קיים.
טבלת לקוחות טבלת מכירות
תרשים 8.7: צירוף שתי טבלאות בשיטת לולאה מקוננת.
תרשים 8.7 מדגים את הצירוף בשיטת הלולאות המקוננות. הצירוף מתבצע בין טבלת
הלקוחות (מימד) לטבלת המכירות (עובדות). הלולאה הראשית סורקת את טבלת
הלקוחות. השורה הראשונה מתייחסת ללקוח שמספרו 40. עבור לקוח ה מתחילה לולאה
פנימית, המאתרת את כל שורות המכירות ללקוח זה. בהנחה שבטבלת הלקוחות יש ח
שורות, ובטבלת המכירות וח שורות, שיטה זו תבצע חז א ח השוואות. בדוגמה הקודמת
נמצאו שתי שורות כאלה, עבור לקוח שמספרו 40. שיטה וו מתאימה בעיקר עבור טבלאות
קטנות, במיוחד במצב בו שתי הטבלאות נמצאות בזיכרון. היא אינה ניתנת למיקבול
בקלות, בשל התלות בין הלולאה הראשית ללולאה הפנימית.
4 מחסנל נתונים
שיפור משך זמן הביצוע של שיטת הלולאה המקוננת יתקבל אס לטבלת המכירות יהיה
אינדקס לפי מספר לקוח. במצב זה, תהיה הלולאה הפנימית יעילה מאוד, מכיון שהגישה
לשורות המתאימות בטבלת המכירות לא תתבצע על ידי סריקה, אלא על ידי גישה
באמצעות האינדקס.
כעת, נציג שיטה אחרת לצירוף טבלאות, שניתנת למיקבול ביתר קלות, שיטת
המיון-מיזוג. בשיטה זו, מתחיל צירוף שתי הטבלאות בשלב מיון, וממשיך בשלב שני
במיזוג שתי הטבלאות הממוינות. רק שורות שנמצאו בשתי הטבלאות יישלפו לטבלה
התוצאתית.
טבלאות מקוריות : שלב המיון שלב המיזוג : טבלה תוצאתית
טבלת לקוחות טבלת מכירות | :| טבלת לקוחות טבלת מכירות | :
| מס לקות ג | [ מס לקוח סג |
| מס לקותפ. | | | מס לקוחט; |
| מס לקות 15 | | [ מס לקוח 0 |
ו
ו
| מסלקות) | | מס לקוה 15 | | מס לקוה0: | | מס לקוה ג |
| מס לקותט?. | | מס לקוה ו | [ מס לקוחט; | | מס פקוה נ ||
| מס לקו טג. | | מס לקוהטג. | [ מס לקוח0 | | מס פקוה 2 |
. 1 5 7
ו ו
| מס.לקוחסט | [ מס לקוח0פ. | | מס.לקוח 6 | | מס לקות 40 | | | מק לקוהסל |:
לקו ל | מס לקוח | | [ מס לקוחט 2 ]|
| טלקוה 9 ]| | מס לקוח 90 ] | מס לקות 0 |
רדרש | | מס לקוח 90 ]| [ מס קוח |
| קוח |
| מררל רו[
8
תרשים 8.8: ביצוע צירוף על ידי מיון-מיזוג.
מכיון שתהליך זה מתחיל בשלב מקדיס של מיון, ניתן להפעיל תהליך ה במקביל על ידי
שני מעבדיס שונים, כך שכל מעבד יבצע מיון של טבלה אחת. קיימיס אלגוריתמיס
המאפשרים גס מיזוג מקבילי. הס עושיס ואת על ידי חלוקת שתי הטבלאות לטבלאות
משנה, מיזוג בנפרד של כל חלק ואחר כך מיזוג התוצאות.
מיון מקבילי (+וס5 6וסבּד וסוובַּזְבּק)
בנוסף לשיפור שהושג כתוצאה ממיקבול תהליך הסריקה, ניתן להשיג שיפור נוסף בזמן
העיבוד. ואת, על ידי מיקבול השלבים הבאים - הצירוף והמיון. לדוגמה, ניתן לקחת את
תוצאת שלב הצירוף ולהקצות את משימת המיון למספר מעבדים. כך, כל מעבד ממיין
חלק מהשורות, ולאחר מכן מבצעים מיזוג של השורות הממוינות לקבלת התוצאה
הסופית. נניח, שעל ידי מיקבול שלב המיון בסביבה עס ארבעה מעבדים, ניתן להגיע
לצימצוס משך זמן המיון מ-5 דקות ל-1.5 דקות. בדרך זו משך זמן ביצוע כולל של
השאילתה יהיה 7.5 דקות.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתונים | 215
שלב א* שלב ב* שלב ג*
0 מיליון שורות
0 מיליון שורות
1 דקות 5דקות | 1.5 דקות
חלתשתכד-ך--- >
זמן
תרשים 8.9: מיקבול שלב הסריקה והמיון.
התמונה המוצגת כאן היא מלאכותית, מפני שהיא מתעלמת מהתקורה. תקורה זו נובעת
מהעבודה הנוספת המתבצעת על ידי רכיב האופטימיוציה, כדי לבצע את חלוקת
השאילתה לשלבים נפרדים, ומהעבודה הנוספת הנדרשת כדי למזג (8108/!) את תוצאות
סריקת המחיצות לטבלה אחת לצורך המשך ביצוע השאילתה. עם זאת, התקורה הנוספת
נמוכה משמעותית לעומת החיסכון המושג על ידי העיבוד המקבילי של השאילתה. ככל
שמספר השורות אותן יש לסרוק גדול יותר, תקורה וזו תהיה נמוכה יותר - ביחס לזמן
הביצוע הכולל של השאילתה.
זרימה מקבילית (פַחוחו!|6סו: ץזסטוב))
עד כאן התייחסנו לשאילתה בודדת. במציאות אמורה המערכת לטפל בסביבה מרובת
משתמשים, ולכן גם סביר להניח שבכל נקודת זמן יהיה צורך לטפל במספר שאילתות.
כאן נכנסת לתמונה תפיסת צינור הזרימה המקבילית (סְחוחו!|6קום). תפיסה זו אינה
מאיצה את משך ביצועה של שאילתה בודדת, אלא את משך ביצוען של אוסף שאילתות.
הרעיון הבסיסי הוא לאפשר תחילת ביצוע של שאילתה חדשה, עוד לפני שמסתיים השלב
האחרון של השאילתה הנוכחית. כלומר, ליצור מקביליות לא רק בתוך השאילתה (פזוח!
רח8ו|3]8||6ק עזסט2)) אלא גס מקביליות בין שאילתות (ח8ו|818|!6ק עץזפטוכ) זסזח!). שיטה
גו מאפשרת למספר רב של מעבדיס לעבוד כל אחד על שלב שונה בביצוע שאילתות שונות.
אס במערכת רצה שאילתה אחת בלבד, חלק מהמעבדים יהיה בהמתנה, מכיון שיש גבול
לרמת המיקבול שניתן ליצור בשאילתה בודדת.
6 מחסנל נתונים
תפיסת צינור הורימה מאפשרת את ניצול המעבדיס לעיבוד שלביס של שאילתות נוספות.
נבחן מה היה קורה אס המערכת היתה מורכבת מ-12 מעבדים ומופעלות בה 3 שאילתות
זהות. ברגע ש-4 מעבדיס היו מסיימיס את שלב הסריקה הם היו מעביריס את התוצאה
ל-4 מעבדיס אחרים, לביצוע הצירוף, והיו מיד מתחיליסם לבצע את שלב הסריקה
לשאילתה הבאה. בינתיים, 4 המעבדיס המבצעיס את הצירוף היו מסיימיס את משימתס
ומעביריס את התוצאה ל-4 מעבדיס אחרים, לביצוע המיון. בדרך זו, בכל נקודת ומן
עסוק מספר רב של מעבדים בביצוע שלבים שוניס של שאילתות שונות, או כפי שמקובל
לומר - צינור העיבוד מלא כל הזמן במשימות.
מעבדי מעבדי | מעבדי מעבדי מעבדי | מעבדי מעבדי מעבדי | מעבדי
סריקה צירוף מיון סריקה צירוף מיון סריקה צירוף מיון
סריקה צירוף מיון
שאילתה3 | שאילתה2 | שאילתה1
סריקה
שאילתה1
0 מיליון
שורות
ד
סריקה
שאילתה1 שאילתה2 | שאילתה1 7
סריקה צירוף מיון
שאילתה3 | שאילתה2 | שאילתה1
סריקה
שאילתה1 ד
סריקה
0 שורות שאילתה1
סריקה צירוף מיון
שאילתה3 | שאילתה2 | שאילתה1
סריקה צירוף מיון
שאילתה3 | שאילתה2 | שאילתה1
זמן3
סריקה
שאילתה2 | שאילתה1
סריקה
שאילתה2 | שאילתה1
זמן
תרשים 8.10: זרימה מקבילית של מספר שאילתות על מספר מעבדים.
במציאות יכול כל מעבד לבצע כל משימה, ואין מעבדיס מיוחדיס המבצעיס רק משימות
סריקה וכאלה המבצעיס רק משימות מיון. בתרשיס 8.10 ניתן לראות כיצד שאילתה 1
זורמת בצינור העיבוד, ועוברת בשלביס השוניס בין מעבדיס שוניס. למשל, בנקודת זמן 3
יש בצינור 3 שאילתות, כל אחת בשלב עיבוד שונה - שאילתה 1 בסריקה, שאילתה 2 לאחר
סריקה ובתוך הצירוף, ושאילתה 3 שכבר סיימה את שלבי הסריקה והצירוף ונמצאת
בשלב המיון.
תפיסת צינור הורימה המקבילית מנצלת בצורה טובה יותר את אוסף המעבדים, על ידי
כך שמונעים ומני בטלה עד סיוס שאילתה מסוימת. בצורה זו, לאחר פרק ומן ראשוני של
מילוי הצינור, כל המעבדיס עסוקים כל הזמן.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתונים | 217
חלוקת טבלה למחיצות
(סחוחסוזוזוהּק 6וסה3ּד)
אחד האתגריס העיקריים בניהול בסיס הנתונים בסביבת מחסן הנתונים היא נפתי
הנתוניס הגדולים. נפתי נתוניס אלה מציביס אתגר מיוחד במספר רב של היבטים - ביצועי
השאילתות, טעינת הנתוניס ובניית האינדקסים, תהליכי גיבוי ושחזור ועוד. קייס הבדל
מהותי בין ניהול טבלה המכילה מספר עשרות, מאות אלפי או אפילו מספר מיליוניס של
שורות, לבין טבלה המכילה מספר מאות מיליוניס או מיליארדים של שורות. לדוגמה,
במחסן נתוניס של חברת טלקומוניקציה, האוספת מדי יוס 50 מיליון רשומות פירוט
שיחות, ומנהלת היסטוריה של שנה אחת בלבד, מספר השורות בטבלת העובדות של פירוט
השיחות יהיה מעל 4 מיליארד שורות (50,000,000 א 30 א 12). אם לכל שורה נשמור
0 בתיס בלבד, נקבל שטבלת העובדות לבדה תופסת נפח של 200 ג'ייגה-בית, וזאת ללא
אינדקסיס ושטחי עבודה. טבלה בגודל כוזּה תתפרס על פני מספר דיסקיס פיסיים שונים,
ותהיה קשה מאוד לניהול. אפילו תהליך פשוט כגון גיבוי הטבלה, יכול לארוך שעות רבות,
שלא לדבר על תהליכי טעינה ובניית אינדקסיס.
מכל האמור לעיל ברור, שניהול פשטני של טבלאות גדולות אינו סביר, וכי נדרש פתרון
המותאסם לניהול נפחי נתוניס גדולים. אחת הטכניקות הנפוצות ביותר לטיפול בבעיה זו
היא חלוקת הטבלה למחיצות (פחסוטוזהק). הרעיון העומד בבסיס טכניקה זו הוא לקחת
יישות לוגית אחת (טבלת העובדות, למשל) ולחלק אותה למספר יישויות פיסיות, יישויות
שבסיס הנתוניס מכיר ומנהל. את רעיון החלוקה למחיצות קל מאוד להבין, אולס לא כל
כך קל ליישם.
ישות לוגית ישויות פיסיות
0 מיליון שורות
טבלת
200
עובדות מיליון שורות
4
מיליארד
שורות
0 מחיצות
0 מיליון שורות
0 מיליון שורות
תרשים 8.11: חלוקת טבלה למחיצות פיסיות.
בתרשיס 8.11 מוצגת טבלה גדולה, המכילה 4 מיליארד שורות, אותה חילקנו למחיצות
שוות, כל אחת מכילה 200 מיליון שורות. מבחינה לוגית, ו טבלה אחת. אולס מבחינה
פיסית, מוצגות בפנינו 20 מחיצות, כך שכל מחיצה היא יישות ברת ניהול. כלומר, ניתן
לגבות אותה בנפרד ממחיצות אחרות, ניתן לבנות לה אינדקס בנפרד מהמחיצות האחרות,
ניתן להוסיף מחיצה חדשה לטבלה, או לחילופין ניתן לבטל מחיצה בטבלה.
8 מחסנל נתונים
מדוע לחלק למחיצות
נסקור כמה מהסיבות העיקריות לכדאיות בחלוקת טבלה גדולה למספר מחיצות פיסיות.
ביצועים
חלוקת הטבלה למחיצות מאפשרת בניית טכניקות אופטימיזציה מתוחכמות, לשיפור
ביצועי שאילתות .501. לדוגמה, אס בשאילתה מבקשיס את פירוט השיחות לתקופה
מסוימת, רכיב האופטימיזציה יכול לזגהות איזה מחיצות יש לסרוק ואיזה לא, ובכך
לחסוך גישה למיליוני רשומות ואינדקסים. החלוקה למחיצות מתאימה מאוד גם לנושא
העיבוד המקבילי. ואת, מכיון שניתן להקצות מעבדים שוניס לסריקת מחיצות שונות,
במקביל. קיימות מספר ארכיטקטורות חומרה, כמו =ח!), הפועלות באופן טבעי עס
מחיצות בטבלאות המפוזרות בדיסקיס שונים, ולכן תפיסת המחיצות מתאימה להן
מאוד.
כושר גידול (עֶזו|563!3901 ס6ומְגּד)
רעיוו חלוקת הטבלה למחיצות מספק יתרון חשוב - יכולת טבעית לגידול הטבלה במשך
הומן. במצב רגיל, בה מנוהלת הטבלה ללא מחיצות, ברור שככל שהטבלה תגדל ילך
הקושי בניהולה ויגדל. שיטות העבודה שנבנו לניהול טבלה קטנה אינן מתאימות יותר,
ברגע שהטבלה עוברת גודל מסויס. אז, צריך לשנות את כל תפיסת העבודה. לעומת זאת,
שימוש במדיניות חלוקת הטבלה למחיצות, כבר בשלביס הראשונים של בניית הטבלה,
מספקת מנגנון טבעי לגידול הטבלה, ללא הוספת גורס חדש של סיבוכיות. ממילא כל
תפיסות העבודה, הגיבוי והניהול מבוססות על החלוקה למחיצות ולכן, הוספת מחיצה
חדשה לטבלה היא טבעית ואינה מזעזעת את כל שיטות העבודה.
ניהול טבלאות גדולות
חלוקת הטבלה למספר מחיצות יכולה לפשט בצורה משמעותית מאוד את בעיות ניהול
הטבלה. בדוגמה הקודמת, במקוס לנהל טבלה אחת ענקית המכילה 4 מיליארד שורות
(שהיא ללא ספק יישות כמעט בלתי אפשרית לניהול), ננהל 20 מחיצות, שכל אחת מהן
מכילה 200 מיליון שורות. אס, למשל, נחליט על מדיניות שכל מחיצה מכילה נתוני חודש
אחד בלבד, טעינת הנתוניס הופכת לפשוטה יותר. את הנתוניס החדשים נטען למחיצה
חדשה, ובסיום הטעינה נחבר את המחיצה לטבלה. מכיון שכל פעם אנו רק מוסיפים
מחיצה חדשה ומוחקים את המחיצה הישנה ביותר, נוצר מצב בו המחיצות אינן משתנות.
אי לכך, אין גם צורך לבנות כל פעס מחדש אינדקס לכל הטבלה, אלא רק למחיצה
הרלוונטית.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניס | 219
גיבוי ושחזור טבלאות גדולות
מכיון שרוב המחיצות אינן משתנות, אין צורך לגבות אותן מדי תקופה, אלא רק פעס
אחת. בעת יצירת או עדכון המחיצה, במידה והיא מתעדכנת. מחיצות ישנות ניתן לסמן
כמחיצות לקריאה בלבד (חסוווו8ק עוחכ 5680), כדי להגן עליהן מפני עדכון כלשהו.
במקרה של תקלה ניתן לשחזר רק את המחיצה הרלוונטית, ולא את כל הטבלה. למרות
שרוב מערכות ₪081/5 תומכות בגיבוי אינקרמנטלי, עדיין שיטת ניהול המחיצות יעילה
מאוד, יחסית לשיטה האינקרמנטלית המחייבת סריקת הטבלה לאיתור הבלוקיס בהס חל
שינוי.
שיטות לחלוקת טבלה למחיצות
קיימות מספר רב של שיטות לחלוקת טבלה לוגית למספר מחיצות פיסיות. השיטה
הנפוצה ביותר היא החלוקה האופקית. בשיטה זו מחלקים את שורות הטבלה למחיצות
שונות. בנוסף לשיטה זו קיימות גס שיטות לחלוקה ורטיקלית, בה מחלקיס שורות של
טבלה אחת בין מספר טבלאות פיסיות שונות. נסקור בקצרה את השיטות העיקריות
לחלוקה למחיצות.
הקצאה אופקית למחיצות (פ6!טַב3ּד |הוחס<וזסו
פחוחסוזו+וב3ק)
השיטה הנפוצה ביותר לחלוקת הטבלה למחיצות היא הקצאה אופקית. כלומר, הקצאת
חלק משורות הטבלה למחיצה מסוימת, וחלק אחר למחיצה אחרת. למספר השורות
המוקצות למחיצה יש השפעה רבה על טיב ביצועי המערכת. כל מחיצה יכולה להמצא
בקטעי דיסק שונים, או בדיסקיס שונים, כך שמעבדים שוניס יכולים לעבד מחיצות שונות
במקביל. רכיב האופטימיוציה של בסיס הנתוניס מחלק את השאילתה למספר משימות
שיכולות לפעול במקביל, ומקצה משימות שונות למעבדיס שונים. מכיון שכל מעבד פועל
מול מחיצה מסוימת, יש חשיבות בהקצאה מושכלת של שורות הטבלה למחיצות. רצוי
שלכל מחיצה יוקצו מספר שווה, פחות או יותר, של שורות. אס מספר השורות המוקצות
למחיצה אינו אחיד, נקבל זמני עיבוד ארוכים במעבד אחד, מול ומני המתנה ארוכיס
במעבד אחר. חוסר איזון זה בזמני עיבוד המחיצות יגרוס, בסופו של דבר, לניצול לא טוב
של המעבדים ולמצב בו יעילות העיבוד המקבילי נפגמת באופן משמעותי.
הבעיה היא שקל מאוד להגיע לסכמות לא מאוזנות בהקצאת שורות מטבלה למחיצות.
לדוגמה, אס נקצה את שורות טבלת נתוני המכירות לפי חודש המכירה, ניתן בקלות
להגיע למצב לא מאוזן, בשל ההתנהגות העונתית של המכירות - בחודשי חגים יש עלייה
ניכרת במכירות, לעומת חודשיס בהס אין חגיס. אס נקצה את השורות לפי שנים, יכול
המצב להיות אף גרוע יותר, מכיון שסביר להניח שרוב השאילתות פונות בעיקר למחיצה
המנהלת את נתוני השנה הנוכחית.
0 מחסנל נתונים
שיטת החלוקה למחיצות נפוצה בעיקר עבור טבלת העובדות. הסיבה לכך היא שטבלה זו
נוטה להיות גדולה מאוד, ולכן ההחלטה על חלוקתה למחיצות היא טבעית. יחד עס זאת,
לעיתיס גם טבלאות מימד יכולות להיות גדולות, ואז בהחלט ניתן לשקול לחלק גס אותן
למחיצות. לדוגמה, בחברת טלקומוניקציה או בבנק, מימד הלקוחות יכול להיות גדול
מאוד, ולכן רצוי לחלק אותו למחיצות (כדי להנות מכל היתרונות ששיטה זו מספקת).
קיימות מספר שיטות בסיסיות להקצאת השורות למחיצות - הקצאה לפי טווח ערכים של
תכונה כלשהי, הקצאה לפי סדר הגעה, הקצאה לפי אלגוריתס כלשהו, הקצאה מעורבת
(סוזפע) המשלבת בצורה כלשהי יותר משיטה אחת. נסקור בקצרה כל אחת משיטות
ההקצאה האלה.
הקצאה לפי טווח ערכים של תכונה (8חוח0סו)ו+ו3ק 37006א)
בשיטה זו משתמשים בעמודה כלשהי, ובטווח הערכים שלה, כבסיס להקצאת שורות
הטבלה למחיצות. טווח ערכים מסוים מופנה למחיצה אחת, בעוד טווח ערכיס אחר
מופנה למחיצה אחרת. ההחלטה על העמודה וטווח הערכיס תלויה ביישוס, ובאופי
השאילתות.
ההקצאה הטבעית ביותר לפי טווח ערכים, היא לפי זמן. למשל, בטבלת עובדות המכילה
את סך כל המכירות היומיות של כל סניף לכל מוצר, מופיעה העמודה - תאריך מכירה.
עמודה זו יכולה לשמש בסיס לחלוקה למחיצות. למשל, כל המכירות בחודש מסויס
ישתייכו למחיצה אחת, בעוד המכירות בחודש אחר ישתייכו למחיצה אחרת. אפשר,
כמובן, לבנות מחיצות המבוססות על חלוקת זמן אחרת (למשל מחיצות שבועיות,
רבעוניות, חצי שנתיות וכדומה). בדומה, ניתן גס לחלק את טבלת העובדות המכילה את
פירוט שיחות הטלפון, את הטבלה המכילה תנועות בחשבון בבנק, את הטבלה המכילה את
מכירת כרטיסי הטיסה וכדומה. אס מספר השורות בכל מחיצה שווה, פחות או יותר,
תתקבל חלוקה אחידה של הטבלה למחיצות. מכיון שהחלוקה מבוססת על עמודה אחת
בלבד - ומן - מקובל לקרוא לשיטה זו בשס טחוחסווזז28 30016 פופָחוס.
חודש 11
חודש 12
מחיצות חודשיות
:
בד
טבלת : 5
. תַ
עובדות 35
תרשים 8.12: חלוקה אופקית לפי עמודה אחת.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניס 221
כאמור, אסטרטגיית חלוקת טבלה על בסיס זמן היא אסטרטגיה מקובלת מאוד.
אסטרטגיה זו מאפשרת לנו לקבוע לטבלה מגבלת גודל, על ידי הגדרת מספר המחיצות
שננהל. לדוגמה, אס נחליט לנהל עומק היסטורי של שנתיים, ונחלק את הטבלה לפי
רבעוניס, נקבל סהייכ 8 מחיצות מתגלגלות. הוספה של רבעון חדש גורמת להורדה
מקבילה של מחיצת הרבעון הישן ביותר, יחד עם האינדקס שלה. בצורה וו ניהול העומק
ההיסטורי פשוט ויעיל, ואינו דורש שימוש בפקודת .501 לביטול שורות מהטבלה. פקודה
זו יקרה מבחינת משאבי המחשב, מכיון שהיא מעדכנת גס את האינדקסים.
ניתן לבנות שיטת הקצאה המבוססת על מספר עמודות, ולא רק לפי עמודה אחת. למשל,
ניתן לחלק את טבלת העובדות המכילה את סך כל המכירות של כל סניף לכל מוצר לכל
יוסם, לפי תאריך ולפי סניף. כלומר, כל המכירות בחודש מסויס ובסניף מסוים, ישתייכו
למחיצה אחת והמכירות באותו חודש אך בסניף אחר ישתייכו למחיצה אחרת. אס לרשת
השיווק יש 30 סניפים, ונרצה לנהל מחיצה לכל סניף לכל רבעון, יתקבלו סך הכל
0 מחיצות בטבלת העובדות. לשיטה זו מקובל לקרוא פחהוחסטוח8ק 66טסחג טוטו.
מחיצות רבעון 1 מחיצות רבעון 2 מחיצות רבעון 3 מחיצות רבעון 4
סניף 1 סניף 1 סניף 1 סניף 1
סניף 2 סניף 2 סניף 2
טבלת
עובדות ,
סניף 29
סניף 30
סניף 2
0 סניפים
סניף 29 סניף 29 סניף 29
סניף 30 סניף 30 סניף 30
תרשים 8.13: חלוקה למחיצות לפי שתי עמודות.
בתרשיסם 8.13 מופיעה דוגמה לטבלת עובדות, המחולקת למחיצות לפי שתי עמודות -
רבעוניס וסניפים. במידת הצורך ניתן לבצע חלוקה לפי עמודות נוספות, אם כי מצב וה די
נדיר. נשיס לב שחלוקה למחיצות לפי עמודה שיכולה להשתנות לאורך ומן, היא מסוכנת.
בדוגמה הקודמת ארגון מחדש של מערך הסניפים, על ידי איחוד מספר סניפים וביטול
סניפים, עשוי לדרוש ארגון מחדש של כל המחיצות, דבר שיכול להיות מורכב מאוד. מכאן
ברורה ההמלצה לחלק למחיצות רק לפי עמודות שההסתברות שלהן להשתנות קטנה
מאוד.
עד כאן חילקו שיטות החלוקה למחיצות את השורות באופן אחיד בין המחיצות - לפי
חודשים, רבעונים וכדומה. לעיתים, קיימיס מצביס בהס הגישה לנתוניס ישנים נדירה,
וכדי להקטין את מספר המחיצות המנוהלות מקציס את השורות באופן לא אחיד.
לדוגמה, ניתן לבנות 6 מחיצות חודשיות, עבור חצי השנה האחרונה, ועוד שתי מחיצות
לרבעון. בסך הכל נקבל עומק היסטורי של שנה, המחולק באופן לא אחיד בין 8 מחיצות,
במקוס 12 מחיצות, אם היינו מחלקיס באופן אחיד לפי חודשים.
2 מחסנל נתונים
-
עובדות
תרשים 8.14: חלוקה לא אחידה למחיצות.
שיטה זו מורכבת מאוד לניהול, מכיון שגלגול המחיצות הוא מורכב. ברגע שמצטרפת
מחיצה עבור חודש חדש ברבעון חדש, מתחיל תהליך גלגול מורכב למדי. מחיצת הרבעון
השני תבוטל, ובמקומה תבנה מחיצה רבעונית חדשה, המורכבת מהשורות השייכות
לשלושת החודשיסם האחרונים. ניהול מורכב וה מבטל לעיתיס את היתרונות שבהקצאה
הלא אחידה. לכן, שיטה זו אינה מומלצת לשימוש, אלא במצביס מאוד מיוחדים.
הקצאה על בסיס זמן מתאימה בעיקר לטבלת העבודות. בטבלאות מימד ברור שהבסיס
להקצאה אינו יכול לחיות הזמן, מכיון שהוא אינו תכונה של המימד, אלא בדרך כלל רק
של טבלת העובדות. במקריס אלה ניתן למצוא עמודה אחרת שתשמש בסיס להקצאה
למחיצות - למשל, הפריסה הגיאוגרפית לפי מחוזות, או לפי סוגי לקוחות. יש להשתדל
ולמצוא עמודה של המימד אשר מחלקת באופן שווה ואחיד, ככל שניתן, את השורות על
פני המחיצות. אחרת, יתקבל מצב של חוסר איזון בין מספר השורות למחיצה.
הקצאה לפי סדר הגעה (פַחוחסו)ו+וה3 הו0ס סהטסא)
זו שיטת הקצאה פשוטה - אס קיימות ח מחיצות, מקציס את השורה הראשונה למחיצה
הראשונה, את השנייה למחיצה השנייה וכך הלאה עד לשורה ח, אותה מקציס למחיצה ח.
השורה הבאה מוקצית למחיצה הבאה, וחוזר חלילה עבור כל הטבלה.
טבלה
שורה 1
שורה 2
שורה 3
,
,
מחיצות
שורה 4
שורה 5
תרשים 8.15: הקצאת שורות למחיצות לפי סדר ההגעה.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניט 223
לדוגמה, אס אנו מעריכיס שבטבלת העובדות יהיו כ-500 מיליון שורות, ואס נרצה לנהל
0 מחיצות, משמעות הדבר היא שגודל כל מחיצה יהיה 10 מיליון שורות. בשיטה זו
מספר השורות למחיצה יהיה כמעט זהה, ולכן נקבל איזון טוב בעיבוד המחיצות. החסרון
העיקרי של שיטה זו נובע מכך שאין הגיון מסויס מאחורי ההקצאה למחיצות. לכן, בסיס
הנתוניס אינו מסוגל לנצל הקצאה זו לקבלת החלטה באיזה מחיצות יבוצע החיפוש.
הקצאה לפי אלגוריתם (פַחוחסו)ו+ז3ק 35)
ניתן לראות בשיטת הקצאה זו שיטה מופשטת יותר של שיטת ההקצאה לפי טווח. בשיטה
זו מופעל אלגוריתס כלשהו (וחח0111ף|/ ח485), המבצע חישוב על עמודה כלשהי בטבלה,
ועל פּי תוצאת האלגוריתס מתקבלת ההחלטה לאיזה מחיצה להקצות את השורה.
טבלה
שורה 1
שורה 2
שורה 3
י
י
מחיצות
מחיצה 1
מחיצה 2
מחיצה 3
מחיצה 4
שורה 4
שורה 5
תרשים 8.16: הקצאת שורות למחיצות לפי אלגוריתם.
טיב פיזור השורות בין המחיצות תלוי במידה רבה בטיב האלגוריתם, ובאופי ערכי
העמודה. גם שיטה וו, בדומה לשיטת ההקצאה לפי סדר הגעה, אינה תומכת בחיפוש
שורות לפי טווח ערכים, מכיון שהשורות הרלוונטיות יכולות להיות מפוזרות בין מספר רב
של מחיצות.
חלוקה למחיצות בשיטה ורטיקלית (טחוחס!ו)/+ו3ק |4163ז6 /)
בשיטה זו, החלוקה למחיצות אינה מתבצעת לפי שורות הטבלה, אלא לפי עמודותיה. אס
קיימת קבוצת משתמשים אחת המתעניינת בעיקר בעמודות מסוימות, בעוד קבוצה אחרת
מתעניינת בעמודות אחרות, ניתן לפצל את הטבלה לשתי טבלאות נפרדות. כך, תכיל כל
טבלה רק את העמודות הרלוונטיות. כמובן, שיש לשכפל את המפתח העיקרי של הטבלה
לכל אחת מהטבלאות החדשות, דבר שעלול להגדיל את נפח הדיסק הנדרש. למרות הגידול
בנפח הדיסק הנדרש לאחסון הטבלאות המפוצלות, ניתן להגיע לשיפור בביצועי
השאילתות. זאת, מכיון שכל טבלה מכילה פחות עמודות, ולכן ניהולה בדיסק יעיל יותר
ושטחי הזיכרון הדרושיס לעיבודה קטנים יותר.
4 מחסנל נתונים
חלוקה למחיצות מבוססת חומרה (טחוסוז+פ הּג03)
בארכיטקטורות ==!! קיימים מנגנוניס המבצעיס חלוקה למחיצות בחומרה עצמה.
מטרת פיזור זה של הנתוניס בין הדיסקיס השוניס היא לאפשר למשימות מקבילות לפעול
באופן בלתי תלוי בכל צומת של מערכת ==!, ללא צורך בהעברה מתמדת של נתונים בין
הצמתים. המנגנון מבצע חלוקה של טבלה גדולה למספר מחיצות קטנות יותר, ומפזר
אותן בין הדיסקיס השונים. גודל המחיצה נקבע על ידי פרמטרים שוניס של החומרה,
ובאופן שיאפשר סריקה מקבילה יעילה בטבלה. לדוגמה, אס נקח טבלת עובדות בגודל
8, ונפזר אותה על פני 10 צמתיס במערכת קחוש (על בסיס פרמטר חלוקה של 6498),
יתקבל אוסף מחיצות בגודל 6495, המפוזרות באופן שווה ואחיד בין עשרת הדיסקים.
סריקה של טבלה זו יכולה להתבצע על ידי 10 מעבדים, הפועלים במקביל במחיצות
הנמצאות באחריותם. פיזור אחיד זה של מחיצות מקטין למינימוס את הצורך בהעברת
הנתוניס ובהעמסת ערו 601חחססז9+ח|.
מחיצה1
מחיצה2
מחיצה3
,
,
₪ 6
מחיצה4
מחיצה5
מחיצה6
תרשים 8.17: פיזור מחיצות בארכיטקטורת קחוש.
תרשיס 8.17 מדגיס חלוקה ופיזור על ידי החומרה בארכיטקטורת =ח/]. הטבלה מחולקת
למחציות בגודל 6495, ומפוזרת באופן אוטומטי על ידי החומרה. נשיס לב לכך שהחלוקה
מתבצעת על ידי פיוור יחידות בגודל 649₪, בכיוון השעון. לאחר שמסתיים סיבוב
החלוקה הראשון, של 4 מחיצות, ממשיך הסיבוב הבא, וכך עד לסוף הטבלה. מכיון
שהפיזור מתבצע ברמת החומרה, או מערכת ההפעלה, בסיס הנתונים אינו יודע היכן
נמצאת כל מחיצה. שיטה זו טובה אס הסריקות מתפורות באופן אחיד על פני כל
המחיצות. אס רוב הסריקות ממוקדות במחיצות מסוימות בלבד, הצמתיס המכיליס
מחיצות אלה יהוו, קרוב לוודאי, צוואר בקבוק. לכן, חלק מעוצמת המערכת המקבילית
לא תנוצל.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתונים | 225
מהי השיטה המומלצת לחלוקה למחיצות
ההחלטה לגבי שיטת החלוקה למחיצות תלויה, במידה רבה, בנפח הנתוניס ובפרופיל
השאילתות הטיפוסיות, אך גס בארכיטקטורת החומרה. אם, למשל, אנו רואים ש-90%
מהמשתמשיס מתעניינים בעיקר במכירות הסניף שלהס במספר שבועות אחרונים,
החלוקה למחיצות לפי חנויות וזמן תהיה מאוד יעילה, מכיון שרוב השאילתות יסרקו רק
את שורותיה של מחיצה מסוימת. הפעלת שאילתות מסוג זה, מול טבלה שאינה מחולקת
למחיצות תהיה הרבה יותר איטית, מכיון שהיא סורקת מספר שורות גדול בהרבה.
קביעת טכניקת החלוקה הנכונה בסביבה עתירת שאילתות אד הוק, היא כמובן משימה
מורכבת מאוד. הסיבה לכך היא שטכניקת חלוקה אחת תהיה טובה לסוג מסוים של
שאילתות, וגרועה מאוד לסוג אחר של שאילתות. לדוגמה, חלוקה למחיצות לפי סניפים
תהיה מאוד לא יעילה לשאילתות המתייחסות למכירות מוצריס מסוימים, מכיון
שמכירות אלה יכולות להופיע בכל המחיצות.
תמיכת בסיס הנתונים בחלוקה למחיצות
רוב ספקי מערכות 30815 שילבו את התמיכה בניהול מחיצות אופקיות כחלק אינטגרלי
מהמערכת. תמיכה זו מאפשרת למנוע מבסיס הנתונים להגדיר באופן אוטומטי את שיוך
שורה למחיצה מסוימת, ולהשתמש בהגדרה זו בעת ביצוע האופטימיוזציה של פקודות
. בזצמן ההחלטה על סריקת טבלאות (ח568 180!6), מזהה רכיב האופטימיזביה (לפי
טווח התאריכיס המופיע בשאילתה) איזה מחיצות עליו לסרוק, ואיזה לא. לדוגמה, אס
השאילתה מבקשת להציג מכירות חודש מסוים, מול החודש המקביל בשנה קודמת, ניתן
לחסוך סריקות במספר רב של שורות אס רכיב האופטימיוציה יתמקד רק בשתי המחיצות
הרלוונטיות. גם במקרה של איתור שורה באמצעות אינדקס, יכול רכיב האופטימיוציה
להחליט באיזה אינדקס מחיצה להשתמש. לתמיכת בסיס הנתונים בחלוקה למחיצות, יש
משמעות (מבחינת זמני התגובה של השאילתות), ותכונה וו הפכה בשניס האחרונות לאחת
התכונות החשובות של מערכות ₪08!15 הפועלות בסביבת מחסן הנתוניס.
אם מערכת ₪081/5 אינה תומכת באופן ישיר בחלוקה למחיצות צריך מנהל בסיס
הנתוניס (84כ) לבנות תהליך המחלק את השורות לטבלאות שונות, ולבנות מבט לוגי
(ש6ו/)) המבוסס על איחוד (חסוח() כל טבלאות אלו לטבלה לוגית אחת. במקרה זה, רכיב
האופטימיזציה אינו מכיר את החלוקה למתיצות, וכמובן שאינו משתמש בו
לאופטימיוציה של פקודות .501. נדגים את רעיון החלוקה למחיצות באמצעות טבלת
המכירות. נניח שהחלטנו לחלק את טבלת המכירות לשתי מחיצות בלבד, כך שכל מחיצה
תכיל את המכירות של חצי שנה. לכל מחיצה ננהל טבלה נפרדת - 9871 58|85 ו-
12 58|685. נגדיר מבט לוגי המאחד שתי טבלאות אלה באמצעות פקודת שפו/ הבאה:
6 מחסנל נתונים
5 98 08 641 /ם]/ 63 .1
+ 071 זז
1 541 0%
אסזאט
071 +
0%] 54108 2
₪ ₪ ₪ 0
ב תת
ביצועי שאילתות הפועלות במבט לוגי מסוג זה, תלויים באופן משמעותי בטיב רכיב
האופטימיזציה וצורת הטיפול באיחוד טבלאות. פעולת האיחוד היא פעולה יקרה,
מבחינת משאבי המחשב. אם רכיב האופטימיזציה יודע לנצל את מקביליות החומרה ניתן
לשפר מהותית את הביצועים על ידי פיצול השאילתה למספר תת שאילתות הפועלות
במקביל במעבדיס שונים, ולבסוף מתבצעת פעולת איחוד טבלאות התוצאה. אפשרות
אחרת, ומאוד לא מומלצת, לשיפור הביצועיס היא לאפשר למשתמש להכיר את מבנה
המחיצות ולהשתמש בשאילתות, באופן מפורש, בשמות הטבלאות הפיסיות. במקרה זה,
כל שינוי במבנה המחיצות מחייב שינוי מקביל של השאילתות, כדי לשקף את השינוי.
מכיון שכיוס רוב מערכות ₪285 תומכות באופן ישיר בחלוקה אוטומטית למחיצות,
בעיית הטיפול במחיצות בשאילתות הפך לשקוף, מבחינת המשתמש.
התמיכה בחלוקה למחיצות ורטיקליות חלשה יותר ברוב מערכות 85סא, בעיקר מפני
שהשיטה פחות נפוצה. דוגמה אחת יוצאת דופן היא מערכת 0! 8856ש5, המנהלת את
הטבלה לפי עמודות. עבור שאילתות הממוקדות במספר קטן של עמודות, טכניקה זו
יעילה ביותר ויכולה להביא לשיפור דרמטי בזמני התגובה.
טעינה מקבילית (036 וסְוובּזְבּק)
תהליך טעינת הנתוניסם בסביבת מחסן הנתוניס הוא אחד התהליכים החשובים ביותר,
מכיון שאו הדרך בה מתעדכן מחסן הנתונים. אין זה נדיר לטעון מיליוניס רביס של שורות
במהלך טעינה אחד. מאחר וחלון הזאמן העומד לרשות מהלכי הטעינה הוא מוגבל, יש
חשיבות רבה בהקטנת משך הטעינה ככל הניתן. יצרני מערכות 0815 פיתחו תוכניות
שירות מיוחדות, המסוגלות לנצל את ריבוי המעבדיס ולבצע תהליכי טעינה מקבילים.
בדרך כלל, יש להכין את הנתוניס לטעינה בקבציס נפרדים, קובצ נפרד עבור כל מחיצה
שיש לטעון. תוכנית הטעינה יכולה להפעיל מספר משימות טעינה במקביל, כך שכל
מחיצה נטענת באופן בלתי תלוי במחיצות אחרות. תוכניות אלו טוענות את המחיצות
באופן ישיר (080.] 8664זוכ), ולא על ידי שימוש בפקודות 58ח!, ולכן הן מהירות מאוד.
יחד עס זאת, יש לשיס לב שמאחר והן טוענות את הנתוניס באופן ישיר, לא מתבצעות
בדיקות שלמות ואמינות מול טבלאות אחרות (0080%5 עזוזסָס1ח!). בגמר הטעינה יהיה
צורך להפעיל תוכניות מיוחדות לבדיקת אמינות הנתוניס.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתונים | 227
תוכנית
,
תוכנית
,
תרשים 8.18: טעינה מקבילית של מחיצות.
מבחני ביצועים לסביבת מחסן נתונים
בעולס מערכות ניהול בסיסי הנתוניס מקובל לבחון את ביצועי בסיס הנתוניס באמצעות
מבחניס שונים. כדי לקבוע מבחן בלתי תלוי ביצרן בסיס הנתוניס הוקס ארגון התנדבותי
בשס |וסחטס6 פַחו00659ז7 חסוז580ח8זד, או בשמו הידוע יותר - 6חד. ארגון זה בנה
אוסף של מבחני ביצועים לבסיסי נתוניס הפועלים בסביבות שונות. עד להופעת מחסני
הנתוניס, היה המבחן הנפוץ ביותר מבחן 7₪6-6. מבחן זה מיועד בעיקר לסביבות
תפעוליות מקוונות עתירות תנועות, אך אינו מתאיס לבחינת ביצועי בסיס הנתוניס
בסביבת מחסן הנתוניס. לכן, לפני מספר שניס פרסס הארגון מבחן חדש, ס-6שך, שנועד
לבחון את בסיס הנתונים, בעיקר מבחינת עוצמת האיחזור בנפתי נתונים גדוליסם מאוד
(כלומר, בסביבה אופיינית למחסני נתוניס), ותמיכה בתהליכי קבלת החלטות.
המבחן מגדיר את מבנה הסכמה, את מספר הרשומות בכל טבלה וכן אוסף של 17
שאילתות שונות, משאילתות פשוטות ועד שאילתות מורכבות מאוד. חלק מהשאילתות
מחייבות מספר סריקות של הטבלאות וביצוע צירוף בין מספר טבלאות.
כפי שניתן לראות מתרשיסם 8.19, הסכמה של מבחן כ-56 זמתייחסת להזמנות מלקוחות.
סך הכל יש 150 מיליון לקוחות. לכל הזאמנה יש כותרת ושורות. סך הכל יש 1.5 מיליארד
כותרות ו-6 מיליארד שורות בהזמנה. כל שורה בהזמנה מתייחסת לפריט ולספק מסויס.
יש 200 מיליון חלקים ו-10 מיליון ספקיס שונים. גס הלקוחות וגס הספקים שייכים ל-25
אזוריס, שמצידם שייכים ל-5 מחוזות.
8 מחסנל נתונים
5 מלליארד 0 מיליון
וק
סקפ
0 מלליון
50
0 מיליון
תרשים 8.19: סכמה למבחן כ-6סד.
יצרניס המבקשיס לפרסס את תוצאות בחינת כ-6קד של המערכות שלהם, חייביס לבצע
את המבחן במחשבים מסחריים רגילים, לא במחשבים מיוחדים שעברו שינוייס והתאמות
לקבלת ביצועיס משופרים. יצרן המפרסם את תוצאות המבחן כפי שנערך בדגס חדש,
חייב להפיץ את הדגס ללקוחות תוך חצי שנה, לכל המאוחר, מיוס פרסוס התוצאות.
תוצאות המבחן כוללות את תצורת המחשב (מספר מעבדים, ויכרון, נפח דיסקים, שס
מערכת ההפעלה וגרסתה), את שס וגרסת בסיס הנתוניס שהשתתף במבחן, את זמן טעינת
הנתונים, את נפח הנתוניס והאינדקסיס בדיסק, את ביצועי 17 השאילתות השונות
והעלות הכוללת של תצורת המחשב שהשתתף במבחן (עלות כוללת מחושבת על פי עלות
רכישת המערכת החדשה ועוד 5 שנות תחזוקה). כל יצרן חייב לפרסם את יחסי
עלות/ביצועים (778066ז66/610וזק) לכל מערכת.
בשל נפחי הנתוניס הגדוליס של המבחן והאתגר בביצוע השאילתות, כל היצרנים עושיס
שימוש מירבי בעיבוד המקבילי בחומרה ומנצליס את היכולת לחלק את הטבלאות למספר
מחיצות, לשמור קטעי טבלאות בזיכרון וכדומה.
סיכום
הטכנולוגיה המקבילית היא כיוס טכנולוגיית החומרה החשובה ביותר בהקשר למחסני
הנתונים. טכנולוגיה זו, על פניה הרבים, על ההתפתחויות הבלתי פוסקות בה, על
שימושיה כמעט בכל אחד מתחומי מחסן הנתונים - ניהול בסיס הנתונים, טעינת הנתוניס,
גזירת נתוניס למרכולי נתוניס וכדומה - משמשת כתשתית חשובה ליכולת מחסן הנתוניס
לגדול מבחינת נפח הנתוניס, מבחינת מספר המשתמשים שהוא משרת ומבתחינת מורכבות
היישומיס המופעלים בו. כושר הגידול (עווו568|80) של מחסן הנתונים, שהוא אחד
השיקוליסם המרכזיים של מעצבי מחסני נתונים, נשען במידה רבה על הטכנולוגיה
המקבילית, ועל השיפורים הבלתי פוסקים בה.
פרק 8: הטכנולוגיה המקבילית בשירות מחסן הנתוניס | 229
פרק 9: סקירת התהליכים
העיקריים במחסן הנתונים
מבוא
מטרת פרק זה היא לסקור את התהליכיםס העיקרייס המתרחשים בסביבת מחסן הנתונים.
כאשר המשתמש מתבונן במחסן הנתוניס הוא רואה, בעיקר, את כלי השאילתות
שעומדיס לרשותו ודרכסם את בסיס הנתוניס המשרת אותם. זו נקודת מבט פשטנית
ומטעה. למעשה, והו רק קצה הקרחון, כאשר מספר רב של תהליכיםס מתרחשיס מתחת
לפני המים, או כפי שמקובל לעיתיס לקרוא להס תהליכי החדר האחורל (01106) 280%)
של מחסן הנתונים. כפי שנראה, מחסן הנתוניס עתיר בתהליכים, חלקס מורכבים למדי.
סיווג התהליכים במחסן הנתונים
סביבת מחסן הנתוניס עתירת תהליכים שונים, העוסקיס בהיבטים שוניס של ניהול
ותפעול מחסן הנתונים. מקובל לסווג את מכלול התהליכיס האלה לארבע קטגוריות
עיקריות :
.*
+*
תהליכי זרימה פנימה (06659זק שוסוח!) - תהליך זה עוסק בזרימה השוטפת של
נתוניסם מהמערכות התפעוליות או התחיצוניות פנימה, אל מחסן הנתוניס. זהו
התהליך המורכב ביותר, והוא עוסק בכל השלבים. ביניהס ניתן למנות את גזירת
הנתוניס מהמערכות התפעוליות, הבאת הנתוניסם אל סביבת מחסן הנתונים, מיטוב
ושיפור הנתונים, שינוי מבנה הנתוניס (למבנה הנדרש על ידי מחסן הנתוניס), הכנת
טבלאות בינייס לקראת טעינת הנתוניס וכלה בטעינת הנתוניס אל מחסן הנתוניס.
תהליכי זרימה מעלה (0700655 שוסק) - תהליכיס אלה עוסקים בבניית סיכומיס
(פהמָזַחָטָ) שוניס, הנדרשיםס לקבלת ומני תגובה משופרים לשאילתות. ברמה
הבסיסית ביותר נמצאיס נתונים מפורטים שוטפים (28%9 |[0%9כ +חפזזטוס). מרמת
פירוט זו מקובל לבנות רמות שונות של סיכומים. לדוגמה, ניתן לנהל סיכומיס
שבועייס, חודשייס, רבעונייס ושנתייס. כל רמה כזו מייצגת רמה הולכת וגוברת של
הסיכומים. החל בסיכום קל (2600וזהח 5 1ח8ו1) ועד לרמות הסך הכללי (שוחטו
0 טוס).
פרק 9: סקירת התהליכים העיקרייס במחסן הנתוניט 231
> תהליכי זרימה מטה (068559ז0 שוס!|= חשסס) - תהליכים אלה עוסקים, בעיקר,
בטיפול בנתונים המתיישנים. מכיון שמחסן הנתוניס צובר כל הזמן נתונים, יש
להחליט מהו העומק ההיסטורי שיש לנהל במקוון. נתונים החורגיס מחלון זמן זה
(למשל, נתוני מכירות מלפני 18 חודשים), מטופלים בצורה כלשהי. קיימות
אפשרויות שונות, החל בהעברת הנתוניס לטבלאות היסטוריות מיוחדות, העברתן
למדיה מגנטית משנית (כגון, קלטות) וכלה בהחלטה על מחיקתם.
> תהליכי הזרימה החוצה (06655ז₪ צוסו= +0) - תהליכים אלה עוסקים בזרימת
הנתוניס ממחסן הנתוניס אל המשתמשים. מעבר לכלי השאילתות הרגילות קיימיס
מצביס בהס יש להפיצ נתוניס שוניס לצרכניס שוניס, להצביע על חריגים ולהפעיל
מנגנוני התראות. בנוסף, יש להעביר נתוניס מהמחסן הארגוני אל מרכולי הנתוניס.
> תהליכי זרימת מידע על הנתונים (0706659 צוס|= 2818 1648/) - תהליכיס אלה
עוסקים בורימת המידע המאוחסן במילון הנתוניס (ץזסו/05ס56), שעיקרו מידע על
הנתוניס שבמחסן הנתוניס. מידע וה נע אל מילון הנתוניס וממנו החוצה, כאשר
דרוש. מילון הנתוניס מכיל מידע רב לגבי סוגי הנתוניס שבמחסן הנתוניס, תאריך
עדכונס האחרון, נוסחאות הגצירה, מבנה הנתוניס וכדומה.
3
גוגש + שס!- 1648
נתונים
מסוכמים
נתונים
מסוכמים
שוטפים
נתונים
מסוכמים
היסטוריים
תרשים 9.1: תהליכי הזרימה העיקריים בסביבת מחסן הנתונים.
1
2 מחסנל נתונים
סקירת תהליכי זרימה פנימה
(06655זק צצס!- ח!)
מבט-על של תהליכי הזרימה פנימה
תהליכי הזארימה פנימה עוסקיס בגוירת הנתוניס ממקורותיהס (מערכות תפעוליות או
מערכות חיצוניות), ניקוי הנתוניסם, שיפור וביצוע המרות שונות (הן בתוכן והן במבנה
הנתוניס) ועד טעינתס אל מחסן הנתוניס. לתהליכים אלה מקובל גם לקרוא
החסו 3508 3 +חה6 רסחה חח= , הסוסזואם פּוהס.
באופן כוללני יותר ניתן לומר שתהליכים אלה עוסקיםס במקרה פרטי של נושא רחב יותר:
העברת נתוניס (4חסוח6טס!! 2868) בין סביבות מחשוב שונות. לא מקרה הוא שיצרני כלי
העברת והסבת נתונים (חסו1אזף!ו! 868) נכנסו לתחוס זה, והתאימו את המוצריס שלהם
לדרישות הייחודיות שהציבה סביבת מחסן הנתונים.
תיקון
ץוק
התאמה
גז510ת ה
תרשים 9.2: שלבים עיקריים בתהליך הזרימה פנימה.
נפרט בקצרה כל אחד מהשלבים המתבצעים בתהליך ורימת נתונים פנימה, אל מחסן
הנתונים :
+ גזירת הנתונים (חסחַסגּזואם 8ִו8כ) - בשלב הוה מתבצעת גזירת הנתוניס
הרלוונטיים מתוך המקורות. בדרך כלל בפעם הראשונה מתבצעת גזירה מלאה (ווט=
חסווְהּחָקסזק) ובהמשך גזירות אינקרמנטליות של השינוייס בלבד (8/9 080060
חסווְהּחָּקסזק). ברור שגזירה מלאה הנה פשוטה יחסית בעוד שגזירה של שינוייס
בלבד יכולה להיות מורכבת יותר בגלל הצורך בזיהוי השינוייס שבוצעו מאז הגירה
האחרונה. קיימות טכניקות שונות של גזירת שינויים.
פרק 9: סקירת התהליכים העיקרייס במחסן הנתונים | 233
+ העברת הנתונים (7ו516ח8זד ה81כ) - הסיוס של תהליכי הגזירה הוא אוסף של קבצי
בינייס הממתיניס להעברה לסביבת מחסן הנתוניסם. העברת קבציס אלה לסביבת
מחסן הנתוניס יכולה להתבצע במיגוון רחב של אפשרויות - שימוש בתוכנת ₪16
]פחהזד כלשהי, שימוש בכלי ביניים מיוחדיס (8/5/ש816). 6זפּעו00|6ו₪)
המאפשרים גישה ישירה מסביבת מחסן הנתוניס אל פלטפורמות מחשוב אחרות
למשיכת הקבציס כדומה.
> בדיקת נתונים (סַחוח2!68) 0ח3 חח080ון/ 88כ) - בשלב זה מתבצע תהליך בדיקת
איכות וניקוי הנתוניס. הנתוניס נבדקיס (מבחינת תקינותס) מול טבלאות שונות,
מתבצעות בדיקות טווחים, ולעיתיס בדיקות מורכבות יותר, לאיתור וזיהוי מצביס
לא תקיניס בנתוניס. במידת האפשר מתבצעיסם תהליכי תיקון בנתוניס, אס כי הדרך
הטובה ביותר היא לבצע את התיקוניס במערכות המקור. מכיון שלא תמיד ניתן
לבצע את התיקוניס במערכות המקור, ניתן לבצע את התיקוניס גס בשלב ּה.
> טיוב הנתונים (וחסוח6סההחח= 818כ2) - בשלב וה מתבצע תהליך שיפור איכות
הנתונים, על ידי הפעלת בדיקות תקינות שונות על תוכן הנתוניס. נתוניס נבדקיס
מול טבלאות לתקינות ערכיס וטווחים, ערכים חסרים מושלמים, קודים מתורגמיס
לקודים אחידים, פורמטים שוניס מומרים לפורמט אחיד, סתירות בנתוניס נפתרות
(למשל, אותו לקוח מופיע בשתי כתובות שונות בשני מקורות שוניס), שדות
מחולקיס לתת שדות (כמו למשל כתובת מפורקת לרחוב, מספר, עיר) וכדומה.
> שינוי מבנה הנתונים (סֶחוהזסופההזד 818כ) - מכיון שמבנה הנתוניס במחסן
הנתוניס אינו והה למבנה הנתוניס כפי שבא לידי ביטוי במקורות, יש לבצע התאמה
במבנה הנתוניס. לעיתים, ההתאמה פשוטה מאוד, אולס היא יכולה להיות גס
מורכבת מאוד. לדוגמה, שני קבצי מקור הופכיס לקובצ יעד אחד, קובצ מקור אחד
הופך למספר קבצי יעד, מפתחות טבעיים הופכים למפתחות מלאכותיים, קודיס
מומרים לקוד אחיד וכדומה.
> טעינת הנתונים (080.] הּו8כ) - בשלב וה כל הנתוניס מוכניס לקראת טעינה למחסן
הנתוניס. בדרך כלל מתבצעת הטעינה באמצעות תוכניות שירות מיוחדות, המבצעות
טעינה מהירה תוך ניצול ריבוי המעבדיס בחומרה. לאחר סיוס טעינת הנתונים יש
לבנות מחדש את האינדקסים עבור הטבלאות שעודכנו.
+ הכנת הסיכומים (ה078%0ח06) 65סזהּחָזְחָטָ) - עס סיוס טעינת הנתוניס ניתן להכין
את כל טבלאות הסיכום. ניתן לראות את תהליכי הכנת הסיכומיס כסיוס תהליכי
הורימה פנימה, או כחלק מתהליכי הורימה מעלה. נפרט את הכנת טבלאות
הסיכומיס בסעיף נפרד, העוסק בתהליכי הזרימה מעלה.
תהליכים אלה הס המורכבים ביותר להגדרה ובנייה ודורשים חלק ניכר מהמשאביס
הכרוכים בבניית מחסן הנתונים. ככל שמקורות הנתונים מגווניס יותר, איכות הנתוניס
במערכות התפעוליות נמוך יותר ומבנה הנתוניס רחוק מהמבנה הנדרש במחסן הנתוניס -
כך גבוה יותר המאמ הנדרש בשלב זה. מסטטיסטיקות שונות שנאספו על ידי ארגוניס
שיישמו את תפיסת מחסן הנתוניסם מתברר שההשקעה בשלב וה יכולה להגיע עד כדי
% מהמאמצ הכולל.
4 מחסנל נתונים
ארגונים רביס אינס מעריכים נכונה את המאמ הנדרש בתהליכי הגזירה והטיוב של
הנתוניס, ובסופו של דבר הס מוצאים את עצמס מופתעים. ייחיתוך פינות'י וויתור בשלב
זה עלול לגרוס לאיכות ירודה של נתוניס במחסן הנתוניס, ולאכזבה בקרב המשתמשיסם.
נקודה נוספת שכדאי לציין היא שבדרך כלל לא ניתן לצפות מראש את כל בעיות איכות
הנתוניס. בדרך כלל, התהליך איטרטיבי, כך שלאחר תלונות מצד המשתמשיס מאתריס
בעיה חדשה, מתקניס אותה וחוזר חלילה. כך, עד לקבלת רמת איכות גבוהה של הנתוניס
הזורמיס למחסן הנתוניס.
גזירת הנתונים (חִסוזסְבּז+א= בּזַבּ)
למעשה, הפעולה הראשונה שיש לבצע היא לגזור את הנתוניס מהמקורות שלהס. מחסן
הנתונים מוזן בנתוניס המגיעיס משני מקורות עיקריים:
+ מקורות פנימיים (5007069 |החזסוח!) - אלה נתונים שהארגון מנהל במסגרת
מערכות המחשוב שלו. רוב הנתוניס הרלוונטייס למחסן הנתוניס מקורס ביישומיס
התפעולייס של הארגון. כפי שכבר הודגש קודס לכן, הנתוניס התפעוליים יכוליס
לבוא ממספר יישומיס שוניס הפועלים באותו מחשב, או לעיתיס במחשבים שונים,
ובבסיסי נתוניס שוניסם. גס אס הנתונים מנוהלים באותה פלטפורמת חומרה, עדיין
יתכנו סתירות בין הנתונים, חוסר תאימות בפורמטים שלהם, שיטות ארגון שונות
וכדומה.
> מקורות חיצוניים (5007069 |ַחזסואם) - אלה הנתוניס שמקורס ממערכות
ויישומיס חיצונייס לארגון. לדוגמה, חברות המתמחות בבניית מאגרי מידע לגבי
שווקיס מסוימיס, בנק ישראל, הלשכה המרכזית לסטטיסטיקה וכדומה. מקורות
נתונים אלה חשובים מאוד למחסן הנתונים, כדי לאפשר למשתמש לקבל תמונה
רחבה אותה לא ניתן לקבל מהנתוניס הפנימייס.
למרות שפעולה זו נראית כפעולה פשוטה, היא יכולה להיות מורכבת למדי ודורשת מאמצ
וכליס מיוחדים לביצועה. הנתוניס במערכות התפעוליות מנוהליס במבניס המותאמיס
לצרכי מערכות אלו. מבניס אלה משקפים, לעיתים, פשרות ואילוציס שהתפתחו במשך
שניס של תחזוקת המערכות.
אחד האתגרים המרכזיים בגזירת הנתוניס נובע מהעובדה שהנתוניס התפעוליים יכולים
להיות מנוהליס בפלטפורמות מחשוב שונות ומגוונות (מחשבי יבמ מרכזיים, מחשבי
0, מחשבי אוח(! שוניס, מחשבי 8ח4|0 וכדומה), ומנוהליס בקבצים פשוטים (כמו
54/) או בבסיסי נתונים קנייניים (כמו סוכ!-04, פס/פוו|, חסספוהס-0, 03085
וכדומה) ועד לבסיסי נתוניס טבלאיים (כמו 80!6ז2), אווחזסזח!, 0856ץ5, 5/2 ואחרים).
לכל פלטפורמה כזו יש כלי גישה וגזירה מיוחדים.
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 235
מעדכות נוספות
0000
תרשים 9.3: דוגמאות למקורות נתונים.
הנתוניס שמתקבליס ממקורות חיצונייס יכולים להגיע בפורמטיס שוניס. בדרך כלל,
לארגון כמעט ואין שליטה בהם, ולכן יש לבנות תוכניות קריאה מיוחדות עבור מקורות
אלה. הנתוניס יכוליס להתקבל כקבציס שטוחיס במבנה !|501, או בפורמטיס מיוחדים
כגון 0165 1.0%18, קבצי |06א= וכדומה.
מדוע יש חשיבות לגזירת הנתונים מהמערכות התפעוליות
מי שלומד להכיר את תפיסת מחסן הנתוניס נחרד להבין את רמת כפילות הנתוניס
הגבוהה שתפיסה זו יוצרת. לכאורה, מדובר כאן בהכפלת כל הנתונים שהארגון מנהל.
מבט מעמיק יותר יכול להביא אותנו לידי מסקנה שלמעשה אין ברירה אחרת, למרות
כפילות הנתוניס הגבוהה. נסקור בקצרה את הסיבות העיקריות מדוע צריך תהליכי גזירה
והמרה של הנתוניס.
+ מבנה נתונים ייעודי - מבנה הנתונים במערכות התפעוליות נבנה להשגת ביצועיס
טוביס, בעת ביצוע מספר רב של תנועות עדכון. מבנה הנתוניס במחסן הנתוניס נוצר
במטרה להקל על המשתמשים להבין את הנתונים, ולאפשר להס לנסח שאילתות
ותהליכי חקירה באופן נוח, ללא מעורבות אנשי תוכנה. גזירת הנתונים יוצרת
הזדמנות לביצוע המרה של מבנה הנתונים למבנה נתוניס תואם לניתוחי מידע.
> מעבר ממונחים תפעוליים למונחים עסקיים - המונחיס המקובלים במערכות
התפעוליות פותחו בידי אנשי התוכנה, לשימושס בעת בניית היישומיס. המונחיס
במחסן הנתוניס חייבים להיות מונחיס עסקיים ברורים ופשוטים, ולא מונחיס
טכניים.
> ארגון המונחים - מכיון שהמערכות התפעוליות מתפתחות לאורך זמן, עשוי להיווצר
מצב בו קיימיס מספר שמות שוניס המתארים מונח אחד. במחסן הנתונים חייבים
לבחור במונח המתאים ביותר, ושיהיה למונת אחיד עבור כל המשתמשים.
6 מחסנל נתונים
> הפיכת מידע נסתר ועקיף למידע מפורש וגלוי - אחת הטכניקות המקובלות
במערכות תפעוליות היא להכניס משמעות לנתונים, לעיתים בצורה נסתרת. פעולה זו
מתבצעת, למשל, על ידי שימוש בטווח מספריס להס משמעות עסקית. במחסן
הנתוניס צריך להשתדל ולהוציא משמעויות נסתרות אלו ולהפוך אותן לעמודות
מפורשות וברורות.
+ סטנדרטיזציה בייצוג הפיסי - בדומה לשימוש בשמות שונים, נמצא לעיתיס שאותו
מונח מיוצג באופן פיסי שונה במערכות התפעוליות. בעת העברת הנתוניס אל מחסן
הנתוניס, חובה לבחור בייצוג אחד סטנדרטי.
> סטנדרטיזציה בקודים - מערכות תפעוליות שונות משתמשות בקודים שוניס, בעלי
אותה משמעות. בעת העברת הנתוניס אל מחסן הנתונים, חייבים ליישר סתירות
אלו, ולבחור בקודיס אחידיס ובעלי משמעות.
כעת נסקור מספר סוגיות, עליהן יש לתת את הדעת בעת עיצוב תהליכי הגזירה.
קריאת נתוני המקור
שלב וה עוסק בקריאת נתונים ממקורות שוניס. למרות ששלב זה נראה פשוט, הוא עשוי
להיות מורכב למדי, מפני שבארגון טיפוסי מספר מקורות הנתוניס יכול להיות רב.
לעיתים, יש לגשת לקבציס שטוחים, לבסיסי נתוניסם היררכיים או רשתיים או טבלאיים,
או לשילוב כלשהו ביניהס. קריאת נתוני המקור מתבצעת תמיד במערכת המקור,
בפלטפורמה בה היא פועלת, אך סביר להניח שצריך לקרוא נתוניס מפלטפורמות חומרה
שונות.
לכל אחד ממקורות הנתוניס יש שיטות שונות לגישה לנתונים. אחד הדבריס הבסיסיים
ביותר בשלב זה הוא הכרת מבנה הנתוניס, דבר הנראה מובן מאליו, אולס לעיתיס מתברר
שאינו כה פשוט. לא תמיד קייס תיעוד מסודר של הנתוניס, לא תמיד ברור כיצד הס
מתעדכנים, מה משמעות כל שדה בקוב> וכדומה. לעיתים, המצב אף גרוע יותר -
כשהמערכת התפעולית מבוססת על חבילת תוכנה, שמבנה הנתונים שלה אינו ידוע (אלא
רק לספק החבילה), והדרך היחידה לגשת לנתוניס היא על ידי מחולל דוחות, או על ידי
ממשקי התכנות (|ח) המסופקים על ידי יצרן חבילת התוכנה.
מתי לבצע את גזירת הנתונים
לכאורה, וו שאלה שהתשובה עליה פשוטה - בסוף יוס העבודה. הבעיה היא שהמציאות
מורכבת הרבה יותר. מצב בסיסי הנתונים התפעולייס בסוף יוס עבודה, אינו בהכרת מצב
תקין ועקבי. לעיתים, המערכות התפעוליות פועלות ללא הפסקה, והמושג סוף יום עבודה
זר להן. דוגמאות למצב לא תקין ניתן למצוא במערכת האוספת נתונים מנקודות מכירה
(06ק). עד שלא נסיים את קבלת הנתונים מנקודת המכירה האחרונה, מצב בסיס
הנתוניס מוגדר כלא תקין. האס נתחיל בתהליכי גזירת הנתוניס, במקביל לתהליכי
העברת הנתוניס מנקודות המכירה, או שנמתין עד לסיוס ההעברות!
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 237
סנכרון נתונים הנגזרים מקבצים שונים
לעיתים, לקבציס שוניס יש קצב עדכון שונה, ונוצרת בעיית סנכרון לא פשוטה. לדוגמה,
בחברת טלפונים, עדכון פרטי לקוח חדש בכל המערכות מתבצע רק בסוף יוס, אולס
הלקוח יכול להתחיל לבצע שיחות כבר במשך היוס. אם נחליט לגזור את נתוני השיחות
באופן שוטף, מייד עס הגעתן מהמתג הציבורי, נמצא עצמנו במצב בו מתבצעות שיחות
ללקוח לא מזוהה.
שיטת הגזירה (%00+16! חסוסבז)א=)
בעיקרון, קיימות שתי שיטות גזירה שונות :
> גזירה מלאה - גוזריס את כל הנתוניס מחדש בכל פעם (חסטְהּהְהּקסזק 3%8כ ווט=).
> גזירה אינקרמנטלית - גוזריס את השינוייס בלבד (חסוהחָ8קסזק 2818 חִפפְחִ8ת0).
ככל שפופולריות מחסן הנתוניס גדלה, הופכת היכולת לשמור על עדכניותו לחשובה יותר.
מחסני הנתוניס הראשוניס היו מבוססיס בעיקר על גזירה מלאה של הנתוניס התפעוליים,
ובנייה מחדש של בסיס הנתונים בכל מחזור טעינה. תהליך זה מצטיין בפשטותו, אולס
הוא יקר (מבחינת זמן הטעינה הנדרש), וככל שמחסן הנתוניס מתפתח ומכיל יותר סוגי
נתוניס (וככל שנפח הנתוניס בו הולך וגדל), הופכת גישת הגזירה המלאה ללא מעשית.
אחת השיטות להתגבר על הבעיה היא על ידי ניטור שוטף של המערכות התפעוליות,
איתור השינויים בנתוניס והעברת השינוייס בלבד למחסן הנתונים. וו שיטת הגזירה
האינקרמנטלית. היא מורכבת יותר, מפני שהיא דורשת יכולת לזיהוי השינויים שבוצעו
בנתוניס מאז הגזירה האחרונה.
המערכות התפעוליות הן דינמיות ומשתנות ללא הרף. השינוייס יכוליס להיות הן בתוכן
בסיס הנתוניס והן במבנה הנתוניס עצמס. כאן נתמקד בשינוייס בתוכן. בכל נקודת ומן
מכילים בסיסי הנתוניס התפעוליים רק את הגירסה האחרונה של הרשומות - כתובתו
הנוכחית של הלקוח, יתרת מלאי נוכחית וכדומה (מפני שמנקודת ראות תפעולית אלה
הנתוניס החשוביס ביותר). בחלק מהמקרים בהם נדרש עומק היסטורי, המערכות
התפעוליות מנהלות יומן תנועות: תנועות מלאי, תנועות בחשבון, רשימת שיחות טלפון
וכדומה. הצורך בומני תגובה מהירים, ומגבלות בנפחי אחסון, גורמיס לכך שכיוס מקובל
מאוד להגביל את העומק ההיסטורי של תנועות אלו - 10 תנועות אחרונות בחשבון,
תנועות מלאי לחודש האחרון, שיחות טלפון לחצי השנה האחרונה בלבד, וכדומה. בדרך
כלל עומק היסטורי וה מספיק לצרכים התפעוליים, אולס אינו מספיק כדי לעמוד
בדרישות מחסן הנתונים.
יש להדגיש שבדרך כלל לא ניתן, ואף לא רצוי, להגדיר שיטת גזירה אחת בלבד. המציאות,
בה קיימות מערכות התפעוליות הפועלות בפלטפורמות חומרה שונות, ועס מערכות
קבצים וניהול בסיסי נתוניס שוניס, מאלצת אותנו לממש תהליכי גזירה שוניס. תהליכיס
אלה מבוצעיס בהתאס לסוג הקובץ, תדירות העדכון הנדרשת, מורכבות פיתוח שיטת
הגזירה וכדומה.
8 מחסנל נתונים
כעת נסקור באופן מפורט יותר את שיטות הגזירה השונות הקיימות.
גזירה מלאה (חסוַהּחְּכסזק הזב ווטת)
בגישה וו, הנקראת לעיתים גם הגישה הסטטית, לוכדים תמונת מצב רגעית (00ח805ח5)
של בסיס הנתונים, והיא אמורה להחליף את תוכן בסיס הנתוניס במחסן הנתונים. מקובל
להבחין בין שתי שיטות שונות:
+ טעינה מחדש (861!080): שיטה זו מניחה שניתן לבטל את תוכן הטבלאות השונות
בבסיס הנתוניס ולמלא אותן מחדש, על פי תמונת המצב העדכנית של בסיס הנתוניס
התפעולי. כדי לנסות ולהבהיר את השיטה, נשתמש בדוגמת טבלת הלקוחות. לאחר
הטעינה הראשונית למחסן הנתונים, נוצר הצורך לעדכן את טבלת הלקוחות. הצורך
נובע מכך שנוספו לקוחות חדשים, לקוחות שינו את פרטיהם, בוטלו לקוחות
וכדומה. לפני ביצוע הגזירה מבטליס את טבלת הלקוחות במחסן הנתונים, ובוניס
אותה מחדש. הבנייה מחדש מתבצעת בעת תהליך הטעינה, מתוך תמונת המצב
האחרונה של טבלת הלקוחות במערכת התפעולית.
+ הוספת שינויים (0ח006): בשיטה זו לא מבטלים את תוכן הטבלה הקיימת
בבסיס הנתונים, אלא רק מעדכניס אותה, על פי תמונת המצב העדכנית של המערכת
התפעולית. שורות חדשות מצטרפות לטבלה, שורות קיימות מתעדכנות על פי תוכן
המערכת התפעולית, ושורות שאינן קיימות יותר במערכת התפעולית מבוטלות או
מסומנות כלא פעילות.
זיהוי שינויים (חסו1111634ח06! 3+3כ מִ6פַהה600)
בגישה זו, הנקראת לעיתים גם גישה אינקרמנטלית דינמית, בונים ומשתמשיס
במנגנונים שוניס. מטרתם של מנגנוניס אלה לאתר ולזהות את השינויים שחלו בבסיסי
הנתוניס התפעוליים מאז הגזירה האחרונה, ורק שינויים אלה נטעניס למחסן הנתונים.
גישה זו מתאימה יותר לטיפול בטבלאות גדולות, מפני שאין צורך לטעון מחדש את כל
הטבלה, אלא רק את השינויים. מצד שני, תהליך זיהוי השינויים הוא תהליך מורכב.
לעיתים הוא דורש בניית מנגנונים ותוכניות יישוס מיוחדות, ולעיתים יש לרכוש כלי
תוכנה ייעודייס המסוגליס לזהות את השינויים.
נסקור את השיטות השונות לזיהוי השינוייס בתוכן הנתוניס במערכות התפעוליות:
> חותמת זמן (016ו1ן63 0ו65%8₪הזוד): שיטה זו מניחה שכל רשומה בבסיס הנתוניס
התפעולי מכילה רישוס של תאריך וזמן העדכון האחרון שלה. חותמת זמן זו
משמשת כבסיס לתהליך הגזירה ומאפשרת איתור הרשומות שעודכנו מאז הגזירה
האחרונה. בהנחה שתאריך הגזירה האחרונה נשמר בקובצ כלשהו, ניתן לבצע את
הגזירה על ידי תוכנית יישוס, הנכתבת במיוחד למטרה זו, או באמצעות תוכניות
שירות של בסיס הנתוניס.
פרק 9: סקירת התהליכים העיקריים במחסן הנתונים | 239
על פי שיטה זו אי אפשר לזהות מצב בו אותה רשומה עודכנה מספר פעמים מאז
הגזירה האחרונה. לדוגמה, אס שורה מסוימת בטבלה עודכנה 5 פעמיס מאצ הגזירה
האחרונה, תועבר למחסן הנתונים, על פי שיטה גו, רק תמונת המצב האחרונה. אס
אין צורך בכל עדכוני הבינייס, שיטה זו פשוטה ויכולה לפעול היטב. הבעיה העיקרית
היא הצורך בקיוס חותמת הזמן בכל השורות בטבלאות המערכת התפעולית. אס
חותמת הזמן במערכות התפעוליות אינה קיימת, מחייב הדבר שינוי ביישומיס
ובמבנה הטבלאות, דבר מורכב מאוד עד בלתי אפשרי.
בעיה נוספת בשיטה זו הוא הטיפול בביטול שורות. אס המערכת התפעולית מבטלת
שורה, תוכנית גזירת השינויים לא תמצא את השורה המבוטלת ולכן, באופן טבעי,
גס לא תוכל לבטל אותה במחסן הנתונים. כדי להתגבר על בעיה זו אין לבטל שורות
מהטבלאות התפעוליות, אלא רק לסמן אותן כבלתי פעילות. בשלב מאוחר יותר,
בעת ארגון מחדש של בסיס הנתונים, ניתן לבטלן. אס המערכת התפעולית לא נבנתה
מראש בצורה זו, יישוס שיטת טיפול זו לביטול שורות כמעט ובלתי אפשרי.
בסיס
נתונים
תפעולו
תוכנית
טעינה
תרשים 9.4: גזירת נתונים על בסיס חותמת זמן.
+ השוואת קבצים (7%0:6ק068 הס8!וזהקוה060 1!6): שיטה זו מניחה שהמערכת
התפעולית אינה מכילה חותמת זמן, ולכן מבוססת על תהליך של השוואת שני
קבציס - הקוב האחרון שנגזר לעומת הקוב> הנוכתי. באמצעות השוואת שני קבציס
אלה ניתן לוהות את כל השינויים מאז הגזירה האחרונה, כגון שורות חדשות
שהצטרפו, שורות שבוטלו ושורות שבתוכנן חל שינוי כלשהו. שיטה זו מורכבת יותר
משיטת חותמת הזמן, מפני שהיא מחייבת ניהול קובץ הגירה האחרונה (שיכול
לפעמים להיות קובצ גדול מאוד), ופיתוח תוכנית מיוחדת לאיתור השינויים. אחת
האפשרויות הנוספות היא לא לשמור את כל קוב הגזירה האחרונה. במקוס זאת,
צריך לשמור רק את מפתחות הרשומות שנגזרו. בדרך זו ניתן להקטין את נפח קובצ
הגזירה שנשמר, לצורך ההשוואה הבאה. למרות מורכבותה היחסית של שיטת
השוואת הקבצים, לעיתים גו השיטה המעשית היחידה.
0 מחסנל נתונים
החלפת קבצ'ים | ברדד בסיס
של נתונים
לאחר הגזירת. ר
8
תפעולי
תוכנמית תוכנית
השוואה טעינת
תרשים 9.5: גזירה על ידי השוואת קבצים.
+ איתור שינויים נתמך יישום (6זט7%ק068 2551!5%60 הסווהסו!|קקה): שיטה זו
מבוססת על ההנחה שניתן לבצע שינויים בתוכניות היישוס התפעוליות, כך
שתיצורנה קוב נוסף, המכיל את כל השינוייס המתבצעיס בקבצים התפעוליים.
מכיון שתוכניות היישוס הן אלה המבצעות את השינויים, ניתן להתערב בלוגיקה
שלהן במקומות המתאימים. בדרך זו גורמיס לכך שבנוסף לביצוע העדכון בקוב
התפעולי, תירשס רשומה נוספת לקובצ השינויים.
לשיטה וו מספר חסרונות, מעבר לצורך בשינויים במערכות התפעוליות (דבר
שלעיתים הינו מורכב מאוד, ולעיתים פשוט בלתי ניתן לביצוע). בנוסף, שיטה זו
יכולה לגרום לירידה בביצועי המערכת התפעולית, בשל התקורה המתוספת כתוצאה
מהצורך ברשומות חדשות אודות כל שינוי המתרחש. לפעמים, השינוי מתבצע במצב
בו תוכנית היישוס אינה מתזיקה בזיכרונה את כל פרטי הרשומה המתעדכנת, אלא
רק את המפתח ומספר שדות רלוונטייס. אס רוצים לכתוב לקובצ השינוייס את כל
תוכן הרשומה שהתעדכנה, צריך לבצע גישה נוספת לקובץ, כדי להשלים את הפרטים
החסרים. פעולה כגון וו עלולה לפגוע בביצועי המערכת עוד יותר.
תוכנית. עדכונים | 6
---> בסיס
יישום נתונים
תפעולי
שינוייס
כ ( תוכנית
טעינה
תרשים 9.6: בניית השינויים על ידי תוכניות היישום התפעוליות.
+ איתור מבוסס מזניקים (5ז7088) של בסיס הנתונים: מעוכות םסה
המודרניות מכילות מנגנון הזנקה (ז1096ד) המופעל באופן אוטומטי על ידי המערכת
כתוצאה מאירועי העדכון השוניס. למשל, ניתן להגדיר מזניק המופעל בכל פעולת
הוספה, או בפעולת עדכון וכדומה. מנגנוניס אלה, המופעלים אוטומטית במצבי
עדכון, יכולים גם להכיל לוגיקה הכתובה בשפת תכנות ייעודית של יצרן מערכת
פרק 9: סקירת התהליכים העיקרייס במחסן הנתונים | 241
ה-05]5. ניתן להשתמש במנגנון ה כדי לרשוס בטבלה חדשה את כל השינוייס
המתבצעיס בטבלה התפעולית.
שיטה זו אינה דורשת התערבות בתוכניות היישוס, מפני שהיא מתבצעת באופן
חיצוני, באמצעות מנגנוניס של מערכת 081/5א, ברמת הטבלה או ברמת העמודה.
נשיס לב ששיטה זו עלולה לגרוםס לירידה בביצועים, מאחר וכל שינוי בטבלה מפעיל
את המנגנון, וגורס לכתיבת שורה נוספת בטבלת השינויים. קיימים גס מצביס בהס
שינוי המתבצע בטבלה אינו מכיל את כל הפרטיס הדרושיס למחסן הנתוניס. למשל,
אס הטבלה היא טבלת יתרות המלאי, לא ניתן לבנות ממנה את תנועת המלאי
שגרמה לעדכון היתרה.
תוכנית עדכונים
יישום
שינויים
מופעלי
8 טווך
0 תוכנית
טעינה
תרשים 9.7: שינויים מבוסס' 5ז6פָפוזד של בסיס הנתונים.
עדכונים
בסיס
נתונים
תפעולו
> איתור מבוסס יומן אירועים (6זט+ק63 1.00 חסו5464ח3זד): שיטה זו מבוססת על
העובדה שרוב מערכות 001/65 מכילות קוב יומן אירועים (|החזטס. או 6!ו= 0 ).
קוב זה משמש לשמירה על שלמותה בסיס הנתוניס, במקרה ומתגלה הצורך בגלגול
חזרה של תנועות, או במקרה של תקלת יישוס או נפילת חשמל וכדומה. מכיון שכל
שינויי בסיס הנתוניס ממילא נרשסם בקובצ יומן האירועים, המנוהל על ידי מערכת
ה-5/!םכא, מדוע לא לנצל קוב וה כדי לזאהות את השינוייס הרלוונטיים, ולגזור
אותס לטובת מחסן הנתוניס!
יצרני מערכת 081/5א ויצרני כלי תוכנה מצד שלישי פיתחו כלי תוכנה שוניס
הפועליס בסביבת בסיס הנתונים. כליס אלה מסוגלים לאתר את השינויים, באופן
חיצוני ליישוס, על ידי סריקה וניתוח שוטף של קובצי יומן אירועיס (8ו= פָס!
ז2ץוהחה) וזיהוי הרשומות שעברו שינוי כלשהו. כלי תוכנה אלה יודעים לגור רק
תנועות תקינות, כלומר כאלה שביצעו פעולת חח וח00.
היתרון הבולט בשיטה זו הוא בכך שהיא חיצונית לתוכניות היישוס ואינה מוסיפה
תקורה לכל תנועה, אלא פועלת במקביל לבסיס הנתונים. ראוי לשיס לב שתדירות
סריקת יומן האירועיס תהיה כזו שתבטיח את קיוס כל השינויים, מכיון שבסיסי
הנתוניס מרענניס מעת לעת את יומן האירועים, כדי לחסוך בנפח האחסון שלו. כדאי
לוכור שכלים אלה מותאמיס לסוגים מסוימיס של בסיסי הנתוניס או קבצים, ואינס
מתאימיס לכולס. בקטגוריה זו ניתן למנות כליס שונים, כגון ז8/ז56 חסוז68ו!ק36
של 0856ע5, או זסוְהּפָהקסזק 08%8 של יבמ.
2 מחסני נתונים
הגדרת הנתונים
המבוקשים
9
320
בסיס
נתונים
תפעולו
יומן
אירועים
6 1
0 תוכנית
טעינה
תרשים 9.8: זיהוי שינויים באמצעות כלי תוכנה לניתוח יומן אירועים.
אז מהי שיטת הגזירה המומלצת
כפי שראינו בסקירה הקודמת, קיימות שיטות רבות לביצוע גזירת נתוניס ממערכות
תפעוליות למחסן הנתוניס. הבעיה היא שאף אחת משיטות אלו אינה מושלמת, ואינה
ניתנת להפעלה בכל מצב. לפני שמסיקים מהי שיטת הגזירה המומלצת, צריך לזהות
באופן מדויק את מקור הנתוניס: האס והו קובצץ או בסיס נתוניס, האס ניתן לבצע
שינוייס בתוכניות היישוס וכדומה. כפי שכבר הדגשנו, לכל מקור נתוניס צריך לפתח
שיטת גזירה מיוחדת. לכן, אין לדבר על שיטת גזירה אחת ויחידה, אלא על שיטת גזירה
המותאמת למקור הנתונים.
הטבלה הבאה מציגה את שיטות הגזירה השונות, ומשווה בין מספר תכונות עיקריות בהן.
השפעה על השפעה על מורכבות | יבולת השפעה על
מקור הנתונים | תוכניות היישום | לשמור על | ביצועי
במערכת היישום שינויים המערכות
שיטת גזירה התפעולית פרטניים התפעוליות
נמוכה
גזירה מלאה אין השפעה אין השפעה נמוכה
ת
נמוכה
/ ו ו
ו /
ו
חותמת זמן השפעה נמוכה השפעה נמוכה | נמוכה
ו
ו
ו
פרק 9: סקירת התהליכיס העיקריים במחסן הנתונים
2.3
האם לשלב תהליכי מיטוב בתוך תהליכי הגזירה
אחת השאלות המורכבות בהן נתקל מעצב תהליכי הגזירה היא האס לנצל את תהליך
הגזירה כדי לבצע מיטוב ובדיקות תקינות מסוימות של הנתוניס, או לשחרר את תהליכי
הגזירה מעומס מיותר. צריך לזכור שתהליכי הגזירה מתבצעיס במחשבי הייצור של
הארגון, ומחשביס אלה עמוסיס במספר רב של מטלות. לכן, כל עומס נוסף שיוטל עליהס
עלול לגרוס לגלישה מחלון הגזירה העומד לרשותנו. מצד שני, קיימיסם מצביס בהס
בדיקות מסוימות, ותהליכי מיטוב מסוימים, יכוליס להתבצע רק מול המערכות
התפעוליות. במקרים כגון אלה, הס חייביס להתבצע תוך כדי תהליכי הגזירה. בכל מקרה,
העיקרון המנחה הוא להעמיס כמה שפחות את מחשבי הייצור, ולהשתדל להעביר את
עומס בדיקות התקינות ומיטוב הנתוניס אל סביבת מחסן הנתונים.
האם להעביר גם נתונים שלא נדרשים
מטרתנו להפוך את תהליך הגירה לפשוט ככל הניתן, ולכן עולה השאלה האס לסלק
מהרשומות המועברות שדות שאינס דרושיס בבסיס הנתוניס! ואולי כדאי להעביר את כל
שדות הרשומה ולהשאיר את ההחלטה לגבי השדות הנדרשיס בידי מחסן הנתוניסם! לא
ניתן לקבוע כאן שיטה אחידה לכל המקריסם. מצד אחד, אנו רואיס את הפשטות של
העברת כל שדות הרשומה, ומצד שני - את נפחי נתוניס המועבריס בין פלטפורמות מחשוב
שונות ללא צורך. עם ואת, העברת כל נתוני הרשומה תאפשר בעתיד לטעון למחסן
הנתוניס גם נתוניס שלא נדרשו בשלב זה, אבל ייתכן ויידרשו בעתיד. במקרה כגון וה לא
צריך לשנות את תוכניות הגזירה.
כיצד לממש את תהליכי הגזירה
כפי שניתן לראות מסוגיות אלו, עיצוב תהליכי גזירה אינה משימה פשוטה. היא מחייבת
מחשבה רבה המבוססת, בין היתר, על הבנה טובה של סביבת המערכות התפעוליות, מה
האילוצים בה היא פועלת, מה מבנה הנתוניס במערכות התפעוליות, מה קצב עדכון
הנתוניס, מה אמינות ואיכות הנתונים וכדומה. אחת הנקודות החשובות שיש לזכור
בהקשר וה היא שלא מדובר במבצע חד פעמי. מכיון שהמערכות התפעוליות משתנות עם
הומן, יש לוודא שגס תוכניות הגזירה תעודכנה בהתאם. תחזוקה שוטפת זו של תוכניות
הגוּירה מוסיפה רובד של מורכבות, וחשוב שהארגון יחיה ערוך לכך מבחינת משאבים.
עס סיוס עיצוב תחליכי הגזירה, עומדות בפנינו שתי חלופות למימוש:
> כתיבה עצמית של תהליבי גזירה: בחלופה זו לוקחת על עצמה יחידת המחשב את
בניית התוכניות הנדרשות. במקרים מסוימים זו כמעט חלופה יחידה, מפני שלא
קיימיס כלים ייעודייסם התומכיס בכל הפלטפורמות, ובכל מבני הקבציםס הקיימיס.
בחלק ניכר מהמקרים, גס אס קיימיס כלים ייעודיים, עדיין מומלצ לבצע את הגזירה
באופן עצמאי (לפחות בשלב הראשוני בפרויקט הקמת מחסן הנתונים), ולבחון את
השימוש בכלים ייעודייס רק בשלב מאוחר יותר. בנוסף, צריך לגכור שעלות כלים
אלה גבוהה יחסית, ולעיתיס קשה להצדיק הוצאה זו בשלביו הראשונייס של פרויקט
הקמת מחסן הנתונים.
4 מחסני נתונים
%> שימוש בכלי גזירה :יעודיים: בשל הקושי בפיתוח תהליכי הגזירה, והקושי
בתחזוקה השוטפת של תוכניות אלו, פותחו מספר כלים ייעודייס שמטרתם להכניס
מימד של מיכון (אוטומציה) בנושא זה. בין כליס אלה ניתן למנות את הכלים של
חברת ותפוזק, חברת ה087!6)0 ואחרות. כליס אלה מאפשרים להגדיר את כללי
מיפוי הנתוניס במחשב אישי המייבא אליו את הגדרות מבנה הנתוניס, והס
מחולליס באופן אוטומטי תוכניות בשפת תכנות כלשהי (|0פ60, 6). תוכניות אלו
מותאמות למחשב היעד בו הן מיועדות לפעול.
בדיקת וניקוי הנתונים (פַחוח6!63 בּצה)
הנתוניס המנוהלים במערכות התפעוליות יכולים להכיל ייזיהומיםיי (תוצאה מבעיות
שונות, כגון טעויות הזנה, העדר בדיקות תקינות, תקלות תוכנה וכדומה). הכנסת הנתוניס
מהמערכות התפעוליות ישירות למחסן הנתוניס, ללא תהליכי ניקוי מתאימים, עלולה
לגרום לבעיות קשות למשתמשים במחסן הנתוניס. מטרת שלב וזה היא להפעיל
אלגוריתמים שונים לניקוי הנתונים, ולשמירה על איכותם.
נציג מספר דוגמאות לתהליכי ניקוי אפשריים.
בדיקת מרחב הערכים (צ6ח515+6ח60ח! הוהּווסם)
מטרת בדיקה זו לוודא שערכי הנתוניס השוניס נמצאיס בתחוס ערכים נכון. לעיתיס,
נמצא עמודות שהערכיס המופיעים בהן אינס סביריס כלומר, הס מחוצ למרחב הערכיס
האפשרי של העמודה. לדוגמה, בטבלה הבאה השורה הראשונה מכילה תאריך לא תקין.
מספר לקוח שסםס לקוח תאריך קנייה קוד מוצר
הסיבות לטעויות בתחומי הערכים יכולות להיות רבות ומגוונות. מה שחשוב להבין הוא
שהחלטות המבוססות על נתונים באיכות נמוכה עלולות להיות שגויות, ולכן עדיף
להשקיע מאמצ באיתור תקלות אלו לפני טעינת הנתוניס למחסן הנתונים. בדוגמה
שבטבלה הקודמת, ייתכן שאיתור תאריך הקנייה האמיתי כבר בלתי אפשרי. לכן, יש
לשקול כיצד לתקן אותו - תיקון החודש בתאריך, או קביעת ערך ווטא לשדה, כדי להצביע
על כך שתאריך הקנייה למעשה אינו ידוע. צורת התיקון עשויה להיות שונה, תלוי בכל
מקרה לגופו.
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 245
בדיקות מול טבלאות (66%ח6 6וסב3ד קטאסס.!)
לפעמיס צריך לבצע בדיקת קיוס ערך כלשהו מול טבלה מיוחדת, המכילה את אוסף כל
הערכים החוקיים. למשל, בדוגמה הקודמת ייתכן שנחליט לבדוק את תקינות העמודה
יקוד מוצריי מול טבלת קודי מוצר. ההחלטה לגבי ביצוע בדיקות מסוג זה היא לגופו של
עניין, ובהתאס לרמת אמינות הנתוניס המגיעיס מהמערכות התפעוליות. אס מקור
הנתונים הוא אמין ובדוק, בהחלט ייתכן שלא יימצא הצורך לבצע בדיקות אלו.
בדיקות אמינות נתונים (עָזוז6+ח! בזכ)
מטרת בדיקות אלו היא לבחון את אמינות הנתונים מבחינת המפתחות. הבדיקות
המבוצעות הן בדיקת חד-ערכיות (655ח8נףוח/) של המפתח העיקרי, ובדיקת אמינות
הייחוס בין טבלאות (עְחָ6וח! |1/8ח3461076). מומלצ לבצע בדיקות אלו בשלב זה, ולא
בומן טעינת הנתוניס למחסן הנתוניס. ביצוע בדיקות אלה בעת הטעינה עלול להאט מאוד
את תהליך הטעינה ולגרוס לאי עמידה בחלון הזמן העומד לרשותנו לצורך כך.
בדיקות לגילוי גרסאות שונות של נתונים (666% חסו5ז6/)
מבנה הנתוניס במערכות התפעוליות משתנה כל הזמן, על פי צרכי המערכות התומכות
בתהליכי העבודה השוטפים בארגון. לדוגמה, ייתכן שבמערכת התפעולית הוסיפו עמודות
חדשות, שינו את אורך השדה, עברו מתצוגה נומרית לתצוגה אלפאנומרית, שינו את שיטת
הקודיס (למשל, קוד מין המכיל 1 או 2, הוסב לשיטת קידוד חדשה המכילה זי או ייניי).
מכיון שלא כל שינוי במבנה הנתונים במערכות התפעוליות צריך להשתקף באותה צורה
במחסן הנתוניס, מטרת שלב זה לגלות את השינוייס ולבצע את התיקוניס (למשל, להחציר
את אורך השדה לאורכו הסטנדרטי שנקבע במחסן הנתוניסם, להעביר את הקוד החדש
לקוד הישן וכדומה).
מיטוב נתונים (+ח6וח66הבּחח- גּזבּכ)
שלב וה עוסק באוסף תהליכים, שמטרתס לשפר את איכות הנתוניס לקראת הכנסתם
למחסן הנתונים. שלב וה מורכב למדי, מכיון שהוא דורש בניית אלגוריתמיס מורכביס.
אלגוריתמים מורכבים אלו נועדו לאתר תקלות בנתונים, שמסיבות אלה ואחרות
המערכות התפעוליות לא מנעו את התרחשותם. הדרך הנכונה לשיפור איכות הנתוניס
היא לדאוג לכך שהמערכות התפעוליות תבצענה את כל הבדיקות הדרושות. אולס דרישה
זו לעיתים אינה מציאותית. הכנסת שינויים במערכות תפעוליות היא קשה, ולעיתים בלתי
אפשרית.
בהמשך נציג רק מספר דוגמאות לתהליכי מיטוב נתוניס. במציאות, כל ארגון צריך
להגדיר מה מידת ההשקעה שמוכן הארגון להשקיע בתהליכי מיטוב אלה, וברמת התתכוס
שלהס.
6 מחסנל נתונים
הפיכת מידע נסתר ועקיף למידע מפורש וגלוי
אחת הטכניקות המקובלות במערכות תפעוליות היא להכניס לנתוניס משמעות, לעיתיס
בצורה נסתרת. לדוגמה, מספר הלקות, של לקוחות פרטיים מתחילים בקידומת 100,
ואילו מספר הלקוח של לקוחות עסקייס מתחיליס בקידומת 200. למעשה מספר הלקות
מכיל בחובו מידע לגבי סוג הלקוח (פרטי או עסקי), בנוסף לויהוי הלקוח. בעת המעבר
לסביבת מחסן הנתוניס חובה להוציא משמעויות נסתרות ועקיפות אלו, ולהפכן לנתוניס
מפורשיס. אחת התופעות הנפוצות היא שטווחים אלה מתמלאים, ולפתע מתברר שיש
להקצות טווחים נוספיס עבור אותה משמעות. לכן, לא יהיה זה מפתיע למצוא כעבור זמן
מצב בו גס לקוחות שמספרס מתחיל בקידומת 201 הס לקוחות עסקיים. מפתחי התוכנה
יודעיס להתמודד עס מורכבויות אלו, אולס הס יכוליס בקלות להפוך את השימוש במחסן
הנתונים לסיוט. לכן, חובה לפשט מצב זה בעת גזירת הנתונים. בדוגמה הקודמת, עלינו
ליצור בטבלת הלקוחות שבמחסן הנתוניס עמודה נוספת, סוג לקוח, שתכיל את הקוד
פרטי או עסקי. עמודה מפורשת זו מבטיחה לנו יציבות לאורך הזמן, וגס נוחות שימוש
במחסן הנתונים.
איחוד רשומות (חסו+63ו!ק 6-0 06וס466)
כתוצאה מטעויות במערכות התפעוליות, ייתכנו מצביס בהס קיים חוסר תאימות בין
נתוניס השייכיס לאותה יישות עסקית, כמו למשל לקות. טעויות אלו עשויות לנבוע מכך
שהמערכות התפעוליות אינן מבצעות בדיקות תקינות, חוסר תשומת לב מצד המשתמש
המזין את הנתוניס, טעויות בזמן הקלדת הנתוניס, שינוי חלקי של נתוני לקוח ועוד.
נתבונן בטבלה הזו:
מספר לקוח | שם לקוח כתובת | | תאריך קנייה | קוד מוצר
סביר להניח שהלקוח המופיע בשתי השורות הראשונות ובשורה האחרונה הס אותו לקוח.
אולס, בשל טעות באיות השם, נפתחה רשומה חדשה עבור הלקוח, ולה מספר לקוח חדש.
מסקנה זו נובעת מכך שיש דמיון פונטי בשס הלקותח וקיימת והות בכתובתו. סביר להניח
שזהו אותו לקוח, אולס בהחלט ייתכן גם שאלה שני לקוחות שונים. אס היינו יכוליס
להפעיל אלגוריתם ניקוי שמזהה מצב זה ונותן התראה, נוכל להשאיר את ההחלטה בידי
מישהו שאחראי על תקינות הנתוניס. אם ההחלטה היא שזהו אותו לקוח יש לבצע תיקון
במערכת התפעולית, כך שלא נצטרך לבצע תיקון זה כל פעס מחדש בעת הכנסת הנתוניס
למחסן הנתוניס. לאחר התיקון הטבלה תיראה כך:
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 247
מספר לקוח שם לקוח כתובת | | תאריך קנייה | קוד מוצר
טעות תמימה זו יכולה להיות בעלת השלכות רבות על טיב ואיכות ההחלטות שיקבלו
משתמשי מחסן הנתוניס. לכן, חשוב לבצע תהליך ניקוי מסוג וה, למרות מורכבותו
ועלותו הרבה (במונחי זמן עיבוד).
תקנון כתובות (הסו28%ו!גחוזוס)] 007655)
לעיתים, מכילות המערכות התפעוליות כתובות שונות, כמו למשל כתובת לקוח או כתובת
סניף, במבנה שס רחוב, מספר בית, עיר ומיקוד. כתובת זו אינה עוברת כל בדיקת תקינות
לגבי מרכיביה (למשל, בדיקה שהעיר אכן קיימת, שהמיקוד חוקי וכדומה). אס קיימת
דרישה לביצוע שאילתות שונות במחסן הנתוניס על סמך נתוני הכתובת (למשל, רשימת
הלקוחות באותה עיר, סך כל הגידול במכירות בעיר מסוימת לעומת עיר אחרת וכדומה),
מסוכן להשתמש באופרטוריס של מחרוזת (6/81019ק0 פַחוזו5) כדי לחלצ את שם העיר.
במקריס אלה, ניתן להפעיל אלגוריתמים מיוחדיס המחלצים את שס העיר, מבצעיס
בדיקת תקינות של שמה מול טבלת ערים, ומכניסיס את שס העיר לשדה נפרד ברשומה.
מתהליבי
גזירה
וטיוב למחסן
תרשים 9.9: תקנון כתובות כחלק ממיטוב הנתונים.
שינוי מבנה הנתונים (טַחווחזס+5חגּזד הּזְהּ)
לאחר סיוס תהליכי ניקוי ומיטוב הנתוניס, ניתן להתחיל בביצוע תהליכי המרת הנתוניס
מהמבנה המקורי שלהס למבנה חדש. כזה המתאיס למודל הנתוניס המנוהל במחסן
8 מחסנל נתונים
הנתוניס. ניתן להבחין בשני סוגי המרה שוניס: המרה לקבלת מבנה נתוניס פשוט ואחיד,
ולמולה המרה לקבלת מבנה נתוניס התואס את מודל הנתוניס של מחסן הנתוניס.
סטנדרטיזציה בייצוג הפיסי
לעיתים נמצא במערכות התפעוליות שאותו מונח מיוצג במספר צורות פיסיות שונות.
לדוגמה, במערכת תפעולית אחת מספר הלקוח הוא שדה נומרי בן 12 תווים, ואילו
במערכת תפעולית אחרת מיוצג אותו נתון על ידי שדה אלפאנומרי בן 13 תווים. בעת
עיצוב מחסן הנתונים עלינו להחליט מהו הייצוג האחיד של המונח העסקי. למשל, נוכל
להחליט שמספר לקוח יהיה 13 תווים אלפאנומריים. בעת שלב שינוי מבנה הנתוניס נעביר
את כל חייצוגים השוניס של אותו מונח, לייצוג הסטנדרטי שנבחר.
שינוי קודים ואיחוד נתונים
שלב וה עוסק בהמרת נתונים לשס קבלת מבנה פשוט ואחיד. הדוגמאות הנפוצות להמרה
זו הס: המרות קודים שוניס לאוסף קודיס אחיד, המרות הקשורות בקודי מטבע או
יחידות מידה וכדומה. לדוגמה, אס מחסן הנתונים מוזן בנתונים המגיעיס ממערכות
תפעוליות הפועלות במדינות שונות, סביר להניח שכל מערכת כזו מספקת את הנתוניס
במטבע המקומי. כדי שניתן יהיה להפעיל שאילתות ופעולות סיכומיות, צריך לנהל את
הנתוניס במטבע אחיד כלשהו (למשל, שייח, דולר או אירו). במידה ונדרש ניתן לנהל את
הנתוניס גס במטבע המקור, בנוסף למטבע האחיד.
דוגמה נוספת להמרה בשלב זה יכולה להיות החלפת קודים שוניס בקוד אתיד אחד.
למשל, אם במערכת תפעולית אחת מופיע הערך זכר תחת קוד ייציי, ובמערכת תפעולית
אחרת מופיע אותו ערך תחת קוד ''י1'' - יש לאחד את קוד הערך. בשלב ההעברה למחסן
הנתוניס צריך לקבוע את הקוד הסטנדרטי למין, ואז יש להחליף את הקודים השוניס
בקוד אחיד, למשל ייזכריי. גס אס בעיית קודיס שוניסם אינה קיימת במערכות תפעוליות
שונות, עדיין בריך לבצע המרות קודים. הקודיס במערכות תפעוליות מנוהליס בקיצוריס
שוניס, המתאימיס למערכות תפעוליות, אך מאוד לא נוחיס למשתמשי מחסן נתונים.
לדוגמה, המשתמשים יתקשו מאוד לזכור שקוד 'יציי הוא עבור זכר והקוד '2יי הוא עבור
נקבה. כדי להקל על משתמשי מחסן הנתוניס עדיף לבצע המרה של קיצוריס אלה לקוד בו
קל להשתמש ואשר אותו קל לזכור. למשל, ייזיי עבור זכר ו-ייניי עבור נקבה.
ממערכות ---) תקנון
תפעוליות כתובות למחסן
אוו דחוב מיקוד
לקו | לקה 0 לקת ו
| | הלצל10 גבעתיים 55203 | 7 | | 5534 | משה כקן |
לטעינה
תרשים 9.10: תהליך המרת קודים.
פרק 9: סקירת התהליכים העיקריים במחסן הנתונים | 249
העברת מונחים תפעוליים למונחים עסקיים
המונחיס המקובליס במערכות התפעוליות פותחו על ידי אנשי התוכנה, לשימושס בעת
בניית היישומים. לדוגמה, שדה המכיל את תעודת הזהות של הלקות יכול להיקרא
%,. למשתמש הקצה מונח וה חסר כל משמעות. גזירת הנתוניס מהמערכת
התפעולית לסביבת מחסן הנתוניס יוצרת הזדמנות לתת לשדות שמות בעלי משמעות
עסקית, למשל, 6|-ז0591008 בדוגמה שלנו.
ארגון המונחים
מכיון שהמערכות התפעוליות מתפתחות לאורך זמן נמצא, בדרך כלל, מספר שמות שוניס
לאותו מונח. למשל, במערכת אחת ייקרא מספר זהות של הלקות 2-005%-ד, בשנייה
0-005% ובשלישית 26001 60081 ז-זסח0ס05%. תופעה זו נפוצה מאוד, מפני שהמערכות
התפעוליות מתפתחות בזמניס שונים על ידי מפתחיסם שונים, ולא תמיד תוך משמעת ונוהל
אחיד. גזירת הנתוניס למחסן הנתונים יוצרת את ההזדמנות לקבוע את השס הסטנדרטי
לכל מונח.
השלמת ערכים חסרים וברירות מחדל
נתוניס המגיעים מהמערכות התפעוליות אינס שלמים, ולעיתיס חלק מהם חסר. דוגמה
פשוטה ניתן לראות בשדה במערכת תפעולית, המציין מצב של כן או לא. למרות שמצב
פשוט וה צריך להיות מתואר על ידי שדה שיכול להכיל שני ערכים בלבד, ניתן למצוא
שדות כגון אלה המכילים שלושה ערכים - כן, לא וריק. הסיבה לשדה הריק היא שמפתתי
התוכנה מביניס שערך חסר (ריק) משמעותו לא. אך מה בנוגע למשתמש הקצה: במצב זה,
צריך להשליס את הערך הריק לאחד המצבים התקיניס, ולא להעביר מורכבות זו
למשתמש מחסן הנתוניס. דוגמה נוספת ניתן למצוא בהזמנת רכש. נניח שיחידת המידה
איננה שדה חובה ולכן צריך להשלים מידע חסר גה בעת העברת נתוני ההזמנות אל מחסן
הנתוניס. אס משתמש במחסן הנתוניס יבקש לעשות ניתוחיס שוניס של ההזמנות על פי
יחידות מידה, חשוב שנתון וה יושלס בשלב זה.
פיתוח הבדיקות והאלגוריתמיס להשלמת נתוניס חסרים, יכול להיות פשוט, אך לעיתיס
זו משימה מורכבת מאוד. לפעמים, קיים קושי בפיתוח אלגוריתמיס אלה, ומעצבי מחסן
הנתונים בוחרים באפשרות השלמת הנתוניס החסרים על ידי ברירת מחדל סטנדרטית.
בקביעת ברירות מחדל מסוג זה קיימת סכנה, מפני שהדבר עלול לגרוס להסקת מסקנות
מוטעות, בעת ניתוח הנתוניס. לכן, עדיף להשתמש בסימון סטנדרטי כלשהו שיסמן
שהנתון אינו ידוע (לדוגמה, להוסיף יחידת מידה מיוחדת לא ידוע).
0 מחסני נתונים
דה-נורמליזציה של מבנה הנתונים (חסו28%ו!הח'וסח6כ בּזבכ)
מודל הנתוניסם המשמש את מחסן הנתוניס שונה ממודל הנתונים של המערכות
התפעוליות. בשלב וזה מתבצעת ההמרה למבנה הטבלאות התואס את סכמת מחסן
הנתוניס, שבדרך כלל היא במבנה כוכב (5006₪8 ז5)9) או במבנה פתיתי שלג
(5676₪00 6א0/18ח5). ההמרה לסכמות אלו מחייבת את בניית שני סוגי הרשומות
העיקרייס של מחסן הנתוניס: רשומות עובדות ורשומות מימדים. בניית טבלת העובדות
פשוטה יותר, ומבוססת על תהליך מיפוי פשוט בין הנתוניסם כפי שהס מגיעים ממערכות
המקור אל מבנה רשומת העובדות. לעומת זאת, בניית רשומות המימדיס היא פעולה
מורכבת יותר ודורשת ביצוע תהליך דה-נורמליזציה.
לדוגמה, בעת בניית טבלת הסניפים, צריך להכניס ברשומת הסניף את שס המחוז אליו
שייך הסניף. טבלת האזוריס אינה מקבלת ביטוי ישיר בסכמת מחסן הנתוניס. לכן, היא
מנוהלת רק בשטח הביניים בו מבצעיס את המרות הנתוניס. תוכנית יישוס מיוחדת
קוראת את רשומות קלט הסניפיםס שיש להעביר אל מחסן הנתוניסם, ועל סמך קוד המחוז
מוסיפה את שס המחוז לרשומת הפלט.
תהליך לטעינה
דה נורמליוציה למחסן
קוד שם כתובת | קוד שם
סניף סניף סניף מחוז מחוז
06666 ₪
תרשים 9.11: תהליך דה-נורמליזציה של נתונים.
בניית מפתחות מלאכותיים (ח0סו619%ח66 ע6א)
בשלב זה בוניס את המפתחות המלאכותיים, עבור אותן רשומות בהן הוחלט שלא
להשתמש במפתחות הטבעייס של הרשומות (כפי שהן מנוהלות במערכות התפעוליות).
בדרך כלל, אלו רשומות המימדים אשר משתנות לאורך הזמן (פַחופַחח עושסופ
5חסופח6וחוכ). לדוגמה, אס הוחלט שלא להשתמש במפתח הסניף מהמערכת התפעולית,
אלא לבנות מפתח מלאכותי, צריך לבנות יישוס מיוחד שיקבע וינהל את המפתחות עבור
טבלת הסניפים.
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 251
יישום ניהול
מפתחות
למחסן
ר---6 הנתונים
מפתח --₪=₪----- > בניית מפתתח
14 1 ית
מקורי
תרשים 9.12: בניית מפתחות מלאכותיים.
כפי שניתן לראות מהתרשים, יישוס ניהול המפתחות מנהל טבלה מיוחדת, טבלת
המפתחות בה נרשם המיפוי בין המפתח הטבעי לבין המפתח המלאכותי של הרשומה.
בדוגמה המוצגת בתרשים, מפתח רשומת הסניף הוא '*1234י. יישוס ניהול המפתחות
(חסוזהסווקק הסו9זו9והווח0ג/ ץ46) קבע שהמפתת המלאכותי של הרשומה יהיה
'*104-00'י. הסיומת 00 מציינת שזהו המפתח המלאכותי הראשון שרשומת הסניף קיבלה
במחסן הנתוניס. כשאחת התכונות של הסניף משתנה (למשל, השיוך שלו למחוז כלשהו),
צריך לבנות רשומה חדשה לסניף, עס מפתח חדש ועס השיוך החדש שלו. במקרה וה
ישתמש יישום ניהול המפתחות בטבלת המפתחות, ויקצה לסניף את המפתתח ''104-01'י.
המרת מפתחות עבור טבלת העובדות
בדרך כלל מגיעה טבלת העובדות מהמערכות התפעוליות במבנה קרוב למבנה המנוהל
במחסן הנתוניס. אס החלטנו לנהל מפתחות מלאכותייס עבור טבלת מימד אחת או יותר,
צריך לבצע את המרת מפתחות המימד מהמפתח הטבעי, למפתח המלאכותי המתאיס.
לשם כך, יש לבנות תוכנית מיוחדת המשתמשת בטבלת המפתחות המנוהלת על ידי יישוס
ניהול המפתחות. טבלת מפתחות זו משמשת גס את היישוס שמכין את רשומות טבלת
העובדות. כל רשומת מכירה המועברת למחסן הנתוניס עוברת המרת מפתחות מתאימה.
מתהליבי 6
גזירה --->
וטיוב
קוד קוד תאריך סה"כ | מכילות
סניך מוצר מכידות | ביחידות
המלת מבנה לטעינה
נתונים למחסן
מפתת קוד תאריך סה"כ מכידות
סניך מוצר מכידות | ביחידות
תרשים 9.13: הכנת רשומות טבלת המכירות.
2 מחסני נתונים
בתרשיס זה רשומת המכירה מתקבלת מהמערכת התפעולית, ונושאת את המפתח הטבעי
של הסניף, המוצר ותאריך המכירה. מאחר ומפתח מלאכותי מנוהל רק עבור הסניף,
מתבצעת המרה מהמפתח הטבעי 1234 למפתח המלאכותי 104-00. אס היינו מחליטיס
שגס עבור המוצר ינוהל מפתח מלאכותי, היה עלינו לבצע המרה גס עבור מפתח זה.
טעינת הנתונים למחסן הנתונים (פַחוהַבּס.| הַּזָ3כ)
לאחר שקיבלנו נתוניס נקייס ובמבנה תואס למבנה הנתוניס במחסן הנתונים, ניתן
להתקדס לשלב הבא ולבצע את טעינת הנתוניס. המטרה - לבצע טעינה יעילה ככל הניתן
ובפרק זמן הקצר ביותר האפשרי. מכיון שחלון הזמן העומד לרשותנו לתהליך הטעינה
בדרך כלל קצר, יש לבצע כמה שיותר פעולות הכנה מקדימות ולפשט את תהליך הטעינה
ככל הניתן. ניתן לחלק את תהליך טעינת הנתוניס לשני שלבים :
.*
+*
טעינת הנתונים: בשלב ה מתבצעת טעינת הנתוניס אל טבלאות מחסן הנתונים.
פורמט הנתוניס המוכניס לטעינה הוא, בדרך כלל, !850 ובמבנה התואם אחד
לאחד לטבלאות בסיס הנתוניס של מחסן הנתוניס. ניתן להשתמש כאן בכלי הטעינה
של יצרן בסיס הנתונים עצמו (למשל, 1.0808 .501 של 80|6ז0) העושה שימוש
בעיבוד מקבילי לקיצור תהליכי הטעינה.
שימוש בתוכניות עדכון רגילות, העושות שימוש בפקודות .5001, כגון 561ח! או
6, עלול לגרוס להארכת משך שלב הטעינה. לכן, יש להשתדל לבצע את
הטעינה באמצעות תוכניות השירות המיוחדות. מומלצ לבצע את טעינת הנתוניס
בעת הפעלת בדיקות הייחוס (עְו60+ח! |08ח46+076) בין הטבלאות. דבר זה יבטיח
שהטבלאות החדשות אמינות, ושהקשרים בין הטבלאות (המבוססיםס על מפתחות
זריס) תקינים. אמנס, תכונה ו מאיטה את קצב הטעינה, אולס היא מבטיחה את
תקינות בסיס הנתונים. אס, בעת הטעינה מתגלות בעיות, יש לתקן רשומות אלו,
במידת האפשר.
בניית האינדקסים: לאחר שהנתוניםס נטענו למחסן הנתונים, מתבצע תהליך בניית
האינדקסיס לטבלאות. לעיתים, מקובל למחוק את האינדקסיס הישניס ולבנותס
מחדש, מפני שתהליך זה יעיל יותר מעדכון אינדקסיס קיימים. גס כאן עושות
מערכות 3081/65 שימוש מלא בריבוי המעבדיס וביכולות השרתיס החדשים, כדי
לייעל ולקצר את תהליך בניית האינדקסים.
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 253
תהליכי הזרימה מעלה
(06655זק עשסו- כןש)
חלק ניכר מניתוחי המידע המתבצעים במחסן הנתוניס מתייחסים לנתוניס מסוכמיס
ברמה זו או אחרת. למשל, מה היו סך כל המכירות בחודש זה לעומת החודש הקודם, מה
מגמת השימוש בשירותי תא קולי ברבעון זה לעומת הרבעון המקביל בשנה קודמת
וכדומה. אחת האפשרויות היא להכין סיכומים אלה בכל שאילתה, על פי הצורך. למשל,
על ידי הגדרת טבלה מדומה (ש18/) המכילה את הגדרת הסיכוס. שיטה זו מאוד יקרה,
מבחינת משאבי המחשב וביצועיו, ולכן מקובל להכין נתוניס מסוכמים המנוהלים באופן
קבוע במחסן הנתוניס.
תהליכי הזרימה מעלה הס אוסף תהליכים העוסקיס בבניית סיכומיס (ח00ו28%ו8ו וטס
או חסוְהּחְַזפָטָ) בבסיס הנתונים. הטבלאות הסיכומיות הן אחד המנגנוניס החשוביס
ביותר לקבלת ביצועיס טוביס, לשאילתות הפועלות מול מערכת 08]15. ההנחה בבניית
הסיכומיס היא שרוב השאילתות פועלות רק בחלקים נבחריס של בסיס הנתונים. לדוגמה,
שאילתה לגבי מכירות של מוצר מסוים, במהלך החודש האחרון, או כמות העובדים, לפי
מקצועות, באגף מסוים בארגון. במקוס לבצע סריקות בנפתי נתונים גדולים, יכול
השימוש בטבלאות סיכומיות להקטין באופן משמעותי את משך זמן התגובה של
השאילתה.
רמות סיכום גבוהות
5 עו
רמות סיכום קלות
תות 1017 1
נתונים מפורטים
3 11660
תרשים 9.14: תהליך הזרימה מעלה מנתונים שוטפים לנתונים סיכומיים.
כפי שניתן לראות מתרשיס 9.14, ניתן לבצע סיכומיס ברמות שונות. למשל, סיכוס שבועי,
חודשי, רבעוני או שנתי. כל רמת סיכוס כזו יכולה להיות מנוהלת בטבלה מיוחדת, או
שכל הסיכומיס מנוהלים בטבלה אחת (עס אינדיקציה לרמת הסיכוס בכל שורה). לכל
שיטה כזו יש יתרונות וחסרונות.
4 מחסני נתונים
הכנת טבלאות הסיכום
לפני שמתחילים בהכנת הטבלאות, יש לבטל את טבלאות הסיכוס הקיימות. ביטול
הטבלאות והאינדקסיס שלהן יתבצע באמצעות פקודת .501 מיוחדות (8|ס3ד ססזס,
א6ח! ססזכ). הכנת הסיכומיס החדשיס יכולה להתבצע באופן אוטומטי, מייד בסיוס
תהליך הטעינה. לבניית הסיכומים ניתן לכתוב תוכניות יישוס מיוחדות, או להפעיל
פרוצדורות מוכנות, המכילות משפטי 501. למשל:
986 8 דד זפ ד ד 1
ד ם. 61 * מ6זחץ 541.5) וא50 ,פז ד6טפסחץ,פז 6אחת ד0ת 81 .2
85 |וואסא 32
8 פא 010198 אממ ד ד 541.5 מתפעא | .4
לעיתים, הכנת הסיכומים דורשת הפעלת לוגיקה עסקית, כגון סיכוס כל החשבונות מסוג
מסוים. הכנת סיכומיס אלה מראש מסתירה מורכבות זו מעיני המשתמש, ולכן ניתן
להתייחס למנגנון הסיכומים גם כאל מנגנון פישוט הנתוניס וניתוחי המידע.
הכנת אינדקסים עבור טבלאות הסיכום
בגמר הכנת טבלאות הסיכום, יש לבנות את האינדקסיס עבור הטבלאות. בניית האינדקסים
מתבצעת באמצעות פקודות .501, המיועדות לבניית אינדקסים - א06ח! 0810ז0.
סקירת תהליכי הזרימה מטה
(06655זק עצס!- העוססם)
תהליכים אלה עוסקיס בהעברה להיסטוריה וגיבוי (₪70685569 קטא280), ובמתחיקת
נתונים (פָחוָזוק 8%9כ) ממחסן הנתוניס.
נתונים מפורטים
66
נתונים היסטוריים
3 [6031 016
נתונים בארכיון
+ 6
מחיקת נתונים
8 66פצטץ
מחיקת נתונים
8 66פצטץ
תרשים 9.15: תהליך הזרימה מטה מנתונים שוטפים להיסטוריה.
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 255
סקירת תהליכי הזרימה החוצה
(06655זק שוס!: +ט0ס)
תהליכים אלה עוסקים בכל הקשור לאספקת הנתוניס ממחסן הנתוניס אל משתמשי
המחסן, ובעיקר בכל הקשור לבניית השאילתות (270085589 /00067). בנוסף לשאילתות
עבור משתמשי מחסן הנתוניס, עוסק תהליך זה גס בגזירת הנתוניס ממחסן הנתונים אל
מרכולי הנתונים, כלי כריית נתוניס (פָחוחוו הּו28), כלי ניתוח רב-מימדיים (קג 01)
וכדומה.
נתונים
מסוכמים
נתונים
מפורטים
שוטפים
משתמש
סי מחסן הנתונים
מפורטים
היסטוריים
מחסן נתונים
מחלקתי/נושאי
ות הזג
תרשים 9.16: תהליך הזרימה החוצה ממחסן הנתונים אל הצרכנים.
סקירת תהליכי הזרימה מידע על הנתונים
(06655זק שוס!- +03 6+3ו₪)
קטלוג נתונים פעיל (עזסזו05ק49), או מילון נתונים (ץ זהחסטסוכ 808כ) כפי שהוא נקרא
לעיתים, הוא רכיב חשוב ומרכזי במסגרת ארכיטקטורת מחסן הנתוניס. קטלוג וח מכיל
מידע אודות הנתוניס (2818 6%8!) המנוהליס בבסיס הנתוניס. המידע המנוהל במסגרת
הקטלוג יכול להיות רב ומגוון (מה מקור הנתון, מה תהליכי הגזירה והטרנספורמציה
שעבר הנתון, מה עדכניות הנתון, למי מותר לגשת אליו ועוד). בעוד שקיוס קטלוג נתוניס
בסביבת מערכות תפעוליות יכול להיות בעל ערך ועזר, הרי שקיומו בסביבת מחסן נתוניס
הינו כורח. בלעדיו קשה מאוד למשתמש מחסן הנתוניס להבין איוה נתונים מנוהלים,
היכן, מה הקשר בין הנתון לנתונים אחריס ומה משמעותם. קטלוג הנתונים חייב להיות
פעיל ולא סביל, כלומר עליו להתעדכן בומן אמיתי בשינוייס המתרחשים בבסיס הנתונים,
או בשינוייס בתהליכי גזירת הנתוניס.
6 מחסני נתונים
לקטלוג הנתוניס שני תפקידים שונים, אך קשורים - תפקיד טכני ותפקיד עסקי.
> התפקיד הטכני בא לידי ביטוי בכך שהוא תומך בתפעול ובתחזוקת מחסן הנתונים.
קטלוג הנתוניסם מנהל את המידע אודות מקור הנתוניס, מה תהליכי הגצירה, המיטוב
וההמרה שעובריס הנתונים, מהו מודל הנתוניס של מחסן הנתוניס, ממשקים לכלי
055 שונים, למתי הנתוניס מעודכנים ועוד.
> התפקיד העסקי בא לידי ביטוי בתמיכה שמספק קטלוג הנתוניס למשתמש הקצה,
להבנת משמעות הנתוניס וניתוחס. בהקשר זה פועל הקטלוג בדומה למילון נתוניס
מרכזי, המאפשר למשתמשי הקצה להתמצא במחסן הנתוניס ולהבין את הפרשנות
שיש לתת לנתוניס.
כפי שנכתב קודס לכן, קטלוג הנתוניסם חייב להיות פעיל. כלומר, הוא מתעדכן בזמן
אמיתי בכל השינוייס המתרחשים. מצד אחד הוא חייב להיות משולב, באמצעות ממשקיס
שוניסם, עס כלי הגזירה והמרה, ואילו מצד שני הוא חייב להיות משולב עס כלי הקצה,
המשמשיס את המשתמשים. בפרק הבא נרחיב את הדיון על קטלוג הנתוניס.
סיכום
פרק זה סקר את תהליכי הזגרימה השונים המתרחשים במחסן הנתונים. כפי שניתן לראות
מסקירה זו, קיימיס תהליכיס רביסם, חלקם פשוטים יותר וחלקס מורכבים מאוד. עיצוב,
בנייה וניהול שוטף של תהליכיס אלה מהווה את אחד האתגריס הגדוליס ביותר בבניית
מחסן הנתוניסם. המאמ הנדרש לממש תהליכים אלה מוערך ב-80% מהמאמצ הכולל
לבניית מחסן הנתוניס. לכן, יש חשיבות בהבנת האתגר ובבניית תהליכים המסוגלים
להחזיק מעמד מעבר ליישוס הראשוני של מחסן הנתוניס.
פרק 9: סקירת התהליכים העיקריים במחסן הנתוניס | 257
פרק 10: מידע על הנתונים
(6+303+3))
לשם מה דרוש מידע על הנתונים
כדי לאפשר למשתמשיסם לגשת למחסן הנתוניס ולהפיק ממנו את התועלת המירבית,
עליהם לדעת מה נמצא בו, מה משמעות הנתונים, איה מערכות מקור סיפקו את
הנתונים, נכון למתי הנתונים מעודכנים ועוד. מקובל לקרוא למידע זה מידע על הנתונים,
או 6180818/]. מידע זה מספק את ההקשר, המאפשר את הפיכת הנתונים המנוהליס
במחסן הנתוניס לידע בעל ערך הדרוש בתהליכי קבלת ההחלטות. ברמה הבסיסית ביותר
ניתן לומר שמידע על נתונים הוא מידע המתאר את הנתוניס ונותן להס את המשמעות.
כפי שהודגש בספר זה, מחסן הנתונים אינו מקוס, אלא ארכיטקטורה כוללת המייצגת
תפיסה המשלבת כלי תוכנה, חומרה, תהליכיס ומשתמשים. כל כלי תוכנה מנהל אוסף
מסויס של נתונים ומידע על הנתונים, כדי שיוכל לפעול ולבצע את עבודתו. דוגמאות
למידע שיש לכלי התוכנה השוניס יוכל להיות: מבנה רשומה של קובא מסוים, קשריס
לוגיים ופיסיים בין סוגי רשומות שונים, מאיזה בסיס נתונים נגזריס הנתוניס, איה
מערכת הפעלה פועלת במערכת המקור ובמערכת היעד, כיצד רוצה המשתמש לראות
נתוניסם מסוימיס (184/8/ |00108 6 ועוד.
בשל ריבוי הכלים המשמשיס את סביבת מחסן הנתונים, ובשל האופי הטכני והלא אחיד
במונחיס, ברור כי יקשה על המשתמש לפעול בסביבה כזו. מטרת המידע על הנתוניס היא
לשמש כשכבת בידוד, המבודדת את המשתמש מהמונחים הטכניים של כלי התוכנה
הפועלים בסביבת מחסן הנתוניס. משתמשי מחסן הנתונים אינס מעונייניסם במבנה
ובפרטים הטכניים. הס רק רוצים לגשת במהירות ובנוחיות אל הנתוניס, ומצפיס לעשות
זאת באמצעות המונחיס העסקיים להס הס מורגלים. בנוסף להבנת המונחיס ומשמעותם,
רוציסם המשתמשים גם לדעת את רמת עדכניות הנתונים, מהן המערכות מהן נגזרו
הנתוניס, מהס תהליכי ההמרה שעברו הנתוניס וכדומה. רצוי שכל מידע זה ינוהל בקטלוג
נתונים מרכזי (עץזס)ופסק36 הַּו8), כחלק ממחסן הנתוניס וכחלק מהשירותים שהוא
מספק למשתמשיו.
פרק 10: מידע על הנתונים | 259
מהו "מידע על הנתונים"
הדרך הטובה ביותר להבהיר את המושג מידע על הנתונים תהיה באמצעות דוגמה.
נשתמש באובייקט מטוס להדגמת סוגי מידע שוניס שניתן לנהל לגביו. לכל אובייקט
מופשט כזה אנו מצמידים אוסף תכונות המאפיינות ומתארות את האובייקט. לתכונות
אלה מקובל לקרוא מידע על האובייקט. נדגיש, שהתכונות המתארות את האובייקט
(בדוגמה שלנו המטוס) מתקיימות בנפרד מהאובייקט האמיתי.
.%
+
*
%
תכונות (65+ט10ז414/) של אובייקט - ברמה הבסיסית ביותר, לכל אובייקט יש אוסף
תכונות המתארות אותו. לאובייקט מטוס יש תכונות כגון שס היצרן, דגם, שנת
ייצור, מספר מנועים, מרחק טיסה מקסימלי, מספר מושבים בכל מחלקה, עומס
מקסימלי ועוד. לאובייקט כמו מטוס יש מספר תכונות רב, ולכן ננהל בבסיס
הנתוניס רק את התכונות הרלוונטיות למרחב הבעיה בה אנו עוסקים.
סיוג התכונה - לכל תכונה מאוסף תכונות האובייקט נוכל לנהל מידע נוסף, כגוו האס
ערכי התכונה הס נומריים או אלפאנומריים, מה טווח הערכיס וכדומה. לדוגמה,
התכונה מספר מנועים יכולה לקבל ערכים נומרייס בלבד שנעים בין 1 ל-5. התכונה
שם יצרן יכולה לקבל ערכים מוגדריס מראש של יצרני מטוסים. יחידת המידה
למרחק הטיסה המקסימלי, היא קילומטרים, וכן הלאה.
תכונות מולטימדיה - לא כל תכונות אובייקט הן תכונות פשוטות, כמו אלה שהוצגו
כאן. לדוגמה, למטוס מצורפיס גם שרטוטי מערכות החשמל, שרטוטי המערכות
ההידראוליות, שרטוטי מבנה המטוס, מסמכי אבטחת איכות שנוצרו בעת תהליך
ייצורו ועוד. מידע נוסף זה יכול להיות מגוון מאוד - מסמכים, גרפים, מפות,
שרטוטים, קול, וידאו וכדומה.
שיוך למחלקת אובייקטים (0!355 +00[86) - עצס השימוש במילה ''מטוסיי כבר
משייכת את האובייקט למחלקה מיוחדת של אובייקטים, על ידי הדגשת תכונה
מרכזית, כלומר היותו כלי טייס.
היררכיות הפשטה (עת₪167870 ה0ו801ז054) - בדרך כלל אנו נוטים לבנות
היררכיות הפשטה מורכבות, העוזרות לנו להבין ולשייך את האובייקט למחלקות
ברמות גבוהות יותר. בדוגמה שלנו, נוכל לבנות רמת הפשטה מעל המחלקה ימטוט
קרביי. כעת, נשייך את מטוס הקרב לקבוצה 'מטוסי יירוט'י, ואת קבוצת מטוסי
היירוט לרמה היררכית נוספת, ''כלי טייס צבאיים'י, המשלבת מטוסי יירוט, מטוסי
תובלה ומסוקי קרב וכך הלאה. היררכיית הפשטה זו מספקת לנו ידע נוסף לגבי
האובייקט, ולכן מקובל לראותה חלק מהידע הכולל אודותיו.
0 מחסנל נתונים
0 0 | תכונות
מרחק טיסה מקסימלי
> מספר מושבים
2 מעמס מקסימלי
/ מספר מנועים
מהירות מקסימלית
ד = - ---- אובייקט אמיתי
תרשים 10.1: אובייקט אמיתי והיררכיית הפשטה המתארת את האובייקט.
עד כאן דוגמת המטוס, שמטרתה היתה להדגיש את העובדה שלגבי כל אובייקט, או
יישות, ניתן לנהל מידע רב ומגוון מאוד. חשוב לעשות את האבחנה בין המידע על
האובייקט לבין האובייקט עצמו. בדומה לדוגמה הקודמת, לגבי כל יישות המנוהלת
במחסן הנתונים (לקוח, הזמנה, חשבונית, פריט במלאי, תנועה בחשבון) אנו מנהלים מידע
רב.
הבה נעבור כעת לדוגמה קרובה יותר לעולס מחסני הנתונים. נתבונן במחרוזת הבאה
וננסה להבין את משמעותה.
12 233656 2
יהיה זה הוגן לומר שהמחרוזת חסרת משמעות מבתינתנו. היא יכולה להיות כל דבר, כמו
למשל מספרי הזמנות לציוד, הכנסות שנתיות של אזרחים, או כל דבר אחר. הדרך היחידה
לתת משמעות לנתוניס היא על ידי צירוף המידע על הנתונים למחרוזת, כלומר הוספת
שמות תכונות הנתוניס. אס נוסיף את שמות התכונות, נראה שמשמעות המחרוזת הופכת
לברורה.
מספ | מספר | קוד
המחאה | סניף | בנק
תרשים 10.2: נתונים יחד עם המידע על הנתונים.
בעיקרון קיימות שתי דרכיס לתת משמעות לנתונים:
> צירוף המידע על הנתונים אל הנתוניס עצמסם, כפי שהודגס קודם לכן.
> גזירת משמעות הנתונים מהקשרם (א%6ח00). למשל, אם היתה זו תוצאה של
שאילתה בה ביקשנו פרטים מסוימים, משמעותסם תהיה ברורה גם ללא צירוף מידע
על הנתונים.
פרק 10: מידע על הנתוניסם | 261
הדוגמה הקודמת היא המקרה הפשוט ביותר של מידע על נתונים המנוהל במחסן נתונים.
מעבר לתכונות הבסיסיות של היישויות המנוהלות במחסן הנתונים, יש מידע רב מאוד
אותו חשוב לנהל, כדי לאפשר למשתמשי מחסן הנתוניס להפיק ממנו תועלת. במובן הרחב
ביותר ניתן לומר שהמידע על הנתונים מתאר ומגדיר את כל סביבת הנתוניס. לדוגמה,
קוב (או קבצים) בו מאוחסניס הנתוניס, הקשר שלהס לתהליכים העסקיים מהםס הס
נובעיס, מידע אודות תהליכי הגזירה וההמרה שעברו הנתוניס וכדומה. ניתן להגדיר את
המידע על הנתונים כאוסף כלל המידע אותו יודעיס הכלים השונים הפועליס בסביבת
מחסן הנתונים, אודות הנתונים וסביבת המחשוב. רמת השילוב בין הכלים השוניס
נקבעת, במידה רבה, ביכולת שלהס לשתף ביניהס את המידע על הנתונים. מידע זה יכול
לענות על שאלות כגון:
* מה המשמעות העסקית של נתון מסויס.
> מה הערכיס החוקיים שיכול לקבל השדה.
%> איזה תהליכים גזרו את הנתון מהמערכות התפעוליות.
+ מהס תהליכי ההמרה שעבר הנתון בדרכו למחסן הנתונים.
> מהו התהליך העסקי הנתמך על ידי אוסף ה של שאילתות.
> איזה תוכנית עדכנה את נתוני הלקוח בריצה האחרונה.
% איוו טבלה מכילה את נתוני המוצר, היכן היא נמצאת ומהו המבנה המפורט שלה.
כפי שניתן לראות מרשימה זו, המידע על הנתונים יכול להיות נרחב מאוד. את המידע על
הנתוניס נהוג לאחסן בקטלוג הנתוניס (עץזס)/46005), המהווה רכיב חשוב מסביבת מחסן
הנתוניס. בחלק מהמקריס, בשל העדר כלי ייעודי לניהול קטלוג הנתונים, מקובל
להשתמש בכלי 0455 כלשהו לאחסון המידע הרלוונטי. למרות שבמבט ראשון, נראה
ניהול מידע זה טבעי ביותר, המציאות היא שבדרך כלל בניית קטלוג הנתוניס היא אחת
המשימות המורכבות ביותר בתהליך מימוש תפיסת מחסן הנתוניסם. אחת הסיבות לכך
היא שהמידע אותו יש לנהל מגוון מאוד, קיימות סתירות בהגדרות הנתונים, חלק
מההגדרות מסתתרות בכלי תוכנה, וכדומה. עצור לרגע וחשוב אודות המאמ הנדרש
להביא אנשיס שוניס להסכיס להגדרת היישות יילקותיי - כל מחלקה בארגון מבינה יישות
זו באופן שונה, ומשתמשת באוסף שונה של תכונות כדי לתאר אותה.
חשיבות המידע על הנתונים
בסביבת מחסן הנתונים
בסביבות התפעוליות משמש המידע על הנתונים בעיקר את מנהלי בסיסי הנתונים, ואת
מפתחי היישומים. הגישה לבסיסי הנתוניס התפעולייסם מתבצעת רק באמצעות יישומיס
מאפשריס למשתמשים השוניס לבצע פעולות שונות בבסיס הנתוניס. למשתמש הקצה
(הפקיד בבנק, מנהל המחסן, איש המכירות, סוכן הנסיעות) אין כל ידיעה חיכן, וכיצד
הנתוניס מאוחסנים. האינטראקציה שלהס עס הנתוניסם היא רק באמצעות מסכים
ושאילתות, שהוכנו מראש על ידי מפתחי היישוס.
2 מחסני נתונים
סביבת מחסן הנתוניס שונה באופן מהותי מהסביבה התפעולית. כאן המשתמשים ניגשים
באופן ישיר אל בסיס הנתוניס באמצעות כלי שאילתות, מחוללי דוחות, כלי ניתוח
סטטיסטיים, כלי ניתוח רב-מימדיים וכדומה. הגישה שלהם היא בדרך כלל מזדמנת
ומיועדת לפתור בעיות או לתמוך בתהליכי קבלת החלטות וכמעט ואין יכולת לבנות
יישומיס מוכניס מראש לנושאיס אלה. כדי שמחסן הנתוניס יהיה בעל ערך למשתמשיס
אלה, הס חייביס להבין את המבנה והתוכן שלו. מחסן נתוניס ללא מידע על הנתוניס
דומה לארון מסמכים שבו המסמכים זרוקים ללא כל סדר והגיון. ברור שאיתור מסמך
כלשהו במצב כזה כמעט בלתי אפשרית.
באנלוגיה ניתן לומר שמי שנוסע ברכבת אינו זקוק למפה, מכיון שהרכבת תוביל אותו אל
היעד המבוקש. לעומת ואת, מי שנוהג במכונית באר רה רצוי שיצטייד במפה, יבין את
הסמליס השוניס ואת תמרורי הדרך, אחרת לא יצליח להגיע ליעדו. לענייננו אנו, הנוסע
ברכבת משול למשתמש ביישוס מוכן מראש במערכת תפעולית, ואילו הנוהג ברכב באר
זרה משול למשתמש במחסן הנתונים. מי שנוהג כל יוס ממקוס עבודתו לביתו אינו וקוק
למפה, מכיון שהוא כבר מכיר את הדרך בעל פה. כך גס המשתמש המנוסה במחסן
הנתוניס. הוא ילמד להכיר את הנתוניס ואת משמעותם, ולא יודקק בכל פעס למידע על
הנתונים. המשתמש המתתיל או שאינו מנוסה לא ימצא את דרכו ללא מידע זה. עס זואת,
מכיוו שדרישות המשתמשיס לניתוח הנתוניסם משתנות כל הזמן וגס הנתוניס במחסן
הנתוניס משתניס מעת לעת, גם משתמש מנוסה יודקק למידע על הנתונים.
חוסר במידע על הנתונים, או מידע לא מדויק על נתוניס, עלול להביא למצביס מוכריס
בהס מנהל אחד בארגון טוען שהמכירות עלו ב-10%, בעוד שמנהל אחר טוען שהן ירדו
ב-5%. מכיון שכל אחד מהם ניזון מהגדרות שונות ואולי גס ממקורות שונים, אין בכך כל
פלא. עצם השימוש במחסן הנתונים כמקור אחיד של מידע לכל המשתמשים יכול לצמצס
תופעות אלו. לעיתים, אחד האתגריס הראשונייס של פרויקט מחסן הנתוניס הוא להגיע
להסכמה על משמעות אחידה לנתוניסם ולמקורם (במידה וקיימיסם מספר מקורות
אפשריים). קיוס מידע על הנתוניס במחסן הנתוניס, מידע הקובע את הפרשנות הברורה
והחד-משמעית של הנתוניס הוא ערובה לכך שתופעות מסוג זה תעלמנה כמעט לחלוטין.
המידע על הנתוניס המנוהל במילון הנתוניס חייב להיות אמין ומסונכרן עס הנתוניס
עצמס. אחריותו של צוות מחסן הנתוניס היא לוודא אמינות שוטפת זו, ולמנוע מצביס
בהם מילון הנתונים אינו משקף נאמנה את הנתוניס המנוהליס בבסיס הנתונים.
מכל האמור לעיל ברור שהמידע על הנתוניס בסביבת מחסן הנתוניס הוא משאב בעל
חשיבות רבה, לכל אורך מחזור החייס שלו. החל בשלב הבנייה, דרך שלבי הגישה של
משתמשי מחסן הנתונים, וכלה בשלבי העדכון והתחזוקה השוטפים שלו.
פרק 10: מידע על הנתונים | 263
קטגוריות של "מידע על הנתונים"
מהדוגמאות הללו ניתן לראות שהמידע על הנתוניס יכול להכיל סוגים רביס של מידע.
מקובל לחלק מידע על הנתוניס לשלוש קטגוריות עיקריות:
> מידע על תהליכי ההמרה (6430313!! (בּחִס1ַ041ז510ח3זד): מידע גה מגדיר מהס
תהליכי ההמרה שעובריס נתוני המקור, וכיצד הס ממופים למחסן הנתוניס. מידע
זה מתייחס לכללי הגזירה, ההמרה, הניקוי, האינטגרציה וסיכוס הנתונים. מקובל
לצרף למידע זה גס מידע אודות עדכניות הנתוניס (כלומר, למתי נכוניס הנתוניס),
וכן מידע לגבי מקור הנתוניס (כלומר, מאיזה קבציס ומערכות תפעוליות הם נגזרו).
מידע וה משמש את צוות מחסן הנתוניס בביצוע תהליכי המיפוי, הגזירה, ההמרה
והטעינה. בשל כך קוראיס לו לעיתיס גם 6180818 וחסס 280%. בנוסף לצוות
מחסן הנתוניס, מידע וה הוא בעל חשיבות גם למשתמשי מחסן הנתונים. הוא
מאפשר להם להבין מהיכן באו הנתוניס, מהס תהליכי הגזירה וההמרה שהס עברו,
למתי הס מעודכניס וכדומה.
+ מידע פיסי (16180313] |5168צ0): מידע זה מגדיר כיצד המאוחסנים נתוניסם
במחסן הנתונים, ומכיל מידע הנובע מסכמת בסיס הנתוניס. מבנה טבלאות בסיס
הנתוניס כולל את רשימת העמודות (ותכונות כל עמודה), ומידע אודות אילוצי
אמינות בין הטבלאות (לדוגמה עְחִחָס1ח] |36107601/8 בין הטבלאות, אילוצי ערכיס
של עמודות וכדומה). בדרך כלל מידע גה מעניין את אנשי המחשוב ומתוחזק על ידם,
וכמעט ואינו מעניין את משתמשי מחסן הנתוניס.
> מידע עסקי (0+30318] 20510655 חב |החסווהוחזסזח]!): והו המידע המעניין את
משתמשי מחסן הנתונים ומתאר את מחסן הנתוניס במונחים הבאיס מעולמם. מידע
זה משמש אותס בתהליכי השאילתות וניתוח הנתוניס, ולכן מקובל לקרוא לו גס
8 00 +חסז=. המידע מתייחס למיגוון רחב של נושאים, ובא לענות על
שאלות כגון: מה משמעותה של עמודה מסוימת, מאין מגיע נתון אה, כיצד מחושב
הרווח הנקי, היכן ניתן למצוא את נתוני מכירות החודש האחרון, היכן השאילתה
שבניתי בשבוע שעבר.
אס מחסן הנתוניס כולל גס מידע חיצוני, יש חשיבות רבה בניהול המידע על נתוניס
אלה, כדי לאפשר למשתמשים לנצל מידע שאינו מוכר להם מפעילותס השוטפת עס
הנתוניס הפנים-ארגונייס. באופן כללי ניתן לומר שהמידע העסקי מסייע
למשתמשיס בעבודתס עס מחסן הנתוניס. הוא מאפשר להס לגלות את משמעות
הנתוניס, וכיצד הם יכוליסם להשתמש בהסם כדי לענות על שאלות עסקיות. אין כל
ספק שמידע וה הוא בעל החשיבות הרבה ביותר בסביבת מחסן הנתונים. העדר מידע
כזה, או קיומו החלקי, עלול לפגוע באופן משמעותי בהצלחת מחסן הנתוניס בארגון.
4 מחסנל נתונים
מקורות המידע על הנתוניס גס הס מגווניס, ויכולים לנבוע ממספר רב של כליס ומוצריס
שוניס.
כלי שאילתות
זו
5
סטטיסטיקות של טעינה כלי טעינת נתונים
וו יי
יבלאות מדומות
כלי איכות נתונים בללי ניקוי ושיפור איכות נתונים
8 זו!הו() הוה 0
תה 6301348
תתימ
מודל נתונים, טבלאות, עמודות הגדרות, שאילתות מוכנות,
כללים עסקיים
כלי גזירה והמרה
תג מ86010וצ הז
8 51010 מה
כלי ניתוח רב מימדי
בו
מערכות תפעוליות
12848 501700
כלי עיצוב
מ
תרשים 10.3: מקורות המידע על הנתונים.
הגדרת רשומות, קבצים יפוי שדות, כללי גזּירה
בללי המרה
נסקור בקצרה סוגים שונים של מידע על הנתוניס, אותס מקובל לנהל במילון או גנזך
הנתוניס.
מיפוי וגזירת נתונים
(חסוזס3ז)א= חב ףהוסס3 ₪ בּוהּ)
מידע אודות מיפוי הנתוניס מציין את תהליכי המיפוי והגזירה שעברו הנתוניס בדרכס
מהמערכות התפעוליות אל מחסן הנתוניס. מידע וה קושר, בדרך כלל, את מונחי מערכות
המחשוב עס המונחים העסקיים ומתאר את המבנה הטכני של הנתונים. בדרך כלל, מידע
זה הוא המפורט ביותר, והמדויק ביותר, ומשמש את משתמשי מחסן הנתוניסם, את מעצבי
מחסן הנתונים ואת מנהלי הנתוניס. בקטגוריה זו נמצא מידע כגון:
> מאיזו מערכת תפעולית נוצר נתון מסויס (למשל, ממערכת המלאי או ממערכת
הכספית).
> ויהוי שדה המקור, ומיפוי בין שדה המקור ובין השדה במחסן הנתוניס.
> תהליכי ההמרה שעבר הנתון (למשל, המרת הסכום ממטבע מקור למטבע אחיד, לפי
שער חליפין ליוס גזירת הנתון).
> שינויי מפתחות (ממפתח מקורי למפתח מיוחד במחסן הנתונים).
> ברירות מחדל של הנתון.
> הלוגיקה לבחירת הנתון, אם ייתכנו מספר מקורות (אם תאריך העדכון האחרון הוא
בחודש האחרון, יש לדרוש את הנתון ממערכת המלאי, אחרת מהמערכת הפיננסית).
פרק 10: מידע על הנתוניס | 265
מיפוי למונחים עסקיים
מידע וה קושר, בדרך כלל, את מונחי המערכות התפעוליות עס מונחיסם עסקיים
המקובליס על ידי המשתמשיס.
> מיפוי שמות פנימיים של טבלאות או עמודות לשמות חיצונייס (8599ו|₪): לדוגמה,
עמודה בשס 1 01 יכולה לשמש את מפתתחי היישום לניהול נתוני המכירות בשנה
אחרונה, אולס היא נראית חסרת משמעות, מנקודת מבטו של המשתמש במחסן
הנתוניס. ניתן למפות שס פנימי וה לשם תיצוני בעל משמעות, כגון
זה 851 ]| /3%) 58|65.
> משמעות הנתון מבחינה עסקית: מה זה מכירות נטו, האס המדובר ברווח תפעולי או
נקי, האס הסכוס מכירות השנה כולל מעיימ או לא, האס הרווח הוא בדולריס או
בשייח וכדומה.
מומלף לקבוע שמות חיצוניים ברורים וקצרים, מפני שהס משמשים כפרמטרים
בשאילתות וכותרות קבועות בתוצאות שאילתות ודוחות.
היסטוריית גזירת הנתונים
מחסן הנתונים מנהל מידע בעל עומק היסטורי. לכן, חשוב לנהל מידע הקשור
להיסטוריית תהליכי הגזירה. בין היתר, יש לנהל מידע כגון:
> למתי הנתוניס נכוניס
* מה היו השינוייס שהתרחשו במבנה הנתוניס (למשל, אס לפני שנתייס בוצע שינוי
בחלוקת סניפי המכירות לפי מחוזות, יש להימנע מביצוע השוואות של ביצועי
הסניפים היוס לעומת ביצועיהם לפני שנתיים)
טבלאות סיכום (1!6+303%3! הסו%ה2וזהּ ווח 6)
בנוסף לטבלאות המכילות את העובדות הבסיסיות, כולל מחסן הנתוניס גס מספר רב של
טבלאות סיכום. סיכומיס ברמות נמוכות (כגון, מכירות לכל שבוע) וסיכומיס ברמות
גבוהות מאוד (כגון, סך כל המכירות השנה). המידע המגדיר איוה סיכומים מנוהלים,
כיצד הס מבוצעים, מתי בוצעו לאחרונה, מועדי עדכון וכדומה, הוא בעל חשיבות רבה
למשתמש מחסן הנתוניס. חלק מכלי השאילתות המודרנייסם עושיס שימוש במידע זה
בסיכומיס המנוהליס במחסן הנתוניס, כדי לנתב באופן אוטומטי את השאילתה לטבלאות
המתאימות. כך ניתן לקבל את הביצועיס הטובים ביותר.
מידע כמותי (6+303+3!! %60+ח6וזכ) ס6וחש!ס/)
אוסף נתונים וה מספק למשתמש מחסן הנתונים מידע כמותי בחתכים שונים. למשל,
כמה עמודות יש בטבלה, כמה שורות יש בטבלה, מהו אחוז השינוי בנפח הטבלה לאורך
זמן, מה גודל הטבלה בבתים, כמה אינדקסים יש לטבלה וכדומה.
6 מחסנל נתונים
מידע אודות נגישות (ּז16+303! ח'ו31+6 266655)
המידע אודות מידת הנגישות לטבלאות השונות במחסן הנתונים, הוא בעל חשיבות.
באמצעותו ניתן להחליט אילו טבלאות ניתן להעביר לאמצעי אחסון זולים יותר, ואילו
טבלאות כדאי להעביר לאמצעי אחסון מהיריס יותר.
בקרת גישות (חסוז+28ווסח)ו/ 66655)
מידע וה עוסק בהרשאות : למי מותר לראות איזה נתוניס, באיוה תנאים, מאיוה מחשבים
וכדומה. ניתן לכלול במידע וה גם מידע לגבי ניסיונות התחברות למחסן הנתוניס,
סטטיסטיקות שונות ברמת המשתמש וכדומה.
מידע מערכת (6+30343! וח575+6)
מידע וה משמש בעיקר את בסיס הנתונים, ועוסק בנושאיס הקשוריס למבנה הפיסי שלו.
+ גנזך בסיס הנתוניס (טבלאות ה-0ח40צ5ע5).
*> מבנה המחיצות (פחסטוזזהק).
> אינדקסים.
> הרשאות ברמת בסיס הנתוניס.
+ טבלאות מדומות (5או16/).
*> פרוצדורות שמורות (7006001765ק 60זס)5).
מוצרים לניהול המידע על הנתונים
המושג מילון נתונים או קטלוג נתונים (ע01זו05ק46) הוא מושג ותיק, ואינו קשור דווקא
להופעת מחסני הנתוניס. יצרניס שוניס ניסו את כוחס בפיתוח מילוני נתוניס כאלה
ואחריס, כאשר היוזמה הידועה, ובמידה מסוימת היומרנית ביותר, היתה של חברת יבמ
עס המוצר 76!8ץ0/0. בפיתוח מוצר זה ניסתה חברת יבמ לבנות מילון נתוניס רחב מאוד,
אולס נטשה את המוצר מאחר ומכירותיו ויישומו בארגוניס נכשל. תפיסת מחסני הנתוניס
הביאה לפריחה מחודשת של כלי ניהול מילון הנתוניס, וזאת לאחר ניסיונות לא מוצלחיס
שוניס להשתמש בכלי 055, במחוללי יישומיס דור רביעי לניהול מילון הנתוניס.
בין החברות שפיתחו מוצרי ניהול מילון נתוניס לסביבות מחסני נתוניס, ניתן למנות את
ותפוזק, ה0צ08716, 1דם. כולן התמחו בנושא גזירת הנתוניס מהמערכות התפעוליות. לכן,
באופן טבעי, הכליס שלהם תומכים באופן מלא יותר בכל המידע לגבי מיפויים ותהליכי
הגזירה. מוצריס אחרים, שבאו מעולם מילוני הנתונים, הס מוצריס של חברות אחרות,
כגון וחטחוזה!ק, 4000806, ש5ו, |פ!, 0/5005 אססוו|סזחו, פאזס/ סופ ונוספות.
נדגיש שכיוס, כמעט ולא קייס מוצר אחד המסוגל לנהל את כל סוגי המידע על הנתוניס
אותם יש לנהל בסביבת מחסן הנתונים. לכן, שכיח למצוא יותר ממוצר אחד, כשכל מוצר
מנהל סוג מסוים של מידע.
פרק 10: מידע על הנתונים | 267
סיכום
אני מקווה שבנקודה זו כבר ברור לקורא מדוע כל כך קשה להגדיר את נושא המידע על
הנתוניס. במילים פשוטות ניתן להגדיר ואת כהכל חוץ מהנתונים עצמם. פתאוס נראה
שניהול הנתונים הוא החלק הפשוט, בעוד נושא המידע על הנתוניס הוא רחב מאוד,
ולעיתים גס מורכב מאוד. כמעט כל כלי הפועל בסביבת מחסן הנתוניס מנהל מידע על
נתוניס בצורה זו או אחרת. כפילות המידע המנוהל בכליס השוניס יוצרת אתגר רציני
לצוות מחסן הנתונים, שחייב לתאס ולסנכרן את המידע על הנתוניס במספר רב של
מוצריס. בשל מורכבות זו, חייב צוות מחסן הנתוניס לשאול את עצמו: איזה מידע על
נתוניס לנהל, באיזה מוצר, כיצד יסונכרן מידע וה עס מידע המנוהל במוצריס אחריס
ועוד. ללא ספק, אתגר מורכב שבשלב זה עדיין לא נמצאה לו תשובה פשוטה.
סיבוכיות וו הביאה לכך שמספר חברות מובילות בתחום כלי גזירה, כלי ניתוח
רב-מימדיים, מערכות לניהול בסיסי נתוניס ומערכות לניהול מילוני נתוניס, הקימו
קואליציה, חסטו|608 6180818 6חד, במטרה לנסות ולהגדיר מספר תקניס שיאפשרו
זרימה חלקה של המידע בין הכליס השוניס. בשלב גה הס הגדירו מפרט עבור פורמט
להחלפת מידע על נתונים (81חזסת סַפַָהַהַח0ז10ח]| 0+80818ו - =]!ש). ניתן לראות מפרט
זה באינטרנט בכתובת (070.)+₪6+308.שש/ש. בין החברות המובילות בקבוצה זו ניתן
למנות את 506סז0ו1, 20[60%5) 655חו05ם, תפוזם, זססזה, ודם, ההטחו8ום, 05ח09ס6
ואחרות.
רוב החברות מפתחות ממשק דו-כיווני באמצעותו ניתן יהיה לייצא או לייבא את המידע
אל ומכלים אחרים. למפרט יש גס לא מעט מבקרים, הטועניס שהוא אינו מקיף דיו. זאת,
למרות שמפתתי המפרט צמצמו אותו במכוון במהדורתו הראשונה, כדי שיישאר פשוט
ובר יישוס, ויענה בצורה סבירה על דרישות רוב סביבות מחסני הנתונים. חברת 80!6זס,
אחת החברות המובילות בתחוס מחסני הנתונים, החליטה להישאר מחוצ לקבוצה זו
ולפתח תקן משלה. הנושא גדול ומורכב, ועדיין מוקדס להעריך מה מידת הצלחתה של
קואליציה זו.
ללא תלות או קשר לפורמט אחיד זה, חלק מהחברות יצרו שיתופי פעולה ספציפיים כדי
לאפשר שמידי יוכל לעבור בין הכליס שלהס. בשלב זה, שילוב המידע בין המוצריס
השוניס הוא במידה רבה אתגר לא פשוט, שצוות מחסן הנתוניס צריך להתמודד איתו.
בשל חשיבות המידע על הנתוניסם בסביבת מחסן הנתוניס ניתן לומר שהזנחת נושא זה
עלולה להביא לכישלונו של כל פרויקט מחסן הנתוניס.
8 מחסנל נתונים
פרק 11: מרכולי נתונים
(פ5דוהּ! בּזְב3כ)
מבוא
מערכות תומכות החלטה (255 - 5/9%67058 אססק5 חסו9ו66כ) עברו מספר שלביםס עד
לגיבוש התפיסה המודרנית של מחסן הנתונים הארגוני. הניסיון שהחל להצטבר בבניית
מחסני הנתוניס גרס לארגוניס להסיק מספר מסקנות, שהעיקריות בהן:
> הקמת מחסן נתונים ארגוני הוא אתגר מורכב ויקר
+ הומן הנדרש להקמתו ויישומו ארוך יחסית, בין היתר בשל משחקי הכוחות הפנים
ארגונייס והבין מחלקתיים
קשייס ואתגריס אלה בהקמת מחסני הנתונים הארגונייס הובילו לתפיסה שונה,
המבוססת על אותס עקרונות, אולס בעלת יעדים ושאיפות מוגבלות יותר: תפיסת מרכול
הנתונים - +ובּו הּוהּם.
כפי שנפרט בפרק זה, הדרך הנכונה להתייחס למרכול הנתוניס היא כאל הרחבה טבעית
של תפיסת מחסן הנתוניסם לרמת הדרג המחלקתי. אין להתייחס למרכול הנתוניס כאל
תפיסה חלופית לתפיסת מחסן הנתוניס הארגוני, אלא כאל תפיסה משלימה. בתחילה,
היו ניסיונות להתייחס לתפיסת מרכול הנתוניס כאל תפיסה המיועדת להחליף את תפיסת
מחסן הנתוניס, באמצעות פתרון מהיר וקל יותר. גישה וו התבררה כלא מוצלחת
והניסיונות, בסופו של דבר, לא עמדו בציפיות ויצרו איי מידע חדשיס המכילים נתוניס
סותריס ולא עקביים.
מטרת פרק זה למקד את הדיון בתפיסת מרכול הנתונים. לתפיסה זו יתרונות רביסם, אולס
קיימיס בה גס סיכונים, כאשר הארגון אינו מביןו את מלוא משמעותה. פרק זה יוצא
מנקודת הנחה שהקורא מכיר את תפיסת מחסן הנתונים, כפי שהוסברה בפרקים קודמים,
את שיטות העיצוב שלו ואת תהליכי העבודה הנהוגיס בסביבת עבודה זו. כל אלה תקפיס
גם לגבי מרכול הנתוניס, ולכן לא נחזור עליהס בפרק זה.
פרק 11: מרכולי נתוניס 269
מהו מרכול נתונים
מרכול נתונים הוא מחסן נתונים ממוקד, המיועד לשרת מחלקה מסוימת או לתמוך
בנושא יישומי מסוים.
קיימת הסכמה שמרכול נתוניס הוא למעשה מימוש מסויס של תפיסת מחסן הנתונים,
אבל בעל יעדים מוגבליסם יותר. מעצס הגדרתו, ברור שמרכול הנתוניס קטן יותר ממחסן
הנתונים הארגוני ובדרך כלל הוא נגזרת חלקית כלשהי למחסן הארגוני. נגזרת זו ממוקדת
בנושא מסוים, אשר בדרך כלל מעניין רק מחלקה אחת בארגון או מספר מצומצס של
מחלקות קשורות. מרכול הנתוניס ממוקד בנושא אחד, ולכן הוא צריך לתמוך במספר
מצומצס יחסית של משתמשים. הוא צריך לנהל נפחי נתוניס קטניס יותר (מספר עשרות
עד מספר מאות ג'יגה-בתים) ומוזן בנתוניס ממספר קטן יותר של מקורות.
מרכול הנתוניסם ממוקד וקטן יותר ולכן, תהליך הקמתו, עיצובו ויישומו מהיר יותר ועלות
הקמתו נמוכה. מכאן גס הפופולריות הרבה שלו. חשוב להדגיש שעס הזמן, וככל שמרכול
הנתוניס צובר הצלחה ופופולריות בקרב משתמשיו, הוא יכול להתפתח ולתמוך בנפח
הולך וגדל של נתוניס ולשרת מספר גדל והולך של משתמשים.
להלן מספר דוגמאות למרכולי נתוניסם :
> מרכול נתוניס שיווקי המתמקד בלקוחות ומכירות בלבד וישמש בעיקר את מחלקת
השיווק והמכירות.
> מרכול נתוניסם בנושאי משאבי אנוש וממוקד בנתוני כוח אדם, תעסוקה, הדרכה
וכדומה, וישמש בעיקר את מחלקת משאבי אנוש.
+ מרכול נתוניסם המנהל את הנתונים הרפואיים של חוליס שאושפזו במחלקה מסוימת
של בית חוליס, והמכילים נתוניס ייחודייס לאותה מחלקה.
*> מרכול נתוניס בנושאי איכות השירות ללקוחות וממוקד בכל התקלות שנרשמו, איזה
מוצריס אצל איזה לקוחות, ומשך הזמן 'ילסגירת'י תקלות. מרכול זה ישמש את
מחלקת אבטחת איכות, שיווק ופיתוח.
> מרכול נתוניס של מחלקת ההנדסה בחברת טלקומוניקציה המיועד לניתוח התנועה
ברשת התקשורת, לשס איתור מהיר של בעיות ברשת וכן למטרות תכנון קיבולת
הרשת.
*> מרכול נתוניס בנושאי תמחיר, האוסף נתוניס תמחיריים שוניס ומשרת את מחלקת
התמחיר בלבד.
כפי שניתן לראות מדוגמאות אלו, המשתמש הטיפוסי במרכול הנתוניס הוא המשתמש
המחלקתי שעוסק בתהליך קבלת החלטות ברמת המחלקה, ולא ברמת הארגון כולו.
0 מחסני נתונים
הגורמים לפופולריות הרבה של
תפיסת מרכול הנתונים
המציאות היא שמספר גדול של ארגוניס החליט לממש את תפיסת מרכול הנתוניס
במחשבה (שלימיסם התבררה כמוטעית) שתפיסה וו באה להחליף את תפיסת מחסן
הנתוניס, ולפתור את רוב הבעיות והקשייס בהקמת מחסן הנתונים הארגוני. נסקור
בקצרה את הסיבות העיקריות מדוע תפיסת מרכול הנתוניס הפכה לנפוצה.
.*
+*
מבנה מותאם לדרישות מקומיות - מאחר ומרכול הנתוניס שייך למחלקה מסוימת
וממוקד בנושא עסקי מסוים, יכולה המחלקה לבצע התאמות ושינויים מיוחדים,
בעת הכנסת הנתוניס למרכול הנתוניס. מכיון שתיחוס מרכול הנתוניס הוא בגבולות
המחלקה, ניתן להשתמש בו במונחים ייחודיים, ובהתאסם לדרישות הייחודיות, ללא
צורך בפתרון קונפליקטים בין מחלקתיים, הדורשיס פתרון בעת הקמת מחסן
הנתונים הארגוני.
עומק היסטורי קטן - העומק ההיסטורי המנוהל במרכול תלוי רק בצרכי המחלקה.
לכן, סביר להניח שהוא יהיה קטן יותר מדרישות ניהול העומק ההיסטורי במחסן
נתוניס ארגוני. מחסן נתוניס ארגוני נדרש לספק ניתוחים ארגוניים מורכבים יותר.
תחרות קטנה יותר על משאבים - בדרך כלל, מופעל מרכול הנתונים על החומרה של
המחלקה. בשל כך, לא קיימת תחרות על משאבי המערכת מול מחלקות אחרות.
במקריס מסוימים, מכיון שהבעלות על מרכול הנתוניס ברורה, המחלקה יכולה
לתקצב את הקמתו, ללא צורך בתחרות על משאבים כלל ארגוניים. כמו כן, קל יותר
להצדיק את עלות הקמתו, ולהוכיח את התועלות שיספק.
שימוש בכלי ניתוח מותאמים *ותר - מכיון שהמחלקה היא בעלת המרכול, היא
יכולה גס לקבוע באיזה כלי ניתוח מידע ברצונה להשתמש, בהתאס לדרישות
משתמשיה. הכלים אינס חייבים להיות כלים שיענו על צרכים נרחבים, כמו הכליס
הכלל ארגונייס.
בעיות אבטחת מידע מוגבלות *ותר - מכיון שהמידע במרכול הנתוניס ממוקד ועומד
לרשותה של מחלקה מסוימת, גס בעיית אבטחת המידע היא בעיה מצומצמת יותר.
בעיה זו ניתנת לפתרון באמצעות כליס פשוטים יותר מאשר בעיית אבטחת המידע
של מחסן נתונים ארגוני, המשרת מספר רב של מחלקות ומשתמשים ולכל אחד מהס
הרשאה לראות רק חלק מהמידע.
עלות נמוכה יותר - עלות הקמת מרכול נתונים קטנה באופן משמעותי מעלות הקמת
מחסן נתונים ארגוני. החומרה מצומצמת יותר, היקפי הנתונים קטנים, מספר
המשתמשיס קטן יותר, מורכבות גזירת הנתונים קטנה יותר וכדומה. לכן, עלות
הקמת מרכול הנתוניס כולה נמוכה יותר. מקובל להניח שעלות ממוצעת להקמת
מרכול נתוניס עשויה לנוע בין מספר עשרות אלפיס ועד מספר מאות אלפי דולרים,
לעומת מספר מיליוני דולרים, עלות הקמתו של מחסן נתוניס ארגוני.
פרק 11: מרכולי נתוניס 271
+ הקמה מהירה - מכיון שמרכול הנתונים ממוקד בנושא עסקי מסוים, קל יותר לעצב
את מודל הנתונים, להגדיר את תהליכי גזירת הנתוניסם, מספר מקורות הנתוניס
מצומצס יותר. בסופו של דבר, משך הקמת מרכול נתוניס קצר יותר ומסתכס בדרך
כלל במספר חודשים, לעומת שנה ומעלה שדרושיס להקמת מחסן נתונים ארגוני.
הסיכונים והבעיות בתפיסת מרכול הנתונים
הבעיה בתפיסת מרכול הנתוניס היא שארגונים, לא מעט בעידודס של יצרני כלים שונים,
החלו לראות במרכול הנתוניס תפיסה שבאה להחליף את תפיסת מחסן הנתוניס הארגוני.
הס האמינו, בתמימות, שתפיסת מרכול הנתוניס פותרת את רוב הבעיות, האתגריס
והקשייס בהקמת מחסן הנתונים. מה שהתברר לרוב הארגונים הוא שתהליך ההקמה של
מרכול הנתונים חייב להיות מבוסס על ארכיטקטורה רחבה יותר לאספקת מידע לקבלת
החלטות בארגון. מי שלא נהג בדרך זו, מצא את עצמו עס אוסף של איי מידע מבודדים,
המכילים נתוניס כפוליס וסותרים. אלה שלא התייחסו לארכיטקטורה כוללת, השקיעו
משאבים רבים בבניית תהליכי גזירה והמרה כפולים של נתוניסם מהמערכות התפעוליות.
בסופו של דבר, ארגוניס שנהגו ביידרך לא דרך'' החטיאו את אחת המטרות העיקריות
שבתפיסת מחסן הנתונים: בניית סביבת מחשוב תומכת החלטות, אשר יכולה להציג
תמונת מידע אינטגרטיבית ואמינה של הארגון. אלה סכנות שארגון חייב להבין היטב,
לפני שהוא מקבל את ההחלטה לאפשר לכל מחלקה להקים מרכול נתוניס משל עצמה.
כעת נדגיש את הבעיות והסיכוניס העיקרייס הקשוריס במימוש תפיסת מרכול הנתוניס
כתפיסה חלופית לתפיסת מחסן הנתוניס הארגוני.
+ חוסר עקביות בנתונים - מכיון שסביר להניח שבמשך הזמן יפותחו ויתופעלו מספר
מרכולי נתונים, סביר גס להניח שחלק מהנתונים ינוהלו במספר בסיסי נתוניס
שונים. לדוגמה, נתוני הלקוח במרכול השיווקי וכן במרכול העוסק בדיווחי תקלות
מהשדה ומיועד לטפל בניתוחי איכות השירות. כמו בכל מצב בו יש כפילות נתונים,
קייס סיכוי לחוסר עקביות בין הנתוניס ולפעמיס אף לסתירות. יש להשקיע תשומת
לב רבה ומאמציס להקטין ככל שניתן סתירות אלו. במובן מסוים, מסוכן לחזור
למצב בו לכל מחלקה יש תמונת מידע שונה ובישיבות בין מחלקתיות מתחיליס
בוויכוחים על נכונות הנתונים, ולא על אופן פתרון הבעיה.
+ כפילות בתהליבי הגזירה - בשל הצורך לגזור נתוניס עבור מספר מרכולי נתוניס,
נוצר מצב שאותו קוב תפעולי עובר מספר רב של תהליכי גוירה. מעבר לחוסר
היעילות ולבובוז משאבי המחשב שגורמיס תהליכי גזּירה כפולים אלה, יש בכך גס
סכנה להכנסת סתירות בשל תנאי גזירה שוניס וזמני גזירה שוניס.
+ מורכבות בהפצת הנתונים - שכבת אחסון בינייס והפצה מקבלת בסביבה זו משנה
חשיבות, בשל הצורך להפיצ את הנתונים למספר מרכולי נתונים שונים שיכוליס
להימצא גם באתרים גיאוגרפיים שוניס. תהליכי ההפצה עצמסם :כולים להיות
מורכבים, ולעיתיס מבוססים על כלים ייעודייס להפצת נתוניס להרבה אתריס
ובסיסי נתונים שונים.
2 מחסני נתונים
> טכנולוגיות שונות - מכיון שמרכולי הנתוניס מפותחיס בזמניס שוניס, ולפעמיס על
ידי בוותיס שונים, נוצרת הסכנה שכל מרכול ישתמש בטכנולוגיה שונה, יגדיר את
משמעות הנתונים באופן שונה, ובסופו של דבר יתקבל יימגדל בבליי. מסיבה זו יש
חשיבות לכך שארגון הבוחר לממש ארכיטקטורת מרכולי נתוניס יגבש את התפיסה
הכוללת, ויפקח על הסטנדרטיםס והטכנולוגיות. אסור לארגון לתת יד ליצירת
אנדרלמוסיה במערכות תומכות ההחלטה שלו.
מכל האמור לעיל, נובע שהדרך הנכונה להתייחס למרכול הנתוניס היא כאל הרחבה של
תפיסת מחסן הנתוניס לדרג המחלקתי. זו אינה תפיסה שבאה להחליף את מחסן הנתוניס
הארגוני. הבנה זו יכולה לחסוך הרבה כסף, משאבים ומאמצים.
ארכיטקטורת מרכול הנתונים
בעיקרון, ארכיטקטורת מרכול הנתוניס דומה לארכיטקטורת מחסן הנתוניס הארגוני,
בהבדל מהותי אחד - בעוד שמחסן נתוניס ארגוני יש רק אחד, מרכולי נתוניס יכוליס
להיות רבים. אחת ההחלטות הבסיסיות ביותר שעל הארגון לקבל היא האס ברצונו
להתבסס על ארכיטקטורה דו-שכבתית, בה מרכולי הנתונים מוזניס ישירות מהמערכות
התפעוליות, או האס ברצונו להתבסס על ארכיטקטורה תלת-שכבתית, בה מרכול
הנתוניס מוזן ממחסן הנתוניס הארגוני.
מרכול נתונים בארכיטקטורה דו-שכבתית
(66%076+וח6ז +זובּו בּצה3ּכ וסוד סעשד)
התרשיסם הבא מציג את הארכיטקטורה הכללית של מרכול נתונים, המבוסס על
ארכיטקטורה דו-שכבתית.
שכבת מילון נתונים ₪5 0 ₪
3 68 - -₪
ו
5
גזירה
ניקוי
קודים
התאמות
5
טוטוא
[החסו5חסוחום
5
5 915008[
5
פחוחוו בו
שכבת
הצגת
המידע
שכבת ניהול ותפעול תהליכים 06
)!| 6655סז
תרשים 11.1: מרכול נתונים בעל ארכיטקטורה דו-שכבתית.
פרק 11: מרכולי נתונים 273
כפי שניתן לראות מהתרשים, כל השכבות שקיימות במחסן הארגוני, קיימות גס כאן.
מכיון שגם בארכיטקטורה זו קיימת אבחנה בין שכבת הנתוניס התפעוליים לבין שכבת
הנתוניס המיועדיס לתמיכה בקבלת התחלטות, ארכיטקטורת מרכול הנתוניס היא
ארכיטקטורה דו-שכבתית, מבחינת הנתונים.
תרשים 11.2: שכבות בארכיטקטורה של מרכולי הנתונים.
הארגון יכול להחליט על הקמת מרכול נתוניס בארכיטקטורה דו-שכבתית בשני אופניס
שוניס:
> מרכול נתונים מבודד (+זבּ!/! 0313 18013+60) - והו מרכול נתוניס המבוסס על מודל
נתוניסם המשמש את המחלקה בלבד. מודל נתוניסם וה נבנה מתוך ראייה מקומית
בלבד.
> מרכול נתונים אינטגרטיבי (1זג3ּ!)] 03%8 6079160+ח1) - והו מרכול נתוניס המבוסס
על מודל נתונים ארגוני. כלומר, מודל הנתוניס נבנה מתוך ראייה גלובלית של כלל
הנתוניס שינוהלו במספר מרכולי נתונים מחלקתיים. הנתונים נגזריס מהמערכות
התפעוליות ישירות לכל אחד ממרכולי הנתוניס המחלקתיים.
נקדיס ונאמר שתפיסת מרכול הנתוניס המבודד מסוכנת מאוד, ולכן אינה מומלצת.
למרות שארכיטקטורת מרכול הנתונים האינטגרטיבי נראית, על פניה, כארכיטקטורה
מתאימה, חשוב להבין שהיא קשה מאוד למימוש. הפיתוי להשתחרר מהארכיטקטורה
הארגונית גבוה.
מרכול נתונים בארכיטקטורה תלת-שכבתית
(6ז66%0+וח6ו +זבּ! בּ+ָב03] זסוד 66זחד)
מרכול נתוניס ה מבוסס על מחסן הנתוניס הארגוני, ולכן מוזן בנתוניס ממנו, ולא באופן
ישיר מהמערכות התפעוליות. ארכיטקטורה זו היא תלת-שכבתית, מפני שקיימות שכבת
המערכות התפעוליות, שכבת מחסן הנתוניס הארגוני ושכבת מרכולי הנתוניס
המחלקתיים. לעיתיס מקובל לקרוא לסוג זה של מרכול נתוניס מרכול נתונים תלוי
(זז3! ₪3%3 +ח6766כ6כ). מרכול הנתוניס התלוי מהווה נגזּרת של מחסן הנתוניס
הארגוני מפני שנתוניו נגזריס ממחסן נתונים ארגוני. מאחר והנתונים נגזריס ממחסן
נתוניס ארגוני, הס מבוססים על מודל נתונים גלובלי. ארכיטקטורה זו מפורטת בהמשך.
4 מחסני נתונים
נתוניס
חיצוניים
מקולות
ל 6 490 4 46 |שש
גזירה
ניקוי
קודים
[חסו5חחחום
5
9150168
הנתונים מדכולי 5%
ביניים הארגוני הנתונים
, יכו הצגת
ה שכבת ניהול ותפעול תהליכים 0 ;
]חח 30ח3/] 6655סז המידע
תרשים 11.3:
מרכול נתונים בעל ארכיטקטורה תלת-שכבתית.
כפי שניתן לראות מהתרשים, כל השכבות הקיימות במחסן הארגוני ובמרכול הנתונים,
קיימות גם כאן. מכיון שבארכיטקטורה זו קיימת אבחנה בין שכבת הנתונים התפעולייס
לבין שכבת מחסן הנתוניס הארגוני, וביו שכבת הנתוניס המיועדיס לתמיכה בקבלת
החלטות, מקובל לכנות ארכיטקטורה וו ארכיטקטורה תלת- שכבתית מבחינת הנתונים.
תרשים 11.4:
ארכיטקטורה
שכבת
המעדכות
התפעוליו
שכבת
מחסן הנתונים
האדגוני
שכבת
מדכולי הנתונים
מחלקתיים
שכבות בארכיטקטורה תלת-שכבתית.
זגו מומלצת ונפוצה. היא משתמשת בתפיסת מחסן הנתוניס הארגוני,
המבוסס על מודל נתונים אחיד והיא יעילה בתהליכי הגזירה מהמערכות התפעוליות.
ארכיטקטורה זו מאפשרת הקמת מרכולי נתונים ייעודיים, הבאיס לפתור בעיות ביצועים,
צרכים של כלי ניתוח ייעודיים וכדומה.
פרק 11: מרכולי נתונים | 275
סוג בסיס הנתונים של מרכול הנתונים
בעוד שבמרכזו של מחסן הנתוניס הארגוני ברור שעומד בסיס נתוניס טבלאי, המסוגל
לנהל היקפי נתוניס גדוליס באופן אמין ובביצועיס טובים, הרי שבכל הקשור לבסיס
הנתוניס של מרכול הנתוניס קיימות מספר חלופות - בסיס נתוניס טבלאי, בסיס נתוניס
רב מימדי, שילוב כלשהו של שניהס או מבנה נתונים ייעודי. נסקור בקצרה כל אחת
מחלופות אלו.
.%
*%
בסיס נתונים טבלאי: גם מרכול נתוניסם יכול להיות מוקס על מערכת ₪815
מסחרית רגילת. המערכות המסחריות הנפוצות ביותר להקמת מרכולי נתונים הן
למשל, מתוצרת 0280!6), אווחזסזח!, 50856 ו-5/2כ ו- ז9צ 58 501. האחרון,
שבדרך כלל אינו משמש כבסיס נתוניס של מחסן הנתוניס הארגוני, נחשב לאחד
מבסיסי הנתוניס הנפוצים ביותר בסביבת מרכול הנתונים. בסיס הנתוניסם היחסי
בסביבת מרכול הנתוניס יכול להכיל גס מידע פרטני וגם מידע סיכומי, והוא משרת
כלי שאילתות וניתוח מידע רגילים. עיצוב בסיס נתוניס זה מבוסס גם הוא על
תפיסות העיצוב המיוחדות לסביבות מחסני הנתוניס - סכמות כוכב, סכמות פתיתי
שלג וכדומה.
בסיס נתונים רב-מימדי: חלק מכלי הניתוח הרב-מימדייס מבוססיס על בסיס
נתוניס ייעודי רב-מימדי (0₪), קיצור של 8190856 |החסופחסחחום. טוטוש
הח6ז0/5 זחסִַסהְהּחה!/). בסיס נתוניס וה הוא בסיס נתוניס נפרד, הנטען בנתוניס
הנגזריס ממחסן הנתונים, או ישירות ממערכות תפעוליות (הדבר אינו מומלצ).
היתרון בבסיסי נתוניס אלה הוא זמני התגובה המעוליס שלהם. אלה נובעים, בין
היתר, מביצוע חישוביס שוניס והכנת סיכומיס מראש תוך כדי הטעינה. חלק מכלים
אלה מאפשריס גישה שקופה לנתונים הפרטניים, המאוחסניס בבסיס הנתוניס
היחסי במחסן הנתוניס.
מבנה נתונים *יעודי: חלק מכלי כריית הנתוניס וּקוקים למבנה נתונים ייעודי. חלק
מתהליך כריית הנתונים כרוך בגזירת הנתוניס ממחסן הנתונים, או ממערכות
אחרות, וביצוע הכנות מיוחדות של הנתונים. לדוגמה, קידוד הנתונים בצורה
מיוחדת, הכנסת טווחים וכדומה. חלק מכלים אלה וקוק למבנה נתונים מיוחד
לצורך הפעלה יעילה של האלגוריתמים לניתוח וכריית הנתוניס.
6 מחסני נתונים
שיקולים למימוש מרכול הנתונים
בארכיטקטורה תלת-שכבתית
כפי שכבר נאמר בפרק זה, הדרך הנכונה להתייחס למרכול הנתוניסם היא כאל הרחבה
טבעית של מחסן הנתוניס לדרג המחלקתי. בהקשר וּה, לתפיסת מרכול הנתוניס יש
חשיבות ומקוס ברור במסגרת התפיסה הכוללת של מחסן הנתונים הארגוני.
ארכיטקטורת מחסן נתוניסם ארגוני רב-שכבתי היא ארכיטקטורה נכונה ומתאימה. לכן,
קיימים מצבים ברוריסם בהס מומל מאוד להשתמש בה. נסקור את הסיבות העיקריות
לבחירה בתפיסת מרכול הנתוניס, כחלק מהארכיטקטורה הכוללת של מחסן הנתוניס
הארגוני:
.*
*+*
שיפור ביצועים: לעיתים, צריך להריצ שאילתות ממוקדות מספר רב של פעמים,
וזמני התגובה של שאילתות אלה הוא קריטי לתהליך קבלת ההחלטות. מכיון שהיקף
הנתוניס במחסן הנתוניס הארגוני הוא גדול ואמור לשרת מספר רב של משתמשיס
שונים, אחת הדרכיס להשיג ביצועים מעולים היא לגזור את הנתוניס מתוכו,
להעבירס לשרת ייעודי ולבצע את ניתוח המידע במרכול הנתוניס הייעודי.
התאמת מבנה הנתונים לכלי ניתוח מידע: מכיון שאין בנמצא כלי ניתוח מידע אחד
המסוגל לבצע את כל סוגי ניתוח המידע, ולשמש את כל סוגי המשתמשים, תפיסת
מחסן הנתוניס הארגוני מעודדת ומכירה בצורך במספר רב של כלי ניתוח מידע, כל
אחד מותאם לצרכים מיוחדים. לעיתים, כלי ניתוח אלה מבוססים על בסיסי נתוניס
ייעודיים (כמו, למשל, כלי ניתוח רב-מימדייס המבוססים על בסיס נתוניס רב-מימדי
או כלים מסוימים לכריית נתוניס המבוססים על מבנה ייעודי).
אבטחת מידע: לעיתים צריך לשקול את נושא אבטחת המידע במחסן הנתוניס
הארגוני. אחת הדרכים האפשריות היא גזירת נתוניס ממחסן הנתוניס הארגוני
לשרת נפרד ובסיס נתוניס נפרד, ולאפשר לחלק מהמשתמשים גישה לשרת זה בלבד.
פיצול טבעי של הנתונים: קיימים מצביס בהס נתוניס מסוימיס אכן משמשיס אך
ורק מחלקה מסוימת, ואין בהס עניין למחלקות אחרות. במצבים כגון אלה אין הגיון
להתעקש על הכנסת נתוניס אלה למחסן הנתוניסם הארגוני. עדיף לנהל אותס
במסגרת מרכול נתונים. לדוגמה, מחלקות שונות אחראיות על קווי מוצר שונים.
ניתן להקים לכל מחלקה מרכול המנהל את הנתוניס הרלוונטייס לקו המוצריס
שלה, תוך גזירת הנתונים ממחסן הנתוניס הארגוני.
פיילוט ושלב ביניים בתהליך הקמת מחסן הנתונים הארגוני: לעיתים, יש לארגון
ספקות לגבי תפיסת מחסן הנתוניס הארגוני, והוא מעוניין לבצע בחינה ממוקדת של
התפיסה. לכן, הוא משתמש בתפיסת מרכול הנתונים כפיילוט לתפיסת מחסן
הנתוניס, וכשלב בינייס לפני קבלת החלטה להיכנס לפרויקט שאפתני יותר להקמת
מחסן נתונים ארגוני.
פרק 11: מרכולי נתונים | 277
מומלצ בחוס להקים מרכול נתוניס אך ורק בשל אחד משיקוליס אלה. לא בשל שיקוליס
אחרים, כגון מהירות ההקמה, עלות נמוכה, לחציס המופעלים על ידי מחלקה מסוימת
וכדומה. בסופו של דבר, התבססות על תפיסת מרכול הנתוניס משיקוליס אחריס תביא
לעלויות פיתוח ותחזוקה גבוהות, חוסר עקביות בנתוניס המנוהלים במרכוליסם שונים,
השקעה גבוהה בתהליכי גזירה מיותריס והתפתחות של איי מידע מבודדים.
מודלים לפיתוח והקמת מרכולי נתונים
במשך השניס התפתחו שלושה מודליס שוניס לפיתוח ובניית מרכולי נתוניס:
> מודל פיתוח מעלה-מטה - גישה זו מבוססת על ההבנה שמרכול הנתוניס הוא
הרחבה טבעית של מחסן הנתוניס הארגוני, וככזה הוא מוזן בנתוניס הנגזריס
ממחסן הנתוניס הארגוני.
+ מודל פיתוח מטה-מעלה - גישה זו מתחילה בפיתוח מרכולי הנתוניס בתקווה
שבסופו של דבר הס ישמשו כבסיס למחסן הנתונים הארגוני.
+ מודל פיתוח מקבילי - בגישה וו מפותחים מרכולי הנתוניס במקביל לפיתוח המחסן
הארגוני. פיתוח מרכולי הנתוניס בגישה זו אינו מתעכב עד השלמת הקמתו של מחסן
הנתוניס הארגוני, אלא מתפתח במקביל לו, תוך התבססות והתחשבות בעקרונות
ובארכיטקטורה שמכתיב מחסן הנתונים.
נפרט בקצרה כל אחת מגישות אלו.
פיתוח מרכול נתונים במודל מעלה-מטה
(|06ס1 הצצספ ססד)
זהו מודל הפיתוח האלגנטי ביותר. בשלב ראשון מוקס מחסן הנתונים הארגוני, ובשלב
שני מוקמים מרכולי הנתוניס הרלוונטייס ועל פי צרכי המחלקות השונות. מרכול
הנתוניס מוזן בנתוניס שמקורס במחסן הנתוניס. אי לכך, אלה נתוניס שעברו תהליכי
טיוב, ניקוי והמרה, ולכן הס עקבייס ומותאמיס לתהליכי קבלת החלטות.
במודל פיתוח זה, מחסן הנתוניס מהווה את נקודת האינטגרציה של הנתונים מכל
מקורותיהם. בעיקרון, כל הנתוניס הדרושיס לתמיכה בתהליכי קבלת ההחלטות נמצאיס
ומאוחסניס במחסן הנתונים. עס סיוס הקמתו מפותחים מרכולי נתונים, שמטרתס שיפור
ביצועים, הבאת הנתוניס קרוב יותר למחלקה המשתמשת בהם או התאמת הנתונים לכלי
הניתוח השוניס. רימת הנתוניס בין מחסן הנתונים למרכול הנתוניס היא חד כיוונית
בלבד, ומרכולי הנתונים מכילים רק נתוניס הנגזריס ממחסן הנתונים. אם, תוך כדי
תהליך הקמת מרכול נתונים, מתברר שנתוניס הדרושים למחלקה מסוימת חסרים, מודל
הנתוניס של מחסן הנתוניס מורחב, הנתונים החסרים מועבריס אליו וממנו אל מרכול
הנתוניס.
8 מחסני נתונים
נתונים
נתונים
חיצוניים
הנתוניסם מדכולי
האלגוני הנתוניסם
תרשים 11.5: מודל פיתוח מעלה-מטה בהקמת מרכול נתונים.
מודל וה מניח שלארגון יש את המשאבים והזמן להקיס תחילה את מחסן הנתונים
הארגוני, ורק לאחר מכן להתחיל בטעינת מרכולי הנתונים. הבעיה היא, שהנחה זו אינה
תמיד תואמת למציאות, והלחצים למתן פתרונות מהירים לבעיות מקומיות, הם גדולים.
במקרים כגון אלה, הזמן הנדרש להקמת המחסן הנתונים הארגוני אינו קביל.
פיתוח מרכול נתונים במודל מטה-מעלה
(|006! כ וחס+₪0%)
מודל פיתוח והקמה זה יוצא מנקודת הנחה כי ראשית מתבצעת הקמת מרכולי נתונים,
ורק בשלב מאוחר יותר הקמת מחסן הנתונים הארגוני. לכן, נוצר מצב בו מחסן הנתוניס
מוזן, למעשה, בנתונים ממרכולי הנתונים. מרכולי הנתונים מוזניס ישירות בנתוניס
הנגזריס מהמערכות התפעוליות ובאמצעות תהליכי גזירה, מיטוב וניקוי.
כפי שניתן לראות, מודל הקמה זה יוצא מנקודת הנחה כי תחילה הוקמו מרכולי נתונים,
כלומר איי מידע המיועד לתמיכה בקבלת החלטות. מרכוליס אלה מבודדים, ומוקמיס על
ידי מחלקות שונות, על פי צרכיהן. כל אחד מהמרכוליס דורש תהליכי גזירה מיוחדים
ותהליכי טיוב, ניקוי והמרה ייעודיים. לכן, נוצרת כפילות במאמציס המושקעים. במובן
מסויס, ניתן לומר שבתפיסה זו מקיס הארגון מערכות /ץ6886 1 חדשות, שבשלב כלשהו
מאוחר יותר ייאלצ להתמודד עס שילובן והחלפתן. רק בשלב מאוחר יותר מתחיל הארגון
בתהליך שילוב מרכולי הנתונים למחסן הנתוניס הארגוני. תהליך השילוב אינו פשוט. הוא
דורש ניתוח מדויק של תכולת הנתוניס בכל מרכול, פתרון הסתירות בין ההגדרות, איחוד
שיטות ייצוג שונות, סילוק כפילויות וכדומה.
פרק 11: מרכולי נתונים | 279
שאלה חשובה במודל הקמה וה היא מה קורה לאחר שמחסן הנתוניס מוקס. האס הוא
יחליף את המרכולים! האם יזין אותס, או האס הוא ימשיך להיות מוזן מהס! בכל
מקרה, חשוב שארגון יבין שתהליך בניית מחסן נתונים ממרכולי נתונים אינו פשוט כלל
וכלל, וידרוש מאמצ ניכר. יתר על כן, הוא אף ידרוש שינוי בהרגלי העבודה שהתבססו כבר
במחלקות השונות.
נתונים
תפעוליים
גזּירת
₪6 ושילוב
חיצוניים
הנתונים
שכבת
שכבת מחסן
מדכולי הנתונים
הנתונים האלגוני
תרשים 11.6: מודל פיתוח מטה-מעלה בהקמת מרכול נתונים.
פיתוח מרכול נתונים במודל מקבילי
(|06ס₪ וסווְבּזבּק)
מודל ההקמה הנפו ביותר הוא מודל ההקמה המקבילי. מודל וה פותר, לפחות ברמה
העקרונית, את הבעיות האינהרנטיות של כל אחד מהמודלים הקודמים. מצד אחד,
מבוסס מודל זה על ההכרה שמרכול הנתוניס חייב להיות מבוסס על מחסן הנתונים, על
ארכיטקטורה אחידה ועל מודל נתונים מוסכס ואחיד. מצד שני, מודל זה יוצא מנקודת
הנחה שהלחצים למתן פתרונות מהירים גדולים, ולכן חייבים לאפשר פתרונות מקומיים,
בד בבד עס הקמת המחסן הארגוני.
תפיסה זו מניחה שמרכולי הנתונים ייבנו בהתבסס על מודל נתוניס ארגוני, תוך פתרון
סתירות, הגדרות מוסכמות ואחידות. כל כפילויות הנתוניס ייטענו באופן מבוקר ויסולקו
תוך כדי התקדמות בניית מחסן הנתונים. למחלקות ניתנת מידה מסוימת של עצמאות
בהקמת מרכול הנתונים, ובקביעת הנושאים שינוהלו במסגרתו. עצמאות זו מלווה בבקרה
מרכזית. לכן, שילובם בסופו של התהליך כחלק ממחסן הנתונים, יהיה קל יחסית. המודל
מניח שתהליך הקמת המחסן הארגוני ייהנה מהלקחים שיילמדו בעת תהליך הקמת
מרכולי הנתונים. עס סיוס הקמת המחסן הארגוני, הוא יהפוך למקור הנתונים של מרכולי
הנתוניס. בשלב זה תיפסק הזנת מרכולי הנתונים בנתוניס הנגזריסם ישירות מהמערכות
התפעוליות וממקורות אחרים.
0 מחסנל נתונים
נתונים
תרשים 11.7: מודל פיתוח מקבילי בהקמת מרכול נתונים.
למרות שמודל גה מציאותי יותר, ולוקח בחשבון את מערכת הקשרים העתידית בין מחסן
הנתוניס ומרכולי הנתונים, המציאות לפעמים טופחת על פני המודל. המחלקות מפעילות
לחציס לאספקה מהירה של פתרונות, ולא תמיד מוכנות להבין את חשיבות התכנון
המסודר וההתבססות על ארכיטקטורה אחידה. מבחינתן, תהליך זה אורך זמן והן אינן
מוכנות לקבל זאת. למרות קשייס אלה, ארגון שיהיה מוכן להשקיע את האנרגיה במימוש
מודל הקמה זה, ירוויח בסופו של דבר ויהנה ממחסן נתונים ארגוני הפועל במשולב עס
מרכולי נתוניס מחלקתיים, המפותת בו זמנית במידה רבה של תאוס ושל עצמאות.
סיכום
מרכול הנתונים מהווה הרחבה טבעית של תפיסת מחסן הנתוניס הארגוני אל רמת
המחלקה. מחסן הנתוניס הארגוני מנהל את הנתוניס ברמה הפרטנית. לעומתו, מרכול
הנתוניס יכול לנהל את הנתוניס ברמות סיכומיות, בהתאס לדרישות המחלקה, או במבני
נתוניס ייחודייס הנדרשים עבור כלי הניתוח השוניס.
הפיתוי במימוש תפיסת מרכול הנתונים המבודד ברור. קיצור לוחות זמנים, מחסני
נתוניס קטניס יותר (ולכן קליס יותר לעיצוב), בנייה ותפעול, יכולת המחלקות השונות
לקבוע לעצמן את סדרי העדיפויות והמשאבים (מבלי להיות תלוייס בשקולים ומשאביס
של מחלקות אחרות). חלק מהסיבות שארגונים מיהרו לאמץ תפיסה זו הן שמספר גדול
של ספקים וחברות ייעוצ מציעות לארגוניס חבילות שלמות הכוללות ייעוץ, תוכנה,
חומרה והדרכה, במחירים זולים יחסית ותוך הבטחה להקים מרכול נתוניס בפרקי זמן
קצרים ביותר (מספר חודשים מצומצס). לדוגמה, באחד הירחונים הופיע מודעת ענק : אנו
נקים עבורך מרכול נתונים תוך חודש. איך בכלל ניתן לעמוד בפיתוי זה למימוש רעיון טוב
תוך פרק זמן קצר ובעלויות סבירות! ארגונים מסוימים, בשל גודלס, מבוזריס מאוד
פרק 11: מרכולי נתוניס 281
ומשרתיס לקוחות ומוצריס שוניס. בארוגניס כאלה ייתכן שאין דרך אחרת, וכל ניסיון
להקיס מחסן נתוניס ארגוני נועד מראש לכישלון. לכן, הדרך הישימה היחידה היא בתחירה
בארכיטקטורת מרכול הנתונים.
העלות הנמוכה וקלות התפעול של שרתים מרובי מעבדיס, המסוגליס לנהל בסיסי נתוניס
של מספר עשרות ג'יגה בתים, הביאה לכך שפופולריות מרכולי הנתונים המבודדיס
הרקיעה שחקים. אין צורך להתמודד עס בעיות תקציביות קשות, ולכן קל לשכנע את
ההנהלה לאמצ ארכיטקטורה צו.
הסכנה הגדולה ביותר בתפיסת מרכול הנתוניס טמונה דווקא בהצלחתם. מחלקה
שהצליחה ביישוס מרכול נתוניס מחלקתי אחד, מעודדת את המחלקה הבאה וכך הלאה.
נוצר מצב של יישיטפוןיי במרכולי נתוניס מחלקתיים. ארגון שאינו מוכן להשקיע בתכנון
מראש של ארכיטקטורה זו ולנתח ולהבין את מלוא המשמעויות שלה, מסתכן בבניית
סביבה לאספקת מידע ניהולי, שאולי תפתור בעיות מסוימות, אבל יחד עס ואת גס תביא
איתה גל חדש של בעיות וכאב ראש לא קטן. הבעיות תורגשנה בפיתוח ותחזוקת תהליכי
גזירה מהמערכות התפעוליות, בתחזוקת מספר רב של בסיסי נתוניס (לעיתים אפילו של
יצרניס שוניס) המבוססיס על מודלים סותרים, ומכיליס רמה גבוהה של כפילות נתוניס.
תפיסת מרכול הנתוניס מחדדת עוד יותר את הרעיון |(9חח5 5987 - פָום אהוחד, חשוב
בגדול אך התחל בקטן, ולפעמים גס במקביל. משמעות הדבר היא שיש להשקיע מאמצ
בתחילת הדרך, להגדרת הסטנדרטיס והארכיטקטורה (כלומר, הגדרת התמונה הכוללת,
עקרונות וכליס לגזירת הנתוניס, דרך יצירת תיאוס מסוים בין מרכולי הנתוניס השוניס,
ושיטות הבקרה). לאחר מכן, ניתן להתחיל במימוש מרכולי נתוניס אינטגרטיביים, כל
אחד בקצב שלו, עס המשאביס שלו ועס העדיפויות שלו, אבל כולס תחת המטריה הכוללת
של מספר נושאים משותפים.
2 מחסני נתונים
פרק 12: מתודולוגיה
ליישום מחסן נתונים
מבוא
פרק וה עוסק באחד הנושאים המרכזיים בתפיסת מחסן הנתונים: כיצד מפתחים
ומיישמים מחסן נתוניס, ובמיליס אחרות: מהי המתודולוגיה ליישום. מערכות מחסני
נתוניס שונות ממערכות מידע תפעוליות לא רק במטרות, בקהל המשתמשים ובמבנה
הפנימי שלהן, אלא גס בצורת הקמתן. תהיה זו טעות להניח שקיים דמיון רב בין פיתוח
ויישוס מערכת מידע תפעולית חדשה לבין פיתוח ויישוס מחסן נתוניס. המציאות היא
שקיים שוני מהותי בין מחזור החיים ומתודולוגיית היישום של שני סוגי מערכות אלו.
פרק זה יציג את מחזור החיים של מערכת מחסן נתוניס ואת המתודולוגיה ליישומה.
כמו בכל מתודולוגיה, גס המתודולוגיה ליישוס מחסני נתוניס מחלקת את מחזור התייס
של המערכת למספר שלבים מוגדרים, ומציעה אוסף מובנה של פעולות וצעדים שיש לבצע
מתחילת הפרויקט ועד ליישום המלא. שימוש בייספר בישוליי כזה, המבוסס על ניסיון
מצטבר במספר רב של יישומים בארגוניס שונים, מקטין את הסיכוי לכישלון הפרויקט
ומבטיח רמת איכות גבוהה של התוצריס השוניס שיופקו במשך תהליך היישוס.
פרויקט ההקמה של מערכות מחסני נתוניס ארגוניים יכול להימשך בין שנה לשנתיים, על
פי היקפו. אהו פרויקט מורכב בעל מספר אפיוניס חשובים:
+ שילוב מספר רב של משאבים שונים: פרויקט מחסן נתוניס כולל מספר רב של
משאבים שונים וביניהם משתמשים שונים, מנתחי מערכות, מפתחי יישומי מחסן
נתונים, מנהלי בסיסי נתונים, מפתחי תהליכי גזירה וניקוי, יועציס חיצוניים,
ספקים שוניס וכדומה.
+ שילוב מספר ורב של טכולוגיות מחשוב: פרויקט מחסן נתוניס מבוסס על
טכנולוגיות מחשוב מודרניות שונות. טכנולוגיות אלו כוללות, בין השאר: שרתיס
רבי עוצמה עס נפחי אחסון גדוליסם מאוד, מערכות ₪08]/5 המשתמשות בטכניקות
עבודה מקבילית בסביבה מרובת המעבדים, כלי אחזור רביס ומתוחכמים, כלי
תוכנה לגזירת והעברת נתוניסם בין פלטפורמות מחשוב שונות, רשתות תקשורת
מחשבים מהירות, אינטראנט להפצת השאילתות בין המשתמשים השונים וכדומה.
פרק 12 : מתודולוגיה ליישוס מחסן נתוניס 283
+ משך זמן יישום ארוך יחסית: פרויקט מחסן נתוניסם ארגוני הינו תהליך ארוך,
שעשוי להימשך בין שנה לשנתיים.
+ עלות גבוהה: השילוב של מספר רב של משאבים, של טכנולוגיות מחשוב ומשך זמן
יישוס ארוך יחסית גורס לכך שפרויקט הקמת מחסן נתונים הינו פרויקט יקר
יחסית.
מכל האמור לעיל ניתן ללמוד שארגון המחליט ליישס מערכת מחסן נתוניס חייב להתבסס
על מתודולוגיה כלשהי שתבטיח את ביצוע הפרויקט והצלחתו. במשך השנים התפתחו
מספר מתודולוגיות יישוס שונות, שלכל אחת מהן דגשים שונים אך עס זאת, יש דמיון רב
ביניהן.
המתודולוגיה המוצגת בפרק זה מבוססת בחלקה על המתודולוגיה 28%8 ע!|66!-ח48006]
0 6פטסח6ז8) שפותחה על ידי שני יועצים מוביליס בתחוס, ושהיתה לי
ההודמנות ללמוד אותה מפיו של אחד מהסם, ח18006 |8=, באחד הסמינריס שהעביר
בשנת 1996 בלונדון.
עקרונות המתודולוגיה
מחזור החייס לבניית מחסן נתוניס מבוסס על שני עקרונות יסוד: בנייה הדרגתית ושיפור
מתמיד.
> בנייה הדרגתית (08067ז0 |6048ו6ז6ח!): מחזור החיים מניח שבניית מחסן
נתונים ארגוני הינה משימה גדולה ומורכבת. על כן, הגישה הנכונה היא בנייה
הדרגתית, כך שבכל פעם נבנה מקטע נוסף של מחסן הנתונים. המקטעים נבניס
בצורה מתואמת ובהתבסס על אסטרטגיה כוללת המגובשת בשלב הראשון.
> שיפור מתמיד (+737066₪000חם +%ה5+8ה60): את מחסן הנתוניס מאפיין פיתוח
מתמיד, ולכן נדרש מהלך מתמיד של שיפור והענות לדרישות חדשות שלא ניתן היה
לצפות בשלבים מוקדמים. קצב השינוייס במחסן הנתוניס גבוה בהרבה ממה שאנו
רגיליס לו בפיתוח מערכות מידע רגילות ומחזור החיים חייב לקחת עובדה זו
בחשבון.
תהליך הקמת מחסן נתוניס נמשך זמן וצורך משאבים רבים, ולכן יש קושי אמיתי
להצדיק כלכלית פרויקט שמפרותיו ניתן ליהנות רק כעבור זמן רב כל כך. על רקע קושי
זה ועל רקע כישלונות רביס של ארגוניס בהקמת מחסן נתונים, מחולק פרויקט ההקמה
והיישוס למספר שלבים ברורים, ברי ניהול ושליטה, שאפשר להפיק מהם תוצרי בינייס
במהלך הפרויקט. כפי שנראה בהמשך, המתודולוגיה המוצגת בפרק וה מבוססת על
תהליך תוספתי (אינקרמנטלי), המחלק את מחסן הנתונים למספר מקטעים שונים. כך,
בכל איטרציה מקטע מסויס של מחסן הנתוניס מתחיל לפעול והארגון יכול ליהנות בשלב
מוקדס יחסית מתוצרי המערכת. במובן זה, המתודולוגיה מביאה את הארגון אל התוצר
הסופי באופן הדרגתי. נדגיש שהתפיסה התוספתית העומדת בבסיס המתודולוגיה אינה
מקצרת את משך הפרויקט - שנה עד שנתיים - אלא מאפשרת לארגון ליהנות מתוצרי
4 מחסנל נתונים
מחסן הנתוניס בשלבים מוקדמים יותר ולבסס את השלביס הבאיס על לקחיס שהופקו
מיישוסם השלביס הקודמים. שיטה זו מבטיחה בקרה טובה יותר על הפרויקט. אס
יתרונות מסוימיס לא מושגים, או שנתקלים בקשיים לא צפויים, עדיין נותר בידי הארגון
זמן לתקן את הדורש תיקון, ולבחון את הפרויקט וכדאיותו עוד לפני ביצוע השקעות.
נקודה נוספת שיש להדגיש היא שהמתודולוגיה המוצגת מיועדת להקמת מחסן נתוניס
ארגוני, ולא מרכול נתוניס, אך ניתן לגזור רעיונות ממתודולוגיה זו עבור הקמת מרכולי
נתוניס. עס ואת, הדגש העיקרי במתודולוגיה נשאר בעינו: הקמת מחסן נתונים ארגוני
החוצה את גבולות האגפים והמחלקות השונות ובעל תכולת מידע במיגווו רחב של
נושאים המענייניס את כלל הארגון. אין כל ספק שהיתרונות העסקייס והתועלות שמחסן
נתוניס ארגוני מציע הס רביס. עס זאת, אסור לשכוח שתהליך ההקמה מורכב ומשך
ההקמה ארוך.
מבנה המתודולוגיה
המתודולוגיה להקמת מחסני נתוניס מחלקת את מחזור החיים של תהליך הקמת מחסן
הנתוניס למבנה היררכי המורכב ממספר שלבים, כאשר כל שלב מורכב ממספר משימות
וכל משימה מורכבת ממספר מטלות. התרשים הבא מציג את המבנה העקרוני של
המתודולוגיה.
שלב
תרשים 12.1: מבנה עקרוני של המתודולוגיה.
המתודולוגיה מחלקת את מחזור החייס של מחסן הנתוניס לארבעה שלבים:
+,
%
+ בחינת הצורך העסקי והמוכנות הארגונית,
% גיבוש ארכיטקטורת-על,
+ בניית מקטע של מחסן הנתונים,
%
%
> תפעול מקטע.
פרק 12: מתודולוגיה ליישוס מחסן נתונים | 285
המתודולוגיה היא תוספתית במהותה, ולכן שני השלבים הראשונייס הס חד-פעמייס
בשעה ששני השלביס הבאיס חוזרים על עצמס מספר פעמים, עבור כל מקטע. כל אחד
מהשלביס מורכב ממספר משימות שכל אחת מהן מורכבת ממספר מטלות. עבור כל מטלה
מתארת המתודולוגיה את הנושאיס הבאיס:
+ מטרה (6צ6041[פ0) - תיאור קצר של המטרה בביצוע המטלה.
+ תוצרים (2061!/080!65) - התוצרים העיקרייס של המטלה, כולל התייחסות
לשימוש שנעשה בהס.
+ תלויות (0165ח6067066כ) - ציון משימות ומטלות שיש לסייס לפני תחילת ביצוע
המטלה הנוכחית, אילו מטלות יכולות להתבצע במקביל למטלה זו וכדומה.
> משתתפים (פצחִ116010ז8ק) - זיהוי המשתתפים בכל מטלה והגדרת האחריות של כל
משתתף.
> פעילויות (46+1/10165) - אוסף כל הפעילויות שיש לבצע במסגרת המטלה.
+ טכניקות (7667710065) - תיאור הטכניקות והכלים שיש להשתמש בהס לביצוע
המטלה (כמו לדוגמה, תרשימי שח=, תרשימי סכמות כוכב וכדומה).
> אומדנים (541₪8165) - הערכת הזמן שיש להקצות לביצוע המטלה, ובכלל זה
התייחסות לסיכונים שיכוליס לגרוס לסטייה מהתכנון.
> איכות (עָ0039//1)) - מדדיס והנחיות שיאפשרו את השגת האיכות ואת הצלחת
המטלה.
תיאור מלא של כל הנושאיס שיש לבצע בכל אחת מהמטלות היא מעבר למטרות ספר זה.
בהמשך נציג תיאור עקרוני של השלבים והמשימות. המעוניין בפרטי המתודולוגיה יוכל
לפנות אל המפתחים.
השלבים במחזור החיים של מחסן הנתונים
(6|6/ץ6 1.116 56טוסחס6ובּ// בּצָה)
התרשיסם הבא מציג את השלביס העיקריים במחזור החיים של מחסן הנתוניס. נסקור
בקצרה כל אחד משלבים אלה.
> שלב 1 - בחינת הצורך העסקי ומוכנות הארגון למחסן נתונים (₪660 655ח₪51
5 הוּחִס0וְ21וחִהָזכ) חה): השלב הראשון הוא בדיקת מוכנות הארגון
לפרויקט מחסן הנתוניס. מחסן הנתונים הארגוני הינו פרויקט בעל חשיבות
אסטרטגית לארגון, יקר יחסית למימוש והקמתו נמשכת זמן רב. על כן דרושה
בחינת המוכנות הארגונית ורמת המחויבות של הנהלת הארגון לנושא. במסגרת שלב
וה מקובל לבחון את יעדי העל של הפרויקט ואת הצרכים העסקיים שמחסן הנתוניס
צריך לענות עליהם.
6 מחסנל נתונים
> שלב 2 - גיבוש ארכיטקטורת העל (601166)076/ 56סח6זבּ/ 28+8): במסגרת
שלב זה נקבעת אסטרטגיית המימוש והארכיטקטורה הכוללת של מחסן הנתונים.
אחת ההחלטות האסטרטגיות העיקריות שיש לקבל בשלב ה מתייחסת לשיטת
מימוש מחסן הנתוניס: גישת מעלה-מטה או מטה-מעלה. שלב ה הוא בעל חשיבות
מרובה, כי הוא מהווה את תוכנית האב הקובעת את הנושאיסם, הסטנדרטיס
והתשתיות לכל שאר השלבים. במסגרת שלב וּה מגדירים את המקטעיס השונים של
מחסן הנתוניס, את העדיפויות ואת סדר ההקמה שלהם. שלב וה קצר יחסית למשך
הפרויקט, בין חודש לשלושה חודשים, על פי גודל הארגון והיקף מחסן הנתוניס
העתידי. הקצב הגבוה יחסית של שינוייס ארגונייס שיש להס השלכה על מחסן
הנתוניס מחייב לעדכן מעת לעת את מסמך ארכיטקטורת העל, כדי שישקף ככל
הניתן את המציאות.
> שלב 3 - עיצוב ויישום מקטע (0חה 265/80 +ה6וה6ז6חה! 6פטסחסזב3ּ) 343
0+ 6 וח6!כוח1): בשלב זה מעצביס מקטע מסויס של מחסן הנתוניס ומאחסניס
בו נתונים. המקטע מוגדר כנגזרת חלקית מסוימת מתוך המחסן הכולל (לדוגמה,
נושא מסוים, חלק מנושא רחב יותר וכדומה). בגלל ההיקף הגדול של מחסן הנתוניס
הארגוני, כל ניסיוןו להקימו בבת אחת הוא מסוכן ובדרך כלל נועד לכישלון. כדי
להימנע מבעיות אלו, מחלקיס את המחסן למספר מקטעים הנבניס זה אחר זה תוך
ביסוס כל מקטע על המקטעים שלפניו. משך היישוס של מקטע צריך להיות בגבולות
ומן של שלושה עד שישה חודשים. עיקרון מנחה וה עומד בבסיס התפיסה
התוספתית המבוססת על שחרור הדרגתי של מחסן הנתונים לשימוש. מקובל לקרוא
למקטע הראשון מקטע הבסיס (8חו|2859) כי במקטע וה הארגון מתנסה לראשונה
עס תפעול מחסן נתוניס. סביר להניח שהלקחיס שיופקו בהפעלת מקטע זה יהיו
רביס יותר מאשר במקטעיס הבאים.
> שלב 4 - תפעול, תמיכה ושיפור (0ח3 +וססק5 ,ה0ו+006]3 56סח6זבּ/ בוה
+סוהסטסזוכוח! פַחוספַח0): בגמר פיתוח מקטע מסוים, הוא נכנס לשלב התפעול
השוטף, תוך תמיכה שוטפת במשתמשיס. ההנחה הבסיסית היא שמחסן הנתוניס
הינו דינמי וקשה לחזות מראש את דרישות המידע, ולכן יש להמשיך בתהליכי שיפור
ביצועים, הפקת לקחים, הענות לדרישות חדשות, הכנסת כלי אוטומציה וכדומה.
הלקחים הנלמדיס בכל מקטע משמשים הן לשיפור המקטע עצמו והן לשיפור
המקטעיס הבאים שיופעלו, ובמידת הצורך - גס שיפור מקטעיס קודמיס שפועלים.
כפי שניתן לראות מתרשים 12.2, שלבים 3 ו- 4 חוזרים על עצמס בהקמה של כל מקטע
חדש במחסן הנתונים. נקודה שאינה באה לידי ביטוי בתרשים, אולס כדאי להזכיר אותה
היא, שתוך כדי מימוש המקטעים רצוי מאוד לעדכן מעת לעת את מסמך הארכיטקטורה.
כך הוא ימשיך להיות רלוונטי וישקף את המצב האמיתי, ולא רק את הארכיטקטורה
בתחילת הפרויקט. מסמך מעודכן כזה ימשיך להיות נקודת ייחוס חשובה לאורך זמן, גס
לאחר שחלק מהאנשיס שהשתתפו בתהליך ההקמה יעברו למשימות ולתפקידיס אחרים.
בהמשך נציג סקירה נרחבת יותר של כל אחד מהשלביס המרכיבים את מחזור החיים.
פרק 12: מתודולוגיה ליישוס מחסן נתונים | 287
שלב 1
צורך עסקי ומוכנות הארגו
שלב 2
ארכיטקטורת על
שלב 3
עיצוב ובניית מקטע
שלב 4
תפעול, תמיכה ושיפור מקטע
%
-
- בל
0 שלב 3 ב
עיצוב ובניית מקטע
תרשים 12.2: השלבים העיקריים במחזור החיים של מחסן נתונים.
נושאים לטיפול בכל שלב במחזור החיים
עד עכשיו הצגנו מימד אחד של מחזור החיים - את השלבים. נציג עכשיו מימד נוסף והוא
אוסף הנושאים שיש לטפל ולהגדיר בכל אחד משלבי מחזור החיים. ניתן לחלק את אוסף
הנושאיס לארבע קטגוריות ראשיות : פונקציונליות, נתונים, טכנולוגיה ותמיכה. אשכולות
נושאייס אלה עובריס כחוט השני דרך כל השלבים, כאשר בכל שלב נכנסיס לרמת פירוט
גבוהה יותר. נסקור בקצרה כל אחת מהקטגוריות.
,
שלב במחז(ר 050 | פונקציונליות | נתונים | טכנולוגיה | תמיכה תוצרים
צורך עסקי ב ]ה הרן 0000 ן | מסמך בחינת צורך
ה - | 5
97 / תוכנית
>< ארכיטקטורת על אב
עיצוב ובניית
מקטע
תפעול ,תמיכה
ושיפור
תרשים 12.3: שלבים במחזור חיים, קטגוריות נושאים לטיפול ותוצרים.
מסמך עיצוב,
מקטע עובד
תוכנית
שיפור ופיתוח
8 מחסנל נתונים
פונקציונליות (עְאוהּחסו4סחטת): קטגוריה גו עוסקת במכלול נושאיס הקשורים
להגדרת הפונקציונליות של מחסן הנתונים. במסגרת קטגוריה זו נגדיר את סוגי
שאילתות ואת ניתוחי מידע שמחסן הנתונים צריך לתמוך בהם; נחליט האם
השאילתות תפעלנה באופן ישיר מול מחסן הנתונים, או שנבנה על מרכולי נתוניס
ייעודיים; נוהה את סוגי המשתמשיס השונים של מחסן הנתונים; ונקבע לאיוה
סוגים של כלי אחזור וניתוח מידע הס וקוקים.
נתונים (28+8): קטגוריה זו עוסקת במכלול הנושאיס הקשוריס לאחד המרכיביס
החשוביס ביותר - קביעת הנתוניס שינוהלו במחסן הנתונים. במסגרת קטגוריה זו
נגדיר את הנתונים הדרושיסם למשתמשים, נעצב את מודל הנתוניס של מחסן
הנתונים, נמפה את מקורות הנתוניס במערכות התפעוליות ובמערכות חיצוניות,
נגדיר את תהליכי הגצירה, הניקוי והטיוב של הנתונים.
טכנולוגיה (6ז1785+700+0ח] |00!00108ה766): קטגוריה זו עוסקת במכלול
נושאיס הקשורים לתשתית טכנולוגיית המחשוב הדרושה כדי להפעיל ולתמוך
במחסן הנתונים. במסגרת קטגוריה זו נגדיר את מערכת ₪05 הדרושה, נקבע את
סוגי ועוצמת השרתיסם, נגדיר את נפחי דיסקיס נדרשים, נבחן ונגדיר את תשתית
תקשורת הנתוניס הנדרשת לקישור סביבת מחסן הנתוניס עס הסביבות התפעוליות
ועס המשתמשים, נגדיר אם נדרשיס כלים מיוחדים לגזירה והעברת נתוניס וכדומה.
תמיכה (4זססק50): קטגוריה זו עוסקת במכלול נושאים הקשורים בתפעול מחסן
הנתוניס. במסגרת קטגוריה וו נגדיר איה משאבי פיתוח נדרשיס לתמיכה בתהליכי
גזירת הנתונים והניקוי שלהם, נגדיר כמה מנהלי בסיסי נתוניסם (84כ) נדרשים,
נגדיר כמה מנתחי מערכות נדרשים כדי לתמוך במשתמשים השונים ובכלי האחזור
השונים.
הטיפול בכל אחת מקטגוריות אלו הוא הדרגתי. כלומר, נכנסיס לרמת פירוט גבוהה יותר
תוך כדי ההתקדמות בשלבי מחזור התיים. כדי להדגיס את רמת הפירוט ההולכת וגדלה,
נתבונן לדוגמה בקטגוריה של הנתונים, ונראה כיצד נושא וה מתפתתח מהגדרה כללית
מאוד בשלב גיבוש ארכיטקטורת העל, ועד להגדרה מדויקת מאוד בשלביס הבאיס.
.*
+*
בשלב גיבוש ארכיטקטורת העל נזהה רק את הנתונים העיקריים הנדרשים לתמיכה
בנושאים שהוגדרו עבור מחסן הנתונים, נזהה את המקורות העיקריים שלהם
(מערכות תפעוליות או חיצוניות שיכולות לספק את הנתוניס) ונגדיר מודל נתוניס
ראשוני של מחסן הנתונים.
בשלב עיצוב ובניית המקטע נפרט באופן מדויק את הנתוניס הדרושים, נזהה בדיוק
מה הס מקורות הנתוניס מבחינת המערכות התפעוליות ובאילו פלטפורמות מערכות
הן פועלות, מה איכות הנתוניס במערכות אלו, נזהה אילוציס מיוחדיס פועליס
עליהם, נגדיר כיצד ניתן להביא את הנתוניס אל מחסן הנתוניס ונעצב את מודל
הנתוניס המדויק של מחסן הנתונים.
פרק 12 : מתודולוגיה ליישוס מחסן נתוניס | 289
+ בשלב התפעול, התמיכה והשיפור נוודא שאכן כל התהליכים לגזירת הנתוניס
מהמערכות התפעוליות פועליס כהלכה, נוודא שתהליכי אספקת הנתוניס
למשתמשים פועליסם היטב, נבחן אפשרות להכנסת כליס אוטומטיים לשיפור תהליכי
התפעול וכדומה. בנוסף, נזהה מהסם הנתוניס החדשים שיש להביא אל מחסן
הנתוניס כתוצאה משינוי בדרישות, מהיכן ניתן להביא אותם, כיצד יש לעדכן את
מודל הנתוניס של מחסן הנתונים על מנת לשקף את הנתונים החדשים וכדומה.
עד כאן סקרנו בקצרה את המבנה העקרוני של המתודולוגיה והשלביס השוניס במחזור
החייס של פרויקט מחסן נתוניס. בסעיפיסם הבאיס נסקור באופן מפורט יותר כל אחד
מהשלביס ונציג מהם הנושאיס לטיפול לפי ארבע הקטגוריות העיקריות ונפרט את
התוצריס העיקריים.
פירוט השלבים במתודולוגיה
שלב 1: בחינת הצורך העסקי ומוכנות הארגון
מהות השלב
כל ארגוןו המבקש לבנות מחסן הנתוניס חייב להסתכל על הנושא כפרויקט אסטרטגי של
הארגון, בעל השלכות מרחיקות לכת על יכולתו לשרוד בעולס התחרותי. מאחר וזוהי
החלטה אסטרטגית, יש לגזור אותה מתוך האסטרטגיה הכוללת של הארגון ושל
טכנולוגיית המידע הארגונית. שלב ה הוא השלב הראשון בפרויקט ועוסק על כן בבתחינת
הצורך העסקי במחסן נתוניס וברמת המוכנות הארגונית לקליטת מחסן הנתונים בארגון.
כמו שארגון בוחן כל השקעה מול הצורך והתועלות הצפויות לו, כך יש להתייחס גס
להשקעה בהקמת מחסן הנתוניס. בשלב זה מתבצעת בחינה של התועלות העסקיות
שיכולות לנבוע מיישוס מחסן הנתונים. כדי לוּהות את התועלות העסקיות יש לבחון
תחילה את התהליכיס העסקיים העיקרייסם של הארגון, לחקור את בעיות המידע
העיקריות בתהליכיס אלה. יש לראות איזה מהתהליכיס יטופלו במסגרת מחסן הנתונים,
תוך התמקדות בתועלות העיקריות הצפויות מהמידע שיעמוד לרשות מקבלי ההחלטות.
הקושי, שאינו ייחודי להקמת מחסן נתונים, הוא חוסר היכולת שלנו לכמת את התועלות
ולהפוך אותן למונחי כסף. קשה לכמת את התועלת במונחים כגון אלה: חיסכון בהוצאות
שיווק של שני מיליון שייח, הגדלת מחזור המכירות ב-10 מיליון שייח כתוצאה מהגדלת
נתח השוק בעוד 2 אחוז וכדומה. למרות הקושי הזה, חשוב להתמודד עס האתגר ולהגדיר
את היעדים העיקריים שהארגון מקווה להשיג באמצעות יישוס מחסן הנתוניס. הנה
לדוגמה:
*> הגדלת נתח השוק ב- 20% תוך שנתייס.
> הפיכת 10% מהלקוחות הפוטנציאלייס ללקוחות בפועל, כתוצאה ממיקוד מאמצי
השיווק מול פלחי אוכלוסייה מסוימים.
0 מחסנל נתונים
> חיסכון של 50% בעלויות כוח אדם כתוצאה מיכולת וויסות טובה יותר של עובדיס
מול המטלות.
הקושי במדידת התועלת הצפויה, ולאחר מכן - במדידת השגת היעדים, אינו צריך לגרוס
למצב של יישב ואל תעשהיי. פרויקט מחסן נתוניס שאין לו יעדיס ברוריס הנובעיס באופן
ישיר מאסטרטגיית הארגון צפוי לקשייס בקבלת המחויבות של ההנהלה למשאביס
הנדרשיס, ובסופו של דבר - רמת הסיכון בכישלונו גבוהה יותר.
זיהוי התהליכים העסקיים העיקריים
(החסו%+1/63/+060] 270665565 655ה2₪51)
על מנת לאפשר יישוס מחסן נתוניס שיתפתח עס הזמן ויתמוך בתחליכי קבלת ההחלטות
של הארגון, יש להקדיש ומן ומאמצ בלימוד התהליכיס העסקיים העיקריים המענייניס
את הארגון. יש להפריד בין התהליכיס התפעוליים הרגיליס של הארגון לבין התהליכיס
העסקייםס הטקטיים והאסטרטגייס שלו, על אף שיש אינטראקציה ביניהם.
מחסן הנתוניס מאורגן לפי נושאי מידע שכל אחד מהס תומך בתהליך עסקי אחד או יותר.
כדי לוהות את נושאי המידע העיקריים שייושמו במחסן הנתונים, יש לוהות את
הפעילויות ואת התהליכים העסקיים העיקריים מנקודת המבט של הארגון. נציג במספר
דוגמאות של תהליכים עסקיים של סוגי ארגוניס שונים :
> ניתוח רווחיות (9ו5ע!8ח( עזוווספזו1סזק) של לקוחות עסקיים ופרטייס בבנק.
+ פילוח אוכלוסיות (חסו0018% 56 ז0ר0510) של לקוחות חברת טלקומוניקציה.
% איתור גניבות ושימוש חריג (חסו6+601 806ז=) במערכת הטלפונים.
> ניתוח עלויות המוצריס (8|/515ח4/ +0058) בחברה תעשייתית.
> ניתוח תקלות בקווי הייצור.
% ניתוח מגמות כוח אדס בחברה מבחינת עיסוקים, השכלה וכדומה.
בשלב זה ייבדקו התהליכים העסקיים הקיימים והתהליכים העסקיים העתידיים, ככל
שניתן לצפותם בשלב זה. לדוגמה, אס ידוע שהארגון צופה תחרות מתגברת ומתכוון
לערוך שינוייס במבנה הארגוני כדי להציע שירותים נוספים לפלחי לקוחות שונים, כמו
עסקים גדולים, עסקים בינוניים, לקוחות ביתיים ואחרים.
על ידי הבנת התהליכים העסקיים המענייניס את הארגון, על ידי ויהוי הדרישות לטווח
הקצר ועל ידי ויהוי הדרישות לטווח הארוך, נוכל לבנות מחסן נתוניס שיסתגל עס הזמן
לשינוייס שיחולו בדרישות הארגון. רצוי מאוד להשקיע חלק מהמאמצ בשלב הזה ללימוד
הצרכיס העתידיים ולא להתמקד רק בטווח הקצר.
פרק 12 : מתודולוגיה ליישוס מחסן נתוניס 291
מומלצ לסווג כל אחד מהתהליכיס העסקייס שיזוהו בשלב זה:
> נושא. כל תהליך עסקי ישויך לנושא מוגדר, על פי קבוצות לוגיות של שירותים.
לדוגמה, תהליך ניתוח רווחיות של לקוחות, של סניפים ושל מוצרים שייכים כולם
לקבוצת ניתותי רווחיות.
+ קריטיות. לכל תהליך תוגדר רמת הקריטיות שלו. תהליך קריטי הוא תהליך
המשמש את מקבלי ההחלטות בעבודתס השוטפת. לכן, זמני התגובה, האמינות
והזמינות שלו חייביס להיות גבוהים במיוחד.
+ ישימות. ייבחנו הקושי או הפשטות ליישס את התהליך במסגרת מחסן הנתוניס.
הקושי יכול לנבוע מהעדר הנתוניס המתאימים, או מתהליכי ניתוח מורכביס מאוד.
+ סוגי משתמשים. לכל תהליך יזוהו המשתמשים העיקרייס שלו. כפי שנראה בהמשך,
מחסן הנתוניסם נבנה מתוך הנחה שהוא ישרת מיגווו רחב של סוגי אוכלוסיות
משתמשים שונות.
> ניתוח תועלות. זיהוי התועלות העסקיות הצפויות כתוצאה מתמיכת מחסן הנתוניס
בתהליך. לנושא ה חשיבות רבה, כדי לאתר את התהליכיסם בעלי יחס תועלת/עלות
הגבוהיס ביותר. למרות הקושי הקיים בדרך כלל בהגדרת התועלות באופן כמותי, יש
לעשות מאמצ ולתת לפחות הערכות כמותיות מסוימות לתועלות הצפויות.
זיהוי סדרי עדיפויות ליישום (665וזסוז 0ו%+3+ח6וחה6!כוח!)
בשלב וה ייקבעו הקדימויות ליישוס על פי סדרי הקדימויות שהארגון קבע עבור
התהליכיס העסקיים ובהתאם ליישימות הלוגית והטכנולוגית. כלומר, ייבחנו ההיגיון
ההנדסי בבניית מחסן הנתוניס בהתבסס על רובדי הנתוניס השונים שינוהלו בו. כלומר,
יש לבחון לאיזה מרכיביס דרושים מרכיביס מקדימיס לשס פעולתסם התקינה.
הערכה ראשונית לגודל מחסן הנתונים
אחת השאלות הראשונות שעולות בתחילת יישוס תפיסת מחסן הנתוניס היא ההיקף
הצפוי של הנתוניסם שינוהלו בו. לשאלה זו השפעה רבה על מורכבות הפרויקט, עלותו
ומשך הקמתו, ולכן חשוב להגיע לאומדן ראשוני מוקדס ככל שאפשר. הטכנולוגיה
העומדת בבסיס מחסן הנתוניס הולכת ומשתכללת כל הזמן: עיבוד מקבילי, טעינה
מהירה, חלוקה למחיצות, אינדקסיס חדשים ומהירים, מערכות ₪081/5 המכירות את
המבנה הייחודי של מחסן הנתוניס ומבצעות אופטימיוציה טובה יותר של השאילתות,
כלי גישה חכמיסם יותר. התפתחויות אלו תורמות ליכולת תמיכה ההולכת וגדלה וליכולת
לנהל היקפי נתונים גדוליס.
ארגון הנכנס לפרויקט מחסן נתונים צריך להעריך את היקף הנתוניס שהוא עומד לנהל
ואת השפעת גודל מחסן הנתוניס על שאר הפרמטרים: עלות, ומן, מאמצ. להלן ההערכה
המקובלת לגודל מחסן נתוניס :
2 מחסני נתונים
> מחסן נתונים קטן: היקף נתוניס עד 308 (גיגה-בתיס), מספר השורות הכולל הוא
כ- 10 מיליון, הטבלה הבודדת הגדולה ביותר היא בהיקף של כ- 5 מיליון שורות.
מחסן כזה מיושס בדרך כלל על שרת 06 חזק.
+ מחסן נתונים בינוני: היקף נתונים בין 3 ל- 25 גייגה בתיס, מספר השורות הכולל
הוא כ- 100 מיליון, הטבלה הבודדת הגדולה ביותר היא בהיקף של עד 50 מיליון
שורות. מחסן כזה מיושס על שרת בודד חזק.
+ מחסן נתונים גדול: היקף נתוניס בין 25 ל- 200 ג'יגה בתים, הטבלה הבודדת הגדולה
ביותר יכולה להכיל מאות מיליוני שורות. מחסן כוה מיושםס על שרת מרובה
מעבדים.
> מחסן נתונים ענק: היקף נתוניס מעל 200 גייגה בתים. מחסן כזה מיושם על שרתים
מרובי מעבדים, או על מחשב מרכזי.
מכיון שמחסן הנתוניס צובר נתוניס בהתמדה, קביעת היקף הנתוניס רלוונטית לשלביס
הראשונייס בלבד. מחסן נתוניס שמוגדר כבינוני בעת הקמתו יכול להפוך במהירות לגדול
ובהמשך - לענק. הלקת החשוב הוא שבכל מקרה יש לבנות את מחסן הנתוניס מתוך
צפייה ויכולת גידול (עו/ו568|680) לאורך זמן, ללא קשר להיקפו הראשוני.
בחינת המוכנות הארגונית (363017655 |בחסו+283וח3ףוס)
נוסף לבחינת הצורך העסקי וההצדקה לביצוע פרויקט מחסן נתונים, חשוב לבחון בשלב
זה את רמת המוכנות של הארגון ליישוס תפיסת מחסן הנתונים. המוכנות צריכה להיבחן
במספר מישורים: רמת המשתמשים הצפויים ויכולתם להתמודד עם כלי ניתוח המידע
ורמת המוכנות של יחידת המחשב להתמודד עם טכנולוגיה חדשה.
הארגון צריך לסקור בתחילת הדרך את הפערים בין המצב הקיים לבין המצב העתידי שבו
יפעל מחסן נתוניס. פעריס אלה עשוייס להיות בידע ויכולת המשתמשים להפעיל כלי
ניתוח מידע ופעריס בטכנולוגיית המידע של הארגון. לדוגמה ניקתח ארגון שאין לו כל
ניסיון עס טכנולוגיית שרת/לקוח וכל מערכות המידע שלו מבוססות על מחשבים מרכזייס
שמחובריםס אליהס מסופים פשוטים. בארגון כזה יהיה צורך לקלוט מיומנויות חדשות,
לפרוס רשתות תקשורת מהירות, להחליף את המסופים במחשבים אישיים, להכשיר את
המשתמשיס לעבודה בממשקים גרפיים וכדומה. ככל שהדברים יהיו ידועיס בתחילת
ההקמה, כך יוכל הארגון לטפל בהס ביתר הצלחה ולבצע את ההשקעות להקטנת הפערים.
הבנת רמת המחויבות הנדרשת תתרום גס כן להצלחה בעתיד.
הצגת הצורך העסקי והמוכנות הארגונית להנהלה
המסמך המסכם של שלב בחינת הצורך העסקי והמוכנות הארגונית צריך להיות מוצג
להנהלה הבכירה של הארגון. כך תוכל ההנהלה לקבל את ההחלטות על כניסה לפרויקט
ולספק את המחויבות הנדרשת להצלחתו.
פרק 12 : מתודולוגיה ליישוס מחסן נתוניס 293
שלב 2: גיבוש ארכיטקטורת העל
מהות השלב
שלב זה עוסק בגיבוש ארכיטקטורת העל של מחסן הנתוניסם. מקובל לקרוא למסמך
ארכיטקטורת העל המתקבל משלב זה גס בשס תוכנית האב של מחסן הנתונים. תוכנית
זו מהווה בסיס ומסגרת לכל הפעולות העתידיות בתהליך ההקמה.
מסמך תוכנית האב מגדיר את הנושאים העיקריים שינוהלו במחסן הנתוניס ואת הנתוניס
העיקרייס הנדרשים עבור כל אחד מהם. בנוסף, הוא מפרט את המערכות התפעוליות
שתשמשנה מקור עיקרי לנתוניסם; הוא מגדיר את הארכיטקטורה הטכנולוגית הכוללת
וקובע מספר סטנדרטים ועקרונות מנחיס; הוא מזהה את העלויות הצפויות ומגדיר לותח
זמניס ליישוס מחסן הנתוניס. מטרת תוכנית האב להציג את האסטרטגיה הכוללת של
הארגון בתהליך יישוס מחסן הנתוניסם, ולאפשר להנהלה הבכירה לקבל את התמונה
הכוללת לצורך החלטה על צורת מימוש הפרויקט.
היתרונות העיקרייס של גיבוש תוכנית אב כשלב ראשון בפרויקט מחסן נתוניס:
> שיקוף צרכי הארגון: תוכנית האב הינה מנגנון, שמטרתו להבטיח שמחסן הנתונים
ישקף באופן אמיתי את הצרכיס העסקיים של הארגון. אלה צריכים לבוא לידי ביטוי
מיעדיו האסטרטגיים של הארגון ומתוך מסמך בחינת הצורך העסקי והמוכנות
הארגונית, ולא רק כתוצאה מרצון כזה או אחר של אוכלוסיית משתמשים ושל
יחידת המחשב.
+ אחידות: תוכנית האב יכולה להבטיח אחידות בפלטפורמות, בכלים ובשיטות
העבודה. הסכנה הגדולה ביותר היא עבור הארגוניס המתחילים ביישום מרכולי
נתוניס, מבלי לבחון את התמונה הכוללת ואת שילוב כל מרכיבי המידע של הארגון.
הארגון יכול למצוא את עצמו מהר מאוד במצב של מגדל בבל, שבו מחסני נתוניס
שוניס מבוססים על כלים שוניס ותקניס שוניסם, אשר בסופו של דבר אינס מאפשריס
את שילוב הנתוניס וכך, קבלת תמונה ארגונית כוללת הופכת לבלתי אפשרית.
> מסלול התקדמות יישום ברור: תוכנית האב מגדירה מסלול ברור ושיטתי להקמת
מערכת תומכת החלטות ארגוניות תוך הגדרת העדיפויות, המשאביס והתוצריס
בשלביס השונים. מבט העל מאפשר להגדיר את הסדר הנכון לשחרור מקטעיס
לשימוש, מבחינת התועלת לארגון ויכולת הארגון להקצות עבורס את המשאביס
הדרושים.
תהליך הקמת תוכנית האב של מחסן הנתוניס אינו תהליך חד-פעמי אלא מאמא מתמשך.
מחסן הנתוניס משנה את פניו ללא הפסק לאורך מחזור חייו, ולכן רצוי לעדכן מעת לעת
את תוכנית האב כדי שתשקף באופן אמיתי את הארכיטקטורה הכוללת של מחסן
הנתונים בכל נקודת זמן.
התרשים הבא מציג את הנושאיס העיקריים בהס יש לטפל במסגרת גיבוש אסטרטגיית
העל. כל אחד מהנושאים מפורט בהמשך.
4 מחסנל נתונים
2
פונקציונליות
ו
ד-הדדה--הד-דה
ו בחינת תהליכים עסקיים טכנולוגיה
1
1
ו סדר עדיפויות ליישוס
ו
1
ו סיווג משתמשים
ן רמת פירוט ועומק היסטורי
ו ניתוח ריכוז /ביזור
ו -777---------' ! בחינת מקורות נתוניס
ו
[ תקשורת | בטחון מידע
ו
1
יַ בחינת תהליכי גזירה וטיוב
ו
ו
ז
1 לוח זמניס ן
ו 1
שו ₪ שו
תרשים 12.4: הנושאים העיקריים המטופלים במסגרת שלב תוכנית האב.
ייזום פרויקט ארכיטקטורת העל
(ח3!|ק אזסצ/ חב זסצו3ח6 %+66[סזק)
חשוב להתייחס אל תהליך גיבוש ארכיטקטורת העל של מחסן הנתוניס כאל פרויקט בפני
עצמו. משך הקמת תוכנית האב קצר, בדרך כלל בין חודש לשלושה חודשיס בהתאם לגודל
הארגון ומורכבות מחסן הנתוניס שיוקס, אולס הוא דורש משאבים וניהחול כמו כל פעילות
פרויקטלית אחרת. לשלב ראשוני זה יש חשיבות מרובה לתאום ציפיות בין הפרויקט לבין
הנהלת הארגון: מה יהיו תוצרי תוכנית האב, מהו לוח הזמנים, מהס המשאבים הנדרשיס
וכדומה. מסמך ייזּום פרויקט (ז008719 600][סזק) מתאר בקצרה את שלבי הפרויקט ואת
המשתתפים מהאגפים ומחלקות הארגון. הוא גס נותן תיאור תמציתי של פרקי המסמך
המסכם ואת לוח הזמניס והמשאביס הנדרשים להשלמתם.
לאחר פרסום מכתב הייזוסם הממנה את מנהל הפרויקט ואת צוות הפרויקט, מתחיל
תהליך התארגנות קצר להכנת תוכנית האב. עבור רוב המשתתפים בצוות גיבוש תוכנית
האב ווהי חוויה מקצועית חדשה בדרך כלל. לכן יש להתחיל בהדרכה, שבה מוסבריס לכל
חברי הצוות העקרונות ומושגי היסוד של תפיסת מחסני נתוניס, המתודולוגיה הכוללת
להקמתו והנושאיס המטופלים במסגרת שלב ראשון וּה. בתוס שלב ההדרכה יש להכין את
תוכנית העבודה הצפויה ולפרט את המטלות ואת לוחות הזמניס של כל חבר צוות.
פרק 12: מתודולוגיה ליישוס מחסן נתונים | 295
סקירת הנושאים המטופלים בתוכנית האב
הנושאיס השוניס המטופלים במסגרת שלב ארכיטקטורת העל מסווגים לפי ארבע
קטגוריות : פונקציונליות, נתוניס, טכנולוגיה ותמיכה. כל הנושאיס מטופלים ברמת על
בלבד ללא ירידה לפרטים ולרמת דיוק. הירידה לפרטיס תבוא בשלביס הבאיס במחזור
החייס של מחסן הנתוניס. נסקור כאן את אוסף הנושאיס שיש לטפל בהס במסגרת
תוכנית האב.
פונקציונליות
בפרק וה של תוכנית האב סוקריס את התהליכים העסקיים שבהס מחסן הנתוניס צריך
לתמוך וקובעים עבורס את סדרי העדיפויות ליישום, את סוגי המשתמשים העיקריים
הצפוייס במחסן הנתונים. בשלב זה גם עוסקיס בניתוח אחת ההחלטות העיקריות שיש
לקבל: הארכיטקטורה העקרונית שבה הארגון בוחר לממש את מחסן הנתונים. הארגון
יכול לבחור מחסן נתוניס ארגוני, אוסף של מרכולי נתוניס בלתי תלויים, או מחסן נתוניס
רב-שכבתי המשלב את המחסן הארגוני עם אוסף מרכולי נתוניס המוזנים על ידי המחסן
הארגוני.
א. סקירת התהליכים העסקיים העיקריים
במסמך בחינת הצורך העסקי והמוכנות הארגונית מופיעים התהליכים העסקיים
העיקריים שמחסן הנתוניס צריך לתמוך בהס. תהליכים עסקיים אלה הם הבסיס
הפונקציונלי, או במיליס אחרות - הגדרת הדרישות של מחסן הנתונים. במידת הצורך יש
לבצע במסגרת מסמך תוכנית האב בחינה מעמיקה של התהליכיס העסקיים שזוהו
במסמך בחינת הצורך העסקי. אם לא נדרשת העמקה נוספת, יועתקו התהליכים
העסקיים וסדרי העדיפויות ליישוסם אל מסמך תוכנית האב, כדי להבטיח את שלמות
המסמך ללא צורך להפנות את הקוראיס למסמכים אחרים.
ב. סקירת סדרי עדיפויות ליישום
בדומה לתהליכים העסקיים שכבר הוצגו במסמך בחינת הצורך העסקי והמוכנות
הארגונית, גס סדרי העדיפויות ליישוס מוצגיס כאן מחדש, לצורך השלמות של מסמך
תוכנית האב. אס עבר זמן רב יחסית מאז שמסמך בחינת הצורך העסקי והמוכנות
הארגונית הוצג להנהלה, מומלצ לבחון מחדש את סדרי העדיפויות ליישוס, כדי לוודא
שאכן העדיפויות לא השתנו.
ג. סיווג סוגי המשתמשים
אחד המאפיינים של מחסן הנתוניסם הוא הגיוון הרב בסוגי המשתמשים שלו (פ81כ
ץד ז58( 56טסח8ז3ּ/). להבדיל ממערכות תפעוליות, בהס המשתמש הינו בדרך כלל
בדרג התפעולי ובדרג הביניים, במחסן הנתונים משתמשים כמעט כל מקבלי ההחלטות
בארגון. לכל סוג משתמש יש בדרך כלל צורך שונה להצגת המידע ולניתוחו, ולכן צריך
להתאים את כלי האתחזור וניתוח המידע הרלוונטיים לסוגי המשתמשיס השוניס.
משתמשים רבים יכוליס להשתמש ביותר מאשר בכלי אחזור וניתוח מידע אחד.
6 מחסנל נתונים
הסיווג המקובל של משתמשי מחסן הנתונים הוא לפי הקטגוריות הבאות :
> דרג זוטר. מחסן הנתוניס פונה בדרך כלל אל המנהליס בדרג הבינייס ובדרג הבכיר,
אך הוא יכול לשמש גס את אוכלוסיית המנהלים בדרג הזוטר. אוכלוסיית
משתמשים זו מאופיינת בכך שהאינטראקציה שלה עס מחסן הנתונים היא פשוטה
בדרך כלל ומבוססת על פי רוב על שאילתות קבועות מראש. בחלק מהמקריס
משתמשים אלה אינס פוניס ישירות למחסן הנתונים, אלא אל מאגר הנתונים
התפעולי (005 - 6זסו5 818 |הּחסוז8ז6קס).
> מנהלי ביניים (+ח306716 13 10016). אוכלוסיית משתמשים זו מאופיינת בכך
שהיא מפעילה שאילתות מודמנות, אולס רמת התחכוס שלהן סבירה. הס וקוקיס
לכלים גרפיים נוחיסם להצגת נתוניס, שיאפשרו להתמצא במחסן, לבנות שאילתות
באופן עצמאי ולהפעילן בעת הצורך.
+ מנתחי מידע (+5ע81ח4). אוכלוסיית משתמשים זו עוסקת בדרך כלל בניתוח מידע
עבור מקבלי החלטות. מנתחי המידע מבצעים ניתוחיס מורכבים מאוד, בעלי אופי
מזדמן וברמת דחיפות גבוהה יחסית. לאוכלוסיית משתמשים זו דרושים כליס
מתוחכמיס בעלי יכולות סטטיסטיות מתקדמות, כליס לבניית תרחישים 9! זח/
8חה) וכלים לכריית נתוניס (פַחוחוו 8%8כ).
> מנהלים בכירים (60001:/65אם). אוכלוסייה וו מאופיינת בדרך כלל ברתיעה
מסוימת ממחשבים. בעלי תפקידים אלה מוגבלים מאוד בומן שהם יכוליסם להקדיש
לניתוח מידע. על כן יש להכין עבורס שאילתות מוכנות מראש, עס גרפיקה עסקית
טובה ויכולות נבירה (חששסס וווזפ) בתוך הנתוניס מרמת סיכוס גבוהה מאוד ועד
לרמות נמוכות יותר.
הטבלה הבאה מפרטת את כלי השימוש (0ח= +חסז-) המתאימים לכל סוג משתמשים:
קטגוריה דרישות מידע סוג כלי 6חם +חהסז-
דרג זוטר שאילתות ודוחות פשוטיס יחסית, אוסף שאילתות מוכנות מראש עם כלי
דרישות פרמטריות שניתנות לחיזוי | פיתוח גרפיים.
מראש.
דרג ביניים שאילתות מזדמנות, דוחות, ניווט כלי שאילתות גרפייס למשתמשי קצה,
במחסן הנתונים, גרפיקה עסקית. מחוללי דוחות.
מנתחי מידע | ניתוחיס רב-מימדיים, ניתוחים כלי ניתוח רב-מימדיים, כלים
סטטיסטייס מורכבים, ניתוח סטטיסטיים, גיליונות אלקטרונייס,
מגמות. כלי גרפיקה, כלי כריית נתוניס.
מנהלים מידע מוכן מראש על נושאיס כלי ₪15.
בכירים מסוימים, יכולת לרדת ברמת
הפירוט ולנבור בנתוניס.
על סמך ניתוח וסיווג משתמשי מחסן הנתונים במסגרת תוכנית האב, ניתן יהיה בהמשך
לקבוע איה סוגיס של כלי משתמש יידרשו ולאילו מטרות.
פרק 12: מתודולוגיה ליישוס מחסן נתונים | 297
ד. ניתוח ריכוז/ביזור
אחת ההחלטות החשובות בגיבוש תוכנית האב של מחסן הנתונים קשורה בנושא
ריכוז/ביזור (0056ח6ז8// 6660181260 / 260ו|178ח06). תפיסת ריכוג/ביזור קשורה
לקביעת הארכיטקטורה של מחסן הנתוניס. הארגון צריך להחליט מהי הארכיטקטורה
המועדפת עליו, מבין שלוש החלופות הבאות:
> מחסן נתוניס ארגוני המשרת את כל המשתמשים ומכיל את כל סוגי הנתוניס ונושאי
המידע.
+ אוסף של מרכולי נתוניס מבוזריס המשרתים מקטעי משתמשים שונים (בחלוקה
גיאוגרפית, חלוקה פונקציונלית, נושאית או אחרת). מרכוליס אלה מוקמיסם באופן
עצמאי, ללא תאוס ובאופן בלתי תלוי אחד בשני.
> מחסן נתוניס רב-שכבתי המורכב ממחסן נתונים ארגוני, המזין אוסף של מרכולי
נתוניס מבוזריס. בארכיטקטורה זו מרכולי הנתוניס נבניס במקביל להקמת מחסן
הנתוניס הארגוני ובהתבסס על ארכיטקטורה כוללת המוגדרת בשלב ההקמה.
הארכיטקטורה המומלצת ביותר כיוס היא הארכיטקטורה הרב-שכבתית המשלבת את
הדרישות ברמה הארגונית יחד עס מתן מענה ליחידות הארגוניות הבודדות.
בפרק 11, העוסק במרכולי נתונים, הוצגו מספר שיטות הקמה. ההמלצה היא לבחור
במודל ההקמה המקבילי.
הנתונים
פרק זה בתוכנית האב עוסק בנתוניס, תוך הצגת מודל נתוניס ראשוני, סקירה של מקורות
הנתונים, תדירות הבאת הנתוניס מהמערכות התפעוליות אל מחסן הנתונים ועוד.
א. בניית מודל הנתונים הראשוני (חַחו|6ס! +03 |₪3וחו)
לאחר איתור והבנת התהליכיס העסקיים בונים מודל ראשוני של מחסן הנתוניס הנדרש.
לעיצוב משתמשיס בסמלים הלקוחיס מתרשימי יישויות- קשרים (כוה5ח36!300 עזח=
סחם - חִמְּחָבּוכ), כמו יישויות, תכונות, מפתחות, קשרים. במודל זה מציגים אותס
במבנה ייחודי למחסני נתונים: סכמות כוכב (5078₪8 ז9ז6), סכמות פתיתי שלג
(5606₪08 3866]/ו0ח5) ועוד. מודליס אלה פותחו במיוחד עבור מחסני נתוניס ומטרתס
לבנות מבנה נתוניס פשוט מנקודת מבט המשתמש, אך עם ואת בעל ביצועים טובים.
נדגיש שבשלב וה אין לבנות מודל מדויק, אלא רק מודל ראשוני מאוד המציג את יישויות
הנתוניס העיקריות במבט-על. מודל הנתוניס הראשוני יעודכן עס הזמן, בעת ההתקדמות
במחזור החייס אל השלב הבא: עיצוב ויישוס של המקטעיס השוניס במחסן הנתוניס.
ב. רמת הפירוט והעומק ההיסטורי (צסו!|סק ה0ו+ח36+6 סחה ע+ווה|טח03)
אחת העוצמות הגדולות ביותר של מחסן הנתוניס נובעת מיכולתו לנהל נתוניס מפורטיס
לפרקי זמן ארוכיס. יחד עס זאת, קייסם מבחן של עלות-תועלת גס בנושא זה. שמירת
נתוניס מפורטים לאורך זמן הינו תהליך יקר הדורש משאבי מחשוב מרובים ויש לו
8 מחסנל נתונים
השפעות רבות על הביצועיסם של השאילתות. בשלב מוקדס דרושה החלטה על רמת
הפירוט הנדרשת עבור סוגי הנתוניס השוניס.
לעומק ההיסטורי של הנתוניס שינוהלו במחסן הנתוניס יש השלכה על גודל בסיס
הנתונים, על סוגי ניתוחי המידע שניתן יהיה לבצע ועל מדיניות הגיבוי והשחזור. ככל
שהעומק ההיסטורי רב יותר, היקף הנתונים שינוהל גדול יותר שיאפשר ניתוחי מגמה רב-
שנתיים. לעומת זאת, ניתן לקבוע עומק היסטורי קצר שיפגע במידה מסוימת באפשרות
לבצע ניתוחי מידע רב-שנתיים. העומק ההיסטורי יכול להיות שונה עבור תקופות זמן
שונות. כך למשל, ניתן לקבוע שנתוני השנה האחרונה ינוהלו באופן המפורט ביותר, ונתוני
שניס קודמות ינוהלו בצורה סיכומית בלבד.
ניתן בשלב וה להחליט על רמה בסיסית של עומק היסטורי בעת הקמת מחסן הנתוניס
ולאחר מכן להרתחיב את רמת הפירוט והעומק שלה. אחת המטרות העיקריות של
המתודולוגיה היא להקטין סיכוניס בכישלון הפרויקט ולאפשר הקדמת תוצרי ביניים. על
כן, אפשר להחליט שבשלב ראשון העומק ההיסטורי יהיה נמוך (למשל שני רבעוניס בלבד)
ורק לאחר תקופה מסוימת של בחינת מחסן הנתוניס העומק ההיסטורי יורחב לשנה
ולאחר מכן לשנתיים. להחלטות אלו יש משמעות מבחינת התועלות שניתן להפיק ממחסן
הנתוניס בשלבי הפרויקט הראשונייס. לעיתיס כדאי להקריב חלק מהתועלות על חשבון
היכולת לטפל במחסן נתוניס בעל גודל סביר, לפני שעובריס לנהל בסיסי נתוניס ענקיים -
5 (2856 2818 06ז8 1 זט /ע).
ג. בחינת מקורות הנתונים (פו5צ!3ח// 50665 3%43)
בשלב וה בוחנים ומאתרים את מקורות הנתוניס הדרושים לתמיכה בנושאי המידע
ובתהליכים העסקיים שהוגדרו בשלב הקודם. ליישוס מחסן הנתוניס דרושים מקורות
נתוניס שוניס שחלקס מצוייס במערכות התפעוליות של הארגון וחלקס מצוייס במערכות
חיצוניות לארגון (כמו סקרי שוק, דוחות של הלשכה המרכצית לסטטיסטיקה וכדומה).
הפלט הסופי של שלב גה הינו מטריצה של נושאים/מקורות, המגדירה לכל נושא את
מקורות הנתונים הרלוונטיים עבורו. לכל מקור שיאותר יש להגדיר מספר מאפיינים,
וביניהס :
> איזו מערכת מידע תפעולית מנהלת את מקור הנתוניס.
> מה צורת ותדירות העדכון.
> סביבת החומרה בה מנוהל מקור הנתוניס.
> סביבת התוכנה (מערכת הפעלה, מערכת לניהול בסיסי נתוניס, מערכת תקשורת
וכדומה).
> אילוצים מיוחדים.
פרק 12: מתודולוגיה ליישוס מחסן נתוניס | 299
ד. בחינת תהליכי שליפה וגזירה של הנתונים (פַחוכְכ3!) +46ז3ד 0+ 766ט50)
גוירת הנתוניס הדרושיס ממחסן הנתוניס היא הפעולה הראשונה בדרכם של הנתונים
מהמערכות התפעוליות אל מחסן הנתוניס. בתהליך השליפה והגזירה של הנתוניס דרוש
מנגנון מיוחד שיבטיח שהס עקביים, עדכניים ומאורגניס במבנה מתאים. בתהליך וה
מתבצעות פעולות נוספות, הכוללות את הכנת הנתוניס לקראת העברתם למחסן הנתונים,
וביניהס :
+> בדיקה האס הנתוניס אמוריס להחליף נתוניס אחריס במחסן או להתווסף אליהסם.
* ניקוי וטיוב הנתוניס.
+ סינון נתוניס.
> סיכומיס וחישוביס.
> פירוק הנירמול שלהס (28000!ו|8ח זסחספ).
> הוספת מימד הזמן לנתונים.
%> שילוב נתוניס ממקורות שוניס (דואר אלקטרוני, מאגרי מידע חיצונייס וכדומה).
לאחר הגדרת מקורות הנתוניס ותהליכי ההתמרה (טרנספורמציה) שעליהם לעבור, ניתן
לבחון בכליס קיימיס המסוגליס לבצע את הפעולות שהוגדרו. בכל מקרה, נשתמש בכלל
אצבע פשוט: ככל שתהליכי העיבוד וההתמרה מורכביס יותר, הסיכוי לבצע אותס
באמצעות כלים אוטומטייס הולך ופוחת. לכך תידרשנה תוכניות מיוחדות שתיכתבנה
בשפת תכנות סטנדרטית כלשהי. מקובל גם להניח שבשלב ראשון רצוי לפתח תוכניות
מיוחדות ורק לאחר לימוד התנהגות הנתוניס ומורכבות העיבודיס לחפש כליס
לאוטומציה.
ה. הגדרת תדירות העדכון והעברת הנתונים
באופן טבעי, הנטייה היא לבנות מחסן נתוניס שרמת העדכניות שלו גבוהה. טעינת מחסן
הנתוניס מתבצעת בתהליכי גזירה חוזריסם שלאחריהם טעינת הנתונים שנגזרו. ניתן להגיע
לרמת עדכניות גבוהה, ואפילו יומית. אפשר לחזור על פעולה זו גס מספר פעמים ביום, אך
בדרך כלל אין צורך לעשות זאת. מחסן הנתוניס משמש לתמיכה בתהליכי קבלת החלטות,
ואינו מיועד לשרת צרכים תפעוליים שוטפים, ולכן סביר להניח שרמת עדכניות יומית
נראית סבירה.
עס ואת, חשוב לבחון סוגיה זו, כדי ללמוד האס באמת דרושה רמת עדכניות יומית.
העדכון היומי של מחסן נתוניס כרוך במאמ תפעולי רב, ולכן צריך לבדוק האס הוא
כדאי. לעיתיס מתברר שבגלל אופי הנתונים, או בגלל אופי ניתוחי המידע, גם עדכניות
שבועית, חודשית ואפילו רבעונית מספיקיס בהחלט. לדוגמה, במערכת בנקאית מבצעיס
חישובי ריביות רק פעס בחודש, ולכן אין כל משמעות לביצוע ניתוחיס במהלך החודש.
הגדרת נפחי הנתונים המועברים יכולה להכתיב גס כן את תדירות ההעברה. לדוגמה,
בחברת טלפוניס מצטבריס מדי יוס עשרות ומאות מיליוני רשומות של פרטי שיחה -
₪ (366070 [ו619כ |ו68). העברת נתוניס בכמויות אלו פעס בשבוע עלולה לגרור זמן
עדכון לא סביר, ולכן צריך לשקול עדכון יומי של מחסן הנתוניס.
0 מחסני נתונים
טכנולוגיה
א. הגדרת מרכיבי הארכיטקטורה הטכנולוגית
בשלב וה יבוצע עיצוב העל של הארכיטקטורה הטכנולוגית (ףּסופָס|סחח66ד
+חחקפטום 076ז60+וח6זה) הכוללת את הגדרת התשתיות השונות הנדרשות והאינטגרציה
ביניהס. מטרת הארכיטקטורה הטכנולוגית להציג את התמונה הכוללת של כל המרכיביס
הנדרשיס ליישוס מחסן הנתוניס, הן בטווח הקצר והן בטווח הארוך. מטרת תהליך עיצוב
זה במסגרת תוכנית האב איננה לקבל החלטות סופיות לגבי כל אחד מהמרכיביס
הטכנולוגייס (כמו בסיס הנתוניס, מערכת ההפעלה של השרת, מהם כלי גזירת הנתוניס
וכדומה), אלא בעיקר לבחון את הטכנולוגיות הקיימות כיוס בארגון ואת מידת התאמתן
לצרכים, ולקבל אומדן סביר לגבי היישימות והעלויות.
דוגמה לבחינת מרכיבי הארכיטקטורה היא ארגון שמבוסס רק על מחשביס מרכזייס
ומבקש לראשונה ליישס פרויקט בקנה מידה משמעותי עס מערכת הפעלה מסוג אוח( על
שרתים מרובי-מעבדים (סו5 או ק;!א). דוגמה אחרת היא ארגון המבקש ליישס מחסן
נתונים מבוור, שבו השרת העיקרי יבוסס על מערכת הפעלה אוח בעוד השרתיםס של
מרכולי הנתוניס יתבססו על דא פאוססחו//ש.
החלטות מפורטות לגבי כל אחד מהרכיביס יכולות להתקבל בשלב מאוחר יותר, לאחר
אישור תוכנית האב. מטרת הצגת התמונה הארכיטקטונית של מחסן הנתוניס בשלב
ראשוני זה היא לאפשר לארגון לבחון את כל המשמעויות ואת צורת ההתארגנות שלו
לקראת יישוס הטכנולוגיות החדשות שעליהן יתבסס מחסן הנתונים.
לסיכום, שתי החלטות עקרוניות צריכות להתקבל בשלב זה: מחסן נתוניס מרכני, מרכול
נתוניס או שילוב ביניהס ורמת הפירוט והעומק ההיסטורי של הנתוניס. על בסיס החלטות
אלו ניתן לבחון קשת שלמה של נושאים טכנולוגייס, אשר ישפיעו על ארכיטקטורת מחסן
הנתונים. נפרט את החשוביס שבהס:
+ בסיס הנתונים (2856 28%8): יש להגדיר על איזה בסיס נתוניס יבוסס מחסן
הנתוניס. רוב מחסני הנתוניס מיושמיס כיוס על מערכות 81/5כח, אולס עדיין
עלינו לבחון אס היישוס יהיה על שרת מסוג אוח(, על שרת דא או על שרת אחר (כמו
2 על מחשב יבמ מרכני, או 52/400 על מחשב 35/400 וכוי). אחד הפרמטריס
העיקריים שיש לשקול בהחלטה זו הוא היקף הנתונים שינוהלו: מספר עשרות
6, מספר מאות %6ץ1082) או %6ץ82ז6ד ומעלה. פרמטר נוסף מקובל הוא
מידת הפתיחות של בסיס הנתונים לכלי שאילתות ומחוללי הדוחות הנפוציס בשוק.
> שרת מחסן הנתונים (567/87 6פוַסחִ6זְּ/ 28%8): יש לקבוע את ארכיטקטורת
השרת וכושר הגידול הנדרש ממנו לטווח התכנון. השרת יכול להיות מבוסס על ריבוי
מעבדים בארכיטקטורת ק!5%, קם! או הו(וא. אחד הנושאיס העיקרייס שיש לתת
עליו את הדעת בשלב וה הוא כושר הגידול הנדרש, או מידרגיות (עו/ו508!680),
כנגזרת מגודל בסיס הנתוניס ומומני התגובה הנדרשיס. אס הארגון מתכוון לבנות
מחסן נתוניס מבוזר, צריך להגדיר את השרת העיקרי ואת שרתי הנתוניס של מרכולי
הנתוניס המבוזריס.
פרק 12: מתודולוגיה ליישוס מחסן נתוניס | 301
> שרת התמרת נתונים (ז567/6 חסוזוז0ס+5חהזד): בעת התכנון אנו בוחניס את
היקף הנתונים הנגזריס מהמערכות התפעוליות, בודקיס את הפלטפורמות השונות
והרבות המשרתות את המערכות התפעוליות ורואיס את מורכבות תהליכי הניקוי
וההכנה של הנתוניס לקראת טעינתס למחסן הנתונים. כדי לפתור בעיות אלו עלינו
להשתמש לא אחת בשרת ייעודי שתפקידו לקבל נתוניס במצב גולמי מהמערכות
התפעוליות ולבצע עליהס את בדיקות התקינות, להשלים נתוניס חסרים, לפענת
קודים ועוד. ביצוע תהליכים אלה על שרת ייעודי מקטין את העומס על שרת
הנתוניס של מחסן הנתונים ולעיתים ווהי הדרך היחידה לעמוד בחלון הזמן הקייס
לטעינת הנתונים. מקובל לקרוא לארכיטקטורה זו 7601106016 סטה, כי כל זרימת
נתוניס מהמערכות התפעוליות אל מחסן הנתוניס עוברת דרך תחנה מרכזית
השולטת על תהליכי הזרימה ומבצעת את טיוב הנתונים הנדרש.
+ תקשורת הנתונים: יש להגדיר את תצורת רשת התקשורת שתתמוך בהעברת
הנתוניס מהמערכות התפעוליות אל מחסן הנתוניס, מהמחסן הארגוני אל מרכולי
נתוניס מחלקתייס וכדומה. רוחב הפס של תשתית התקשורת הינו גורס חשוב מאוד
באמידת היכולת לעמוד באילוצי חלון הזמן הפנוי לרשות הארגון להעברת וטעינת
הנתוניס.
> כלי ביניים (6ז8 )501 6זה/ש11/00!6): לעיתיסם צריך להשתמש בכלי תוכנה
המשמשים כתווך בין פלטפורמות מחשוב שונות. לכלים אלה מיגוון תפקידים, כמו
המרת קודיס בין 5800/06 ל-|!|50, שיכפול נתוניס בין בסיסי נתוניס שוניס
(5|ססד חסוז08ו01ק46), תוכנות גישור לגישה לבסיסי נתונים שאינס בסיסי נתוניס
טבלאייס וכדומה.
> כלי קצה (0!5סד 12581 ש6חם): על פי סוגי הנתוניס שינוהלו במחסן הנתוניס וסוגי
האוכלוסיות של המשתמשים ניתן בשלב גה להגדיר ברמה העקרונית בלבד את סוגי
כלי הקצה שיידרשו. אלה יכוליס להיות כלי שאילתות ומחוללי דוחות פשוטיס,
כלים לניתוח מידע רב-מימדי, כלים סטטיסטיים, כלי כריית נתוניס וכדומה. גס כאן
ניתן להחליט על יישוס מדורג, מהפשוט אל המורכב. תחילה מפעילים כלי קצה
פשוטיס ולאחר מכן עובריס לכליס מתותכמים יותר. כאשר יודעיסם בשלב תוכנית
האב מהס כלי הקצה שיידרשו, הארגון יוכל להיערך בהתאס.
+ קטלוג הנתונים (עְז₪813/8₪600500 86%8]): קטלוג זה כולל את הנתוניס
המנוהליס במחסן הנתוניס וייעודו לאפשר למשתמשיס להתמצא: מה נמצא, היכן,
למתי זה מעודכן, מהס מקורות הנתוניס, מה קשור עס מה וכוי. בשלב זה בודקיס
את הכליס השוניס היכוליסם לשמש כבסיס לניהול קטלוג המידע. צריך לשקול בשלב
זה אס ליישס את הקטלוג מייד, או שניתן לדחות החלטה זו לשלב מאוחר יותר.
תמיכה
בפרק וה של תוכנית האב סוקריס מספר נושאיס הקשורים לצורת התמיכה במחסן
הנתונים: איזה כוח אדס נדרש לממש את הפרויקט, מהן סוגיות אבטחת המידע של מחסן
הנתוניס שיש לדון בהן ומה רמת השירות הדרושה על ידי המשתמשים השונים.
2 מחסנל נתונים
א. בחינת תשתיות כוח אדם הדרושות ליישום מחסן נתונים
ארגוניס נוטים לעיתיס להוניח את המשמעויות של מאפייני כוח האדס הדרושיס ליישוס
מחסן הנתוניס. ההנחה, המוטעית בדרך כלל, שממילא יש לנו מנהלי בסיסי נתוניס
(4מס), מפעילי מחשב ותוכניתניס - ולכן ניתן להצליח ביישוס מחסן הנתוניס ללא
תוספת משאבי אנוש. לרוב המציאות טופחת על פני מקבלי החלטות אלה בשלביס
מאוחריס יותר, ואז יש צורך להסביר כיצד זה נדרש יפתאוסיי גידול בכוח האדם. כדי
למנוע הפתעות אלו, כדאי כבר בשלב תוכנית האב להתייחס לנושא זה ולתת אומדן
ראשוני של כוח האדס הנדרש: סוג (כישוריס) ומספר עובדיס.
בשלב וה ניתן להגדיר את היקף כוח האדם על סוגיו השוניס הדרושיס ליישוס מחסן
נתוניס בארגון:
> מספר מנהלי בסיסי הנתוניס שיידרשו, הוא בדרך כלל פונקציה של גודל בסיס
הנתוניס ומורכבותו.
> מספר התוכניתניס המתחזקים את המערכות התפעוליות, שיידרשו לבניית תהליכי
גזירת הנתוניס מהמערכות התפעוליות.
> מספר התוכניתנים שיידרשו לבניית תהליכי הטיוב, ההתמרה וההכנה לקראת
הטעינה.
> מספר התוכניתניס שיידרשו כדי לבנות יישומיס ייעודייס להפעלת מחסן הנתונים.
> מספר מנתחי מערכות שיידרש כדי לתמוך באוכלוסיות המשתמשים השונות.
התייחסות לנושאי כוח אדס בשלב גיבוש תוכנית האב תאפשר לארגון להיערך בזמן, וגס
להטמיע את מלוא המשמעות ועלות תפעול שדרושה בסביבת מחסן הנתונים.
ב. אבטחת מידע
מחסן הנתונים מכיל מיגוון סוגי מידע חיוני ורגיש מבחינת הארגון. בדומה לסביבות
תפעוליות, גם במחסן הנתוניס יש להגדיר איה משתמשים יכולים לראות איזה נתוניס.
בשלב של האסטרטגיה יש לקבוע רק את עקרונות אבטחת המידע שהארגון מבקש לאמץצ,
את רמות המידור שיש ליישס וכדומה.
ג. רמות שירות
מחסן הנתוניס יהיה חלק חשוב מאוד מניהול המידע בארגון וציפיות השירות ממנו
תהיינה דומות לאלו שמצפים ממערכות תפעוליות. לפיכך יש להגדיר גם עבור מחסן
הנתוניס הסכמי רמות השירות (51.4 - 5חַ6ַח660ז) |6צ6] 6סוצז56). יש להגדיר אס
המחסן יפעל כל היממה או רק בשעות העבודה הרגילות ואיזה זמני תגובה יובטחו
למשתמשיס השונים. חלק מהמשתמשיס וקוקים לזמני תגובה קצריס מאוד לחלק
מהשאילתות והניתוחים ומוכניס להסתפק בומני תגובה ארוכיםס יותר לחלק אחר של
השאילתות.
פרק 12 : מתודולוגיה ליישוס מחסן נתוניס 303
תוכנית עבודה ליישום
פרק זה בתוכנית האב מציג את תוכנית היישוס של פרויקט מחסן הנתוניס בהתבסס על
כל ההחלטות שהתקבלו ותוך הצגת אומדניס ללוחות זמניס, לעלויות ולמשאבי כוח אדס.
א. לוחות זמנים (30165ד 6וחוד)
בשלב זה יוכנו לוחות הזמנים למימוש הפרויקט, הכוללים את פירוט שלבי הביניים ואת
מהלך היישוס של כל שלב כזה. המתודולוגיה מבוססת על שחרור חלקי של מקטעיס
שוניס של מחסן הנתוניס ולכן לוח הזמנים יציג את עיתוי היישוס של המקטעים השונים.
ב. אומדן תקציב פרויקט (ח0ו%+3ח₪5+1 +2₪006 +60[סזק)
בשלב וה ניתן לבנות את אומדן התקציב הכולל של הפרויקט. כמו בכל פרויקט, יש
להבחין בין הוצאות חד-פעמיות (865ז0/60ח6קא= פחוך 8ח0) לבין הוצאות שוטפות
(0110765ח6קא= 8חוזט460). נגדיר תחילה את הנושאיס השוניס שיש לתקצב לנושאיס
חד-פעמיים ולאחר מכן את סוגי ההוצאות השוטפות המקובלות בפרויקטי מחסן נתונים.
+ הוצאות חד- פעמיות:
>= חומרה: מעבדיס, דיסקיס, תקשורת, מחשביס אישייסם, אמצעי גיבוי מיוחדיס.
> תוכנה: מערכת לניהול בסיס הנתונים, כליס למשתמשי הקצה, כלים לניהול
מערכת, כלים לגזירה והמרה של הנתונים, כליס לניהול קטלוג הנתוניס.
* כות אדם: המשאבים הנדרשים לתקופת הפרויקט, עלויות הדרכה לשימוש
במוצריס החדשים.
> הוצאות שוטפות:
= עלויות תחזוקה של כל המוצריס שנרכשו.
* עלויות גיבוי הנתונים.
* עלויות הדרכה שוטפות.
* עלויות כוח אדם לתפעול שוטף של מחסן הנתונים, ובכלל גה מנתחי מערכות,
מפתחים, אנשי תפעול, מנהלי בסיס נתונים, אנשי תקשורת.
עלויות משאבי המחשב של הסביבה התפעולית המוקדשים לתהליכי הגוירה וההתמרה.
השאלה המעניינת ביותר היא: כמה זה עולה. לצערי, התשובה על שאלה זו מורכבת וכמו
תמיד - תלויה בלא מעט גורמים ייחודיים לכל ארגון וביניהם:
> גודל הארגון.
> הארכיטקטורה של מחסן הנתונים - מרכזי או מבוזר.
> רמת הפירוט של הנתוניס ונפחס.
+> כמות ההיסטוריה שהארגון מבקש לנהל.
4 מחסני נתונים
+> כמות הסיכומיס שיש לנהל.
> רמת התתכוס של משתמשי הקצה.
> מספר המרכוליס שהארגון מבקש לבנות.
> רמת האוטומציה שהארגון רוצה להכניס בתהליכי הגזירה וההמרה.
מכל האמור לעיל עולה תמונה ברורה שאין מושג ''ארגון טיפוסייי או ייפרויקט מחסן
נתונים טיפוסייי. השונות בין הארגונים והפרויקטים יכולה להיות גדולה מאוד. המידע
היחיד בתחום וה מתייחס לחלוקת עוגת התקציב בין סעיפי ההוצאה השונים. מתוך
מחקרים שונים שנעשו על ידי חברות כגון קטסז) 648/!, עולה התמונה הבאה :
> אם מתייחסים לעלויות הפיתוח בלבד, החלוקה היא בערך שליש לכל אחד
מהסעיפים חומרה, תוכנה ועבודה.
> אם מתייחסים למחזור החיים המלא של מחסן הנתונים, נקבל: חומרה - 15%,
תוכנה - 13%, עבודה - 31% ותחזוקה - 41%.
שלב 3: עיצוב ויישום מקטע
(החסו+9+ח6וח6!כןוח] +ה6וה6ז6חה] 56טסח6זב3ּ// בּזְבּ)
מהות השלב
בגמר הכנת תוכנית האב של מחסן הנתוניס ואישורה על ידי ההנהלה, מתחיל למעשה שלב
העיצוב והיישוס של מחסן הנתוניס. ניתן לחלק שלב וה לשני שלבי משנה עיקריים:
+ בניית המקטע הראשון של מחסן הנתונים, או כמו שהוא נקרא לעיתים מקטע
הבסיס. במובן מסוים ניתן לראות את מקטע הבסיס כפרויקט ניסוי (4סוו₪1) למימוש
תפיסת מחסן הנתונים.
* בניית המקטעים הבאים, מקטע אחר מקטע ולפעמיס מספר מקטעים במקביל.
בניית מקטע הבסיס (6חו!2356)
מקטע הבסיס אינו שונה ממקטעים אחרים, למעט העובדה שהוא הצעד הראשון של
הארגון למימוש תפיסת מחסן הנתונים. במסגרת מקטע זה מתחיל הארגון להתנסות
לראשונה בחוויה של בניית מחסן הנתוניס ולכן חשיבותו נובעת מהלקחים שניתן להפיק
ומהתשתיות שנבנות וישרתו את המקטעיםס הבאים. בהמשך נפרט מספר נושאים
המדגישים את החשיבות וההתייחסות המיוחדת שיש לתת למקטע הבסיס.
> בשלב יישוס מקטע הבסיס הארגון צריך להתקין את סביבת המחשוב החדשה. עבור
חלק מהארגוניס המשתמשים בפלטפורמות מחשוב אחרות (כגון מחשביס מרכניים,
מחשבי 45/400, מחשבי 115//החס| וכדומה), זו יכולה להיות התנסות ראשונה
בהתקנה ובהפעלה של פלטפורמות מחשוב המבוססות על שרתי אוחש או דא (עבור
פרק 12: מתודולוגיה ליישוס מחסן נתונים | 305
מחסני הנתוניס הקטניס יותר). ייתכן שזו תהיה התנסות ראשונה בהתקנת והפעלה
של מערכת 0815א, התנסות ראשונה בעיצוב בסיסי נתונים ייעודיים למחסני
נתוניס, התנסות ראשונה בכלי ניתוח מידע רב-מימדיים וכדומה. התנסות חדשה זו
מחייבת גם תהליכי הכשרה של כוח אדס.
> בשלב יישום מקטע הבסיס נקבעים תקנים שונים, נקבעים נהלי עבודה חדשים,
נקבעים כלי תשתית שישמשו את שאר המקטעים, ועוד. בגלל הראשוניות, טבעי הוא
שנעשות שגיאות שנובעות בחלקן מחוסר מידע על דבריס צפוייס בהמשך הפיתוח,
ויהיה צורך לבצע תיקונים שונים. היתרון נובע מהעובדה שאת הלקחים והניסיון
שנצבר במקטע הראשון ניתן ליישס ביישוס המקטעיס הבאים. אין ה בא לומר
שלאחר יישוס מקטע הבסיס אין לומדיס יותר וכל שנשאר זה רק ליישם. חלק
מהטעויות מתגלות בשלבים מאוחריס יותר, וככל שמתרחקים מנקודת ההתחלה
תהליכי התיקון עלוליס להיות מורכבים יותר.
> לעיתים הארגון עדיין אינו משוכנע לחלוטין בהצדקה הכלכלית להפעלת מחסן
הנתוניסם ואינו יכול להעריך את התועלת הצפויה. על כן, מקטע הבסיס משמש
להרצת ניסוי של תפיסת מחסן הנתונים. הארגון מפעיל מקטע זה, בוחן את
ההשקעות, את הטכנולוגיות שהוא מפעיל ואת התועלות השונות וצריך להשתכנע
שהדרך שהוא הולך בה אמנס מסוגלת לתת מענה טוב לדרישות. רק לאחר שהארגון
משתכנע ביישימות הפרויקט מתחיל תהליך בניית מחסן הנתונים.
עיצוב ובניית מקטע
בשלב זה מתבצע תהליך העיצוב המפורט של כל אחד מהשלבים שפורטו לכל אחת
מקטגוריות הנושאים שמרכיבים את מחסן הנתוניס. רוב הנושאים שמופיעיס בשלב זה
נדונו בהרחבה במסגרת הספר, ולכן לא נחזור על התיאור המפורט שלהם, אלא רק נציין
את עיקרי המטלות שיש לבצע.
פונקציונליות
בשלב הזה מתבצע התכנון המפורט של סוגי ניתוחי המידע שיבוצעו מול מחסן הנתוניס.
ייבדק מי המשתמשים ואיזה כלים יועמדו לרשותם. במידת הצורך, יפותחו יישומיס
ייעודייסם או שאילתות מוכנות מראש עבור אוכלוסיות משתמשים מסוימות.
נתונים
בשלב זה מתבצע העיצוב המפורט של הנתוניס הכולל: מודל הנתוניס המדויק, מיפוי
מפורט של נתוני המקור, הגדרת כללי ההמרה של הנתונים, עיצוב מפורט של תוכניות
הגזירה וההמרה, הגדרת שיטת ניהול המפתחות המלאכותיים ועיצוב המנגנוניס לניהול
מפתחות אלה, עיצוב תהליכי הטעינה של הנתוניס אל מחסן הנתונים, הגדרת שיטת
הטיפול בשגויי טעינה, תהליכי בניית האינדקסים של מחסן הנתונים, עיצוב הסיכומיס
שינוהלו במחסן הנתוניס וצורת בניית הסיכומיס.
6 מחסני נתונים
בגמר תהליכי העיצוב מתחיל תהליך הבנייה והפיתוח של מרכיבי התוכנה השוניס
ומתבצעיס מבחני קבלה של מרכיבי תוכנה אלה.
ארכיטקטורה טכנולוגית
בשלב וה מתבצעת הגדרה מדויקת של סביבות החומרה, התוכנה והתקשורת של
הפרויקט. גס מבוצע רכש במידת הצורך ומבוצעת ההתקנה. לאחריה נעשית הדרכה
לשימוש בכלים השוניס ובסופס - מבחני אינטגרציה של סביבות הפיתותח והייצור
החדשות כדי לוודא שהן תקינות ומוכנות להפעלה.
תמיכה
בשלב זה מגדירים במפורט את סוגי משאבי כוח האדס הנדרשים לפרויקט ואת מספר
האנשיס הדרושים, מגייסיס עובדיס כנדרש (מחוץ לארגון או מתוכו), נמשכת הדרכה
לשימוש בכלי העבודה מול מחסן הנתונים, מוגדריס שיטות התפעול של סביבת מחסן
הנתוניס.
שלב 4: תפעול, תמיכה ושיפור
מהות השלב
בשלב וה מתחיליס בתפעול שוטף של מקטע מסוים, על כל המשתמע מכך: תפעול תהליבי
הגזירה והטעינה, תפעול כלי המשתמש וכדומה. עכשיו מתחילים בניטור שוטף של ביצועי
השאילתות השונות, מתבצעיס תהליכי כוונון כפי הצורך, עורכיס שינוי במבנה הנתוניס
כתוצאה מדרישות שוטפות, מלוויס את הפרויקט וממשיכים בהדרכה שוטפת
למשתמשים, ועוד.
מספר עצות מעשיות בבניית מחסן הנתונים
קל מאוד לאבד את המיקוד בעת בניית מחסן הנתונים, אם יוצאים מתוך ההנחה,
המוטעית כמובן, שמחסן הנתוניס צריך להכיל כל פיסת נתון שהארגון מנהל. האמת היא
כמובן שונה: מחסן הנתונים צריך לנהל את אותם נתונים המשמשים את תהליכי קבלת
ההחלטות. הסיכויים להצליח ביישוס יהיו הרבה יותר גבוהים, אס מחסן הנתונים יכיל
וישלב רק את אותס נתוניס שהס בעלי הערך הגבוה ביותר בתהליכי קבלת ההחלטות.
הדרך הנכונה היא למצוא את המספר הקטן ביותר של מקורות נתונים שיתנו את מירב
התועלת - קל להגיד אבל קשה לממש. ננסה להציג בהמשך אוסף של עצות מעשיות,
שיאפשרו לך לבנות את מחסן הנתוניס באופן ממוקד ובסופו של דבר יגדילו את סיכויי
הצלחתו.
פרק 12: מתודולוגיה ליישוס מחסן נתונים | 307
השיקולים להקמת מחסן הנתונים חייבים להיגזר
מאסטרטגיית הארגון
מחסן הנתונים אינו פרויקט טכנולוגי שמונחה על ידי יחידת המחשב של הארגון. לפנינו
פרויקט ארגוני, ובתור שכוה הוא חייב להתבסס על היעדים האסטרטגיים של הארגון
ולהיות מסונכרן אתס. רק מחסן נתוניס המתואסם עס היעדים האסטרטגיים ותומך בהם
באופן ישיר הוא מחסן שיצליח ויצדיק את ההשקעה בו. אל תחסוך במאמצ הנדרש בשלב
בחינת הצורך העסקי ובשלב גיבוש תוכנית האב, כדי לּהות את היעדיס האסטרטגיים של
הארגון ולהבין כיצד מחסן הנתוניס יתמוך בהם.
האחריות לביצוע הפרויקט
אחת השאלות שעולות תדיר בפרויקטיס בכלל ובפרויקטי מחסן נתוניס בפרט היא, מי
צריך לעמוד בראש הפרויקט. התשובה לכך פשוטה מאוד: הלקוח. אין הכוונה לכך
שהניהול היומיומי של הפרויקט, שהינו בעיקר פרויקט תוכנה, צריך להיות מנוהל על ידי
הלקות. הכוונה לכך שהלקות צריך להרגיש ייבעלותיי על הפרויקט ולהיות מעוניין
בהצלחתו.
הדרך לקדס את מעורבות הלקוח הארגוני בביצוע הפרויקט היא לגרוס למנהל בכיר מצד
המשתמשים לעמוד בראש ועדת ההיגוי. ועדת ההיגוי צריכה להיות פעילה ומעודכנת
באופן שוטף בהתקדמות בפרויקט. אחת הסוגיות המעניינות היא שבמהלך הקמת מחסן
נתוניס כלל ארגוני שעשוי להימשך מספר שנים, מתחלפים הנושאים המטופליסם ובאופן
טבעי גם המשתמשים. לכן, כדאי שבשלב הקמת המקטע השיווקי יעמוד בראש ועדת
ההיגוי סמנכייל שיווק, ובשלב הקמת מקטע העוסק בניתוחי תקלות בקו הייצור יעמוד
סמנכייל תפעול או מנהל אבטחת איכות.
המתודולוגיה מבוססת על שלב ראשון של גיבוש תוכנית אב, שבה עדיין לא ברור איה
מקטעיס ייושמו ומתי, סביר שבשלב זה יעמוד בראש ועדת החיגוי סמנכייל טכנולוגיות
מידע (או מנהל אגף מחשוב, על פי מיקומו בהיררכיה הארגונית). מכאן והלאה יש להעביר
את האחריות לידי הלקוחות - מנהלי אגפים בארגון - וכל המקדים הרי זה משובח.
התחל בפרויקט ניסוי (+66[סזק +סווק)
הדרך הטובה ביותר להתחיל את המסע להקמת מחסן הנתוניס היא על ידי ביצוע פרויקט
ראשוני בעל היקף ויעדים מוגבליס יחסית. רצוי שפרויקט ראשוני זה יתבסס על אוסף
הנתוניס הקריטייס ביותר לארגון, ולא על נתוניס בעלי רמת חשיבות נמוכה. צמצוס
היקף הפרויקט הראשוני יפשט ויקצר מאוד את זמן הקמתו ובאופן טבעי - ישפר את
סיכויי הצלחתו. צמצוס היקף הפרויקט יקטין גס את התועלות הצפויות ממנו, אולס
תיאוס ציפיות עס ההנהלה והמשתמשיסם העתידיים והדרכה נלווית יכוליס להבטיתח
שהמטרות ברורות ולא תהיינה אכזבות מאי מימוש ציפיות.
8 מחסני נתונים
פרויקט ארגוני
חשוב להתייחס אל פרויקט הקמת מחסן הנתונים כאל פרויקט ארגוני הדורש משאבים
מיוחדיס ותשומת לב ניהולית שוטפת. למעט מקרים נדירים של הקמת מרכול נתונים
קטן, פרויקט הקמת מחסן הנתונים חינו מורכב, מנצל מתודולוגיה שתלווה אותו לאורך
כל מחזור חייו, ומשלב צוות מגוון של בעלי כישוריס בתהליך הקמתו ותפעולו.
הקמת ועדת היגוי בראשות משתמש בכיר, מעקב שוטף אחר הפרויקט, שילוב
המשתמשיס באופן מלא, עלות גבוהה - אלה הס רק חלק מהמשמעויות של פרויקט
ארגוני. כמו בכל פרויקט ארגוני מעורבות ההנהלה לאורך כל שלבי הפרויקט הינה חיונית
להצלחתו. אל תסכיס שהארגון ישלס מס שפתיים בלבד, אלא עמוד על כך שתהיה
מעורבות פעילה ושוטפת במהלך הפרויקט.
אל תזלזל במאמץ מיפוי נתונים והעברת הנתונים
אל תולול במאמצ הנדרש למיפוי מקורות הנתוניס ובמאמץ השוטף הנדרש להזרימס
מהמערכות התפעוליות אל מחסן הנתונים. בדרך כלל הו השלב הקשה והמתסכל ביותר.
כי רוב המאמ נעשה מאחורי הקלעיס והמשתמשים יודעים עליו מעט מאוד, והוא גס
אינו ווכה להכרה ששלביס אחרים ווכיס בה. כל הפעלה של שאילתה חדשה המביאה
תועלת עסקית כלשהי, או הכנסה לשימוש של כלי קצה כלשהו, ווכיס להכרה מצד
המשתמשיס והמנהלים. למרות כל האמור לעיל, חלק ניכר מהצלחת פרויקט מחסן
הנתוניס נובע מביצוע שלב אפור ומייגע ה, של הבאת הנתוניס מהמערכות התפעוליות,
טיובס וטעינתס למחסן הנתוניס.
טפל בבעיות אמינות הנתונים החל מהשלב הראשון
קיימת נטייה טבעית להתעלס מבעיות הקשורות לאמינות הנתוניס במערכות התפעוליות,
ולנסות לבחור בקיצורי דרך שונים. הדרך הנכונה היא לא להתעלסם מבעיות אלו, אלא
לנסות להתמודד איתן כבר בשלבי הפרויקט הראשונים. איכות הנתוניס הנכנסיס למחסן
הנתוניס קריטית להצלחתו, ולכן יש להבטיח זאת. קיצורי דרך או התעלמות מאיכות
הנתוניס יכולים להביא לטעויות חמורות בניסיון להסיק מסקנות כלשהן מהפרויקט
הראשוני לגבי הצפוי בתחילת היישוס האמיתי. לצערי, לעיתים לא ניתן לפתור את בעיות
איכות הנתוניס, אלא על ידי ביצוע שינויים במערכות התפעוליות, דבר ארגוניס רביס
מעדיפים להימנע ממנו. עס ואת, המסקנה היא שצריכים להיות מודעים לכך כבר
בהתחלה, ולא לדחות את הטיפול לשלביס מאוחרים יותר.
פרק 12 : מתודולוגיה ליישוס מחסן נתוניס | 309
הייה מציאותי בכל הקשור לבעיות סנכרון הנתונים
בתוך מחסן הנתונים
כפילות נתונים היא תמיד מקור לבעיות. הבעיה היא שתפיסת מחסן הנתוניס מבוססת על
כפילות נתוניס: כפילות הנובעת מניהול כפול של נתוניס במערכות התפעוליות ובמחסן
הנתוניס, וכפילות נתונים המנוהלת במחסן הנתונים עצמו מתוך מטרה לשפר את ביצועיו
(למשל ניהול של נתונים מסוכמים). במשך שנים למדנו עד כמה כפילות נתונים יכולה
להויק ומהי רמת הסיכון בניהול נתונים כפולים, גס למדנו טכניקות שונות שמטרתן
העיקרית היתה מניעת כפילות נתונים. והנה אנו צריכיס להכיר בייעובדת החיים" של
כפילות הנתוניס באמצעות מחסן הנתוניס.
כפילות נתוניס שנכפית עלינו בעולס מחסן הנתונים מחייבת חשיבה ותכנון מדוקדקיס
מראש, כדי למנוע ולמזער את הבעיות האפשריות. אחת הבעיות הכאובות ביותר היא
מציאת אי התאמות בדיווחים שונים שמקורס במערכות התפעוליות לעומת דיוותחי מחסן
הנתוניס. בעיה זו גורמת לאיבוד אמון המשתמשים באמיתות הנתוניס המנוהליס במחסן
הנתוניס. המאמ לשמור על סינכרון בין המערכות התפעוליות לבין מחסן הנתוניס הינו
מאמצ בלתי פוסק ומקור לאכזבות וקשיים. יש להתייחס לנושא זה ברצינות הראויה
ולבנות מראש מנגנוני בקרה והשוואה, שיאפשרו לאתר מוקדס ככל הניתן את אי
ההתאמות ולטפל בהן.
בחר בתבונה את כלי הקצה
בסופו של דבר, הכליס העומדיס לרשות משתמשי הקצה הס החלון שדרכו המשתמשים
מתבונניס ומנתחיס את הנתוניס המנוהליס במחסן הנתונים. מומלצ להקדיש ומן ללימוד
ולהערכת כלי הקצה השוניס, הן מנקודת מבט המשתמש והן מנקודת מבט אנשי המחשוב
(תפעול הכלי, בטיחות נתוניס, ניהול שוטף וכדומה).
בנה הערכה ריאלית של כוח האדם הנדרש
מחסן הנתוניס הינו תוצר של עבודת צוות ממספר דיסציפלינות מחשוב שונות:
משתמשים, מנהלי בסיסי נתונים, מנתחי מערכות, מומחים לכלי קצה שונים, מפתתי
תוכנה, אנשי תפעול וכדומה. קח ואת בחשבון ואל תניח שמחסן הנתוניס שאתה עומד
להקיס לא ידרוש משאבים אלה. לעיתיס קורים ניסים, אבל לא בכל הקשור להקמת
ולתפעול של מחסני נתונים. הייניסיסיי קורים ופועלים רק בוכות המאמצ והדבקות
במטרה של צוות הפרויקט לאורך זמן.
0 מחסנל נתונים
הגדר את כללי אבטחת המידע
מחסן הנתונים מכיל מידע רגיש וחשוב ולכן יש לתת את הדעת על ההרשאות שתינתנה
למשתמשיס במטרה לוודא שכללי אבטחת מידע יקוימו. במערכות התפעוליות ההגנה על
הנתוניס מתבצעת על ידי היישומים עצמס. לעומת זאת, במחסן הנתונים יש למשתמש
חופש פעולה גדול יותר והוא ניגש באופן ישיר לנתוניס ללא יישומיס מתווכים. כלי הקצה
השוניס ובסיס הנתוניס עצמו מספקים רמות שונות של הרשאות, שבאמצעותם ניתן
לפתור חלק גדול מבעיות אבטחת המידע.
צפה שעלויות הקמת מחסן הנתונים
תהיינה גבוהות מהמתוכנן
פרויקט מחסן הנתוניס אינו פרויקט זול, גם אס מיישמים מרכול נתונים על שרת קטן
יחסית. מעבר למשפטים המרגיעיס שספקי הכלים משמיעים ומעבר למתודולוגיות
האינסטנט השונות, כל הקמה של מחסן נתוניס ותפעולו היא אתגר של ממש. יש לזכור
שייהתאבון בא עס האכילהיי, ולכן יישוס מוצלח בשלביס הראשוניס מעורר מייד דרישות
חדשות שלא נצפו מראש, שמאחוריהן מסתתרות עלויות חומרה ותוכנה ומאמצי יישוס
חדשים, וחוזר חלילה. כלומר, ההצלחה היא שסוחפת את גידול העלויות.
טבעס של מחסני הנתונים לגדול ולגדול, ומי שהתנסה בניהול בסיס נתוניס גדול יודע את
האתגר המיוחד הזה. עלויות החומרה, הרשיונות של כלי הקצה, עלויות כוח אדס תומך -
כל אלה הס רק חלק מהעלויות. חלק מהעלויות מוסתר בצוותי תוכנה של המערכות
התפעוליות המחלציס את הנתוניס מהמערכות התפעוליות, ועוקביס אחר הדרישות
המשתנות מדי פעם, כדי שהמשתמשים יוכלו לעקוב אחר השינוייס בתהליכיס העסקייס
של הארגון.
בנה קטלוג נתונים טוב
חלק גדול מהצלחת פרויקט מחסן נתוניס נובע מקטלוג נתוניס טוב המאפשר למשתמשיס
להתמצא בנבכי מחסן הנתונים, להבין את משמעות הנתונים, להבין את רמת עדכניותם,
מהיכן נגזרו וכדומה. חשוב לעשות מאמצ ארגוני וכספי כדי לבנות קטלוג נתוניס ראוי,
למרות שהכלים הקיימיס כיוס לניהול קטלוג נתוניס הס מוגבליס יחסית ואינס מסוגליס
לכסות את כל הספקטרוס של סוגי המידע שיש לנהל בקטלוג.
פרק 12: מתודולוגיה ליישוס מחסן נתוניס 311
למד את המשתמשים המתוחכמים ואת מנתחי
המידע כיצד לבנות שאילתות טובות
פרויקט מחסן הנתוניס מיועד לאפשר למשתמשים לפעול באופןו עצמאי באמצעות כלי
השאילתות והניתות. היכולת של המשתמשיסם להפעיל את הכליס באופן עצמאי וללא
תיווך יחידת המחשב הינו גורס חשוב בהצלחת הפרויקט. על כן, אל תחסוך במאמצ
להדרכת המשתמשים. צריך לאפשר למשתמשים להציג בעצמס את דרישותיהם למידע
באמצעות שאילתות שהם ינסחו, ולא באמצעות שאילתות שיפותחו עבורס מראש על ידי
אנשי תוכנה.
העוצמה של מחסן הנתוניס נובעת מתהליכי גילוי הנתוניס והמידע, תהליכים שיכוליס
להתרחש רק אס המשתמשיסם המביניס את משמעות הנתוניס יתחילו לחקור את הנתוניס
בעצמם. מכיון שהמשתמשים לא בהכרח יודעיס כיצד כלי השאילתות פועלים, הס יכוליס
לבנות בקלות שאילתות לא יעילות שזמן התגובה שלהס בלתי נסבל ומבזבו משאבי מחשב
יקריס והתוצאה - אי שביעות רצון. חשוב להסביר למשתמשים כיצד בוניס שאילתות
יעילות ולאפשר להס לבחון את ביצועי השאילתות שהס בוניס.
סיכום
פרק זה עסק במתודולוגיה להקמת מחסני נתונים. כפי שראינו, מחזור החיים של מחסן
נתוניס שונה ממחזור חייס של מערכת מידע רגילה. מחזור החייסם שהוצג שס דגש מיוחד
על שני השלמיסם הראשונים, שבדרך כלל הארגוניס נוטיס להזניחס: בחינת הצורך העסקי
וגיבוש ארכיטקטורת-על. יש חשיבות רבה לכך שמחסן הנתוניס יהיה חלק מאסטרטגיית
המידע של הארגון וישתלב בתמונה הכוללת.
אני מניח שעכשיו, לאחר שהקורא סייס את קריאת הספר, ברור לו שהקמת מחסן נתוניס
היא תהליך מורכב, יקר ולעיתיסם ארוך. מכל הטעמיס האלה נובע שארגון שמתחיל
ביישוס מחסן נתוניס צריך לשאול את עצמו מספר שאלות, כגון: מהן מטרות המערכת
החדשה, אילו תועלות היא תביא, מהס הנושאיס שתטפל בהם, מהס סדרי העדיפות
ליישוס, מי הס המשתמשיס העתידייס במערכת, מהי העלות להקמה ותחזוקה, איוה
משאביס דרושים, ועוד. ארגוו שלא ישאל את השאלות הראויות ולא ינתח את התשובות
המתקבלות, מסתכן בכניסה לפרויקט שסיכויי הצלחתו נמוכים.
התועלת והחשיבות של סביבת מחסן הנתוניס לארגון הס כה רבים, שאסור לארגון
הסתכן בכישלון. השהיית תהליך ההקמה של מחסן הנתוניסם, או ביטולו, עלולה לגרוס
אבדן ומן יקר שאינו בנמצא עבור ארגון הפועל בסביבה תחרותית, ואפילו לגרוס לארגון
נזקיס גדולים.
לפיכך נחזור על דברינו: בדוק, החלט, תכנן והחל בתהליך היישום.
2 מחסנל נתונים
נספח א': מילון מונחים
מילון המונחים מציג באופן תמציתי את
המונחיס העיקריים שנסקרו בספר וה. המילון
מוצג במיון אלפביתי על פי המונח הלועזי. ליד כל מונח לועזי מופיע המונח העברי וכן
תיאור תמציתי של המונח.
מונח לועזי מונח עברי | עמוד תיאור המונח
6וז ו | תכונות ברות
5 וז | חיבור
ץזפטוב) 0-06 | שאילתה
מודמנת
0-9
0
08| | תהליך אנליטי | 69
5 71
00
תכונות נומריות המנוהלות בטבלת העובדות, שניתן
לבצע עליהן פעולות אריתמטיות במיגוון חתכיס
שוניס ולקבל תוצאה בעלת משמעות.
שאילתה שלא ניתן להגדירה מראש. שאילתה זו
נבנית בדרך כלל על ידי המשתמש בעת הצורך, תוך
שימוש במחוללי שאילתות המייצריסם פקודות 501
דינמיות.
נתוניס שהס תוצאה של תהליך סיכוס כלשהו של
נתוניס ברמה נמוכה יותר. לדוגמה, סך המכירות
למוצר ליוס (סיכוס של כל הסניפים).
טבלה המכילה את נתוני הסיכוס המחושביס
מראש, ולא תוך כדי ביצוע שאילתה. טבלאות אלו
אופייניות מאוד בסביבת מחסן הנתוניס
ומאפשרות ביצועיס טוביס עבור שאילתות
הזקוקות למידע סיכומי. טבלאות אלו מיוצרות
בדרך כלל בתוס תהליך טעינת נתוניס חדשיס
למחסן הנתוניס. למרות שהן מכניסות מימד של
כפילות נתוניס ומסבכות את ניהול בסיס הנתוניס,
חשיבותן לשיפור הביצועיס רבה.
תהליך שמטרתו לנתח ולהבין את הנתונים. מקובל
להבחין בין רמות מורכבות שונות של תהליכיס
אנליטייס. מאחר וקיים אוסף שלס של תהליכי
וכלי ניתוח מקובל לקרוא להס גס המרחב
האנליטי.
נספת א*: מילון מונחים 313
מונח לועזי מונח עברי | עמוד תיאור המונח
| |קא|ממשקתכנות | | | ראה 071806ח! פחוההוחהזטסזק הסוזהסווססקה
חסוז68ו!סס | ממשק תכנות. | 237 | ממשק ידוע וציבורי המגדיר כיצד ניתן להפעיל
פחוהחורחה זט סז פונקציות מסוימות של מערכת תוכנה כלשהי על
([ק/) 0806)ח! ידי תוכנה חיצונית כלשהי. הממשק מגדיר אילו
פונקציות התוכנה יודעת לבצע וכיצד מבוצעות
פונקציות אלו, ובכלל וה הגדרה מדויקת של כל
6+ ח6זה | ארכיטקטורה
8 סוחחס+; | נתוניס
אטומייס
הפרמטרים שיש להעביר להן ואיוה פרמטרים הן
מחזירות. לדוגמה, 0086 הינו ממשק תכנות
לגישה לבסיסי נתוניס שונים. דוגמה נוספת היא
ממשקי התכנות שרוב יצרני 01.4 מספקים כדי
לאפשר לתוכנות צד שלישי לגשת אל הנתוניס
הרב-מימדיים.
הגדרה ועיצוב ראשוני המתאר את מרכיבי הפתרון
וכיצד הס פועליס ביחד. ניתן להתייחס
לארכיטקטורה כאל תוכנית אב שעל פיה
המיישמים יכוליס לבנות מערכת העונה על דרישות
המשתמש.
נתוניס המייצגיס את רמת הפירוט הנמוכה ביותר
במחסן הנתוניס. לדוגמה, המכירות בסניף לפי
מוצר ביוס כלשהו. במערכות תפעוליות ניתן למצוא
כמובן, רמות פירוט נמוכות יותר.
מבנה של רשת עצבית שבה קיימיס קשרים בין
שכבה אחת לבין אחת או יותר מהשכבות
הקודמות. רשתות מסוג וה מווסתות את עצמן ו
יילומדותיי מתוך הנסיון.
חסוזְהחָהּקסזק236% | רשת עצבית עס
6% |בזנוס א | השלכה לאחור
א6סח! 60מקהחזום | אינדקס מפת
סיביות
מבנה של אינדקס נפוצ במערכות 385
המאפשר גישה מהירה מאד אל הנתוניס. בחלק
מהמקרים אינדקסים מסוג זה יכולים למנוע
לחלוטין את הצורך בסריקת טבלאות ואפילו ביצוע
צירוף בין טבלאות.
46 אוטם | טעינה המונית טעינה של כמות גדולה של נתוניס בבת אחת. זוהי
שיטת הטעינה המקובלת של נתוניס למחסן
הנתונים.
58 | תנועה עסקית ראה חסו5800ח8זד.
חסו5801ח8זדך
4 מחסנל נתונים
6 וזו | תכונה 46 יחידת המידע הבסיסית ביותר של יישות (עְח5).
6 | דוגמאות לתכונות של יישות עובד הן מספר זהות,
שם עובד, כתובת, תאריך לידה, תואר אקדמי
2 אחרון וכדי.
1
מונח לועזי מונח עברי | עמוד תיאור המונח
9 ראה עז0וו05ק36
וו69 | תא היחידה הבסיסית ביותר במערכת 01/7. כל תא
יכול להכיל נתון או נוסחה (בדומה לגיליון
אלקטרוני) במפגש בין כל המימדים המנוהלים.
מערכות 01/45 צריכות לדעת לטפל במספר רב של
תאיס ריקים (508186) כי לא בכל מפגש בין
המימדים יש נתון.
8 178]!2680ח606 | מחסן נתוניס
6פחתזּ/\ | מרכזי / ארגוני
יישוס של תפיסת מחסן נתוניס שבה מחסן אחד
מרכזי משמש את כל צרכי הארגון. כלומר, המחסן
המרכזי משרת את כל היחידות העסקיות של
הארגון. ראה גס 6פטוסח6ז9ּ/ 2818 86וזקזסזח=.
איתור וניהול השינוייס במערכות התפעוליות
ושיטת ייצוג שינוייס אלה במחסן הנתוניס.
6 | ניהול שינוייס
ו
8
8
9 מְפּהַחַ8ח0 | יהוי שינויים | 39 תהליך המזהה את הנתוניס במערכות התפעוליות
66 | בנתוניס שחלו בהס שינוייס מאז אחזור הנתונים האחרון.
תהליכים אלה מבוססיס בדרך כלל על תוכנה
מיוחדת המכירה את מבנה יומן האירועים (פָס !1
2
7
2
6=) של המערכת לניהול בסיס הנתוניס ומסוגלת
לנתח אותו על מנת לאתר את השינוייס בלבד.
68 ות60 | אלגוריתם חי
6 סט | בריבוע לבניית
חסווס8ז6+ח| | עצי החלטות
ח0ו6%60כ
(סוג4חס)
29
15
2
2
9 | אלגוריתס המבוסס על מבחן 6₪1 בריבוע המופעל
9 | על אוסף של נתוניס ומייצר את הענפיס בתוך עצ
החלטות.
ח0סו60|8551168 8 | טכניקת ניתוח נתוניס נפוצה בתחוס כריית
הנתוניס ומשמשת בעיקר לתהליכי חיזוי. הטכניקה
מאפשרת לבנות מודל סיווג כלשהו מתוך בסיס
הנתוניס היסטורי. בדרך כלל טכניקת הסיווג
משתמשת בהקבצות ידועות מתוך הנתוניס כדי
לפתח את שיטת הסיווג, או לחילופין מפתחת
הקבצות חדשות ובלתי ידועות מתוך הנתונים.
השיטה מנסה לשייך להקבצה אחת את האלמנטיס
ייהקרוביסיי ביותר ביניהם. לדוגמא בעיית סיווג
נפוצה היא חלוקת בסיס נתוני הלקוחות להקבצות
הומוגניות ככל הניתן בהקשר של סיכון מתן
אשראי.
זז1/56ח6ו|6 | שרת/לקוח טכנולוגיה מחשובית המבוססת על ביזור של
היישוס בין מספר שכבות חומרה ותוכנה. הביזור
הוא בדרך כלל על פי התפקוד המיוחד - תצוגה
נספת א': מילון מונחיס | 315
מונח לועזי מונח עברי | עמוד תיאור המונת
וניווט, ניהול היישוס וניהול בסיס הנתוניס. מחשב
הלקוח עוסק בדרך כלל בתצוגה בשעה שמחשב
השרת עוסק בפונקציות המשותפות למספר
לקוחות, כגון לוגיקה עסקית משותפת, ניהול בסיס
נתוניס וכדי. מחסני הנתוניס מבוססיס במידה רבה
על טכנולוגיה וו, הן בגלל יכולה להציג את הנתוניס
באופן גרפי ומתוחכס והן בגלל יכולתה לנהל
כמויות נתוניס גדולות בשרתים מרובי מעבדים,
בעלויות סבירות.
5 ז0910ו2) טכניקות ניתוח נתוניס העוסקות בפילות
אשכולות אוכלוסיות גדולות של אובייקטיס לאוסף כלשהו
של אשכולות בעלי הגיון פנימי כלשהו. כלומר,
קייס דמיון מסויס בין האובייקטיס השייכיס
לאשכול בהתבסס על קריטריון כלשהו.
0 6016 | הנדסת תוכנה הנדסת תוכנה נתמכת כלים ממוחשבים.
68 | נתמכת מחשוב
פַחוססחופָח=
(6055)
ץ60 | ניהול העתקות רכיב תוכנה מיוחד וייעודי העוסק בניהול העתקות
1ו הו של קבציס מסוגיס שוניס בין סביבות מחשוב
שונות והטרוגניות. מקובל לקרוא בשם כוללני וה
לכל הכלים בסביבת מחסן הנתוניסם העוסקיס
בהעתקת והעברת הנתוניסם ממערכות תפעוליות אל
סביבת מחסן הנתוניס.
פָחו|ו56 67055 | מכירה צולבת גישה עסקית המציעה ללקוח מוצרים שונים תוך
כדי רכישת מוצר כלשהו. לדוגמא, ניתן להציע לכל
לקוח בעל חשבון עוייש מעל סכום מסויים, לרכוש
גם כרטיס אשראי.
קוביה מבנה מיוחד המנהל את הנתונים על פי מימדים
עסקיים, כמו מוצרים, סניפים, ומן, לקוחות וכדי.
הקוביה הרב-מימדית הינה המטאפורה הנפוצה
ביותר לתיאור מבנה הנתוניס המנוהל במערכות
סה |ס.
605% | ניהול קשרי אוסף של מערכות מידע וטכנולוגיות מחשוב
סוחפחסוז39|!8 העוסקות בניהול הקשרים של הלקוח עס הארגון.
וח 3 מקובל לשייך לקבוצה זו מערכות המטפלות
(₪חס) במוקדי שרות, ניהול תקלות, טלמרקטינג, דיוור
ישיר וכדי.
6 מחסנל נתונים
מונח לועזי מונח עברי | עמוד תיאור המונח
86 עווּכ | חלון עדכון
שוססחו/ | יומי
8 | נתוניס
5 808
5ססך
5 זכ | ניתוח נתוניס
פחו5ח68!) הזה
89 | דה-נורמליזציה | 1
8280 זסח6כ | של נתוניס
ץזהחסו6וכ 38 מילון נתוניס = | נתוניס
%חח6!ם זכ | נתון
9חהזזא= זכ | גזירת נתוניס
23
פרק הזמן במשך יוס אחד שבו ניתן לבצע את
הטעינות של הנתוניס החדשיס אל מחסן הנתוניס.
לדוגמא אם הגזירה של הנתוניס מהמערכות
התפעוליות מסתיימת בשעה 24:00 בלילה, אזי
חלון העדכון היומי הוא 8 שעות, בהנחה שמחסן
הנתוניס צריך להתחיל לפעול בשעה 8:00 בבוקר.
אוסף של עובדות גולמיות על יישויות שונות.
עובדות אלו יכולות להיות מיוצגות על ידי
מספרים, מלל, תמונות, קול וכדי. הנתוניס נוצריס
בדרך כלל על ידי המשתמשים המזיניסם את
המערכות התפעוליות כתוצאה מעבודתס השוטפת.
לדוגמה, כתובת סטודנט, מחיר פריט, מספר סניף
וכדי. ווהי היחידה הבסיסית ביותר הנשמרת
במחסן הנתונים.
כלים המיועדיס למשתמשי קצה שבאמצעותס הס
יכוליס לתחקר, לנתח ולהציג את הנתוניס. סביבת
מחסן הנתוניס עתירה בכלי גישה לנתוניס רביס,
כל אחד המתאיס לסוג משתמשים מסוים, או
לפעולות ניתוח מידע. דוגמאות לכלי קצה הם
מחוללי דוחות, מחוללי שאילתות, כליס
סטטיסטיים, כלי קג 01, גיליוו אלקטרוני וכדי.
ענף של סטטיסטיקה העוסק בניתוח אוספים
גדוליס של נתוניס.
תהליך העוסק בשיפור וטיוב הנתוניס לקראת
טעינתס למחסן הנתוניס. התהליך עוסק בשינוי
פורמטים, בדיקות תקינות, הסבת קודים וכדי.
תהליך עיצוב מיוחד המרשה הכנסת כפילויות של
נתוניס אל מודל הנתוניס, מתוך מטרה לבנות מבנה
פשוט יותר, קל יותר להבנה ובדרך כלל גם יעיל
יותר מאחר ואין צורך בצירוף (חוסנ) של טבלאות
רבות. תהליך וה מקובל בסביבות מחסני נתוניס,
ומאוד לא פופולרי ומומל לסביבות תפעוליות.
ראה עז0וו05ק36
היחידה הבסיסית ביותר של הנתוניס, כמו שס
עובד, כתובת סניף, מחיר פריט וכדי. חלוקה נוספת
של הנתון בדרך כלל אינה בעל ערך עסקי מבחינת
הארגון.
תהליך העוסק בגזירת נתוניס מהמערכות
התפעוליות.
נספת א': מילון מונחיס | 317
מונח לועזי מונח עברי | עמוד תיאור המונח
חסווס8זוא= 8%8כ | תוכנה לגזּירת תוכנה ייעודית שמטרתה לאפשר חילוצ נתוניס
5016 | נתוניס ממערכות תפעוליות כדי להעבירס לסביבת מחסן
הנתוניס. תוכנות אלו מתמחות בקריאת מיגוון
מבני נתונים ובסיסי נתוניס המנוהליס בסביבות
מחשוב שונות. הן גס יכולות להפעיל לוגיקה
לבחירת הנתונים לתילוצ ולטיוב והמרת הנתונים.
טָחו080 | 8%8כ | טעינת נתוניס | 227 | תהליך הטוען את הנתוניס אל בסיס הנתוניס של
| מחסן הנתונים. הנתוניס הנטעניס הם לאחר
תהליכי טיוב והמרה. תהליך זה הינו בעל חשיבות
2 רבה בסביבת מחסן הנתונים, כי וו השיטה הנפוצה
ביותר לעדכון מחסן הנתונים. חלון הזמן לטעינת
הנתוניס מוגבל בדרך כלל, ולכן תוכנות הטעינה
מפעילות שיטות עבודה במקביל.
8 | ניהול נתוניס ענף של טכנולוגיית המידע העוסק במיגוון פעילויות
וח 3 הקשורות לניהול הנתונים: אחסון, חילוצ
(חסו1סְזוא) מהיר של נתוניס באמצעות
אינדקסים, בקרת גישות לנתונים, ניהול אמינות
ושלמות הנתוניס בעת ביצוע תנועות, ועוד.
תוכנה המבצעת את כל פעולות ניהול הנתונים. אלו
הן המערכות לניהול קבציס והמערכות לניהול
בסיסי הנתונים.
8 | תוכנה לניהול
חסחִִַסִחְהּח3/ | נתוניס
6
פחוסְס3ו הזכ
0
+ףו ההכ | ארכיטקטורה
6זז תזזה | של מרכול
נתוניס
המרכול הוא נגזרת מסוימת של מחסן נתוניס
ארגוני. מרכול הנתוניס מוגבל בדרך כלל לנושא
מסויס או למבנה מיוחד הנדרש על ידי כלי גישה
לנתוניס כלשהו, ומשמש בדרך כלל אוכלוסיה
מצומצמת של משתמשים.
הארכיטקטורה הכוללת של מרכול הנתונים -
כלומר כיצד הוא בנוי, מהן השכבות השונות
המרכיבות אותו, מהן הטכנולוגיות בהן הוא
משתמש וכדי.
תהליך ניתוח נתוניס המבוסס על טכנולוגיות
תוכנה מתקדמות שמטרתו למצוא מידע חדש
מיפוי נתוניס | |265 | תהליך המאפשר מיפוי נתונים בין מקור ליעד
כלשהו. מקובל להשתמש במונח מיפוי נתוניס
לתהליך המזהה את כל הנתוניס במערכות
התפעוליות - המקור - ומגדיר לכל נתון להיכן
וכיצד הוא מועבר אל מחסן הנתוניס - היעד.
תהליך זה הינו אחד התהליכיס הבסיסיים ביותר
בעת עיצוב מחסן הנתוניס.
566
209
566
23
6
19
פָחוחוו/! 8%8כ | כריית נתוניס
8 מחסנל נתונים
מונח לועזי מונח עברי | עמוד תיאור המונח
מה ובלתי ידוע מתוך מחסן הנתונים. מידע וה בדרך
כלל לא ידוע למשתמש ועוסק בדרך כלל במציאת
תבניות, מגמות מיוחדות, חוקיות בתוך הנתונים,
(006! 2818 | מודל הנתוניס
טֶחו000! 818 | עיצוב מודל
הנתוניס
הקבצות של הנתוניס לקבוצות בעלות משמעות
לוגית כלשהי וכדי. טכנולוגיות התוכנה המשמשות
את כריית הנתוניס מהוות שילוב כלשהו של כליס
סטטיסטיים וכלים שמקורם באינטליגנציה
מלאכותית ומערכות לומדות.
מודל לוגי המייצג את היישויות, את התכונות של
כל יישות ואת הקשרים בין היישויות. והו מודל
לוגי מבחינת אי-התלות שלו במערכת חומרה או
תוכנה כלשהי. כך הוא מהווה ייצוג רעיוני
(קונצפטואלי) של הנתוניס.
תהליך העוסק בהקמת מודל הנתוניס. תהליך ה
מבוצע בדרך כלל על ידי מנתחי מערכות או על ידי
מנתחי נתונים שהוכשרו והתמחו בעיצוב מודליס
של נתוניס. זהו אחד התהליכיס החשובים ביותר
בסביבת מחסן הנתוניס כי הוא עוסק בבניית מודל
הנתוניס שיעמוד לרשות מקבלי ההחלטות ולרשות
כלי השאילתות השוניס.
טחוחסוזווה 088 | חלוקת נתוניס
למחיצות
]וה 318 | ציר מרכזי
8 | הפצת נתוניס
חסוְהּחָהקסזק
תהליך העוסק בחלוקת טבלה לוגית אחת למספר
טבלאות פיסיות או לוגיות. מטרת התהליך בדרך
כלל לשפר ביצועיס בסביבות מחשוב מרובות
מעבדיס התומכות בעיבוד מקבילי של מחיצות
שונות. בנוסף לשיפור בביצועיס משמש תהליך
החלוקה למחיצות גם לניהול קל יותר של טבלאות
גדולות.
שיטה המקובלת במיוחד בכלי 01.4 המאפשרת
התבוננות על נתון כלשהו מנקודות מבט שונות.
מבטיס אלה יכולים להיות למשל, הצגת המכירות
לפי מימד המוצר, מימד הומן או מימד הסניף וכדי.
מקובל גס לקרוא לתהליך ה בשס סיבוב מימדים.
תהליך העוסק בהפצת הנתוניס מסביבות המקור
שלהס, המערכות התפעוליות, ועד למערכת היעד
שלהם - מחסן הנתונים. בדרך כלל, תהליך ה
נתמך על ידי תוכנות החילוץ, או תוכנות ייעודיות,
8 | נירמול נתוניס | 126 | תהליך שמטרתו לבנות מבנה נתוניס עס מינימוס
ח0ו8|1281 וחזסצ] 9 | כפילות נתוניס. שיטת עיצוב מקובלת לעיצוב
בסיסי נתוניס תפעולייס.
205
2|8
נספת א*: מילון מונחים 319
מונח ריר מונח עברי | עמוד תיאור המונח
המסוגלות להפעיל כללי הפצה מתותכמיס (הפצה
כל יום, או כשהצטברו שינוייס בכמות מסוימת).
המידה שבה הנתוניס מייצגיס באופן אמין ושלס
את המציאות הרלוונטית.
יס
ים
חסוז8סו!60 הוה
טכניקה מיוחדת המאפשרת שכפול טבלאות או
חלקי טבלאות ממקור כלשהו אל יעד אחד או יותר.
מערכות התוכנה התומכות בשכפול נתוניס הן
מורכבות ומסוגלות לזהות את השינוייס ולהפיצ
את הנתוניס אל היעדים השוניס. הן עושות כל זאת
תוך אבטחת רמה גבוהה של הצלחה.
מקור של נתוניס עבור מחסן הנתונים. מקובל
להבחין בין מקור שנובע מהמערכות התפעוליות של
הארגון לבין מקור נתוניס חיצוני.
שטח אחסון בינייס שבו מאחסניס את הנתוניס
לקראת טעינתס למחסן הנתוניס.
תהליך העוסק בהמרת הנתונים ממערכות המקור
אל המבנה המיוחד של מחסן הנתונים, תוך אבטחת
רמה גבוהה של איכות ותקינות הנתונים. מקובל
לשייך לתהליכים אלה פעולות של בדיקת תקינות,
הוספת נתוניס חסרים, המרת קודיס למונחיס
עסקיים, פתרון של סתירות פנימיות בתוך
הנתונים, שינוי פורמט חייצוג של הנתוניס לפורמט
אחיד המנוהל במחסן הנתונים, המרת מבנה
הנתוניס למבנה הנדרש על ידי מחסן הנתונים וכדי.
89 | המרת נתוניס
חסוזה וח סח ך
6פחזְה\ זכ | מחסן נתוניס
0 מחסנל נתונים
תכונה המגדירה את טיפוס הנתוניס: נומרי,
אלפאנומרי, מחרוזת סיביות וכדי.
סביבת מחשוב מיוחדת לניהול נתוניס המיועדיס
לתמיכה בתהליכי קבלת החלטות. סביבה זו
מבוססת על מיגוון טכנולוגיות מחשוב מודרניות
המסוגלות לנהל נפתי נתוניס גדוליס ולהעמיד את
הנתוניס לרשות קהל מגוון של מקבלי החלטות.
06 0818 | מאגר נתוניס שס כוללני למקוס שבו מאוחסנים נתוניס, בין אס
במבנה פשוט של קבציס שטוחים, או במבנה מורכב
יותר של בסיס נתוניס המנהל גס את הקשרים בין
הנתונים. בתהליך העברת הנתוניס מהמערכות
התפעוליות אל מחסן הנתונים, מקובל להשתמש
במספר מאגרי בינייס בהס מאחסניס את הנתוניס
תוך כדי תהליך הטיוב וההמרה ועד לטעינתס
למחסן הנתונים.
מונח לועזי מונח עברי | עמוד תיאור המונח
ראה גס את ההגדרה של מחסן הנתוניס הארגוני -
86 \ 2818 86וזסז16זח=.
86 \ 8)8כ
6ז תס
86 \ 8%8 כ
וז ח!
86 \ 8%8כ
3506 ח|
86 \ 8)8 כ
ץסס|סססחז6ו
8
ו
(הַמס)
86
08
חסופו60
+סססטס
(055) 58וח5%0/ץ5
ארכיטקטורת |52
מחסן הנתונים | 287
מקטע של
מחסן נתוניס
תשתית מחסן
הנתונים
מתודולוגיה
ליישוס מחסן
נתוניס
207
205
מנהל בסיס 293
הנתוניס
סכמת בסיס
הנתוניס
מנהל בסיס
הנתוניס
מערכת תומכת |31
החלטות 43
תמונה כוללת של מיגוון תהליכי המיפוי, הטיוב
וההמרה שהנתוניס עובריס ושל כל טכנולוגיות
המחשוב המשמשות לניהול סביבת מחסן הנתוניס.
מקטע אחד מתוך מכלול הנושאיס בהם מטפל
מחסן הנתוניס. מקובל לחלק את יישוס מחסן
הנתוניס לאוסף מקטעיס המיושמים באופן מדורג
על ציר הזמן. ניתן להתייחס למקטע כאל
תת-פרויקט שיש לו התחלה וסוף, ועוסק בקטע
מסויס של מחסן הנתוניס.
אוסף של כלי התשתית המשמשיסם את סביבת
מחסן הנתוניסם: חומרה, בסיס הנתונים, כלי
הגזירה, העתקה, טיוב והמרה, וסביבת התקשורת.
אוסף מובנה של צעדים, עקרונות, תהליכים
ופעולות שיש לבצע כדי לבנות וליישס מחסן
נתוניס. קיימות מתודלוגיות שונות, אולס רמת
הדמיון ביניהן היא רבה.
בעל תפקיד מיוחד ביחידת המחשב המתמחה
בניהול שוטף של בסיס הנתונים על כל מיגוון
הפעילויות הנדרשות. פעילויות אלו יכולות להיות:
הגדרת בסיס הנתונים, בניית והורדת אינדקסיס,
שינוייס בטבלאות, מעקב אחר ביצועים, הגדרת
הרשאות, כוונון שוטף של בסיס הנתונים לשיפור
הביצועים, גיבוי ושחזור בסיס הנתונים, וכדי.
בסביבת מחסן הנתוניס נדרשת התמחות מיוחדת
מעבר להתמחות הרגילה בנושאי ניהול בסיסי
נתוניס גדוליס, חלוקת בסיס הנתונים למחיצות
וכדי.
ההגדרה הלוגית והפיסית של בסיס הנתוניס ובכלל
זה הגדרת הטבלאות המרכיבות אותו, העמודות של
כל טבלה, המפתחות של כל טבלה, כללי האמינות
המיוחדיס לכל טבלה, ההרשאות לכל טבלה, מבנה
הטבלאות המדומות (18488/) ועוד.
ראה זסו5178וחוחחוס/ 2856 פּוּה.
מערכת ייעודית המנהלת נתוניס הנדרשיס לקבלת
החלטות ומכילה אוסף של כלים לתחקור, הצגת
וניתוח הנתוניס.
נספת א*: מילון מונחים 321
מונח לועזי
5 חס850ו60כ | עצי החלטה
6 | מימד מנוון
חסופח6וחוסם
נתוניס
דמוגרפייס
סוחס סוכ
8
נתוניס
תוצאתייס
8 60עוזסס
קה ]0 654000כ
(קה וסס)
מערכת
רב-מימדית
שולחנית
מסופחפחזוס
מסופחפחזוס
5
היררכיית
מימד
מסופחפחזוסם
צְחה0ז8ז0ו]
6 חסופחסחוס
|החסופח6חזוסם
טֶחו|09סו/ 818 | של מודל
הנתוניס
2 מחסנל נתונים
תכונות המימד
טבלת מימדים
עיבצוב מימדי
77
100
6
117
7
14
15
מונח עברי | עמוד תיאור המונתח
טכניקת ניתוח נתוניס המאפשרת לזהות גורמיס
משפיעים ולמיין אותס על פי סדר החשיבות שלהם.
הצגת תוצאות הניתוח היא במבנה עץ היוצא
משורש, מסתעף למספר ענפים ומסתיים בעלים.
מימד המופיע בטבלת העובדות אולס מאחוריו אין
טבלת מימד.
אוסף של נתוניס המזהיס את התכונות של וכלוסיה
מסוימת. לדוגמא גיל, אזור מגורים, רמת הכנסה,
ארי לידה , מין, גודל משפחה וכדי.
נתוניס המהוויס תוצאה של תהליך חישוב כלשהו
על נתוניס אחרים. מקובל להשתמש בנתוניס
תוצאתייס בעיקר בתהליכי סיכוס או במצביס
שבהם מבקשים לחסוך מקוס אחסון (למשל, את
ערך סהייכ המכירה ניתן לחשב על ידי כפל הכמות
במחיר הפריט).
מערכת 47 01 הפועלת על מחשב אישי. אלו הן
מערכות פשוטות וזולות יחסית, הטוענות את
הנתוניס אל בסיס נתוניסם ייעודי המנוהל במחשב
האישי. הביצועיסם בדרך כלל טובים, אולס היקף
הנתוניס מצומצס.
מונח בעל משמעות עסקית בעולמו של המשתמש
ומיועד למדידת ביצועי העסק. דוגמאות: לקוחות,
מוצרים, סניפים, ומן, מבצעים וכדי.
לכל מימד יש מספר תכונות. לדוגמה, למימד סניף
יש תכונות כגון שס הסניף, כתובת הסניף, שס
האזור אליו שייך, שטח הרצפה של הסניף וכדי.
תכונות אלו מאפשרות למשתמשיס להגדיר את
החתכים השונים לקבלת המידע.
בדרך כלל למימדים יש היררכיות הקושרות רמות
שונות של המימד, והן בעלות משמעות בעולמו של
המשתמש. לדוגמה, בהיררכיה של הזמן יש יוס,
שבוע, חודש, רבעון, שנה. במימד הסניפים יש סניף,
אזור, מחוז וכדי.
טבלה המהווה חלק מסכמת כוכב ומנהלת את
הנתוניס הרלוונטיים לכל מימד.
תהליך עיצוב מיוחד לסביבות של מחסני נתוניס
המיועד לבניית מודל נתוניס פשוט להבנה ויעיל
מבחינת הביצועים. מודל זה עושה אבחנה בין שני
מונח לועזי מונח עברי | עמוד תיאור המונח
ו ₪ | סוגים של טבלאות - טבלאות של עובדות וטבלאות
של מימדים ובאוסף קשרים מיוחדים ביניהם
באמצעות מפתחות ייעודים.
0 ע/,ז8שע500וכ | ניתוח מבוסס
58 | גילוי
שיטת ניתוח נתוניס שבה כלי תוכנה כלשהו מנסה
לגלות מידע חדש מתוך הנתוניס, בדרך כלל ללא
הנחות כלשהן מראש. רוב כלי כריית הנתוניס
מבוססים על מודל ה.
מערכת ראה 7( 01 ק0ז65.
רב-מימדית
שולחנית
ששס!ו= חאוספ | תהליכי
5 | הזרימה מטה
חשצס וווזפ | קידוח מטה
אוסף תהליכים המטפלים בנתוניס שמתיישניס
והורדתס להיסטוריה ולאמצעי אחסון משנייס.
פעולה מקובלת במערכות 01.47 המאפשרת לקבל
פירוט נוסף. למשל, מהצגת סיכוס המכירות למוצר
אפשר לעבור לקבלת סיכוס המכירות למוצר לפי
חודש.
ראה 551605 +זססקט5 חסופוספפ.
מערכות מידע
0
6 050 0חם | פרופיל
משתמש קצה
ראה 5/5%0708 חסוז8 ו זסזח! 6צו6001א=.
7
8
2
2
7
9
9
10
5 | מערכת תומכת
החלטות
9 | משתמש של מערכת מידע כלשהי. בסביבת מחסן
הנתוניסם, משתמש הקצה הינו העובד המבקש לגשת
לנתוניס, לנתח אותס ולהשתמש בהס לקבלת
החלטות.
יהוי והגדרה של כל הפעולות שמשתמש קצה יכול
לבצע במערכת תפעולית או במחסן הנתוניס.
הגדרה זו מתייחסת לכל היישומיס שמותר
למשתמש להפעיל ולפעולות שמותר לו לבצע
(קריאה, עדכון). בסביבת מחסן נתוניס מקובל
להגדיר למשתמש את הטבלאות שהוא מורשה
לגשת אליהן, הטבלאות המדומות שהוא יכול
להפעיל, כלי שאילתות שמותר לו להשתמש בהם,
משאבי מערכת שמותר לו לצרוך וכדי.
ס וווזפ | קידוח מעלה פעולה הפוכה לקידוח מטה. כלומר, מעבר מרמה
מפורטת לרמת סיכום גבוהה יותר.
3
1
2
55
6
7
9
1
7
3
868 /\ | ארגוני החלטות ונוצר כתוצאה מחילוצ נתוניס ממערכות
תפעוליות שונות של הארגון לאחר טיוב והמרת
8 16056ח= | מחסן נתוניס 5 מערכת ארגונית המיועדת לתמיכה בתהליכי קבלת
נספת א*: מילון מונחים 323
מונח לועזי מונח עברי | עמוד תיאור המונח
הנתוניס למבנה ייעודי ועקבי. בסיס נתוניס זה
מאורגן בדרך כלל לפי נושאיס עסקייס שוניס
ומכיל נתוניס בעלי עומק היסטורי כנדרש על ידי
מקבלי ההחלטות.
המרכיב הבסיסי ביותר המנוהל במערכת מידע.
דוגמאות ליישויות: עובד, סטודנט, פריט, הזמנה,
תנועה בחשבון, קורס באוניברסיטה, ספר בספריה
וכדי. לכל יישות יש תכונות (0+65ח))ג).
שיטה להצגת מודל נתוניס בצורה ויוואלית תוך
סוחפחסוז36!8 | יישויות- שימוש במספר קטן של סימבוליס גרפיים. שיטה זו
(סחם) חחהַּזחָוכ | קשריס נפוצה מאוד בתיאור מודליס לוגייס של נתוניס
ומשמשת את מנתחי המערכות ומנהלי בסיסי
הנתונים. התרשימים מציגים את אוסף כל
היישויות בבסיס הנתוניס, את התכונות של כל
יישות, את המפתחות ואת הקשרים בין היישויות
השונות.
תרשיס ראה חחִהַזִפָצוכ קוהפחסו36|8 עווזח=.
יישויות-
קשריס
8 | מערכות מידע מערכות מיוחדות המיועדות להצגת מידע למנהליס
חסוזוזסזח| | למנהלים בכירים. מערכות אלו מכילות בדרך כלל אוסף של
(5|ם) 551005 סוגי מידע המוכן מראש ונמצא במבנה המתאיס
למנהליס הבכירים. מערכות אלו מפעילות גרפיקה
עסקית, מפות גיאוגרפיות להצגת מידע מרחבי,
שיטות מיוחדות להצגת חריגיס כמו רמזוריס
ובבעים. כליס אלה מאפשריס מעבר נוח מרמת
סיכום גבוהה לרמות פרטניות יותר בהתאס
לדרישות המיוחדות של כל מנהל.
6 80% | תאריך החילוצ | 237 | לכל נתון בסביבת מחסן נתונים יש תאריך
המתייחס למועד שבו הנתון נגזר מהמערכת
התפעולית. מידע וה הינו בעל חשיבות רבה
למשתמשי מחסן הנתוניס. תאריך חילוצ הנתוניס
מנוהל בקטלוג מחסן הנתונים.
1 | תדירות 7 | התדירות שבה מתבצעים חילוצי נתונים
ץ6ח806ז= | החילוצ מהמערכות התפעוליות אל מחסן הנתוניס. לסוגי
נתוניס שוניס יש תדירויות גזירה שונות. לדוגמא
את נתוני המכירות ניתן לגזור כל שבוע ואילו את
נתוני ההזמנות רק פעסם בחודש.
4 מחסנל נתונים
מונח לועזי מונח עברי | עמוד תיאור המונח
א
86
ץ6א ח0ופזס-
6 +ץ22ט=
טוחה זכ)
קג וס
לג 01 סוחפעה
(סג וסה)
ער
לוגיקת החילוצ
עובדה
טבלת עובדות
מפתח זר
לוגיקה עמומה
תוכנת שער
רמת פירוט
מערכת
רב-מימדית
מעורבת
מערכת
רב-מימדית
מעורבת
קוביית על
207
5
הלוגיקה המגדירה כיצד מחלצים נתוניס
מהמערכות התפעוליות. לוגיקה זו יכולה להיות
פשוטה מאוד או מורכבת מאוד, על פי סוג הנתוניס
ומבנה המערכות התפעוליות.
הנתוניס הבסיסיים המנוהלים במודל הרב-מימדי
נקראים עובדות, כי הס מתייחסיס לביצועיס
בפועל של העסק. לדוגמה, כמה מוצריס מסוג
מסוים נמכרו ביוסם מסויס בסניף מסוים, או מה
משך השיחה של לקות מסויס מיעד נתון ליעד אחר
בשעה וביוס מסויס.
הטבלה המרכזית במבנה סכמת הכוכב. היא מכילה
את הנתוניס המקשרים בין טבלאות המימד ואת
הנתוניס הנוספיס הרלוונטייס.
עמודה בטבלה כלשהי המשמשת כמפתח עיקרי
בטבלה אחרת כלשתי.
אוסף חדש יחסית של מערכות תוכנה המבוססים
על תורת הלוגיקה העמומה, להבדיל מהלוגיקה
הרגילה של אמת ושקר. אלגוריתמיס אלה
מסוגלים לבצע חיפושיס מתותכמים בנתוניס
ולמצוא מצביס קרוביס למצב מסויס, ולא רק
מצבים התואמים באופן מלא למצב מסוים.
תוכנה מיוחדת המאפשרת גישה מסביבה מסוימת
אל סביבה מחשובית אחרת. לדוגמה, תוכנה
המאפשרת ביצוע פקודות 501 מתוך בסיס נתוניס
86 הפועל על שרת אוח( לטיפול בבסיס נתוניס
2 הפועל על מחשב מרכצי. מקובל להשתמש
בתוכנות אלו כדי לאפשר נגישות של כלי הגזירה
אל בסיסי נתוניס וקבציס במערכות מחשוב שונות.
תכונה המתארת את פירוט הנתוניס המנוהליס
בטבלה כלשהי. ככל שרמת הפירוט גבוהה יותר
מקובל לומר שה- ע811!טח8ז) גבוהה יותר.
ראה 7( 01 סחפץח.
מערכת 01.4 המשלבת בסיס נתונים רב-מימדי
ייעודי עס בסיס נתונים טבלאי באופן שקוף
מבחינת המשתמש.
מוצר 9 01 המנהל את כל הנתוניס בקוביה
רב-מימדית אחת.
נספת א': מילון מונחיס | 325
מונח לועזי מונח עברי | עמוד תיאור המונח
56 אשוסו!ח| | תהליכי אוסף התהליכיס המטפלים בזרימה השוטפת של
הורימה פנימה | 233 | נתוניס מהמערכות התפעוליות או החיצוניות,
פנימה אל מחסן הנתוניס.
חסוז8וחזסזח! | מידע נתוניס שעברו עיבוד כלשהו ומשמשים את בני
האדם למטרות מסוימות.
חסוזהוחזס?ח! | מידע תוצאה של עיבוד כלשהו של הנתוניס הגולמייס
המתבצע בהקשר מסויס ומתוך מטרה להגדיל את
הידע של המשתמש. המידע הינו הפלט של תהליך
עיבוד וניתוח הנתונים.
חסוזהחחזזסזח! | מרכז מידע תפיסה שעסקה בהעברת נתונים ממערכות
0 תפעוליות לסביבה מיוחדת לשאילתות ולניתוח
נתוניס. תפיסה ו קדמה לתפיסת מחסני הנתוניס
ופעלה בעיקר בסביבות של מחשבים מרכזייס,
ומבוססת על עקרונות דומים, אם כי על טכנולוגיית
מחשוב ישנה יותר.
חוסנ | צירוף 4 פעולה נפוצה במודל הנתוניס הטבלאי, המאפשרת
4 | צירוף של שתי טבלאות על בסיס של עמודה אחת
או יותר המשותפות לשתיהן.
6שוסחא | מערכות 78 אוסף כליס המבוסס על תהליך הנדסת ידע, שבו
8 288958660 | מבוססות ידע אוספיס את הידע ממומחה אנושי, מנסחים אותו
למערכת המחשוב, ומאפשריס לה על בסיס ידע ה
לאתר מצבים שונים בנתוניס. מקובל לקרוא
למערכות אלו בשס יימערכות מומחת'י.
אה || רשת תקשורת אזסעז6 68זה |1/068.
מקומית
ץזסגוכ) חַסִחְהחהו | סביבה מנוהלת | 75 משפחה של כלי שאילתות, המאפשרים בנוסף
1חסותחסזוטח= | של שאילתות לביצוע השאילתות, לבצע פעולות ניהול נוספות,
כגון שמירת שאילתות, הגדרת הרשאות, תרגוס
מונחיס ממונחיס טכניים למונחים עסקיים
המוכריס על ידי המשתמשים, הגדרת טבלאות
מדומות (1898/) לפישוט הגישה לנתונים ועוד.
856% 61אז8|/ | ניתוח סל שיטת ניתוח מקובלת ברשתות שיווק שבה מנתחיס
8" | קניות את תכולת הרכישות של הלקוחות על מנת להבין
מהסם המוצריס הנרכשים ביחד עס איזה מוצרים.
|6ו|8ז8 6עו855// | עיבוד מקבילי ארכיטקטורת חומרה מיוחדת המבוססת על מספר
בו06659זק | רב עוצמה רב של מעבדים (מאות ולעיתים גם אלפים)
הפועלים במקביל, כאשר לכל אחד מהם זיכרון
פרטי. מקובל גס לקרוא לארכיטקטורה זו 508160
פָחוחזסאז. המעבדיס מחובריס ביניהס בערו
תקשורת מהיר ומיוחד.
6 מחסנל נתונים
מונח לועזי
618 88
ץסס|סססחז6ו
6 וו
|8חסופחפחחום
8 8:8
(פסושו)
וטש
|8חסופח6חחום
(קה |סש) קה 01
מונח עברי | עמוד תיאור המונח
בסיס נתוניס ראה 2856 2818 |החסופח6חחופ שוטוש.
רב מימדי
5
מידע על מידע על נתוניס. בסביבת מחסן הנתונים, המידע
הנתוניס 256 המנוהל על הנתוניס מגוון מאוד ויכול להתייחס
לנושאים שונים, כגון מבנה הטבלאות, עדכניות
הנתונים, צורת חילוץ הנתונים, מיפוי מונחיס
טכניים למונחיס עסקיים, כללים לחישוב נתוניס
תוצאתיים ועוד. מידע וה מנוהל בקטלוג של מחסן
הנתונים.
29
מתודולוגיה
תוכנת תווך
מערכת
רב-מימדית
מבוססת בסיס
נתוניס ייעודי
אוסף מובנה של צעדים, עקרונות, תהליכים
ופעולות שיש לבצע כדי לממש נושא כלשהו. ראה
גס עְחַ000|0ח19% 86וסח6זב3/ש הזְהס.
כינוי למשפחה של מוצרי תוכנה המשמשים כתווך
בין מרכיבי תוכנה שוניס ומבוזריס. תוכנה זו
מאפשרת את הקישוריות ואת הפעולה ההדדית של
מרכיבי התוכנה לביצוע המשימות.
ראה ג 01 |החסופח6חופ שוווש.
עיבוד מקבילי
רב-עוצמה
ראה 8ַחו2706655 |2878||6 6צו855/.
בסיס נתוניס מיוחד וייעודי המותאם לניהול מבני
נתוניס רב-מימדיים. בסיסי נתוניס אלה עומדיס
בבסיסס של מוצרי =( 01ו והס אלה אשר
מספקים למערכות אלו את התתכוס והביצועיס
שלהס.
בסיס נתוניס
רב-מימדי
מערכת תוכנה ייעודית המאפשרת ניהול והצגה
רב-מימדית של המידע תוך שימוש בבסיס נתוניס
רב-מימדי ייעודי (פםסס)). מערכות אלו משתמשות
במבני נתונים קניינייס לניהול הנתוניס ולכן
מגיעות לזמני תגובה טוביס מאוד. החיסרון
העיקרי של שיטה זו בצורך לטעון את הנתוניס
מראש, והמגבלות לגבי נפח הנתוניס שניתן לנהל
בהן. ראה גס םג !0.
מערכת
רב-מימדית
מבוססת בסיס
נתוניס ייעודי
1
1
22
סביבה מנוהלת ראה +חסוהחסזוטחם ץזסוב) 860הּחה .
של שאילתות
107
206
109
1210
נספת א': מילון מונחיס | 327
מונח לועזי מונח עברי | עמוד תיאור המונח
8 חזספוד טוטוש | מחסן נתוניס 7 מחסן נתוניס המבוסס על מספר שכבות: שכבת
86 זה | רב-שכבתי מערכות תפעוליות, שכבת מחסן נתוניס ארגוני
12
ושכבת מרכולי נתונים ייעודיים. ארכיטקטורה זו
היא המומלצת ביותר, אולס קשה למימוש.
רמת פירוט וכדי.
0 צ | מימדים שיטה להצגה של מספר מימדיס רב בטבלה דו-
5חסופח6חחוס | מקונניס מימדית רגילה. הכותרת האופקית או האנכית
מכילה היררכיה של מימדים שוניםס.
זא |8זנו6 | רשתות עצביות | 77 מערכות תוכנה המשמשות לכריית נתוניסם
13 ומבוססות על מודל רשת עצבית, המהווה חיקוי
מסויס ומוגבל של צורת הפעולה של מוח אנושי.
5
חסוהּפָוְצהּ | ניווט 7 תהליך המבוצע על ידי המשתמש, ובאמצעותו הוא
עובר בין הנתוניס השוניס תוך החלפת מימדים,
55
מערכות אלו טובות מאוד לפילוח אוכלוסיות
ומתאימות למצבי חיזוי, כאשר הנתוניס אינס
נקייס לחלוטין.
6 חסא | תכונות שאינן
5 וז | ניתנות לחיבור
תכונות המנוהלות בטבלת העובדות, אולס אין כל
משמעות לביצוע פעולות אריתמטיות עליהן.
החזסזוח( חסא | ארכיטקטורת
ץזסוח6ו/ | ויכרון לא
6זטז60+וח6ז | אחידה
ארכיטקטורת חומרה חדשה יחסית המבוססת על
מספר רב של מעבדים הפועליס במקביל, שלכל
אחד מהם זיכרון פרטי וגישה לזיכרון משותף.
ארכיטקטורה זו מנסה לשלב את הטוב שבשתי
הארכיטקטורות קפ ו-קסוו.
(8ושעא)
כינוי