זיהוי אנומליות
איתור תצפיות או אירועים אשר אינם תואמים לדפוס הצפוי או ליתר התצפיות בבסיס הנתונים
זיהוי אנומליות (נקרא גם גילוי אנומליות או זיהוי חריגים) הוא מונח מתחום כריית המידע המתייחס לאיתור תצפיות או אירועים אשר אינם תואמים לדפוס הצפוי או ליתר התצפיות בבסיס הנתונים.[1]
לרוב, התצפיות החריגות מעידות על בעיה. למשל, אנומליה בתוצאות בדיקה רפואית עשויה להעיד על בעיה רפואית. אנומליה בתעבורת רשת תקשורת עשויה להעיד על מתקפת סייבר על רשת התקשורת.
ניתן לחלק את הטכניקות לזיהוי אנומליות לשלושה סוגים:
- טכניקות לא מונחות (unsupervised), אשר מניחות כי רוב התצפיות בבסיס הנתונים מייצגות מקרים נורמליים או תקינים. לשם כך ניתן, למשל, להשתמש בטכניקות של ניתוח אשכולות כדי לאפיין את התצפיות הנורמליות. תצפית שאינה שייכת לאף אשכול מוגדרת כאנומליה.
- טכניקות מונחות (supervised), אשר בהן התצפיות בבסיס הנתונים סווגו מראש לתצפיות "נורמליות" או לתצפיות "לא נורמליות". במקרה כזה, ניתן להשתמש בשיטות של למידה חישובית לאימון מסַווגים, המאפשרים סיווג של מקרים חדשים שאותם לא פגשנו בתהליך הלמידה.
- טכניקות מונחות למחצה (semi-supervised), אשר בונות מודל המייצג את דפוס ההתנהגות הרגיל מתוך אוסף של תצפיות נורמליות. לאחר מכן בוחנים באמצעות המודל את הנראות של תצפיות חדשה.
ראו גם
עריכההערות שוליים
עריכה- ^ Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Anomaly detection: A survey" (PDF). ACM Computing Surveys. 41 (3): 1. doi:10.1145/1541880.1541882. אורכב מ-המקור (PDF) ב-2014-02-11. נבדק ב-2015-01-01.