שיטת הריבועים הפחותים

שיטת הריבועים הפחותים (מכונה גם "שיטת הריבועים המזעריים", "שיטת הריבועים המינימליים", "שיטת מינימום ריבועים") היא שיטת אמידה סטטיסטית, שבה אומדים גודל לא ידוע מתוך קבוצת תוצאות מדודות כלשהן. הראשון שתיאר את השיטה הוא קרל פרידריך גאוס, בתחילת המאה ה-19 בעת שניסה לאמוד את מקומו של כוכב הלכת הננסי קרס. אומדן זה מאפשר השוואה בין ההתאמה של מודלים סטטיסטיים שונים לבין המדידות שהללו מנסים להסביר, כל זמן שהמודלים השונים מציעים נוסחאות מתמטיות שונות מאותו סוג (כגון פולינומים בני אותה מעלה).

מטרת השיטה

עריכה

לעיתים רוצים למצוא קשר מתמטי בין שני משתנים שהתקבלו במדידות נסיוניות, אך הקשר בין שני המשתנים אינו נראה לעין באופן מיידי. הסיבה לכך היא שעבור כל ערך של משתנה אחד, נמדד במשתנה השני טווח שלם של ערכים, ולא ערך בודד ויחיד. הסיבות לכך רבות ומגוונות, למשל במדידת גודל פיזיקלי: ייתכן שהמשתנה הראשון עצמו אינו קבוע אלא משתנה בתחום מסוים, ייתכן שהוא אינו המשתנה היחיד המשפיע על המשתנה השני (למשל, אם המשתנה השני תלוי גם בטמפרטורה), ואף ייתכן שיש מגבלות בציוד המדידה. לכן, כדי לעמוד על טיב הקשר בין המשתנים באופן המדויק ביותר משתמשים בכלים סטטיסטיים. שיטת הריבועים הפחותים היא אחד הכלים הסטטיסטיים הללו.

מקרה חשוב שבו שיטת הריבועים הפחותים בשימוש נפוץ הוא מקרה ליניארי. כאשר נתונות m דוגמאות ולכל דוגמה משויכות n תכונות, אם קיים קשר ליניארי בין התכונות למשתנה, ניתן לייצגו כמערכת משוואות:   עם m משוואות, ומקדמים לא ידועים β1,β2,…,βn, כאשר m > n, ובייצוג מטריציוני:  

כאשר   כיוון שלמערכת המשוואות אין בהכרח פתרון, המטרה היא למצוא את הערכים של β שנותנים את התוצאה ה"קרובה" במובן של מינימיזציה ריבועית:   והפונקציה שאותה ממזערים S היא:  

כאשר n העמודות של המטריצה X אינן תלויות ליניארית, משפט גאוס-מרקוב קובע כי קיים לבעיית מזעור זו פתרון יחיד. ניתן לראות זאת באמצעות חישוב הנגזרות החלקיות והשוואתן ל-0:

 
 
 

 

דוגמאות

עריכה

דוגמה א'

עריכה
 
גיל כל ילד של משפחת סקורפי וגובהו מיוצגים בנקודות הגרף הכחולות. הקו השחור מיצג את המודל הסטטיסטי שנוסחאתו היא  . הקו הצהוב הוא המרחק בין גובהה של הילה סקורפי לגובה שצופה המודל הסטטיסטי לילדים בגילה בני משפחתה. R2 הוא מדד הקשור למדד הריבועים הפחותים אך אינו שווה לו

כאשר מניחים שיש קשר בין משתנה מסוים (X) לבין משתנה אחר (Y), אולם מעריכים שבנוסף ל-X גם משתנים אחרים משפיעים על Y ושלא כל המשתנים האלה ידועים. מציאת מודל סטטיסטי מאפשר הערכה מראש מיטבית של ערכו של Y, על פי ערכו של X. דוגמה למשתנים כאלה היא X = גילו של ילד בשנים ו-Y= גובהו בסנטימטרים. המודל הסטטיסטי שאנו מחפשים הוא נוסחה המקשרת את X ל-Y. נעשית השוואה של הנוסחאות המוצעות השונות, שיש להן אותה מעלה חזקתית בעזרת שיטת הריבועים הפחותים. הנוסחה שנותנת את ערך סכום הריבועים הנמוך ביותר היא זו שמייצגת את הקשר בין המשתנים באופן המיטבי. (השוואה של נוסחאות מסוגים שונים נעשית על ידי מדדים אחרים ולוקחת בחשבון לא רק את דיוק הצפי אלא גם את פשטות הנוסחה. ההנחה היא שעדיף אומדן פשוט ומדויק ושפשטות ודיוק עשויים לבוא זה על חשבון זה).

המחשב משתמש במדד שקרוי R2 להערכת דיוק האומדן שהוא אחת מינוס מנת סכום ריבועי שגיאות האמידה בסכום ריבועי הפרשי ערכי המדידה מהממוצע שלהם[1]. היתרון של השימוש במדד זה על מדד הריבועים הפחותים הוא שניתן לתת הערכה לאיכות האומדן המיטבי על פיו. אם האומדן הטוב ביותר שמצאנו נותן R2 = 1 אזי לא ייתכן בכלל אומדן טוב ממנו. אם R2 = 0 אזי לא ייתכן אומדן רע ממנו.

דוגמה ב'

עריכה

כאשר מנסים לאמוד גודל מסוים   על פי   תוצאות מדידה כלשהן,  , גורס עקרון הריבועים הפחותים כי האומדן הטוב ביותר, x, הוא הערך שעבורו סכום ריבועי הסטיות של המדידות מ-x יהיה מינימלי. במקרה כללי יותר, מנסים להתאים פונקציה מסוימת   לסדרה של מדידות  . כאן   הוא אוסף של פרמטרים.

דוגמה לכך היא ניסיון מציאת קשר בין הזרם החשמלי והמתח על נגד, בודקים בסדרה של מדידות של המתח בהתאם לשינוי בזרם:  . אם מניחים שהקשר בין המתח והזרם הוא לפי חוק אוהם,  , הבעיה היא מציאת הערך של   שייתן את ההתאמה המיטבית לאוסף המדידות.

בניסוח מתמטי, נדרש למצוא את   שיביא את הסכום   לערכו המינימלי.

ראו גם

עריכה

קישורים חיצוניים

עריכה

הערות שוליים

עריכה