התפלגות פארטו

התפלגות פארטו, הנקראת על שם המהנדס האזרחי, הכלכלן והסוציולוג האיטלקי וילפרדו פארטו,[1] היא התפלגות הסתברות המשמשת לתיאור של תופעות מתחומים מגוונים: חברתיות, בקרת איכות, מדעיות, גיאופיזיות, אקטואריות ועוד. העיקרון, שיושם במקור לתיאור של חלוקת העושר בחברה, מתאים לתופעה לפיה חלק גדול מהעושר מוחזק על ידי חלק קטן מהאוכלוסייה.[2][3] עקרון פארטו או "כלל 80-20", הקובע ש-80% מהתוצאות נובעות מ-20% מהסיבות, נקרא על שם פארטו, אך רק התפלגויות פארטו עם פרמטר צורה α שערכו ישקפו במדויק את עיקרון פארטו. תצפיות אמפיריות הראו שהתפלגות 80-20 זו מתאימה למגוון רחב של תופעות טבע[4] והתנהגות אנושיות.[5][6]

התפלגות פארטו סוג I
פונקציית צפיפות ההסתברות
px
px
פונקציית ההסתברות המצטברת
px
px
מאפיינים
פרמטרים (ממשי)
(ממשי)
תומך
פונקציית צפיפות הסתברות
(pdf)
פונקציית ההסתברות המצטברת
(cdf)
תוחלת
חציון
ערך שכיח
שונות
אנטרופיה
צידוד
גבנוניות

הגדרות

עריכה

אם X הוא משתנה מקרי עם התפלגות פארטו (סוג I),[7] אזי ההסתברות ש- X גדול ממספר כלשהו x, כלומר, פונקציית ההישרדות (נקראת גם פונקציית זנב), נתונה על ידי

 

כאשר xm הוא הערך המינימלי האפשרי (חיובי בהכרח) של X, ו- α הוא פרמטר חיובי. התפלגות פארטו מסוג I מאופיינת בפרמטר קנה-המידה xm ובפרמטר צורה α, הידוע כמדד הזנב. אם התפלגות זו משמשת למודל של התפלגות העושר, אז הפרמטר α נקרא אינדקס פארטו(אנ').

פונקציית התפלגות מצטברת

עריכה

מההגדרה, פונקציית ההתפלגות המצטברת של משתנה מקרי שמתפלג פארטו עם הפרמטרים α ו- xm היא

 

פונקציית צפיפות הסתברות

עריכה

על ידי גזירה מקבלים שפונקציית צפיפות ההסתברות היא

 

כאשר מציירים את ההתפלגות על צירים ליניאריים, ההתפלגות מתוארת על ידי עקומה בצורת האות J, ששואפת אסימפטוטית לשני הצירים. כל מקטעי העקומה דומים לעצמם (עם פרמטרי קנה מידה מתאימים). כאשר משרטטים בדיאגרמה שבה שני הצירים מכויילים לוגריתמית, ההתפלגות מיוצגת על ידי קו ישר.

מאפיינים

עריכה

מומנטים ופונקציה אופיינית

עריכה
 
 
(עבור α ≤ 1, השונות אינה מוגדרת)
 
 
 

היות שהתוחלת אינה מתכנסת בקטע הפתוח המכיל את   אנו אומרים שהפונקציה היוצרת אינה מוגדרת.

 
כאשר  היא פונקציית גמא הלא שלמה.

ניתן לחלץ את הפרמטרים באמצעות שיטת המומנטים.[8]

התפלגויות מותנות

עריכה

התפלגות ההסתברות המותנית של משתנה מקרי המתפלג פארטו, בהינתן המאורע שערכו של המשתנה המקרי גדול או שווה למספר מסוים  , שגדול מ  , היא התפלגות פארטו עם אותו אינדקס פארטו   אך עם מינימום   בִּמקוֹם  :

 

הביטוי מרמז כל כך שהערך התוחלת המותנית (אם היא סופית, כלומר   ) פרופורציוני ל-  :

 

במקרה של משתנים אקראיים המתארים את משך חייו של אובייקט, המשמעות היא שתוחלת החיים היא פרופורציונלית לגיל, והיא נקראת אפקט לינדי(אנ') או חוק לינדי.[9]

משפט אפיון

עריכה

נניח כי   הם משתנים מקריים בלתי תלויים אשר התפלגות ההסתברות שלהם נתמכת בקטע   עבור   כלשהו. נניח שלכל  , שני המשתנים האקראיים   ו   הם בלתי תלויים. אז ההתפלגות המשותפת היא התפלגות פארטו.

ממוצע גאומטרי

עריכה

הממוצע הגאומטרי (G) הוא[10]

 

ממוצע הרמוני

עריכה

הממוצע ההרמוני ( H ) הוא[10]

 

ייצוג גרפי

עריכה

התפלגות ה'זנב הארוך' המעוקל האופיינית, כשהיא משורטטת בסקאלה ליניארית, אינה מגלה את הפשטות הבסיסית של הפונקציה. כשהיא משורטטת על מערכת צירים בסקאלה לוגריתמית-לוגריתמית, היא מתוארת כקו ישר עם שיפוע שלילי, כפי שניתן לראות מהנוסחה עבור פונקציית צפיפות ההסתברות עבור xx m

 

מכיוון ש- α חיובי, השיפוע   הוא שלילי.

הסקה סטטיסטית

עריכה

הערכת פרמטרים

עריכה

פונקציית הנראות של פרמטרי התפלגות פארטו α ו- xm, בהינתן מדגם בלתי תלוי x = (x1x2 , ..., xn), הוא

 

לכן, הלוגריתם הטבעי של פונקציית הנראות הוא

 

אפשר לראות כי   עולה מונוטונית עם xm, כלומר ככל שהערך של xm גדל, כך גדל הערך של פונקציית הנראות. לפיכך, מכיוון ש- xxm, אנו מסיקים כי

 

כדי למצוא את המשערך של α, מחשבים את הנגזרת החלקית המתאימה ומוצאים את הערך שבו היא מתאפסת:

 

לפיכך משערך הנראות המרבית ל α הוא:

 

השגיאה הסטטיסטית הצפויה היא:[11]

 

דוגמאות ומקרים פרטיים

עריכה

כללי

עריכה

וילפרדו פארטו השתמש במקור בהתפלגות זו כדי לתאר את הקצאת העושר בין יחידים, כיוון שנראה היה שהיא מתארת היטב את האופן שבו בחברות שונות חלק גדול של העושר נמצא בבעלות אחוז קטן של האנשים. הוא גם השתמש בהתפלגות זו כדי לתאר את חלוקת ההכנסה.[3] רעיון זה מתבטא לפעמים בצורה פשוטה יותר כעקרון פארטו או "כלל 80-20", שאומר ש-20% מהאוכלוסייה שולטת ב-80% מהעושר.[12]

התפלגות זו אינה מוגבלת לתיאור עושר או הכנסה. הדוגמאות הבאות נתפסות לפעמים כבעלות התפלגות פארטו בקירוב:

  • ארבעת המשתנים של מגבלת התקציב של משק הבית: צריכה, הכנסת עבודה, הכנסת הון ועושר.[13]
  • הגדלים של יישובים אנושיים (מעט ערים, כפרים/כפרים רבים)[14][15]
  • התפלגות גודלי קבצים בתעבורת אינטרנט המשתמשת בפרוטוקול TCP ( קבצים קטנים רבים, קבצים גדולים מעטים)[14]
 
התאמת התפלגות פארטו מצטברת לכמות גשמים מקסימלית של יום אחד
  • עתודות הנפט בשדות נפט[14]
  • תשואות של מניות בודדות[14]
  • גדלים של חלקיקי חול[14]
  • גדלים של מטאוריטים[16]
  • בהידרולוגיה, התפלגות הפארטו מיושמת על אירועי קיצון כמו כמות גשמים מקסימלית מדי שנה של יום אחד וספיקה של נהרות.[17] התמונה הכחולה ממחישה דוגמה להתאמת התפלגות פארטו לכמות גשמים מקסימלית שנתית מדורגת של יום אחד, המציגה גם את רווח בר סמך של 90% בהתבסס על ההתפלגות הבינומית. נתוני הגשמים מיוצגים על ידי התווית מיקומים כחלק מניתוח התדירות המצטבר.

הקשר לחוק זיף

עריכה

התפלגות פארטו היא התפלגות הסתברות רציפה. חוק זיף הוא התפלגות בדידה, המפרידה בין הערכים לדירוג פשוט(אנ'). שניהם הם חוקי חזקות פשוטים עם מעריך שלילי, מנורמלים כך שההתפלגות המצטברת שלהם שווה ל-1. ניתן לגזור את חוק זיף מהתפלגות פארטו אם ערכי   ערכים (ההכנסות) מחולקים ל   דליים(אנ'), כך שמספר האנשים בכל דלי מתנהג כהופכי של הדירוג שלו. ההתפלגות מנורמלת על ידי ההגדרה של   כך שיתקיים  , כאשר   הוא המספר ההרמוני המוכלל. כך, פונקציית צפיפות ההסתברות של זיף מהווה מקרה פרטי של התפלגות פארטו:

 

כאשר  , N הוא מדרגת ההכנסה הגבוהה ביותר ו-  הוא מספר שלם המייצג דירוג מ-1 עד N. אז לאדם שנבחר באקראי (או מילה, קישור לאתר או עיר) מאוכלוסייה (או שפה, אינטרנט או מדינה) יש הסתברות   לדירוג   .

קשר ל"עקרון פארטו"

עריכה

חוק "80–20", לפיו 20% מכלל האנשים מקבלים 80% מכלל ההכנסה, ו-20% מ-20% האמידים ביותר מקבלים 80% מאותם 80%, וכן הלאה, מתקיים כאשר מדד פארטו הוא   . תוצאה זו יכולה להיגזר מנוסחת עקומת לורנץ. יתר על כן, הוכח כי הטענות הבאות שקולות מתמטית[18]:

  • ההכנסה מחולקת לפי התפלגות פארטו עם מדד α > 1.
  • קיים מספר   כך שחלק יחסי p מכלל האנשים מקבלים חלק יחסי   מההכנסה., ובאופן דומה עבור כל מספר ממשי 0<n (לא בהכרח מספר שלם) חלק יחסי   של כלל האנשים יקבל חלק יחסי   מכלל ההכנסה. α ו- p קשורים ב-
  .

התפלגויות פארטו, שעבורן 0 < α ≤ 1 אשר, כפי שצוין לעיל, יש להן עתוחלת אינסופית, אינן יכולות לשמש כמודל סביר להתפלגות של הכנסה.

ראו גם

עריכה

קישורים חיצוניים

עריכה
  מדיה וקבצים בנושא התפלגות פארטו בוויקישיתוף

הערות שוליים

עריכה
  1. ^ Amoroso, Luigi (1938). "VILFREDO PARETO". Econometrica (Pre-1986); Jan 1938; 6, 1; ProQuest. 6.
  2. ^ Pareto, Vilfredo (1898). "Cours d'economie politique". Journal of Political Economy. 6. doi:10.1086/250536.
  3. ^ 1 2 Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H.
  4. ^ VAN MONTFORT, M.A.J. (1986). "The Generalized Pareto distribution applied to rainfall depths". Hydrological Sciences Journal. 31 (2): 151–162. Bibcode:1986HydSJ..31..151V. doi:10.1080/02626668609491037.
  5. ^ Oancea, Bogdan (2017). "Income inequality in Romania: The exponential-Pareto distribution". Physica A: Statistical Mechanics and Its Applications. 469: 486–498. Bibcode:2017PhyA..469..486O. doi:10.1016/j.physa.2016.11.094.
  6. ^ Morella, Matteo. "Pareto Distribution". {{cite journal}}: Cite journal requires |journal= (עזרה)
  7. ^ Barry C. Arnold (1983). Pareto Distributions. International Co-operative Publishing House. ISBN 978-0-89974-012-6.
  8. ^ S. Hussain, S.H. Bhatti (2018).
  9. ^ Eliazar, Iddo (בנובמבר 2017). "Lindy's Law". Physica A: Statistical Mechanics and Its Applications. 486: 797–805. Bibcode:2017PhyA..486..797E. doi:10.1016/j.physa.2017.05.077. {{cite journal}}: (עזרה)
  10. ^ 1 2 Johnson NL, Kotz S, Balakrishnan N (1994) Continuous univariate distributions Vol 1.
  11. ^ M. E. J. Newman (2005). "Power laws, Pareto distributions and Zipf's law". Contemporary Physics. 46 (5): 323–51. arXiv:cond-mat/0412004. Bibcode:2005ConPh..46..323N. doi:10.1080/00107510500052444.
  12. ^ For a two-quantile population, where approximately 18% of the population owns 82% of the wealth, the Theil index takes the value 1.
  13. ^ Gaillard, Alexandre; Hellwig, Christian; Wangner, Philipp; Werquin, Nicolas (2023). "Consumption, Wealth, and Income Inequality: A Tale of Tails".
  14. ^ 1 2 3 4 5 Reed, William J.; et al. (2004). "The Double Pareto-Lognormal Distribution – A New Parametric Model for Size Distributions". Communications in Statistics – Theory and Methods. 33 (8): 1733–53. CiteSeerX 10.1.1.70.4555. doi:10.1081/sta-120037438.
  15. ^ Reed, William J. (2002). "On the rank-size distribution for human settlements". Journal of Regional Science. 42 (1): 1–17. Bibcode:2002JRegS..42....1R. doi:10.1111/1467-9787.00247.
  16. ^ Alberto S Betzler, Ernesto P Borges, Mass distributions of meteorites, Monthly Notices of the Royal Astronomical Society, 493, 2020, עמ' 4058–4064
  17. ^ CumFreq, software for cumulative frequency analysis and probability distribution fitting
  18. ^ Hardy, Michael (2010). "Pareto's Law". Mathematical Intelligencer. 32 (3): 38–43. doi:10.1007/s00283-010-9159-2.