משוואות בלמן
ערך מחפש מקורות | |
משוואת בלמן (באנגלית: Bellman Equation) הקרויה על שם מפתחה ריצ'רד בלמן היא תנאי הכרחי לאופטימליות בפתרון בעיית בקרה באמצעות תכנון דינמי. משוואות בלמן מתבססות על עקרון האופטימליות של בלמן הגורס באופן רקורסיבי כי מדיניות החלטה אופטימלית היא אופטימלית ביחס לכל מצב התחלתי והחלטה התחלתית וכמו כן מהווה מדיניות החלטה אופטימלית ביחס לכל מצב והחלטה שנקרים בדרכה.
ניסוח כללי
עריכהבצורתה הבסיסית, מנוסחת משוואת בלמן עבור תהליך החלטה בזמן בדיד כך שהמצב בזמן t נתון על ידי . פונקציית המעברים של המערכת נתונה כ וקבוצת ההחלטות (הפעולות) שניתן לבצע במצב נתון נתונה כ . כמו כן נתונים לנו הערך המיידי לביצוע החלטה אפשרית כלשהי במצב מסוים ופקטור היוון . משוואת בלמן עבור מדיניות ההחלטה האופטימלית דורשת שיתקיים לכל מצב :
כאשר היא פונקציית הערך הכולל עבור ביצוע החלטות החל ממצב .