Phred quality score
ציון Phred (פרד) להערכת איכות הוא מדד איכותי לזיהוי הבסיסים (נוקליאוטידים) שמוצגים כפלט בתהליך ריצוף DNA. ציון זה פותח במקור עבור תוכנת המחשב ששימשה לריצוף ה-DNA במסגרת פרויקט גנום האדם. ציון פרד ניתן לכל נוקליאוטיד בפני עצמו, בהתאם לקריאתו ולזיהויו במהלך ריצוף ה-DNA. פורמט ה-FASTQ (פורמט נפוץ להצגת רצפי DNA) מקודד את ציון פרד כתווי ASCII ומציג אותם לצד הרצפים שהתקבלו. ציוני פרד מהווים מדד מקובל בעולם הריצוף לאפיון איכות רצפי ה-DNA, ומאפשרים להשוות את טיב התוצרים המתקבלים משיטות ריצוף שונות. אחד מהשימושים החשובים ביותר בציוני פרד הם קביעה אוטומטית ואיכותית של רצפי קונצנזוס, באופן מדויק.
הגדרה
עריכהציון פרד Q קשור קשר לוגריתמי להסתברות לטעות בזיהוי הנוקליאוטיד, P. הנוסחה לחישוב Q או P:
או:
ציון פרד | הסיכוי לטעות בקריאת הבסיס | נכונות קריאת הבסיס |
---|---|---|
10 | 1:10 | 90% |
20 | 1:100 | 99% |
30 | 1:1000 | 99.9% |
40 | 1:10,000 | 99.99% |
50 | 1:100,000 | 99.999% |
60 | 1:1,000,000 | 99.9999% |
היסטוריה
עריכהאת הרעיון לייצג איכות של ריצוף על ידי ציונים ניתן לייחס לקבצי ה-SCF שנוצרו על ידי Staden's grpup בשנת 1992. בשנת 1995, Staden's grpup הציגו שיטה לשיפור הנכונות של רצפי הקונצנזוס שפוענחו בפרויקט הגנום האנושי. עם זאת, הניסיונות הראשונים לכך זכו להצלחה חלקית בלבד.
התכנית הראשונה לפיתוח ציוני איכות מדויקים ומבוססים הייתה תוכנית Phred, שהצליחה לחשב ציוני איכות מדויקים יותר בזכות הקישור הלוגריתמי להסתברות לטעות. ציון פרד אומץ על ידי כל המרכזים שעסקו בריצוף הגנום האנושי, כמו גם מעבדות רבות אחרות. הרוב המכריע של רצפי ה-DNA שהופקו במהלך הפרויקט עובדו באמצעות המדד של ציון פרד.
לאחר שציוני פרד הפכו לסטנדרט הנדרש בריצוף DNA, יצרנים שונים של מכשירי ריצוף (כולל Li-Cor ו-ABI) פיתחו מדדי איכות דומים עבור התוכנות שלהם.
שיטה
עריכהכדי לקבוע את ציוני האיכות, פרד מחשב תחילה מספר פרמטרים הקשורים ל"פיק" בקריאת כל בסיס - הן מבחינת צורת הפיק והן מבחינת הרזולוציה שלו. לאחר מכן, פרד משתמש בפרמטרים הללו כדי להתאים להם את ציון האיכות, תוך שימוש בטבלאות בדיקה גדולות. הטבלאות הללו נוצרו על ידי רצפים ידועים שהותאם להן ציון פרד, כאשר טבלאות שונות מושמשות עבור שיטות ריצוף שונות.
המכונות הראשונות עבורן פותח ציון פרד היו מסוג "slab gel" (למשל, מכונת ABI373).
במקור, התוצאות שנתן פרד היו מדויקות יותר מאלה שהתקבלו על ידי התוכנה שהוטמעה במכונה, ולכן השימוש בהן היה רב. בהמשך, יצרני מכשירים כמו ABI עמלו על פיתוח תוכנות דומות, שסיפקו ציוני איכות מדויקים יותר על ידי התאמה מרבית למכונות עצמן, כך שהצורך בשימוש בציוני פרד פחת.
יישומים
עריכהציוני Phred משמשים להערכת איכות הרצף, זיהוי והסרה של רצף באיכות נמוכה (end clipping), וקביעת רצפי קונצנזוס מדויקים.
במקור, ציוני האיכות של Phred שימשו בעיקר את תוכנת Phrap להרכבת הרצפים. התוכנה שימשה את החוקרים בכמה מפרויקטי הריצוף הגדולים ביותר (ביניהם, פרויקט ריצוף הגנום האנושי) וכיום היא אחת מהתוכנות הנפוצות להרכבת רצפי DNA בתעשיית הביוטכנולוגיה. Phrap משתמשת בציוני איכות Phred כדי לקבוע רצפי קונצנזוס מדויקים ביותר, וכדי לאמוד את איכות רצפי הקונצנזוס. בנוסף, התוכנה מבצעת שימוש בציוני פרד כדי להעריך את חוסר התאמה בין רצפים חופפים, במטרה לקבוע האם מדובר בשגיאה בקריאה או שחל שינוי בין הרצפים.
במסגרת פרויקט הגנום האנושי, השימוש החשוב ביותר בציוני האיכות של Phred היה לקביעת אוטומטית של רצפי קונצנזוס. לפני כן, המדענים נאלצו לבצע קביעה ידנית של איכות הרצף ועריכה ידנית של כל שגיאה. השימוש בתוכנת Phrap גרם לכך שהיה ניתן באופן אוטומטי לקבוע את רצף הקונצנזוס האיכותי ביותר - דבר שהוביל, ברוב המקרים, לביטול הצורך בעריכה ידנית. על כן, שיעור השגיאות המשוער ברצפים שחושבו באופן אוטומטי על ידי Phred ו- Phrap, היה ברובו ממוך משמעותית משיעור השגיאות של הרצפים שערכו באופן ידני.
דחיסה
עריכהציוני האיכות נשמרים בדרך כלל יחד עם רצף הנוקליאוטידים בפורמט FASTQ המקובל. הם מהווים כמחצית משטח הדיסק הנדרש בפורמט FASTQ (לפני דחיסה), ולכן דחיסת ערכי האיכות יכולה להפחית משמעותית את גודל האחסון הדרוש, ובכך להאיץ את האנליזה ואת העברת נתוני הרצף. בספרות ניתן למצוא גם שיטות המבצעות דחיסה ללא איבוד נתונים, וגם שיטות דחיסה בהן יש איבוד נתונים מסוים. לדוגמה, האלגוריתם QualComp מבצע דחיסה עם אחוז איבוד בהתאם להגדרת המשתמש; הוא מקצה את מספר הביטים מראש כדי למזער את ה- MSE (שגיאת ריבוע ממוצעת) בין ערכי האיכות המקוריים (הלא דחוסים) לבין המשוחזרים (לאחר דחיסה). ישנם אלגוריתמים אחרים לדחיסת ערכי איכות שאינם כוללים אובדן נתונים, כמו SCALCE Fastqz, QZV, MPEG-G ו-AQUa. לדוגמה, SCALCE משתמש בהקטנת גודל האלף-בית, וזאת על סמך ההבנה כי ערכי איכות "שכנים" בערכם, ניתן לייצג גם בטווח אותיות קטן יותר.
מקורות
עריכה- Ewing B; Hillier L; Wendl MC; Green P., "Base-calling of automated sequencer traces using phred. I. Accuracy assessment", Genome Research, 1998
- Ewing B, Green P, "Base-calling of automated sequencer traces using phred. II. Error probabilities", Genome Research, 1998