סיבית

יחידת מידע בסיסית
(הופנה מהדף טרה-ביט)

סִבִּית (קיצור של סִפְרָה בִּינָרִית[1]; באנגלית bit או בִּיט, מתוך השם "binary digit") היא ספרה בינארית – יחידת הנתונים הקטנה ביותר שבה משתמש המחשב.

המושג bit נטבע לראשונה על ידי ג'ון טוקי והובא ב-1948 במאמרו המפורסם של קלוד שאנון[2], אבי תורת האינפורמציה, כדי לתאר את יחידת המידע הקטנה ביותר[3].

ייצוג מידע

עריכה

סיבית יכולה להכיל ערך 0 או 1 בלבד. הסיבה לשימוש בשיטה הבינארית היא פשטות המימוש האלקטרוני והלוגי של שיטה זו – נדרש טיפול בשני מצבים בלבד (למשל: יש זרם = 1, אין זרם = 0).

ניתן ליצג מידע באמצעות דפוסים של סיביות על ידי תהליך של דיגיטציה[3].

יחידות מידה מבוססות סיביות

עריכה

בית (Byte) מורכב מ-8 סיביות. בית מיוצג באנגלית באות B. אין להתבלבל בין יחידת מידה זו לבין סיבית, המיוצגת באות b.

בעבר גודל הבית לא היה מוגדר והיה תלוי מימוש. יחידה שהתייחסה במפורש ל-8 סיביות כונתה Octet. אך מאחר שעם השנים בית התייחס באופן בלעדי ל-8 סיביות, כינוי זה הפך פחות שכיח. גודל של ארבע סיביות מיוצג על ידי מונחים שונים כגון Nibble (אנ'), חצי בית (halfbyte), סמי-אוקטט (semi-octet) וקואדביט (quadbit). מאחר שגודל זה מייצג ספרה בבסיס הקסדצימלי, לעיתים מתייחסים לכך כספרת הקסה (Hex digit). כך, למשל, לעיתים נוח יותר להציג בית כשתי ספרות הקסה.

שם סימול גודל ערכים וחזקות בסיס 16 בסיס 10
kilo k 210 = 1,024 = 162.5 > 103
mega M 220 = 1,048,576 = 165 > 106
giga G 230 = 1,073,741,824 = 167.5 > 109
tera T 240 = 1,099,511,627,776 = 1610 > 1012
peta P 250 = 1,125,899,906,842,624 = 1612.5 > 1015
exa E 260 = 1,152,921,504,606,846,976 = 1615 > 1018
zetta Z 270 = 1,180,591,620,717,411,303,424 = 1617.5 > 1021
yotta Y 280 = 1,208,925,819,614,629,174,706,176 = 1620 > 1024

העברת מידע

עריכה

מערכת תקשורת יכולה להעביר מידע דיגיטלי.

מהירות ההעברה של נתונים בקווי תקשורת נמדדת בסיביות לשנייה, או בכפולות של יחידה זו, כגון קילוביט לשנייה, מגה-ביט לשנייה וג'יגה-ביט לשנייה.

ייצוג בינארי של אותיות

עריכה

באמצעות מחרוזת של סיביות, מושג במחשב ייצוג בינארי של אותיות (וסימנים אחרים). כאשר למטרה זו משמשת סיבית אחת, ניתן לייצג שתי אותיות שונות. ככל שמחרוזת הסיביות ארוכה יותר נוכל להגדיר יותר סימנים שונים, אך נשלם בצריכת מקום אחסון (לסוגיו השונים). רצף של סיביות המשמש להצגה של סימן אחד קרוי תו.

ייצוג בינארי של אותיות נכנס לשימוש שנים רבות לפני המצאת המחשב, במקרים שבהם נדרשה דרך פשוטה לכתיבה וקריאה. כתב ברייל הוא קוד בינארי בן שישה ביטים, כך שייתכנו בו   סימנים שונים, אך צירופים אחדים אינם מנוצלים משום שהם עלולים להטעות את הקורא.

במכשירי טלפרינטר שימש להעברת המידע סרט מנוקב בקוד בודו, שבו כל תו יוצג באמצעות חמישה חורים, כלומר התאפשרו   סימנים שונים. זה מספר קטן מדי של סימנים, שאינו מאפשר אפילו ייצוג של אותיות וספרות בלבד. לפתרון הבעיה נלקחו שני תווים להיות תווי בקרה, בעלי אופי דומה לזה של המקש Shift שבמקלדת, כלומר לעבור למערכת חלופית של סימנים. עוד שלושה תווי בקרה משותפים לשתי מערכות הסימנים, כך שבסך הכול מאפשרת שיטה זו ייצוג של 2X27=54 סימנים שונים, וזה מספיק לאותיות (גדולות בלבד), ספרות וסימני פיסוק.

במחשבי CDC, שפעלו בתחילת שנות השבעים, גודל מילה היה 60 ביטים (גודל זה נקבע משום שיש לו יתרון בולט בחישובים, שזו הייתה מטרתם העיקרית של מחשבים אלה). גודל סימן נקבע ל-6 ביטים, כך שבמילה אחת ניתן לאחסן 10 סימנים. מספר הסימנים השונים היה  . זהו מספר קטן יחסית, אך, כאמור, עיקר פעילותם של מחשבים אלה הייתה חישובים ולא טיפול במידע תווי.

בקוד ASCII נקבעו תחילה 7 ביטים לייצוג תו, כך שהתאפשרו 128 סימנים שונים: אותיות (גדולות וקטנות), ספרות, סימני פיסוק ועוד. בקוד ASCII מורחב נוסף עוד ביט, כך שמתאפשרים 256 סימנים שונים, כולל אותיות עבריות, למשל, ועוד סימנים מיוחדים רבים. קוד זה משמש במרבית המחשבים הפועלים כיום. גם במחשבי IBM-Mainframe, שייצורם החל באמצע שנות השישים, נהוג קוד בן 8 ביטים, אך המשמעות שניתנת בו לכל צירוף של ביטים שונה. קוד זה קרוי EBCDIC.

קוד בן 8 ביטים די בו למערכות טקסטואליות מקובלות, שבהן משתמשים בשפה אחת, או לכל היותר בשתי שפות. במערכות רב-לשוניות, שבהן נדרשות גם אותיות ערביות, קיריליות וכו', לא די בכך. פתרון אפשרי הוא זה שננקט במכשירי הטלגרף, כלומר שימוש בתווי בקרה הגורמים להחלפת מערכת האותיות. בפתרון זה יש אי-נוחות מסוימת, מה גם שאינו פותר את בעיית השפות של המזרח הרחוק, שבהן יש אלפי סימנים. פתרון יסודי לבעיה זו הוא המעבר למערכת יוניקוד, שבה משמשים אחד עד ארבעה בתים, כלומר עד 32 ביטים, לייצוג כל סימן. מערכת זו מאפשרת יותר ממיליון סימנים שונים, די והותר לכל סימני השפות המקובלות בעולמנו גם יחד.

בכל מערכות הסימנים שבהן עסקנו עד כה, ניתן אורך אחיד לכל הסימנים במערכת. זו שיטה פשוטה, אך היא אינה יעילה מבחינת נפח האחסון שהיא צורכת: יש סימנים נדירים שיכולנו לתת להם קוד ארוך יותר, ולעומתם להעדיף קוד קצר יותר לסימנים הנפוצים. יישום של גישה זו קיים כבר בקוד מורס לטלגרף אלחוטי (קוד זה משמש עד היום כשנדרשת תקשורת אמינה בתנאי קליטה גרועים, למשל לקשר עם אוניות בלב ים). לאות הנפוצה 'ו' משמש בקוד מורס הקוד '.', ואילו לאות 'ע' משמש הקוד '---.'.

יישום גישה זו במחשבים נהוג כאשר נדרש חיסכון בנפח האחסון, אך עקב מורכבותה נדרשת השקעה של זמן מעבד לפענוח הקוד. תוכניות לדחיסת נתונים מיישמות גישה זו. נפח האחסון המינימלי מושג באמצעות קוד האפמן.

טבלת המרה בין בסיסי מספרים נפוצים:

עשרוני: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
הקסדצימלי: 0 1 2 3 4 5 6 7 8 9 A B C D E F 10
אוקטלי: 0 1 2 3 4 5 6 7 10 11 12 13 14 15 16 17 20
בינארי: 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 10000


ראו גם

עריכה

קישורים חיצוניים

עריכה

הערות שוליים

עריכה
  1. ^ מבוא למערכות מחשב ואסמבלי עמ' 51
  2. ^ A Mathematical Theory of Communication
  3. ^ 1 2 Denning, P. J., & Bell, T. (2012). The Information Paradox. American Scientist, 100(6), 470-477.