Web Analytics
Privacy Policy Cookie Policy Terms and Conditions עיבוד שפה טבעית - ויקיפדיה

עיבוד שפה טבעית

מתוך ויקיפדיה, האנציקלופדיה החופשית

עיבוד שפה טבעיתאנגלית: Natural Language Processing - NLP) הוא תת-תחום של אינטליגנציה מלאכותית ובלשנות. הוא חוקר את הבעיות הקשורות לעיבוד ומניפולציה של שפה טבעית, והבנה של שפה טבעית על מנת לגרום למחשבים "להבין" דברים שנכתבים בשפות אנושיות.

תוכן עניינים

[עריכה] עיבוד שפה טבעית

מערכות מוקדמות כמו SHRDLU, שעבדו ב"עולמות קוביות" עם אוצר מילים מצומצם, עבדו טוב מאוד, והובילו את החוקרים לאופטימיות מוגזמת, שחלפה במהירות כאשר המערכות הוגדלו למצבים ריאלייסטיים יותר עם המורכבות וחוסר הבהירות של העולם האמיתי.

הבנת שפה טבעית היא בעיה רצינית, שכן היא מחייבת הכרה משמעותית ורבה של העולם החיצוני ואת האפשרות לעבוד איתו. ההגדרה של "הבנה" גם היא אחת מהבעיות הגדולות בעיבוד שפה טבעית.

דוגמאות מסוימות של הבעיות העומדות בפני מערכות הבנת שפה טבעית:

  • למשפטים "נתנו לקופים את התפוזים משום שהם היו רעבים", ו"נתנו לקופים את התפוזים משום שהם היו רקובים", יש את אותו מבנה תחבירי חיצוני. אולם, באחד מהם הבמילה "הם" מתייחסת לקופים, ובאחרת לתפוזים: לא ניתן להבין את המשפט כראוי ללא היכרות עם המאפיינים וההתנהגות של קופים ותפוזים.

על מנת לעזור לפתור את הבעיות האלו, כמה בלשנים וחוקרי אינטלגנציה טבעית הציעו להשתמש בשפה מלאכותית, שיכולה לבטא את כל הדקויות והעומק של השפות הטבעיות שאנו מכירים, אבל שיהיו לה תחביר וחוקי כתיב עקיבים מבחינה מתמטית. זאת על מנת להסיר כל בלבול לגבי משמעות המשפט, גם אם הוא היה מורכב ממילים חסרות משמעות. דוגמה של שפה מובנית שכזו, שאפשר להשתמש בה למטרות תקשורת אדם/מחשב היא לוג'באן.

[עריכה] המשימות העיקריות של עיבוד שפה טבעית

  • הפיכת טקסט לדיבור
  • זיהוי דיבור
  • יצירת שפה טבעית
  • תרגום מכונה
  • מענה על שאלות
  • כריית מידע
  • מציאת מידע
  • בדיקת טקסטים
  • טכנולוגיית תרגום
  • סיווג טקסטים
  • סיכום (יצירת תקציר) אוטומטי

[עריכה] כמה בעיות שמקשות על עיבוד שפה טבעית

הפרדת משפט למילים
בשפה מדוברת אין בדרך כלל הפרדה ברורה בין מילים; רוב הבלשנים מניחים כי הדוברים מזהים מילים ורכיבים תחביריים אחרים במשפט על-פי רמזים פרוזודיים (בעיקר הטעמה) ואינטונציה. גם בשפה הכתובה אין בהכרח הפרדה בין המילים. בשפות כמו סינית אין רווחים בין המלים, ובווייטנאמית מסמנים רווח בין הברות ולא בין מילים. גם בשפות אירופיות כללי ההפרדה בין המילים משתנים משפה לשפה (למשל, באנגלית משתמשים ברווח יותר מאשר בגרמנית).
רב-משמעות לקסיקלית
למלים רבות יש יותר ממשמעות אחת; מציאת המשמעות הנכונה מחייבת התחשבות בהקשר וב"ידע העולם". רב-משמעות לקסיקלית עשויה להביא ליצירת צירופים שנראים אבסורדיים, אך בעצם הם מובנים לדוברי השפה, למשל: "סבון נטול סבון" (סבון במשמעות "תכשיר רחצה" לעומת סבון במשמעות "סוג של חומר").
עמימות תחבירית
התחביר של השפות הטבעיות הוא עמום, כלומר אין יחס של 1:1 בין מבנים תחביריים לבין משמעות. מבנים תחביריים שונים עשויים לשאת משמעות זהה, ולמבנה תחבירי אחד עשויות להיות מספר משמעויות. בחירת המובן הנכון מצריכה מידע סמנטי, קונטקסטואלי וידע חוץ-לשוני על העולם. לדוגמה: "דוב נמלים" הוא בעל-חיים שאוכל נמלים. "כלב זאב" אינו בעל חיים שאוכל זאבים. מצד שני, "כלב זאב" הוא סוג של כלב, ואילו "דוב נמלים" אינו סוג של דוב. על אף כל זאת, המבנה התחבירי בשני המקרים זהה.
קלט לא ברור
מבטאים מקומיים או זרים, הפרעות בדיבור, טעויות הדפסה או לשון; טעויות בזיהוי אופטי של אותיות (OCR) בטקסטים. בעברית ישראלית, כמחצית מהדוברים אינם דוברים ילידיים, ולפיכך נושאים מבטא זר כלשהו, דבר המקשה על פענוח ממוחשב של הדיבור. בערבית קיימים סגנונות רבים של כתבי יד, דבר המקשה מאוד על פיתוח OCR לכתב יד ערבי.
פרגמטיקה של השפה
פירוש המשפט אינו נובע בהכרח ממשמעות המילים והמבנים התחביריים. למשל: המשפט: "האם אתה יכול להעביר את המלח?", אף שהוא בנוי כשאלת "כן או לא", אינו שאלה למעשה, אלא בקשה. התגובה המצופה למשפט כזה היא העברת המלח למבקש. התשובה "לא" עדיין נשמעת סבירה, אבל התשובה "כן" לשאלה כזאת נשמעת מוזרה. מבחינה לוגית פשוטה, קשה להסביר מדוע התשובה "כן" אינה קבילה עבור משפט שמנוסח כשאלת "כן או לא". התשובה לשאלה: "כמה תלמידים נכשלו בבחינה?" צריכה להיות "כולם" אם כל התלמידים שניגשו לבחינה נכשלו. התשובה "שלושה" (במקרה שבו רק 3 תלמידים ניגשו לבחינה) נתפסת כבלתי-קבילה, אף שמבחינה לוגית אין בה פגם. פול גרייס ניסח שורה של כללים המכונים "עקרון שיתוף הפעולה" שמסבירים את המקרים האלה, אולם אלה הם כללים פסיכולוגיים או סוציולוגיים, ואינם כללים לוגיים. לפיכך, קשה מאוד לכתוב תוכנית מחשב שתכלול אותם.

[עריכה] עיבוד שפה טבעית סטטיסטי

עיבוד שפה טבעית סטטיסטי משתמש בשיטות של סיכויים והסתברויות על מנת לפתור כמה מהבעיות שציינו למעלה, במיוחד אלה שעולים מכך שמשפטים ארוכים הם לרוב לא ברורים כשמעבדים אותם בשיטות לשוניות, והדבר מביא לאלפי או מליוני אפשרויות ניתוח. שיטות להבהרת המצב משתמשות בדרך כלל באוצר של טקסט מוכן ובמודלי מרקוב. הטכנולוגיה לעיבוד סטטיסטי מגיע בעיקר מתחומי למידת מכונה וכריית מידע, שני תחומים באינטליגנציה מלאכותית העוסקים בלימוד ממידע.

[עריכה] קישורים חיצוניים

THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu