Sisteme de tip întrebare - răspuns

Sistemele de întrebare - răspuns (în engleză "question answering systems", sau sisteme QA) sunt considerate ca fiind următorul pas în evoluția motoarelor de căutare a informației. Sistemele de tip QA sunt caracterizate prin faptul că primesc întrebări în limbaj natural și, pe baza unei colecții de documente, trebuie să extragă răspunsul sau răspunsurile. Această colecție poate varia de la o simplă colecție locală până la întregul World Wide Web.

Generalități

Sistemele de extragere a răspunsurilor la întrebări în limbajul natural uman se înscriu în categoria sistemelor de achiziție de informații.

Se poate caracteriza cunoașterea prin starea unui sistem informațional cuplat cu un ambient. Prin sistem informațional se poate înțelege atât un individ (în sensul de persoană privită ca unitate distinctă față de alte persoane) care interacționează în mod direct și conștient cu ambientul și care își construiește prin mijloace proprii (observare, cogniție, etc.) universul de cunoaștere, dar și un sistem tehnic ce primește informația de la diverși agenți umani și o procesează sau o pune, mai departe, la dispoziția altor indivizi. Internetul poate fi descris ca un astfel de sistem informațional care, interacționând cu mediul prin intermediul agenților umani, își construiește o bază proprie de cunoaștere.

Cunoașterea accesibilă prin intermediul Internetului este, de cele mai multe ori, deja în forma în care agenții umani o pun la dispoziția sistemului, și anume in limbaj natural uman.

La ora actuală Internetul reprezintă, fără îndoială, cea mai mare bază de cunoștințe, aflată într-o continuă extindere și reîmprospătare. El este, în același timp, una dintre cele mai accesibile locații în care aceste cunoștințe pot fi consultate. Dar gradul de dezvoltare a Internetului are și aspecte negative: datorită multitudinii de informații disponibile, găsirea informației necesare la un moment dat poate fi dificilă sau și nesigură.

Cele mai eficiente metode de descoperire și de achiziție a informației o reprezintă, în prezent, motoarele de căutare. Scopul acestora este de a oferi utilizatorului un set de articole sau pagini web în care acesta să poată găsi informația care îi este necesară. De multe ori articolele oferite de motoarele de căutare nu îndeplinesc dezideratul utilizatorului de a obține un răspuns satisfactor. De asemenea, ele nu oferă răspunsul concret la problema utilizatorului, ci doar un set de pagini web, din care utilizatorul trebuie să extragă singur informația căutată.

Pasul următor in domeniul achiziției informației e constituit de dezvoltarea sistemelor capabile să răspundă la întrebări formulate de utilizator în limbaj natural. Dezideratul principal al unui astfel de sistem este să asigure un răspuns la întrebarea utilizatorului care să îndeplinească urmatoarele trei condiții: să fie corect, să fie formulat tot în limbaj natural uman și să fie suficient de succint. Un sistem de răspuns la întrebări necesită o procesare a limbajului natural mult mai complexă decât sistemele de achiziție de documente.

În teorie, procesarea limbajului natural e un subiect foarte atractiv, datorită aplicabilității sale în domenii ca cel al interacțiunii om-mașină. În practică se constată, însă, o serie de dificultăți majore, datorate mai ales modului diferit în care o afirmație în limbaj natural poate fi interpretată și a multitudinii de sensuri pe care cuvintele constituente le pot lua. Sistemele de răspuns la întrebări, văzute ca un subdomeniu al procesarii limbajului natural, moștenesc problemele acestora.

Scurt istoric al domeniului

Primele sisteme de tip întrebare-răspuns au fost realizate în anii 1960 și erau, de fapt, doar niște interfețe care foloseau limbajul uman pentru a interoga sisteme expert create pentru diferite domenii. Printre sistemele de acest tip amintim:

BASEBALL (Green, 1963), răspunde la întrebări legate de scoruri, echipe, date ale meciurilor de baseball;

LUNAR (Woods, 1977), accesează date din domeniul chimic despre roci lunare, găsite în timpul misiunilor Appolo;

PHLIQA1 (Scha, 1980), dezvoltat de firma Phillips răspunde la întrebări scurte despre datele stocate într-o bază de date ce conține o serie de informații specifice ale firmei.

Sistemele amintite erau foarte eficiente în domeniile în care activau. LUNAR a fost prezentat la o conferință în 1971 și a reușit să răspundă la 90% din întrebările formulate de oameni care nu erau special pregătiți pentru a lucra cu acest sistem. O caracteristică principală a acestor sisteme era că toate aveau informațiile stocate într-o bază de date, care trebuia să fie dezvoltată de experți în domeniul respectiv.

Au urmat SHRDLU și ELIZA Arhivat în 11 iulie 2007, la Wayback Machine.. SHRDLU era un sistem capabil să răspundă la întrebări despre un univers propriu, construit din diverse forme geometrice, pe care sistemul le putea mișca, iar ELIZA era capabil să simuleze o conversație cu un psihiatru. Ambele sisteme erau sisteme închise din punctul de vedere al informației vehiculate, bazându-se, practic, pe un univers închis.

În anii 1970 și 1980 au fost dezvoltate o serie de sisteme care puteau interacționa cu utilizatorul folosindu-se de limbajul natural. Cele mai importante sunt Unix Consultant (un sistem care răspundea la întrebări despre sistemul de operare UNIX) și LILOG (era capabil să ofere informații turistice despre un oraș german).

Perioada de înflorire a sistemelor de tip întrebare-răspuns a avut loc, însă, la sfârșitul anilor 1990, când Text Retrieval Conference (TREC) a inclus o secțiune dedicată sistemelor de acest tip. TREC e o conferință dedicată cercetării în domeniul achiziției de informații, inițiată de National Institute of Standards and Technology (NIST) și Advanced Research and Development Activity (ARDA) - departament din US Departmanet of Defence, care are loc anual și care a început în anul 1992.

Sistemele moderne de raspuns la întrebări, dezvoltate sub impulsul dat de TREC, sunt sisteme orientate pe domenii largi. Acest lucru impune ca baza de informații considerată trebuie să fie mult mai mare decât bazele de date din cazul primelor sisteme, dezvoltate în anii 1960-1970-1980. Se consideră ca sursă de informații un număr mare de articole (de exemplu, articole din enciclopedii, articole de ziar, bloguri, etc.), accesibile, în special, prin intermediul Internetului.

O realizare interesantă a unui sistem de răspuns la întrebari este proiectul START, dezvoltat la MIT de InfoLab Group. La fel ca majoritatea sistemelor de acest fel, și START folosește limba engleză ca limbă de lucru. Altă implementare este AskJeevs.

De asemenea, companii importante care dezvoltă soluții de căutare de informații pe Internet au proiecte care privesc dezvoltarea unor astfel de sisteme (ex.: Microsoft, Google, IBM, etc.).

Metode folosite în dezvoltarea sistemelor de tip întrebare-răspuns

Pentru construirea unui sistem de răspuns la întrebări există două variante:

Abordare de tip shallow, bazată pe cuvinte cheie. În această metodă se folosesc cuvinte cheie pentru a găsi pasaje și propoziții în text care ar putea reprezenta răspunsuri valide la întrebări. Aceste potențiale răspunsuri urmează să fie analizate apoi mai în profunzime pentru a se stabili dacă sunt răspunsuri reale sau nu. Acestă metodă poate fi folosită cu succes în cazul întrebărilor scurte, factuale, când se caută nume, date, locații, cantități.
Abordarea de tip deep, ce implică o analiză mai sofisticată, o procesare sintactică, semantică și contextuală. Există o serie de metode ce pot fi încadrate în această categorie: abduction, named-entity recognition, relation detection etc.

Alegerea unuia dintre cele două modele depinde de complexitatea întrebărilor ce vor fi formulate și de gradul de performanță dorit de la sistem. Este clar că sistemele din cea de-a doua categorie sunt superioare primelor.

Arhitectura generală a unui sistem de tip întrebare-răspuns

Dacă la începuturile inteligenței artificiale, în anii 1960, cercetătorii erau fascinați de ideea de a putea construi sisteme capabile să răspundă la întrebări aparținând unor domenii restrânse (closed domains), în prezent dezvoltarea Internetului și pașii făcuți în ceea ce privește recuperării informației (information retrieval - IR) și a tehnicilor de prelucrare a limbajului natural (natural language processing - NLP), precum și cererea pentru acces facil la informație, a dus la creșterea interesului pentru sisteme care să ofere răspunsuri din domenii largi (open domains).

Un sistem de răspuns la întrebări bazat pe o colecție de documente are, în mod tipic, trei componente principale:

1. Modulul de analiză a întrebării – transformă întrebările formulate în limbaj natural uman în interogări pentru motorul de achiziție de documente;

2. Modulul de achiziție de articole – caută în colecția de articole articolele relevante pentru întrebarea formulata de utilizator, pe baza datelor primite de la modulul de analiză a întrebării;

3. Modulul de extragere a răspunsului – din colecția de articole returnate de modulul de achiziție de articole, extrage un răspuns succint și care constituie răspunsul în limbaj natural uman la întrebarea utilizatorului. Dacă un astfel de răspuns nu există în colecția de documente considerată de modulul de achiziție de articole, e de preferat ca sistemul să nu răspundă la întrebare, în loc de a întoarce un răspuns eronat.

Chiar dacă Internetul este un mediu plin de informații din toate domeniile, găsirea unui răspuns la o întrebare simplă poate fi uneori o sarcină dificilă. Unele din dificultățile ce pot să apară în dezvoltarea unui astfel de sistem:

Formularea corectă a interogărilor. Transformarea unei întrebări din limbaj natural într-o interogare pentru un motor de căutare este o sarcină dificilă. Dacă întrebarea e prea generică, va fi extras un număr prea mare de documente. De asemenea, temele descrise în colecția de documente extrase e posibil să nu conțină tocmai răspunsul la întrebarea utilizatorului. Dacă sunt extrase prea multe documente, timpul de procesare va fi sporit. Dacă setul de cuvinte căutate e prea mic, e posibil să nu fie găsit articolul care răspunde la întrebare. De aceea se cere ca setul de cuvinte folosite în intergoare să fie bine formulat, pentru a fi returnate, pe cât posibil, doar documente care să conțină informație utilă.

Zgomotul. Chiar dacă e găsit setul de cuvinte corecte pentru a realiza o interogare care să aibă posibilitatea să întoarcă articole cu informație utilă, motorul de căutare poate întoarce un număr foarte mare de articole care să nu răspundă întrebării utilizatorului. De exemplu, în cazul întrebării „Cine a fost primul om în spațiu?”, modulul de achiziție de informații va primi, printre altele, și următoarele cuvinte cheie după care să realizeze căutarea: „primul om în spațiu”. Motorul de căutare e posibil să aibă indexate pagini despre „primul turist în spațiu” sau despre „cel mai bătrân om în spațiu” și să le returneze și pe acestea, împreună cu articolele care conțin răspunsul corect, și anume cele despre Iuri Gagarin, primul cosmonaut în spațiu.

Informații false. Chiar dacă întrebarea e bine formulată, motorul de achiziție de articole întoarce articole care corespund subiectului întrebării, e posibil ca unele dintre aceste articole să conțină informații greșite. Acesta este unul dintre cazurile cele mai nefavorabile, deoarece sistemul nu are cum să își dea seama care răspunsuri sunt corecte și care nu.

Resurse limitate. Când este construit un sistem de răspuns la întrebări trebuie să se țină cont de limitările impuse de lucrul cu cantități mari de informații. Este neindicat să se trimită sistemului un set prea mare șiruri de cuvinte pentru interogări. Cu toate ca motoarele de căutare actuale sunt suficient de rapide și întorc răspunsuri la obiect, căutarea în liste prea mare de articole consumă mult prea mult timp, și utilizatorul sistemului nu este dispus să aștepte minute pentru ca sistemul să îi ofere un răspuns.

Bibliografie

Sanda Harabagiu - Answering Complex, List and Context Questions with LCC's Question Answering Server. Tenth TREC. Gaithersbyrg, 2001
B. F. Green - "BASEBALL: An Automatic Question Answerer", Computers and Thought. Figerbaum and Feldman, New York, 1963
W. A. Woods - Lunar Rocks in Natural English: Explorations in Natural Language Question Answering. Fundamental Studies in Computer Science. A Zampolli, 1977
Robert Plant - A natural language help shell through functional programming. sciencedirect.com, 2005
Dan Moldovan - Word sense disambiguation of WordNet glosses. sciencedirect.com, 2004

Legături externe

Text REtrival Conference
Plan de dezvoltare a sistemelor de tip întrebare - răspuns
Sistemul START dezvoltat de MIT
Sistem de tip întrebare - răspuns pentru limba română Arhivat în 27 noiembrie 2007, la Wayback Machine.
NLP Research Group at FCS Iași Arhivat în 14 iulie 2007, la Wayback Machine.
How to build a QA System in your back-garden Arhivat în 24 septembrie 2006, la Wayback Machine.