0% au considerat acest document util (0 voturi)
233 vizualizări53 pagini

Intrebari Data Mining

Documentul prezintă principalele concepte utilizate în analiza datelor, cum ar fi populația, eșantionul, variabilele și scalele de măsurare. De asemenea, documentul definește și clasifică variabilele și prezintă principalele moduri de reprezentare a informațiilor în analiza datelor, cum ar fi matricele de observații.

Încărcat de

MadaNicoara
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd
0% au considerat acest document util (0 voturi)
233 vizualizări53 pagini

Intrebari Data Mining

Documentul prezintă principalele concepte utilizate în analiza datelor, cum ar fi populația, eșantionul, variabilele și scalele de măsurare. De asemenea, documentul definește și clasifică variabilele și prezintă principalele moduri de reprezentare a informațiilor în analiza datelor, cum ar fi matricele de observații.

Încărcat de

MadaNicoara
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd
Sunteți pe pagina 1/ 53

1.

Definiti si caracterizati principalele concepte utilizate n analiza datelor (populatie,


esantion, observatie, variabile etc.)
Colectivitatea este un ansamblu de entiti individuale, numite uniti elemen-tare, uniti observaionale,
obiecte, indivizi, cazuri etc., care au o existen real, concret, i care au una sau mai multe proprieti
empirice comune, numite caracteristici sau atribute.
Populaia statistic este un ansamblu de entiti informaionale abstracte, virtuale, numite generic
observaii, constnd din mulimea tuturor valorilor posibile, efective sau virtuale, pe care le pot lua
caracteristicile elementelor unei colec-tiviti, ansamblu care reprezint o generalizare a valorilor
particulare ale respecti-velor caracteristici. O populaie statistic are natura unei mulimi de valori, de
regul reale, ale uneia sau mai multor variabile aleatoare, numite i dimensiuni ale populaiei statistice, n
funcie de numrul de caracteristici de interes ale colec-tivitii pe care populaia statistic o
generalizeaz.
Eantionul reprezint o poriune informaional, o parte sau o submulime a populaiei statistice,
respectiv acea parte care este asociat doar cu acele uniti ale colectivitii, de la care sunt colectate n
mod efectiv datele de interes
Variabila reprezint o abstractizare a mulimii de valori posibile pe care le poate nregistra o
caracteristic, de-a lungul tuturor unitilor unei colectiviti.
Parametrii sunt mrimi numerice cu valoare constant i necunoscut, specifice populaiilor statistice i
modelelor econometrice, care exprim caracteristici fundamentale i de interes, a cror valoare nu poate fi
obinut pe calea observrii directe.

2. Ce sunt variabilele si cum se clasifica acestea


Variabila reprezint o abstractizare a mulimii de valori posibile pe care le poate nregistra o
caracteristic, de-a lungul tuturor unitilor unei colectiviti.
Variabilele se clasifica dupa urmatoarele criterii :
Ca i caracteristicile unitilor la care se refer, variabilele pot fi de mprite, n funcie de natura
valorilor pe care acestea le iau, n dou mari categorii: variabile calitative i variabile cantitative.
Variabilele calitative sunt variabile care difer prin tip, care se refer la proprieti nenumerice ale
unitilor elementare aparinnd unei colectiviti i care nu pot fi exprimate sub o form numeric
semnificativ. Valorile variabilelor de tip calitativ se numesc alternative, variante, modaliti sau
categorii, motiv pentru care variabilele calitative se mai numesc i variabile categoriale. Exemple de
varia-bile calitative : sexul, opiunea cumprtorului, opiunea alegto-rului, profesia, starea civil, etc.
Variabilele cantitative sunt variabile care difer prin mrime, care se refer la proprieti numerice ale
unitilor elementare dintr-o colectivitate i care sunt exprimate n uniti numerice de lungime, de
frecven, de volum, de greutate, de valoare. Exemple de variabile cantitative : preul unui produs,
cheltuielile lunare ale unei familii, salariul mediu lunar, venitul naional, volumul fizic al produciei etc.

Un alt criteriu de clasificare a variabilelor este cel al naturii mulimii n care acestea pot lua valori. Din
acest punct de vedere, variabilele se mpart n dou categorii: variabile de tip discret i variabile de tip
continuu.
Variabilele de tip discret sunt variabile care pot lua valori ntr-o mulime finit, indiferent de natura
calitativ sau cantitativ a acestora. Variabilele de tip discret pot s fie att variabile calitative, ct i
variabile cantitative, cu condiia ca n cazul ultimelor, numrul de valori posibile s fie finit. Exemple de
variabile de tip discret : categoria de venit, nivelul de instruire, vrsta, numrul de salariai, numrul de
cumprtori, numrul de piese defecte, numrul de firme falimentare, numrul de tranzacii la burs.
Variabilele de tip continuu sunt variabile numerice pentru care mulimea de valori posibile este o
mulime de numere reale, care are puterea continuului. Exemple : masa monetar dintr-o economie, preul
unui bun economic, rata inflaiei, rata omajului, cursul de schimb al monedei na ionale etc.
Un alt criteriu de clasificare a variabilelor este cel reprezentat de rolul acestora n contextul relaiilor de
cauzalitate i, implicit, n cadrul modelelor care descriu relaii de acest fel. Din acest punct de vedere,
variabilele se mpart n trei categorii: variabile endogene, variabile exogene i variabile fictive.
Variabilele endogene sunt variabile care exprim fenomene de tip efect sau rezultat, considerate a se
forma sub influena unor alte fenomene i apar n cadrul modelelor econometrice ca variabile dependente.
Variabilele exogene sunt varia-bile care simbolizeaz fenomene de tip cauze, care, prin modul lor de
manifestare, determin comportamentul unui fenomen de tip efect. Variabilele endogene si variabilele
exogene pot fi atat de tip calitativ cat si de tip cantitativ.
Variabilele fictive sunt variabile artificiale, care sunt utilizate n con-struc ia modelelor econometrice cu
scopul de a asigura flexibilizarea modelelor sau cu scopul de a cuantifica influen e de tip sezonier. De
regul, variabilele fictive sunt variabile de tip binar, adic variabile care pot lua dou valori posibile. n
cazul n care varibilele fictive sunt incluse ntr-un model cu scopul de a descrie sezo-nalitatea, numrul
acestora i valorile lor posibile sunt determinate de numrul de perioade din intervalul de ciclitate
Variabilele pot fi clasificate i n funcie de tipul scalelor pe care sunt msurate valorile acestor variabile.
Din acest punct de vedere, exist patru tipuri de variabile, respectiv variabile nominale sau categoriale,
variabile ordinale, variabile de tip interval i variabile de tip raport, tipuri ce corespund scalelor
nominal, ordinal, interval sau raport.

3. Ce este scala de masurare si care sunt principalele tipuri de scale de masurare


utilizate n analiza datelor
O scala reprezinta un etalon corespunzator care stabileste modul dupa care sunt atribuite valori variabilelor. A defini
o scala de masurare este echivalent cu :
- A stabili o multime de valori posibile ale variabilei, multime numita si spatiu de selectie
- A preciza regulile dupa care sunt atribuite simboluri pentru elementele unei relatii date, adic a define o
structura asupra spatiului de selectie.
Scalele pot fi:
- Scale de tip non-metric:
Scala Nominala si Ordinala
- Scale de tip metric:
Interval si Raport (NOIR)

4. Definiti si caracterizati scala nominala si scala ordinala. Evidentiati operatiile


posibile pe aceste tipuri de scale

5. Definiti si caracterizati scala ordinala si scala raport. Evidentiati operatiile posibile


pe aceste tipuri de scale
Def: Scala ordinala este o scala non-metrica, prin intermediul careia valorilor posibile ale
caracteristicilor li se atribuie numere de ordine sau ranguri, in functie de pozitia acestor valori
intr-o ierarhie.
Caracteristici:
Variabilele masurate pe aceasta scala se numesc variabile ordinale, sunt variabile
calitative de tip discret si nu pot fi exprimate sub o forma numerica reala (exp: categoria
de venit, nivelulul studiilor, preferinta consumatorilor pentru un anumit produs, etc.).
Masurarea pe scala ordinala permite comparatii intre subiecti din punct de vedere al
caracteristicii masurate, dar aceste comparatii se refera numai la modul in care un subiect
este situat in raport cu altul, fara a se putea spune si in ce masura subiectii difera intre
ei dupa caracteristica respectiva.

Singura transformare invarianta a scalei ordinale este translatia, adica transformarea care
pastreaza ordinea valorilor unei variabile. Analitic, acest tip de transformare invarianta a
scalei ordinale poate fi definit astfel: y=a+x
unde a este o constanta, pozitiva sau negativa, care da sensul si marimea translatiei
valorilor scalei ordinale, valori reprezentate de x.
Operatiunile posibile pe aceasta scala:
Pentru caracteristicile masurate pe scala ordinala, pot fi calculati o serie de indicatori
statistici cum ar fi: modulul, mediana, coeficientul de corelatie a rangurilor, frecventa. De
asemenea, se poate evidentia si distributia de frecventa. Este important sa se faca, in acest
context, precizarea ca media si diferentele valorilor variabilelor ordinale sunt nerelevante, nu au
sens informational si nici sens logic.
Def: Scala raport este o scala metrica, prin intermediul careia valorilor posibile pe care le pot
lua caracteristicile masurate li se atribuie numere definite in raport cu o origine prestabilita.
Caracteristici:
Originea scalei indica absenta proprietatii, caracteristicii. In plus fata de celelalte scale,
pe aceasta scala este definit si raportul valorilor, adica se poate compara de cate ori o
valoare este mai mare decat alta.
Scala raport este invarianta pana la o transformare proportionala pozitiva, adica pana la
transformarea: y=ax
Variabilele masurate pe scala raport se numesc variabile tip raport si sunt variabile
cantitative (exp: pretul, venitul, varsta, salariul, profitul, volumul vanzarilor, numarul
cumparatorilor, etc).
Pe aceasta scala sunt permise toate operatiile definite pentru variabilele numerice.
6.

Care sunt principalele moduri de reprezentare (matriciala) a informatiilor n


analiza datelor. Definiti si exemplificati fiecare dintre aceste moduri

Principalele moduri de reprezentare a informatiilor in analiza datelor sunt: matrici de


observatii, matrici de contingenta si matrici de proximitate.
Matrici de observatii
O matrice de observatii este un tablou rectangular in care liniile reprezinta obiectele
supuse masuratorilor, iar coloanele reprezinta caracteristicile obiectelor. Elementele tabloului
reprezinta valori inregistrate in procesul de masurare pentru caracteristicile obiectelor supuse
masuratorilor. Aceste valori mai poarta si numele generic de scoruri. Matricile de observatii se
mai numesc si matrici de tip "obiectecaracteristici".
Pentru o analiza de date in care numarul obiectelor supuse analizei este T, iar numarul de
caracteristici ale obiectelor este n, matricea de observatii are forma urmatoare:

unde un element xj reprezinta valoarea


inregistrata pentru cea de-a j-a caracteristica
a obiectului i.
O linie i a matricii de observatii X defineste
un obiect O si reprezinta valorile inregistrate
de acest obiect la cele n caracteristici pe
care le poseda.
O coloana j a matricii de observatii X
reprezinta
valorile
inregistrate
de
caracteristica j pe multimea tuturor celor T
obiecte supuse analizei.

De regula, in analiza de date, fiecare linie a matricii de observatii X este numita


observatie si fiecare coloana a acestei matrici este numita variabila.
In multe situatii, nu pot fi obtinute informatii despre toate caracteristicile tuturor
obiectelor supuse analizei. In cazul in care datele ce definesc obiectele nu sunt complete,
matricea de observatii definita mai sus poarta numele de matrice de observatii cu valori omise.
Matrici de contingenta
Sunt tablouri rectangulare de dimensiune mn, utilizate pentru reprezentarea datelor
referitoare la frecventele relative sau absolute inregistrate pe o multime de obiecte de valorile a
doua variabile de tip discret, prima variabila, notata cu u, avand m valori posibile, iar cea de-a
doua variabila, notata cu v, avand n valori posibile. Liniile unei matrici de contingenta reprezinta
valorile posibile ale primei variabile discrete, iar coloanele acestei matrici reprezinta valorile
posibile ale celei de-a doua variabile discrete. In analiza datelor, matricile de contingenta se mai
numesc si matrici de tip "modalitatimodalitati".
Un element xj reprezinta frecventa, absoluta sau relativa, a obiectelor pentru care prima
variabila ia valoarea u si cea de-a doua variabila ia valoarea vj. Acest element arata la cate
obiecte cele doua variabile analizate au simultan valorile u si vj.
Matrici de proximitate
Sunt matrici patratice de dimensiune nn, utilizate pentru reprezentarea datelor cu privire
la similaritatea sau nesimilaritatea unor obiecte. Ordinul matricilor de proximitate este
determinat de numarul obiectelor supuse studiului. Elementele unei matrici de proximitate
reprezinta coeficienti de similaritate, coeficienti de nesimilaritate sau distante. Un element xij din
aceasta matrice masoara gradul de proximitate dintre obiectul i si obiectul j.
Matricile de proximitate se mai numesc si matrici de tip "obiecteobiecte" si sunt
utilizate in problemele de clasificare cu ajutorul tehnicilor de tip cluster si in problemele de
scalare multidimensionala.
7. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata
tendinta centrala sau locatia sau pozitia (inclusiv relatii de calcul si proprietati).
Aratati ca media este o sinteza optimala pentru o multime de observatii
1.Media

Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al
unei caracteristici studiate
Proprietati::
1. Media este indicator statistic cu cel mai mare grad de aplicabilitate practica.
2. Media se prezinta ca marime cu caracter abstract, n sensul ca valoarea medie - de cele
mai multe ori - nu coincide cu niciuna dintre valorile individuale din care s-a calculat
3. Media este nivelul la care ar fi ajuns caracteristica nregistrata, daca, n toate cazurile,
toti factorii esentiali si neesentiali ar fi actionat constant.
4. Pentru a asigura un continut real mediei calculate, valorile individuale din care se obtin
trebuie sa fie ct mai apropiate, sa existe o omogenitate a colectivitatii. n cazul eterogenitatii
colectivitatii, aceasta trebuie separata pe grupe calitative pentru care se calculeaza medii partiale.
5. n analiza statistica se calculeaza mai multe tipuri de medii:
- media aritmetica
- media armonica;
- media patratica;
- media geometrica;
- media cronologica.

Media se calculeaza simplu, adunnd toate valorile dintr-un sir de date si


mpartind totalul la numarul de date:

Unde:
X-sirul de date
N-numarul de date
Media este recomandata n cazul variabilelor numerice care ndeplinesc conditiile
parametrice (distributie normala, omogenitate)
2.Mediana

Mediana este acel parametru care prin pozitia sa, se afla n mijlocul seriei de date. Ea
reprezinta punctul central al seriei, deoarece la stnga si la dreapta ei se situeaza cte 50% din

totalitatea datelor. Mediana coincide cu media n cazul unei distributii teoretice normale si se
ndeparteaza mult de aceasta daca distributia este asimetrica
Locul medianei intr-o serie de n termini se calculeaxa dupa formula:

Formula de calcul a medianei este:

Mediana se recomanda pentru cazurile n care nu sunt ndeplinite conditiile parametrice


(distributii asimetrice, etrogenitate crescuta etc) si n cazul variabilelor de tip ordinal

3.Modulul

Proprietati:

nu tine seama dect de masurile cele mai reprezentative;

necesita ordonarea datelor

corespunde unuia sau mai multor elemente ale seriei (n caz de frecvente egale).

Modul este foarte util n cazul variabilelor de tip categorial (date calitative, nominale), deoarece nu
putem calcula ceilalti parametrii centrali.

8. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata


variabilitatea (inclusiv relatii de calcul si proprietati).
Varianta

Varianta reprezinta suma patratelor abaterilor valorilor individuale n raport cu media ce revine,
n medie, pe fiecare valoare individuala, adica pe fiecare observatie efectuata asupra variabilei.

Varianta totala masoara variabilitatea ce caracterizeaza observatiile unei multimi de variabile


si se defineste ca suma a variantelor individuale ale variabilelor.

Varianta generalizata corespunzatoare spatiului observatiilor celor doua variabile


considerate este data de relatia:

9. Definiti varianta simpla, varianta totala si varianta generalizata. Deduceti si


interpretati varianta generalizata. Aratati ca varianta generalizata este egala cu
determinatul matricii de covarianta
Varianta este direct proportionala cu marimea variatiei valorilor caracteristicii
masurate sau cu marimea informatiei care este continuta de observatiile disponibile pentru
s i , se determina cu ajutorul formulei

analiza de date. Varianta variabilei , notata cu

urmatoare:

si =
2

x ti
(x i)
T

T 1 t =1

n mod concret, varianta reprezinta suma patratelor abaterilor valorilor individuale n


raport cu media ce revine, n medie, pe fiecare valoare individuala, adica pe fiecare observatie
efectuata asupra variabilei.
Varianta totala masoara variabilitatea ce caracterizeaza observatiile unei multimi
de variabile Si se defineste ca suma a variantelor individuale ale variabilelor:

V T = s i
i=1

O extindere importanta a conceptului de masura a variabilitatii o reprezinta varianta


generalizata care masoara variabilitatea ce caracterizeaza observatiile multimii de variabile,
att din punct de vedere individual, ct si din punct de vedere al simultaneitatii, al interactivitatii
informationale ce caracterizeaza variabilele. Pentru a da o interpretare intuitiva variantei
generalizate, vom porni de la o constructie geometrica. n acest scop, vom considera ca
variabilele x1 si x2 reprezinta doi vectori n spatiul observatiilor.

Exista o strnsa legatura ntre marimea unghiului format de cei doi vectori si corelatia
dintre cele doua variabile. Aceasta consta n faptul ca, de fapt, coeficientul de corelatie
este cosinusul unghiului dintre vectorii ce reprezinta cele doua variabile. ntr-adevar, daca
unghiul dintre cei doi vectori este zero, adica vectorii se suprapun, legatura perfecta existenta n
aceasta situatie este evidentiata att printr-o valoare a coeficientului de corelatie egala cu
unitatea, ct si prin valoarea unitara a cosinusului unghiului respectiv. Invers, daca unghiul dintre
vectori este de 90 de grade, adica vectorii sunt ortogonali, inexistenta legaturii specifice acestei
situatii este evidentiata prin faptul ca att coeficientul de corelatie, ct si cosinusul unghiului
respective sunt egale cu zero. Cele trei situatii de corelare posibila a doua variabile x1 si x2 , ale
caror observatii sunt reprezentate prin

intermediul vectorilor x1 si x2 , sunt evidentiate n graficele din figura 3.2.

10. Definiti principalii indicatori (unidimensionali) cu ajutorul carora sunt sintetizate


legaturile (inclusiv relatii de calcul si proprietati)

Principalii indicatori undimensionali cu ajutorul carora sunt sintetizate legaturile dintre


variabile sunt:
Covariana ( syx ) masoara sensul unei legaturi (directa, inversa).
Corelatia ( ryx ) masoara forta unei legaturi (puternica, medie slaba).

ryx = syx / (sx * sy) [-1, 1]

11. Definii si interpretati corelatia si coeficientul de corelatie

Corelatia reprezinta tehnica statistic care msoar i descrie gradul de asociere linear dintre
dou variabile cantitative continue normal distribuite.
Date
Obs

Coeficientul de corelatie Pearson: reprezinta o masura scalata a gradului de asociere liniara


ntre doua variabile, care elimina unele deficiente ale covariantei ca
indicator de masurare a asocierii de tip liniar.

Coeficientii de corelatie de tip Pearson pentru variabile centrate pot fi si ei exprimati n


aceeasi maniera. Coeficientul de corelatie dintre variabilele centrate v si w este dat de relatia:

Coeficientii de corelatie de tip Pearson pot fi exprimati prin intermediul produsului


scalar si lungimilor vectorilor corespunzatori. Astfel, coeficientul de corelatie dintre variabilele
standardizate z si w este dat de relatia:

12. Definiti datele de tip profil, de tip cronologic si de tip panel. Exemplificati fiecare

dintre cele trei tipuri


Datele de tip profil reprezinta informatii obtinute prin masuratori de natura statica,
efectuate asupra caracteristicilor unor unitati ale unei populatii, la acelasi moment de timp.
Exemplu: datele referitoare la salariul individual dintr-o luna al lucratorilor unei firme;
datele referitoare la populatia medie a statelor lumii ntr-un anumit an; datele referitoare la rata
inflatiei nregistrata de tarile lumii ntr-o anumita perioada; sexul cumparatorilor ce cumpara un
anumit bun ntr-o anumita perioada; numarul mediu nregistrat de populatia judetelor unei tari
ntr-un anumit an; volumul anual al vnzarilor unor marci de autoturisme, numarul voturilor
nregistrate de partidele nscrise ntr-o campanie electorala.
Datele de tip serii de timp sau seriile cronologice reprezinta informatii obtinute prin
masuratori de natura dinamica, efectuate asupra caracteristicilor unei unitati a unei populatii la
momente sau n intervale succesive de timp.
Exemplu: datele reprezentate de seriile de timp se refera la evolutia n timp a starii unui
individ, gospodarii, zone geografice, tari etc. Datele de acest tip pot fi date de tip interval sau
date de tip moment. Datele de tip interval sunt datele care se refera la caracteristici care sunt
marimi de tip stoc, n timp ce datele de tip moment sunt date care se refera la caracteristici care
sunt marimi de tip flux. Si n acest caz, datele de tipul seriilor de timp pot fi privite ca
reprezentnd sectiuni informationale, nsa aceste sectiuni sunt de-a lungul axei timpului, de-a
lungul evolutiei, adica sunt sectiuni longitudinale n raport cu axa timpului.
Datele de tip panel reprezinta informatii obtinute prin masuratori mixte, de natura statica
si de natura dinamica, efectuate asupra caracteristicilor acelorasi unitati ale unei populatii la
momente sau n intervale succesive de timp.
Exemplu: bugetele de familie, n contextul carora se fac nregistrari pe perioade de mai
multi ani a veniturilor si cheltuielilor tuturor familiilor care alcatuiesc esantionul respectiv.
13. Definiti datele de tip observational si de tip experimental. Exemplificati fiecare
categorie
Datele reprezinta expresii cantitative si calitative ale unor fenomene si procese din realitatea
nconjuratoare.
Datele non-experimentale, care se mai numesc si date observationale, sunt datele obtinute prin
observarea fenomenelor si proceselor n miscarea lor naturala, libera, fara impunerea unor
restrictii, fara a se exercita un control de un anumit fel asupra fenomenelor si proceselor
investigate.

Obtinerea datelor de tip non-experimental reprezinta rezultatul observarii pasive, constatarii.


Interventia observatorului, a celui care face masuratorile, este de tip ex-post, are loc dupa ce
desfasurarea fenomenelor si proceselor reale a avut loc.
Datele de tip non-experimental sunt datele specifice domeniului economico-social, domeniu n
care organizarea de experimente este fie dificila, fie imposibila.
Ex: observarea atitudinii consumatorilor cand apare un nou tip de produs pe raftul din
supermarket.
Datele experimentale sunt datele obtinute prin organizarea unor experimente de tip controlat,
desfasurate n conditii clare si prestabilite. Contextul obtinerii datelor de tip experimental este
restrictionat, prin impunerea unor reguli specifice.
Datele experimentale sunt caracteristice doar unor domenii de cercetare, si anume acelor domenii
n care pot fi organizate experimente specifice, necesare obtinerii acestor date. Experimentarea
este posibila doar n anumite domenii ale cunoasterii, cum ar fi, de exemplu, domeniul stiintelor
naturale: fizica, chimie, biologie etc.
ntr-o alta modalitate de exprimare, se poate spune ca datele experimentale sunt date de
laborator, prin laborator ntelegnd aici o serie de conditii speciale, care se refera att la o
serie de restrictii si instrumente specifice de masurare, ct si la modalitatea de desfasurare a unor
procese cauzale specifice.
14. Care sunt principalele tipuri de transformari preliminare ale datelor. Interpretati
marimile rezultate n urma acestor transformari si mentionati proprietatile acestora
Analiza preliminara este o activitate anterioara, pregatitoare, a analizei propriu-zise a
datelor, care are ca scop initializarea procesului de analiza. n cadrul acestei etape, informatiile
primare disponibile sunt supuse unui proces de prelucrare n cadrul caruia are loc o filtrare a
informatiilor din punct de vedere al semnificatiei si utilitatii pe care le au acestea n raport cu
scopurile urmarite. Activitatea de analiza preliminara adatelor presupune utilizarea unei game
variate de metode si tehnici statistico-matematice n scopul obtinerii unei sugestive caracterizari
statistice a acestor informatii.
De obicei, nainte de a fi utilizate, datele brute sunt supuse la doua categorii de operatii
preliminare: operatii de rafinare si operatii de transformare, fiind caracterizate prin:
- Centrarea observatiilor
- Standardizarea observatiilor
15. Definti principalele tipuri de matrici utilizate n analiza datelor (produsencrucisate, covarianta, corelatie). Evidentiati relatiile de legatura dintre aceste
tipuri de matrici
n principiu, datele primare sunt reprezentate n analiza de date sub trei forme matriciale
principale: matrici de observatii,
matrici sau tabele de contingenta si matrici sau tabele de proximitate.
O matrice de observatii este un tablou rectangular n care liniile reprezinta obiectele supuse
masuratorilor, iar coloanele

reprezinta caracteristicile obiectelor. Elementele tabloului reprezinta valori nregistrate n


procesul de masurare pentru
caracteristicile obiectelor supuse masuratorilor. Aceste valori mai poarta si numele generic de
scoruri. Matricile de observatii
se mai numesc si matrici de tip "obiectecaracteristici".
Matrici de contingenta
Sunt tablouri rectangulare de dimensiune mn, utilizate pentru reprezentarea datelor referitoare
la frecventele relative sau
absolute nregistrate pe o multime de obiecte de valorile a doua variabile de tip discret, prima
variabila, notati cu u, avnd m
valori posibile, iar cea de-a doua variabila, notati cu v, avnd n valori posibile. Liniile unei
matrici de contingenta reprezinta
valorile posibile ale primei variabile discrete, iar coloanele acestei matrici reprezinta valorile
posibile ale celei de-a doua
variabile discrete. n analiza datelor, matricile de contingenta se mai numesc si matrici de tip
"modalitatimodalitati".
Matrici de proximitate
Sunt matrici patratice de dimensiune nn, utilizate pentru reprezentarea datelor cu privire la
similaritatea sau nesimilaritatea
unor obiecte. Ordinul matricilor de proximitate este determinat de numarul obiectelor supuse
studiului.Elementele unei matrici de proximitate reprezinta coeficienti de similaritate, coeficienti
de nesimilaritate sau distante
16. Ce este analiza componentelor principale. Evidentiati cinci categorii de probleme
care pot fi solutionate cu ajutorul tehnicilor de analiza a componentelor principale
Analiza componentelor principale este o tehnica de analiza multidimensionala care are
ca scop
descompunerea variabilitatii totale din spatiul cauzal initial sub forma unui numar redus de
componente si fara ca aceasta
descompunere sa contina redundante informationale.
Analiza componentelor principale este o tehnica de analiza multidimensionala care are
ca scop reducerea
dimensionalitatii spatiului cauzal initial, n conditiile unei pierderi informationale minime.
Analiza componentelor principale poate rezolva urmatoarele categorii de probleme:
- eliminarea redundantelor informationale;
- reducerea dimensionalitatii;
- compresia si restaurarea datelor;
- simplificarea modelelor matematice;
- selectarea variabilelor de influenta;
17. Interpretati logica analizei componentelor principale (inclusiv din punct de vedere

geometric)
Cele mai interesante i mai utile aspecte ale analizei componentelor principale sunt n
primul rnd legate, nu de aparatul matematic pe care aceast analiz se bazeaz, ci de multiplele
i nuan atele interpretri posibile pe care aceasta le ofer.
Pentru a da o ilustrare intuitiv clar, bazat pe o interpretare geometric simplificat,
ra ionamentului primar care st la baza analizei componentelor principale, vom dedica aceast
parte, n exclusivitate, interpretrilor i exemplificrilor numerice.
n acest sens, vom considera contextul numeric oferit de exemplul urmtor, context care va servi
ca referin pentru multe din interpretrile i exemplificrile ulterioare.
Exemplu:
Vom considera cazul unui numr de 10 obiecte sau observa ii, referitoare la dou
variabile, X1 i X2. Tabelul urmtor con ine observa iile ini iale disponibile pentru cele dou
variabile, precum i valorile centrate ce corespund acestor observa ii.
Valorile observa iilor ini iale i centrate
Observa ia
O1
O2
O3
O4
O5
O6
O7
O8
O9
O10
Media
Variana

Valori ini iale


X1
7,0
5,0
10,0
2,0
5,0
6,0
7,0
9,0
7,0
6,0
6,4
4,933

X2
10,0
11,0
15,0
5,0
10,0
13,0
12,0
11,0
8,0
10,0
10,5
7,389

Valori centrale
X c1
0,6
-1,4
3,6
-4,4
-1,4
-0,4
0,6
2,6
0,6
-0,4
0
4,933

X c2
-0,5
0,5
4,5
-5,5
-0,5
2,5
1,5
0,5
-2,5
-0,5
0
7,389

Variana individual pentru fiecare din cele dou variabile este 4,933, respectiv 7,389, iar
variana total, corespunztoare celor dou variabile, X1 i X2 este 12,322:
S11 = 4,933;

S22 = 7,389;

VT = 12,322.

n aceste condiii, se poate spune c rolul informaional al celor dou variabile este
aproximativ acelai, c cele dou variabile au aproximativ aceeai contribuie la formarea
variabilitii totale ce caracterizeaz spaiul cauzal iniial. Prima variabil are o contribuie la
formarea varianei totale de 46,45%, iar cea de-a doua variabil contribuie cu 53,55% la
formarea varianei totale:

S 11
VT

S 22
VT

= 46,45%;

= 53,55%.

Pentru observaiile din tabelul anterior, matricea produselor ncruciate, matricea de


covarian i matricea de corelaie, corespunztoare celor dou variabile X1 i X2, sunt
urmtoarele:
C=

(454,0
712,0

712,0
1169,0

S=

( 4,933
4,444

4,444
7,389

R=

(1,000
0,736

0,736
1,000

n cazul observaiilor centrale, matricea produselor ncruciate, matricea de covarian i


matricea de corelaie sunt urmtoarele:
C=

(44,4
40,0

40,0
66,5

S=

( 4,933
4,444

4,444
7,389

R=

(1,000
0,736

0,736
1,000

Dup cum se poate observa, n urma operaiei de centrare se modific doar matricea
produselor ncruciate, matricea de covarian i matricea de corelaie rmnnd neschimbate.
Matricea de corelaie evideniaz faptul c cele dou variabile sunt corelate, la nivelul unui
coeficient de corelaie de 0,736, adic:
r12 = r21 = 0,736
Avnd n vedere intensitatea relativ ridicat a legturii dintre cele dou variabile
originale, este de ateptat ca aceste variabile s poat fi sintetiyate prin intermediul unei singure
componente principale, n condiiile unei pierderi informaionale minime.
18. Definiti componentele principale si mentionati proprietatile acestora
Componentele principale sunt variabile vectoriale abstracte, definite sub forma unor
combinaii liniare de variabilele originale.
Proprietile componentelor principale sunt:
Sunt necorelate dou cte dou i suma ptratelor coeficienilor care definesc combinaia
liniar ce corespunde unei componente principale este egal cu unitatea;
Prima component principal este o combinaie liniar normalizat a crei varian este
maxim, cea de-a doua component principal este o combinaie liniar necorelat cu
prima component principal i care are o varian ct mai mare posibil, ns mai mic
dect cea a primei componente etc.
19. Formulati modelul matematic al analizei componentelor principale, definiti si
interpretati marimile definitorii ale acestuia

Analiza componentelor principale este o tehnica de analiza multidimensionala care are ca scop descompunerea
variabilitatii totale din spatial cauzal initial sub forma unui numar redus de component si /reducerea
dimensionalitatii spatiului cauzal initial, in conditiile unei pierdei informationale minime.
- Simplificarea structurii dependentei cauzale. Structura dependentei este reprezentata de multimea
variabilelor cauzale supuse analizei. Prin simplificarea spatiului cauzal se intelege reducerea
dimensionalitatii acestuia, astfel incat sa se obtina un spatiu cauzal de dimensiune mai mica si care sa
permita o reprezentare mai simpla si mai sugestiva a obiectelor.
- Reducerea dimensionalitatii. La baza analizei componentelor principale sta ideea ca reprezentarea
unitatilor n sistemul initial de coordonate, adica n sistemul pe ale carui axe sunt masurate
caracteristicile originale ale unitatilor, nu este totdeauna cea mai potrivita, considernduse ca poate
exista o alta modalitate de reprezentare mai relevanta, mai eficienta din punct de vedere informational.
Aceasta modalitate de reprezentare, mai avantajoasa din punct de vedereinformational, poate fi
obtinuta considernd un nou spatiu de reprezentare, spatiu care defineste prin axele sale, n mod
implicit, noi caracteristici ale obiectelor. Coordonatele obiectelor n acest nou spatiu sunt valorile
nregistrate de obiecte la aceste noi caracteristici. n contextul simbolizarii cu ajutorul variabilelor,
noile caracteristici sunt numite componente principale, iar valorilenregistrate de obiecte la aceste noi
caracteristici sunt numite scoruri

20. Ilustrati modul de deducere a componentelor principale


n scopul formul|rii modelului matematic care st| la baza analizei componentelor principale, vom
considera c| spaiul cauzal iniial supus investig|rii este determinat de un num|r de n variabile
explicative notate x1,x2,...,xn . Aceste variabile simbolizeaz| caracteristici ale obiectelor supuse
analizei, ceea ce nseamn| c| fiecare obiect este presupus a fi caracterizat de n variabile.
Activitatea de determinare a componentelor principale poate fi descris| prin intermediul unei
transform|ri de tipul urm|tor:
n

: - >
unde n

, k sunt dou| spaii vectoriale reale, iar dimensiunea celui de-al doilea spaiu este mult mai mic|

dect dimensiunea primului spaiu, respectiv k<n.


Prin intermediul transform|rii , un anumit obiect x, aparinnd spaiului n-dimensional n , este transformat

ntr-un obiect w, aparinnd spaiului k-dimensional k . Transformarea vizeaz| att modificarea

coordonatelor obiectului, ct i reducerea num|rului acestor coordinate.


Rezolvarea problemei const| n determinarea matricii A, astfel nct un obiect w s| constituie o reprezentare ct
mai bun| pentru obiectul x.

21. Definiti si justificati 3 dintre proprietatile componentelor principale

22. Interpretati vectorii si valorile proprii ale matricii de covarianta

23. Ce sunt scorurile principale si cum se determina acestea. De ce este necesara


determinarea scorurilor principale
Scorurile principale se mai numesc scoruri ale componentelor principale si reprezinta
coordonatele obiectelor in noul spatiu, adica proiectiile obiectelor pe axele acestuia, sunt evaluari
obiectelor in raport cu noile variabile. In analiza componentelor principale coordonatele
obiectelor in spatial redus se mai numesc si scoruri principale ale obiectelor
Sunt determinate ca urmare a rotatie axelor cu un numar oarecare de grade are loc, in mod
implicit, o modificare a coordonatelor initiale ale obiectelorle
Determinarea scorurilor principale e necesara intrucat acestea pot fi folosite in analiza ca
substitute al observatiilor originale, simplificand in acest fel baza informationala initiala. In
legatura cu aceasta problema, consideram ca este extreme de important sa facem precizarea ca
scorurile principale sunt mai potrivite pentru a fi folosite in analize deoarece sunt mai putin
afectate de erori, in comparative cu masuratorile originale. Faptul ca scoruri;e principale sunt
mai robuste in raport cu perturbatiile introduse de erori, le face sa devina mai importante din
punct de vedere informational, decat observatiile originale.
24. Ce este matricea factor (matricea de corelatie intre variabilele originale si
componentele principale). Cum se calculeaza si cum se interpreteaza elementele sale
Matricea factor este o matrice uimportanta, utilizata in contextual analizei componentelor
principale, ale carei elemente ofera premise pentru interpretari interesante. Legatura dintre
vectorul variabilelor originale x si vectorul w al componentelor principale e data de relatia :
x=A W

Elementele matricei factor se numesc intensitati ale factorilor ai au o interpretare interesanta din
punct de vedere al legaturii dintre variabilele originale si componentele principale. Astfel
elemental care se regaseste la intersectia liniei I cu coloana j in matricea factor, reprezinta
coeficientul de corelatie dintre cea de-a I variabila standardizata cu cea de-a j component
principala.
25. Detaliati modul n care pot fi interpretate componentele principale n termeni cu
semnificatie concreta. Exemplificati
26. Criterii de alegere a numarului de componente principale

27. Ce este analiza factoriala si ce tipuri de probleme pot fi rezolvate cu ajutorul


acesteia
Analiza factoriala este o analiza multivariata, care are ca scop sa explice corelatiile
manifestate intre o serie de variabile, numite indicatori sau teste, prin intermediul unui
numar mai mic de factori ordonati si necorelati, numiti factori comuni.
Analiza factoriala este folosita, in principal, in rezolvarea problemelor al caror scop este
legat de:

Studierea nivelelelor diferite de manifestare a interdependentelor dintre variabilele


explicative, in special atunci cand numarul acestora este foarte mare.
Detectarea unei structuri simplificate si clare a relatiilor de interdependent existenete
intre variabilele explicative
Obtinereaunei cluster-izari, unei clasificari a variabilelor explicative prin
intermediul unor entitati numite factori, astfel incat variabilele apartinand unui anumit
factor sa fie puternic intercorelate.
Obtinerea unor informatii specifice, sub forma asa-numitilor factori, pe baza carora sa
se poata face o interpretare sintetica a relatiilor de cauzalitate
Verificarea unor ipoteze cu privire la existent unei structure factoriale particulare sau
cu privire la existent unui anumit numar de factor comuni.
Sintetizarea potentialului causal comun al mai multor variabile explicative sub forma
unui numar cat mai redus de factori.

28. Structura generala a modelului de analiza factoriala


n formularea sa cea mai generala, formulare extrem de necesara pentru precizari cu caracter terminologic i pentru
formularera unor ipoteze de natur| teoretic|, modelul analizei factoriale are la baz| dou| ipoteze fundamentale. Prima
ipotez| se refer| la presupunerea c| c| nivelul sau valorile unui ansamblu de variabile aleatoare X1,X2,....,Xn se
formeaz| ca rezultat exclusiv al influentei a trei categorii de factori:
o multime formata din p factori comuni, f1,f2,...,fp , a caror influenta se consider| a se exercita asupra fiec|reia
dintre cele n variabile considerate;
o mulime formata din n factori unici, u1,u2,...un, a caror influenta se consider| a se exercita n mod individual,
fiecare factor unic influentnd una si numai una dintre variabilele considerate;
o mulime de n factori reziduali e1,e2,....,en, a caror influenta se consider| a fi exercitat| tot n mod individual,
fiecare factor rezidual influennd cte o singur| variabil|.
Din punct de vedere statistic, se consider| c| influenele semnificative, care trebuie reinute n analiz|, sunt cele
exercitate de factorii comuni i unici, n timp ce influenele factorilor reziduali, se consider| a avea caracter
accidental, nesemnificativ. La nivelul fiec|rei variabile, influena factorului rezidual corespunz|tor poate fi
considerat| a fi neglijabil| i este asimilabil| erorilor de m|surare. Din acest motiv, factorii reziduali se mai numesc
i erori. n ceea ce privete factorii comuni, exist| posibilitatea ca n cazul anumitor variabile influena lor asupra
acestor variabile s| fie neglijabil| sau chiar nul|, ceea ce nseamn| c| factorii respectivi pot fi eliminai din lista
factorilor pentru variabila respectiv|. n aceste condiii, este posibil ca schema de influen| pentru anumite variabile
s| conin| mai muli factori comuni, iar pentru alte variabile mai puini. Num|rul de factori comuni cu influen|
semnificativ| asupra variabilei indicator determin| complexitatea variabilei indicator respective.
Faptul c| influenele considerate sunt structurate pe cele trei categorii de factori, determin| o anumit| structur| a
modelului factorial general.
Coeficienii factorilor sunt cunoscui sub numele de intensit|iale factorilor. Prin magnitudinea sa coeficientul m|
soar| intensitatea influenei exercitate de factorul corespunz|tor asupra nivelului variabilei indicator, iar prin semnul
s|u m|soar| sensul influenei exercitate. Definiie: Se numete intensitate a unui factor comun fj n raport cu o
variabil| indicator x1 marimea aj care arat| cu cte unit|i se modific| nivelul variabilei indicator x1 , atunci cnd
nivelul factorului fj crete cu o unitate.
Cea de-a doua ipotez| pe care se fundamenteaz| analiza factorial| este aceea c| n coninutul informaional al
variabilelor aleatoare x1,x2,...,xn se reg|sesc informaii cu privire la factorii comuni i unici, ceea ce nseamn| c|
ele pot fi folosite ca indicatori ai acestor factori, ca semnale informaionale generate de aceti factori.
Avnd n vedere c| la nivelul unei variabile indicator, nu se poate face, sub nici o form|, o distincie clar| ntre
factorul unic i factorul rezidual, din motive legate de simplificare i de crearea posibilit|ilor de soluionare
efectiv| a problemei de analiz| factorial|, factorul rezidual este neglijat sau, ceea ce nseamn| acelai lucru, este
unificat cu factorul unic.
n raport cu aceast| ultim| form| a modelului factorial se definete conceptul de configuraie factorial|, concept care
este folosit i ntr-un sens mai larg, cu referire la ntregul set de ecuaii care definete modelul.

29. Definiti si interpretati descompunerea variabilitatii n contextul analizei factoriale


n mod similar cu analiza componentelor principale, analiza factoriala si propune sa reexprime
variabilitatea continuta n spatiul cauzal initial, ntr-o maniera diferentiata, n functie de rolul pe
care l au n formarea acesteia factorii comuni, pe de o parte, si factorii unici, pe de alta parte.
Prin utilizarea tehnicile de analiza multidimensionala care au ca scop reducerea dimensionalitatii,
variabilitatea spatiului cauzal n-dimensional, determinat de multimea de variabile indicator , este
conservata ntr-o proportie, mai mare sau mai mica, prin intermediul variabilitatii induse de un
numar mai redus de factori abstracti , , care sunt factorii comuni. mpreuna cu factorul unic,
acesti factori determina un spatiu (p+1)-dimensional numit spatiul test sau spatiul factor.
Variabilitatea ce caracterizeaza celor doua spatii implicate n analiza, spatiul original si spatiul
test, este masurata prin intermediul variantei sau dispersiei.
Descompunerea variabilit|ii spaiului iniial
n mod similar cu analiza componentelor principale, analiza factorial| i propune s|
reexprime variabilitatea coninut| n spaiul cauzal iniial, ntr-o manier| difereniat|, n
funcie de rolul pe care l au n formarea acesteia factorii comuni, pe de o parte, i factorii
unici, pe de alt| parte.
n cadrul acestui paragraf, vom trata modul n care variana unei variabile aleatoare
poate fi descompus| n componente relevante din punct de vedere al interpret|rilor
interdependenelor cauzale.
Spatiul factor si exprimarea continutului sau informational
Prin utilizarea tehnicile de analiza multidimensionala care au ca scop reducerea
dimensionalitatii, variabilitatea sptiului cauzal n-dimensional, determinat de mulimea de
variabile indicator este conservat| ntr-o proporie, mai mare sau
mai mic|, prin intermediul variabilit|ii induse de un num|r mai redus de factori abstracti
,f1, f2,f3,f4, (p<n) care sunt factorii comuni. mpreun| cu factorul unic, aceti factori
determin| un spaiu (p+1)-dimensional numit spaiul test sau spaiul factor.
Definiie: Spaiul test sau spaiul factor este un spaiu real, de dimensiune (p+1), ale
c|rui axe sunt ortogonale dou| cte dou| i sunt reprezentate de factorii comuni f1, f2,..
f4p si de factorul unic u
.
30. Ce sunt scorurile factor, cum se calculeaza si cum se interpreteaza acestea
O anumita observatie, corespunzatoare unui factor dat, este determinata sub forma unui scor
corespunzator respectivului factor, scor format pe baza contributiei variabilelor originale.
Exprimarea generica a scorurilor pentru un anumit factor n functie de variabilele originale este
data de urmatoarea relatie:
Fi=bi1x1+bi2x2+binxn
i=1,2,..p
, und ij e b reprezinta coeficientii scorurilor factor si sunt elemente ale transpusei matricii factor
F. Sub forma matriciala aceasta relatie poate fi scrisa astfel:
f=Ftx

n mod practic, exprimarea celor T observatii efectuate asupra variabilelor originale sub forma
scorurilor factor, respectiv calculul concret al scorurilor factor, se bazeaza pe urmatoarele relatii:
Zkj=bkixji K=1,2,.p J=1,2,T
31. Metode de estimarea modelului factorial
Utilizarea analizei factoriale pentru dezvoltarea unor probleme specifice presupune i
determinarea numrului de factori comuni ce vor fi reinui n model.Exist o serie de criterii
care pot s orienteze utilizatorul atunci cnd ia o astfel de decizie.
1. Criteriul procentului de acoperire:
n general, alegerea numrului de factori care s fie inclui n modelul factorial depinde de
proporia din variabilitatea comun coninut n spaiul cauzal iniial pe care utilizatorul dore te
s-o exprime prin intermediul unei siccesiuni de factori comuni. O estimaie aproximativ a
acestei proporii poate fi obinut cu ajutorul formulei :

,
pk = {i=1,k}i/{i=1,n}i, unde k este numrul de factori re inu i, n este numrul variabilelor
originale, iar este valarea proprie n raport cu care este definit factorul comun i.
2. Criteriul lui Kaiser:
Pate fi folosit atunci cnd analiza factorial este efectuat pe o matrice de corela ie, adic atunci
cnd se presupune c variabilele originale sunt standardizate. n conformitate cu acest criteriu,
numrul de factori necesari a fi inclui ntr-un model de analiz factorial este egal cu numrul
de valori proprii mai mari sau egale cu 1.
3. Criteriul granulozitii:
Dup acest criteriu, numrul de factori ce vor reinui n modelul de analiz factorial se
stabilete pe baza unei analize grafice a valorilor proprii. Graficul se construie te lund n
abscis numrul de ordine al valorilor proprii, iar n ordonat valorile acestor valori proprii.
Valorile proprii fiind ordonate dup magnitudinea lor descresctoare, graficul are forma
aproximativ a unei curbe de tipul exponenialei negative.
Numrul de factori ce se vor reine n model este determinat de punctul de pe grafic n dreapta
cruia panta curbei devine neglijabil, numrul de ordine al valorii proprii corespunztoare
acestui punct determinnd numril de factori ce se vor reine.
32. Definiti recunoasterea formelor si exemplificati cteva dintre aplicatiile acesteia n
domeniul economico-financiar.

Totalitatea tehnicilor de clasificare , adica de discriminare si de clusterizare, este cunoscuta si sub


numele generic de teoria recunoasterii formelor.
Teoria recunoasterii formelor poate fi definita ca reprezentand totalitatea normelor, principiilor,
metodelor si instrumentelor de analiza si decizie utilizate in scopul de a identifica apartenenta
unor forme sau obiecte (unitati, fenomene, evenimente, actiuni, procese etc.) la anumite clase cu
individualitate bine determinata.
In domeniul economico-social teoria recunoasterii formelor isi gaseste o larga utilizare mai ales
n procesul de analiza a datelor si in activitatea de predictie. Problema clasificarii unei
multimi de obiecte este o problema standard, frecvent ntlnita in investigarea socio-economica,
iar abordarea ei presupune utilizarea metodelor si tehnicilor specifice teoriei recunoasterii
formelor.
Tehnicile de recunoastere a formelor pot fi utilizate n domeniul economico-social pentru
rezolvarea unor probleme cum ar fi: analiza datelor cu grad ridicat de eterogenitate,
fundamentarea criteriilor de alegere a proiectelor de dezvoltare, clasificarea deciziilor n functie
de impactul acestora asupra diverselor compartimente ale vietii economico sociale, detectarea
unor perioade cu caracter specific din evolutia unor sisteme economice, stabilirea politicilor de
creditare n domeniul financiar-bancar, evaluarea eficientei activitatilor de promovare a unor
produse, determinarea perioadelor cele mai potrivite pentru vnzarea anumitor sortimente de
marfuri, identificarea celor mai profitabile domenii de afaceri, clasificarea Si ierahizarea unor
entitati economico-sociale etc.
33. Definiti principalele concepte ale recunoasterii formelor
Dintre numeroasele conceptele utilizate n teoria recunoasterii formelor, trei pot fi considerate ca
fiind fundamentale si definitorii pentru esenta si scopurile teoriei recunoasterii formelor: forma,
clasa si clasificatorul.
Forma sau obiectul este o entitate informationala individuala, caracterizata prin intermediul unui
vector ndimensional, ale carui componente definesc valorile caracteristicilor acesteia, si care face
obiectul procesului de clasificare sau de predictie.
Clasa, grupa sau clusterul reprezinta o entitate informationala distincta si cu semnificatie
concreta, formata din totalitatea obiectelor ale caror caracteristici sunt identice sau difera foarte
putin si care sunt semnificativ diferite de caracteristicile obiectelor din alte clase sau grupe.
Clasificatorul sau criteriul de clasificare reprezinta regula sau multimea de reguli pe baza carora
obiectele care apartin multimii analizate sunt afectate sau atribuite unor clase sau grupe bine
definite.

34. Formulati problema generala a clasificarii


Sub cea mai generala forma a sa, problema de clasificare poate fi formulata n termenii teoriei
deciziei, iar metodele de clasificare pot fi definite sub forma unor instrumente decizionale
specifice.
Vom descrie in continuare modul in care problema de clasificare poate fi definita ca o problema
decizionala. In acest scop, vom presupune existenta unei populatii de forme sau de obiecte,
notata cu si definita sub forma:
= { O1, O 2 , .. ,O M }
unde M reprezinta numarul de unitati ale populatiei analizate.
Fiecare obiect care alcatuieste populatia este definit prin intermediul unui numar de N
caracteristici, pe care le vom nota cu

1,

2, .....,

n,

si care se numesc variabile

explicative. In acest fel, un obiect din populatia poate fi reprezentat sub forma unui vector Ndimensional de forma:
= ( 1, 2, ..... , n , )t

35. Definiti sistemele de recunoastere controlata si necontrolata


Sistemele de recunoastere necontrolata - sunt sistemele n cadrul carora nu se dispune de
informatii initiale referitoare la numarul de clase si la apartenenta formelor la anumite clase,
construirea claselor facndu-se progresiv, pe masura cresterii numarului de forme analizate, iar
numarul de clase posibile fiind stabilit doar n faza finala a procesului de recunoastere.
Caracteristica principala a sistemelor de recunoastere necontrolata a formelor consta n faptul ca
nu se cunoaste apartenenta obiectelor analizate la o clasa sau alta. Aceasta nseamna ca, n mod
implicit, nu se cunoaste cu precizie nici numarul de clase. n legatura cu aceasta ultima afirmatie,
consideram ca este necesar sa facem urmatoarea precizare importanta: o serie de algoritmi de
clasificare necontrolat, cum ar fi de exemplu algoritmii de partitionare, presupun fixarea
apriorica a numarului de clase n care vor fi mpartite obiectele analizate. Aceasta nu nseamna
nsa ca este cunoscut, n mod real, si numarul de clase, ci doar ca se face o presupunere cu privire
la acest numar.
Sistemele de recunoastere controlata

- sunt acele sisteme n cadrul carora se presupune

existenta apriorica a unui numar dat de clase si a unui set de forme, numite prototipuri sau
referinte, a caror apartenenta la aceste clase este cunoscuta. Acest set de forme este reprezentat

de esantionul de obiecte extrase din populatia supusa studiului, esantion cunoscut si sub numele
de set de formare sau set de nvatare. Sistemul de recunoastere controlata a formelor reprezinta
totalitatea activitatilor si procedurilor care au ca scop deducerea unor criterii de partajare a unei
populatii de entitati informationale (obiecte sau variabile), sub forma unui numar cunoscut de
clase, pe baza cunoasterii caracteristicilor si a apartenentei elementelor unui esantion provenit
din respectiva populatie.
36. Ce este analiza cluster, care sunt conceptele fundamentale ale acesteia si care sunt
domeniile utilizarii ei
Analiza cluster - poate fi definita ca reprezentnd o multime de principii, metode si algoritmi de
clasificare, avnd ca scop organizarea datelor sub forma unor structuri informationale
semnificative, relevante.
Concepte fundamentale
Termenul de analiza cluster a fost utilizat pentru prima oara n anul 1939, de catre R. C. Tyron, n
lucrarea Cluster Analysis. Acest termen este folosit n prezent ca nume generic pentru o
multime variata de proceduri si algoritmi de clasificare de tip necontrolat.
Prin intermediul analizei cluster fiecare obiect din multimea analizata este atribuit unei singure
clase, iar multimea claselor este o multime discreta si neordonabila. Clasele rezultate n urma
utilizarii analizei cluster au o semnificatie concreta si generalizatoare, pe baza careia pot fi
efectuate o serie de interpretari si pot fi formulate o serie de concluzii importante pentru procesul
de cunoastere. Clasele sau grupele sub forma carora se structureaza multimile de obiecte se mai
numesc si clustere. Un cluster este o submultime formata din obiecte similare, adica din obiecte
care sunt suficient de asemanatoare ntre ele din punct de vedere al caracteristicilor care le
definesc. Clusterul poate fi privit si ca reprezentnd o regiune a unui spatiu multidimensional,
caracterizata printr-o densitate relative mare de puncte sau de obiecte. De exemplu, n cazul
aplicatiilor informatice, clusterul poate sa fie reprezentat de o submultime de documente de
acelasi tip sau cu continut asemanator. Aceste documente pot fi programe sursa, pagini WEB,
fisiere de tip text, fisiere HTML etc. Un astfel de document poate fi privit ca un punct dintr-un
spatiu multidimensional, n care fiecare dimensiune a spatiului este asociata cu un anumit cuvnt.

Coordonatele care definesc pozitia unui document n acest spatiu sunt reprezentate de frecventele
cu care apar diferitele cuvinte n cadrul documentului.
Domeniile utilizarii analizei cluster
Desi folosirea tehnicilor de analiza cluster nu este specifica doar pentru anumite domenii de
activitate, totusi, utilizarea cea mai frecventa a acestora este ntlnita n domeniul marketingului,
n investigatiile de natura psihosociala sau n evaluarile economico-sociale la nivel teritorial.
n domeniul marketingului, se detaseaza aplicatiile tehnicilor de analiza cluster n studierea
comportamentului consumatorilor. Aceste aplicatii vizeaza evaluarea sanselor pe care poate sa le
aiba lansarea unui produs nou, identificarea unor noi piete, modalitatile de segmentare a pietii
sau identificarea pozitionarii pe piata a produselor diferitilor producatori. Posibilitatea de a
deduce tipologii specifice pe multimea clientilor unei firme este deosebit de importanta pentru
fundamentarea si stabilirea politicilor comerciale ale firmei.
n cazul determinarii pozitionarii pe piata a diferitelor marci ale unui produs, analiza cluster este
folosita pentru a clasifica marcile de fabricatie, n functie de similitudinea sau disimilitudinea
perceptiilor pe care le manifesta consumatorii fata de aceste marci. Pe baza modului n care se
clasifica marcile si a caracteristicilor consumatorilor care si manifesta preferintele, un
producator poate identifica marcile concurente si trasaturile specifice ale categoriilor de
consumatori care prefera produsul acestui producator. De exemplu, marcile aflate n aceeasi clasa
cu marca unui producator sunt marci concurente, deoarece ele se adreseaza aceluiasi segment de
consumatori.
37. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate n analiza
cluster
Analiza cluster are ca scop cautarea si identificarea de clase, grupe sau clustere n cadrul unor
multimi de obiecte sau forme, astfel nct elementele care apar in aceleiasi clase sa fie ct mai
asemanatoare, iar elementele care apartin la clase diferite sa fie ct mai deosebite ntre ele. Altfel
spus, analiza cluster este o modalitate de examinare a similaritatilor si disimilaritatilor dintre
obiectele apartinnd unei anumite multimi, n scopul gruparii acestor obiecte sub forma unor
clase distincte ntre ele si omogene n interior.
Este o analiza explorativa, de tip multidimensional, care are ca scop gruparea unor entitati
informationale, cu natura fizica sau abstracta, n clase sau clustere alcatuite din entitati
informationale cu grad ridicat de similaritate.
Este definita ca un instrument care are ca scop reducerea unor multimi de obiecte, sau chiar de
variabile, la un numar mai restrns de entitati informationale, care sunt clasele sau clusterele.

Tipul de inf utilizate in analiza cluster:


Problema cea mai importanta a oricarui tip de analiza cluster este aceea a modului n care poate
fi masurata proximitatea, respectiv gradul de apropiere sau gradul de departare, dintre obiecte si
dintre clustere.
In general, masurarea gradului de proximitate dintre obiecte se face cu ajutorul a doua grupe de
indicatori, cunoscute sub numele de indicatori de similaritate si indicatori de disimilaritate.
Indicatorii de similaritate si indicatorii de disimilaritate pot fi utilizati att n analizele cluster
efectuate pe obiecte, ct si n analizele cluster efectuate pe variabile.
Cu ct valoarea unui indicator de similaritate este mai mare, cu att obiectele sau variabilele
pentru care acest indicator se evalueaza pot fi considerate a fi mai asemanatoare, respectiv mai
apropiate. De asemenea, o valoare foarte mica a indicatorului de similaritate evidentiaza faptul
ca cele doua obiecte sau cele doua variabile sunt mai departate ntre ele.
Indicatorii de disimilaritate sunt marimi numerice care exprima ct de deosebite sau ct de
departate sunt doua obiecte sau doua variabile. Indicatorii de disimilaritate se mai numesc si
indicatori sau coeficienti de deosebire sau de distantare a obiectelor sau variabilelor. Cu ct
valoarea unui indicator de disimilaritate este mai mare, cu att cele doua obiecte sau cele doua
variabile pentru care se calculeaza sunt mai diferite, adica mai distantate ntre ele.
Cea mai importanta si cea mai utilizata categorie de indicatori de disimilaritate este reprezentata
de indicatorii de tip distanta. De multe ori nsa, conceptul de distanta este utilizat si pentru a
desemna indicatori de similaritate, cu toate ca acestia exprima gradul de apropiere dintre doua
entitati informationale.
Informaaiile utilizate, n ultima instanta, n analiza cluster sunt reprezentate sub forma unor
matrici simetrice de tip obiecteobiecte, numite, dupa caz, matrici de proximitate, matrici de
similaritate, matrici de asociere, matrici de incidenta, matrici de disimilaritate sau matrici de
distante. Att liniile, ct si coloanele matricilor de acest fel se refera la obiectele analizate, astfel
nct numarul lor este egal cu numarul de obiecte supuse analizei. Elementele acestor matrici
sunt marimi numerice care exprima proximitatea dintre perechile de obiecte care eticheteaza
rndurile si coloanele matricilor.
n cazul particular al clasificarii variabilelor, informatiile utilizate efectiv n analiza sunt
reprezentate sub forma unor matrici de tipul variabilevariabile. Elementele acestor matrici sunt
marimi numerice care exprima gradul de proximitate dintre perechile de variabile aflate n liniile
si coloanele acestor matrici.
38. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster
Definitie: Analiza cluster poate fi definita ca reprezentnd o multime de principii, metode si
algoritmi de clasificare, avnd ca scop organizarea datelor sub forma unor structuri
informationale semnificative, relevante.
Din punct de vedere strict teoretic, analiza cluster poate fi privita ca reprezentnd o modalitate
specifica de construire a uneia sau a mai multor partitii pe multimea obiectelor analizate. Orice
partitie de acest fel defineste o solutie cluster, adica un anumit mod de grupare pe clase a
obiectelor multimii supuse studiului. Din punct de vedere strict matematic, analiza cluster poate

fi privita ca o modalitate de alegere a celei mai adecvate partitii sau submultimi din cadrul
familiei de parti a multimii de obiecte analizate.
Clasificare: Din punct de vedere al naturii lor, al modului de operare si al tipului de solutii pe
care le furnizeaza, metodele de analiza cluster pot fi mpartite n doua mari categorii: metode de
tip ierarhic si metode de tip iterativ sau de partitionare.
Algoritmii sau metodele de tip ierarhic au ca scop producerea mai multor solutii cluster, solutii
numite ierarhii cluster. Caracteristica principala a acestor algoritmi consta n faptul ca numarul
de clustere nu este cunoscut aprioric.
Exista doua categorii de algoritmi de clasificare ierarhica: algoritmi de agregare si algoritmi de
dezagregare.
Algoritmii de clasificare ierarhica furnizeaza mai multe solutii, de tip multinivel, care se numesc
ierarhii cluster si care difera ntre ele prin numarul de clustere pe care le includ si prin gradul de
agregare al clusterelor.
Algorimii sau metodele de tip iterativ au ca scop producerea unei structuri cluster formata dintro singura solutie cluster. O astfel de structura cluster se numeste structura cluster uninivel si
contine o singura cluster, care include un numar fixat de clustere. n cazul metodelor de
clasificare prin partitionare, numarul de clustere este cunoscut aprioric.
n functie de natura criteriului utilizat n procesul propriu-zis de clasificare, metodele de analiza
cluster pot fi mpartite n doua categorii: metode euristice si metode algoritmice
Metodele euristice includ procedurile de clasificare dezvoltatea pe baza unei anumite euristici. O
euristica este o modalitate intuitiva de solutionare a unei anumite probleme particulare.
Euristicile reprezinta seturi de reguli sau de recomandari cu caracter general, deduse pe baza
unor rationamente teoretice sau pe baza unor observatii statistice. Prin natura lor, metodele de
clasificare ierarhica sunt metode euristice.
Metodele algoritmice includ procedurile de clasificare de tip formal, bazate pe existenta unui
anumit algoritm de solutionare a problemei. Un algoritm este o multime de finita si complet
definita de operatii, pai sau proceduri, a caror executie determina obtinerea unui anumit
rezultat sau a unei anumite solutii. Orice algoritm se compune din trei parti esentiale:
initializarea, procedura sau schema iterativa si criteriul de oprire.
Analiza cluster de tip ierarhic
metoda de clasificare bazata pe gruparea obiectelor pe baza de agregare succesiva n clase din ce
n ce mai largi de obiecte sau de dezagregare succesiva n clase din ce n ce mai mici.
Se imparte in:- Metode de clasificare ierarhica prin agregare (care se imparte in Metoda
agregarii simple, Metoda agregarii complete, Metoda agregarii medii, Metoda centroidului,
Metoda lui Ward,
- Metode de divizare: numite si metode de tip descendent, sunt analoage cu metodele
aglomerative, cu deosebirea ca derularea acestora se desfasoara ntr-o maniera inversa.
Ca si n cazul metodelor de agregare, solutiile obtinute cu ajutorul metodelor divizative
sunt ierarhii de clustere, care pot fi reprezentate prin intermediul arborilor cluster sau
dendrogramelor.
Metoda agregarii simple este o metoda de clasificare ierarhica de tip ascendent, care comaseaza
n fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre cei mai apropiati
vecini este cea mai mica, n comparative cu alte perechi de clustere.

Metoda agregarii complete este o metoda de clasificare ierarhica de tip ascendent, care
comaseaza n fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre cei mai
departati vecini este cea mai mica, n comparative cu alte perechi de clustere.
Metoda agregarii medii este o metoda de clasificare ierarhica de tip ascendent, care comaseaza
n fiecare etapa a clasificarii acele doua clustere pentru care distanta medie dintre toate perechile
formate cu obiecte din cele doua clustere este cea mai mica, n comparatie cu alte perechi de
clustere.
Metoda centroidului este o metoda de clasificare ierarhica de tip ascendent, care comaseaza n
fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre centroizii celor doua
clustere este cea mai mica, n comparative cu alte perechi de clustere.
Metoda lui Ward este o metoda de clasificare ierarhica de tip ascendent, care comaseaza n
fiecare etapa a clasificarii acele doua clustere pentru care suma patratelor abaterilor la nivelul
clusterului rezultat din comasare este cea mai mica, n comparatie cu alte perechi de clustere.
Algoritmi de partitionare: includ o serie de metode de analiza cluster, cu mult mai performante
dect metodele de clasificare ierarhica. Dintre cei mai importanti algoritmi de partitionare,
mentinem: algoritmul celor K-medii si algoritmul celor K-medoizi.
39. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor
dintre forme
Distanta reprezinta unul dintre cele mai importante si mai frecvent utilizate concepte
din domeniul analizei datelor. n acelasi timp, distanta constituie una dintre cele mai relevante
modalitati de sumarizare a informatiilor manipulate n analiza datelor, mai ales n situatiile n
care sunt investigate interdependentele dintre fenomene si procese. Ca marime, distanta se
calculeaza pentru a evalua apropierea sau departarea dintre obiectele sau caracteristicile care se
supun studiului, pentru a masura gradul de similitudine sau nesimilitudine dintre acestea, din
punct de vedere al caracteristicilor studiate. Definirea si interpretarea conceptului de distanta
presupune, n mod implicit, existenta unui spatiu n raport cu care are loc nu numai definirea, ci
si evaluarea numerica a distantei. Spatiul n care este posibil a fi definit ca o distanta se numeste
spatiu metric si poate fi spatiul variabilelor sau spatiul observatiilor.
Corespunzator celor doua modalitati de reprezentare, n spatiul variabilelor si n
spatiul observatiilor, distanta poate fi utilizata pentru a evalua apropierea sau departarea dintre
puncte ale unui spatiu multidimensional, puncte ce pot reprezenta att obiecte, ct si
caracteristici.
n functie de modul n care distanta este evaluata, adica n functie de modul n care se evalueaza
gradul de departare sau apropiere dintre doua obiecte, exista mai multe tipuri importante de
distante: distanta euclidiana, distanta statistica, distanta standadizata, distanta Mahalanobis etc.
40. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea

inter si intra cluster (cazul uni-dimens)


Criteriu general de clasificare: Clasificarea obiectelor n clase se face n asa fel nct sa se
asigure o variabilitate minima n interiorul claselor si o variabilitate maxima ntre clase
41. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea
inter si intra cluster (cazul n-dimens)
Pentru evaluarea variabilitatii inter si intra cluster se utilizeaza metoda lui Ward.
Fie clusterul AB, clusterul obtinut din combinarea clusterului A cu clusterul B, atunci suma
distantelor inter cluster (a vectorilor) este:

Unde yAB = (nAyA + nByB)/(nA + nB) iar nA, nB, si nAB =nA + nB sunt nr din punctele A si B,
respectiv AB.
Evaluarea variabilitatii intra cluster:
Daca A este compus doar din yi, iar B doar din yj, atunci SSEA si SSEB sunt egale cu zero.
Atunci ecuatia se reduce la :
42. Metode de evaluare a distantelor dintre clustere
Evaluarea distantelor dintre clustere
O problema dificila care apare n analiza cluster, este legata de necesitatea evaluarii distantelor
dintre clase sau clustere.
Dificultatea acestei probleme este data de faptul ca distantele dintre clase sau clustere sunt, de
fapt, distante ntre multimi de obiecte sau distante ntre multimi de variabile.
Problema evaluarii distantelor dintre clustere apare n special n cazul analizei cluster de tip
ierarhic, n care construirea arborelui de clustere poate fi facuta pe baza comasarii succesive sau
divizarii succesive a clusterelor. Comasarea clusterelor este numita amalgamare sau agregare, iar
divizarea clusterelor este numita dezagregare.
Teoretic, procesul de agregare sau dezagregare succesiva a clusterelor se bazeaza pe definirea
unei distante limita ntre clustere, distanta numita si prag de agregare, respectiv prag de
dezagregare. n principiu, decizia de comasare a doua clustere sau de divizare a unui cluster este
luata numai daca distanta dintre aceste clustere este mai mica, respectiv mai mare dect distanta
limita fixata.
Daca n cazul evaluarii gradului de apropiere sau departare dintre doua obiecte lucrurile sunt
relativ simple, fiind suficient

sa se calculeze una din distantele mentionate mai sus, n cazul n care este necesar a fi evaluat
gradul de apropiere sau departare dintre doua clustere lucrurile devin ceva mai complicate si
presupun existenta unei metode specifice de evaluare.
Distanta dintre doua clustere este, de fapt, o distanta dintre doua multimi de puncte, adica o
distanta mai dificil de evaluat.
Ca distanta ntre doua multimi de puncte, distanta dintre doua clustere poate fi masurata cu
ajutorul uneia dintre mai multe metode posibile.
Dintre metodele propuse pentru evaluarea distantelor dintre clustere mentionam: metoda celor
mai apropiati vecini, metoda celor mai departati vecini, metoda distantei medii ntre perechi,
metoda centroidului si metoda lui Ward etc.
Metoda celor mai apropiati vecini
Metoda celor mai apropiati vecini evalueaza distanta dintre doua clustere ca fiind distanta
minima dintre toate perechile posibile de forme din cele doua clustere. Aceasta nseamna ca
distanta dintre doua clustere este masurata prin distanta dintre cele mai apropiate obiecte
apartinnd celor doua clase.
Definitie: Metoda celor mai apropiati vecini evalueaza distanta dintre doua clustere ca distanta
ntre doua obiecte, unul din primul cluster, iar celalalt din cel de-al doilea cluster, care sunt cele
mai apropiate ntre ele n sensul distantei utilizate.
n figura urmatoare este vizualizata distanta dintre doua clustere, evaluata dupa metoda celor mai
apropiati vecini.
Metoda celor mai departati vecini
Metoda celor mai departati vecini este metoda dupa care distanta dintre doua clase este
masurata prin distanta dintre cele mai departate obiecte apartinnd celor doua clustere. Pe baza
acestei metode, doua clustere sunt considerate a fi mai apropiate sau mai departate, n functie de
proximitatea dintre cele mai departate obiecte din cele doua clustere.
Definitie: Metoda celor mai departati vecini evalueaza distanta dintre doua clustere ca distant
ntre doua obiecte, unul din primul cluster, iar celalalt din cel de-al doilea cluster, care sunt cel
mai departate ntre ele n sensul distantei utilizate.
Calculul distantei dintre doua clustere cu ajutorul metodei celor mai departati vecini se face pe
baza datelor din matricea
distantelor dintre obiectele din cele doua clustere, prin identificarea n aceasta matrice a
elementului cu valoarea cea mai mare.

Figura 8.5: Distanaa dintre doua clustere n cazul metodei celor mai departati vecini

Pentru evaluarea distantelor dintre obiectele cele mai departate din cele doua clustere poate fi
utilizata oricare dintre metodele cunoscute de calcul a distantelor dintre obiecte, n functie de
natura variabilelor care definesc obiectele supuse clasificarii.
Metoda distantei medii dintre perechi
Metoda distantei medii dintre perechile de obiecte evalueaza distanta dintre doua clustere prin
intermediul distantei medii dintre toate perechile posibile de obiecte care apartin celor doua
clustere.
Definitie: Metoda distantei medii dintre perechi evalueaza distanta dintre doua clustere ca medie
a distantelor dintre oricare doua obiecte care apartin celor doua clustere, unul primului cluster, iar
celalalt din celui de-al doilea cluster.
Evaluarea distantei dintre doua clustere cu ajutorul metodei distantei medii ntre perechile de
obiecte se face pe baza datelor din matricea distantelor dintre obiectele din cele doua clustere,
calculnd media acestor distante.
n figura urmatoare este sugerata o interpretare geometrica a modului de calcul a distantei dintre
clustere cu ajutorul metodei distantei medii dintre perechi.

Figura 8.6: Ilustrarea grafica a metodei distantei medii dintre perechi


Ca si n cazul celorlalte doua metode, pentru evaluarea distantelor dintre obiectele celor doua
clustere, poate fi utilizata oricare dintre metodele cunoscute de calcul al distantelor dintre
obiecte.
Metoda centroidului
Metoda centroidului este metoda dupa care distanta dintre doua clustere este masurata ca
distanta ntre centroizii celor doua clustere. n acest fel, doua clustere sunt considerate mai
apropiate sau mai departate, n functie de gradul de apropiere sau de departare dintre centroizii
lor.
Centroidul sau centrul de greutate al unui cluster reprezinta obiectul, real sau abstract, ale carui
caracteristici au ca valori chiar mediile caracteristicilor obiectelor care compun clusterul
respectiv.
Definitie: Metoda centroidului evalueaza distanta dintre doua clustere ca distanta ntre centroizii
celor doua clustere.
Evaluarea distantei dintre doua clustere cu ajutorul metodei centroidului se face calculnd mai
nti centroizii celor doua clustere, dupa care se evalueaza distanta dintre clustere ca distanta
ntre acesti centroizi.
Figura urmatoare ilustreaza interpretarea geometrica a calculului distantelor dintre clustere cu
ajutorul metodei centroidului.

n aceasta figura, centroizii celor doua clustere sunt marcati prin cele doua puncte de dimensiune
mai mare.

Figura 8.7: Distanta dintre clustere n cazul metodei centroidului


Deoarece centroidul este vectorul mediilor corespunzatoare tuturor obiectelor dintr-un cluster, n
calculul distantei dintre doua clustere cu ajutorul metodei centroidului sunt luate n considerare,
n mod implicit, toate obiectele din fiecare cluster.
Metoda lui Ward
Metoda lui Ward este o metoda de evaluare a distantei dintre doua clustere, care se bazeaza pe
maximizarea gradului de omogenitate a clusterelor sau, ceea ce este acelasi lucru, pe
minimizarea variabilitatii intracluster. De regula, gradul de omogenitate a unui cluster se
considera a fi cu att mai mare, cu ct suma totala a patratelor abaterilor intracluster este mai
mica.
Elementul caracteristic al metodei lui Ward este reprezentat de faptul ca prin comasarea a doua
clustere se urmareste obtinerea unei omogenitati maxime la nivelul tuturor clusterelor care
apartin unei configuratii date a obiectelor pe clustere. n acest sens, se poate spune ca distanta
Ward dintre doua clustere masoara variabilitatea intracluster cumulata, pe care o induce
comasarea celor doua clustere la nivelul configuratiei cluster rezultate.
Definitie: Metoda lui Ward evalueaza distanta dintre doua clustere suma totala a patratelor
abaterilor la nivelul
configuratiei cluster rezultate din comasarea celor doua clustere pentru care se evalueaza
distanta. Spre deosebire de alte metode de calcul a distantelor ntre clustere, distanta Ward ofera
o serie de avantaje. Aceste avantaje decurg din faptul ca ea este singura dintre metodele de
evaluare a distantelor dintre clustere, care exprimt distantele din punct de vedere al minimizarii
variabilitatii intracluster sau, ceea ce nseamna acelasi lucru, din punct de vedere al maximizarii
variabilitatii intercluster.
43. Descrieti analiza cluster de tip ierarhic si mentionati care sunt cele doua categorii de
clasificare ierarhica
Ierahia cluster ofera posibilitatea cercetatorului de a alege o anumita configurare a obiectelor pe
clase, ceea ce nseamna, implicit, si alegerea unui anumit numar de clase.
Include metodele de clusterizare prin agregare si metodele de clusterizare prin divizare.

Pentru fiecare dintre cele doua tipuri de clusterizare exista mai multe proceduri specifice, ntre
care mentionam: metoda agregarii simple, metoda agregarii complete, metoda agregarii medii,
metoda lui Ward etc.
44. Descrieti metoda agregarii simple de analiza cluster
1. Distanta Euclidiana, care mai este cunoscuta si sub numele de norma de tip , este distanta cea
mai frecvent utilizata n problemele de analiza cluster. Ea se calculeaza ca radacina patrata a
sumei patratelor diferentelor coordonatelor celor doua obiecte sau variabile pentru care se
evalueaza distanta.
2. Distanta Manhattan, numita si distana rectangulara, distanta City-Block sau norma de tip , se
calculeaza ca suma a valorilor absolute ale diferentelor coordonatelor celor doua obiecte sau
celor doua variabile analizate.
3. Distanta Cebsev, cunoscuta si sub numele de maxim al dimensiunilor sau norma de tip ,
este o distanta de tip valoare absoluta si se determina ca fiind valoarea maxima a valorilor
absolute ale diferentelor dintre coordonatele obiectelor sau variabilelor.
4. Distanta Mahalanobis reprezinta singurul tip de distanta care ia n considerare, ntr-o maniera
completa, gradul de dispersare al multimii de obiecte sau al multimii de variabile analizate,
precum si gradul de corelare al respectivelor entitati informationale.
45. Descrieti metoda agregarii complete de analiza cluster
Metoda agregarii complete reprezinta o clasificare ierarhica de tip ascendent care comaseaza
clusterele ce au cea mai mica distanta intre cei mai apropiati vecini

46. Descrieti metoda agregarii medii de analiza cluster


Metoda agregarii medii este o metoda de clasificare ierarhica de tip ascendent, care comaseaza
n fiecare etapa a clasificarii acele doua clustere pentru care distanta medie dintre toate perechile
formate cu obiecte din cele doua clustere este cea mai mica, n comparatie cu alte perechi de
clustere.
47. Descrieti metoda centroidului de analiza cluster
EVALUAREA DISTANTELOR DINTRE CLUSTERE
Metoda centroidului este metoda dupa care distanta dintre doua clustere este masurata ca distanta
ntre centroizii celor doua clustere. n acest fel, doua clustere sunt considerate mai apropiate sau
mai departate, n functie de gradul de apropiere sau de departare dintre centroizii lor. Centroidul
sau centrul de greutate al unui cluster reprezinta obiectul, real sau abstract, ale carui caracteristici
au ca valori chiar mediile caracteristicilor obiectelor care compun clusterul respective.
Definitie: Metoda centroidului evalueaza distanta dintre doua clustere ca distanta ntre centroizii
celor doua clustere. Evaluarea distantei dintre dou| clustere cu ajutorul metodei centroidului se
face calculnd mai nti centroizii celor doua clustere, dupa care se evalueaza distanta dintre
clustere ca distanta ntre acesti centroizi. Figura urmatoare ilustreaza interpretarea geometrica a
calculului distantelor dintre clustere cu ajutorul metodei centroidului. n aceasta figura, centroizii
celor doua clustere sunt marcati prin cele doua puncte de dimensiune mai mare.

Deoarece centroidul este vectorul mediilor corespunzatoare tuturor obiectelor dintr-un cluster, n
calculul distanTei dintre doua clustere cu ajutorul metodei centroidului sunt luate n considerare,
n mod implicit, toate obiectele din fiecare cluster.
METODE SI TEHNICI DE ANALIZA CLUSTER
Metoda centroidului este o metoda de clasificare ierahica ascendenta, n care distantele dintre
clustere sunt evaluate cu ajutorul metodei centroidului. Ideea de baza a metodei centroidului este
aceea de obtinere a unui nou cluster prin comasarea a doua clustere existente, n functie de
distanta cea mai mica dintre centroizii clusterelor care sunt verificate n scopul comasarii.
Definitie: Metoda centroidului este o metoda de clasificare ierarhica de tip ascendent, care
comaseaza n fiecare etapa a clasific|rii acele doua clustere pentru care distanta dintre centroizii
celor doua clustere este cea mai mica, n comparatie cu alte perechi de clustere. Doua clustere
sunt comasate ntr-un nou cluster daca si numai daca distanta dintre centroizii lor este cea mai
mica dintre toate distantele dintre centroizii oricaror doua clustere care apartin configuratiei
cluster disponibile. n figura urmatoare este vizualizat modul de comasare a dou| clustere
folosind metoda centroidului.

48. Decrieti metoda lui Ward de analiza cluster


EVALUAREA DISTANTELOR DINTRE CLUSTERE
Metoda lui Ward este o metoda de evaluare a distantei dintre doua clustere, care se bazeaza pe
maximizarea gradului de omogenitate a clusterelor sau, ceea ce este acelasi lucru, pe
minimizarea variabilitatii intracluster. De regula, gradul de omogenitate a unui cluster se
considera a fi cu att mai mare, cu ct suma totala a patratelor abaterilor intracluster este mai
mica. Elementul caracteristic al metodei lui Ward este reprezentat de faptul ca prin comasarea a
doua clustere se urmareste obtinerea unei omogenitati maxime la nivelul tuturor clusterelor care
apartin unei configuratii date a obiectelor pe clustere. n acest sens, se poate spune ca distanta
Ward dintre doua clustere masoara variabilitatea intracluster cumulata, pe care o induce
comasarea celor doua clustere la nivelul configuratiei cluster rezultate. n acest sens, distanta
Ward poate fi definita sub forma urmatoare:
Definitie: Metoda lui Ward evalueaza distanta dintre doua clustere suma totala a patratelor
abaterilor la nivelul configuratiei cluster rezultate din comasarea celor doua clustere pentru care
se evalueaza distanta. Spre deosebire de alte metode de calcul a distantelor ntre clustere, distanta
Ward ofera o serie de avantaje. Aceste avantaje decurg din faptul ca ea este singura dintre
metodele de evaluare a distantelor dintre clustere, care exprima distantele din punct de vedere al
minimizarii variabilitatii intracluster sau, ceea ce nseamna acelasi lucru, din punct de vedere al
maximizarii variabilitatii intercluster.
METODE SI TEHNICI DE ANALIZA CLUSTER
Metoda lui Ward, cunoscuta si sub numele de metoda minimei variante intracluster, este una
dintre cele mai cunoscute si mai eficiente metode de clasificare ierarhica prin agragare. n
virtutea acestei metode atribuirea unui obiect la un cluster se face numai daca aceasta atribuire
minimizeaza varianta din cadrul clusterului. Pe post de criteriu general de afectare a obiectelor la
clustere este considerata minimizarea sumelor elementelor de pe diagonala matricii comune de
covarianta a clusterelor, adica minimizarea trasei matricii de covarianta intraclase. Metoda lui

Ward este o metoaa de evaluare a distantei dintre dou| clustere care se bazeaza pe maximizarea
gradului de omogenitate a clusterelor.
Definitie: Metoda lui Ward este o metoda de clasificare ierarhica de tip ascendent, care
comaseaza n fiecare etapa a clasificarii acele doua clustere pentru care suma patratelor abaterilor
la nivelul clusterului rezultat din comasare este cea mai mica, n comparatie cu alte perechi de
clustere. Metoda lui Ward nu este o metoda propriu-zisa de calcul a distantelor dintre clustere, ci
o metoda de formare a clusterelor pe baza maximizarii gradului de omogenitate a clusterelor. Ca
masura a gradului de omogenitate a clusterelor este utilizata suma patratelor abaterilor, numita
suma patratelor abaterilor intracluster. Gradul de omogenitate a unui cluster se considera a fi cu
att mai mare cu ct suma abaterilor intracluster este mai mica. Distanta Ward se evalueaza
pentru toate combinatiile posibile de comasare ntr-un singur cluster a oricaror doua clustere din
configuratia initiala.
49. Descrieti algoritmul k-means
Algoritmul k-means asigneaz un punct acelui cluster al crui centru, numit centroid, este cel mai apropiat de
el. Centrul este media tuturor punctelor din cluster coordonatele acestuia sunt determinate ca medie aritmetic, n
funcie de metrica aleas. De exemplu, daca setul de date are 3 dimensiuni iar clusterul are dou puncte X =
(x1,x2,x3) i Y = (y1,y2,y3), atunci centroidul Z devine Z = (z1,z2,z3), unde
i

.
Paii de execuie ai algoritmului sunt:
Alegerea numrului de clustere k
Generarea la ntmplare a k clustere i determinarea centrelor acestora sau generarea la ntmplare a
unor puncte considerate centrele acestora
Asignarea fiecrui punct ctre clusterul cu centrul cel mai apropiat, utiliznd metrica aleas
Recalcularea centrelor clusterelor
Repetarea celor doi pai precedeni pn cnd se ndeplinete criteriul de convergen ales

Principalele avantaje ale algoritmului sunt simplitatea i viteza sa de execu ie care i permite s lucreze cu
seturi mari de date. Dezavantajul su este faptul c nu ofer acela i rezultat de la execu ie la execu ie, din moment
ce clusterele rezultante depind de iniializrile care se fac la ntmplare la nceputul rulrii algoritmului. Alt
dezavantaj este faptul c trebuie s se cunoasc de la nceput numrul de clustere, ceea ce nu e posibil ntotdeauna.

50. Ce este dendrograma (arborele de clasificare ierarhica) si cum se construieste


aceasta
Analiza cluster de tip ierarhic sau arborescent (dendograma)este o metoda de clasificare bazata
pe gruparea obiectelor pe baza de agregare succesiva n clase din ce n ce mai largi de obiecte
sau de dezagregare succesiva n clase din ce n ce mai mici. Ipoteza fundamentala a analizei
cluster de tip ierarhic este aceea la nivelul multimilor supuse studiului exista mai multe niveluri
de structurare naturala a obiectelor pe grupe sau clase, evidentiindu-se o imbricare sau o
includere, de tip arborescent, a structurilor continute la nivel latent n cadrul acestor multimi.

n cea mai mare parte a lor, algoritmii de clasificare ierahica sunt algoritmi de tip euristic. Exista
nsa si o categorie aparte algoritmi de clasificare ierarhici, reprezentati de algoritmii de tip model
formal, care genereaza structurile cluster pe baza maximizarii verosimilitatii.
Rezultatul utilizarii analizei cluster de tip ierarhic l reprezinta o multime de structuri particulare
de clustere, numita arbore al clasificarii sau arbore ierarhic. Structurile cluster care alcatuiesc
arborerele de clasificare includ un numar de clustere diferit. O solutie cluster ce corespunde unui
nivel mai ridicat de agregare contine un numar de clustere mai mic cu 1 dect o solutie cluster
corespunzatoare proximului nivel ierarhic inferior. Aceasta nseamna ca structurile cluster de tip
ierarhic sunt caracterizate prin nivele diferite de agregare, cuprinse ntre un nivel minim si un
nivel maxim.
Structura cluster cu cel mai nalt nivel de agregare este formata dintr-un singur cluster, care
include toate obiectele supuse clasificarii. Structura cluster cu cel mai redus nivel de agregare
este formata dintr-un numar de clustere egal cu numarul de obiecte analizare, fiecare cluster
incluznd un singur obiect. Numarul de clustere din dou| structuri cluster succesive difera printro unitate, structura cluster cu nivel mai nalt de agregare continnd cu un cluster mai putin dect
structura cluster precedent.
Cu ct nivelul de agregare al structurilor cluster este mai ridicat, cu att similaritatile dintre
obiectele unui cluster sunt mai reduse, adic| clusterele sunt mai eterogene. Acest lucru se explica
prin faptul ca un cluster de la un nivel de agregare mai nalt contine un numar mai mare de
obiecte dect un cluster de la un nivel de agregare mai redus.
51. Cum se alege numarul de clustere n cazul clasificarilor de tip ierarhic
In cazul clasificarii de tip ierarhic, se va alege din multimea de solutii claster, o singura
solutie. Desi alegerea se face in principal in functie de scopurile urmarite, pentru a se obtine o
clasificare semnificativa, este necesar ca alegerea partitiei sa se faca pe o evaluare cat mai exacta
a calitatii tuturor partilor incluse in ierarhia cluster.
52. Formulati problema generala a recunoasterii supervizate a formelor si mentionati
cateva domenii de utilizare
Problema este ca in multe domenii de activitate este necesara gruparea, clasificarea si
diferentierea anumitor entitati sub forma unor clase, a caror limitare trebuie sa fie foarte clara.
Exista insa situatii in care informatiile de care se dispune nu sunt suficiente pentru a face aceste
clasificari in mod corect. Acest lucru este des intalnit in cazul obiectelor de tip multidimensional.
In acest caz diferentierea nu mai poate fi facuta numai pe cale ituitiva, fiind necesar sa se apeleze
la o serie de metode statistico-matematice.
Domenii de utilizare: analiza financiara, marketing, medicina, biologie, meteorologie.
53. Definiti scopurile recunoasterii supervizate a formelor si descrieti tipul informatiilor
utilizate n recunoasterea supervizata

n mod frecvent, n analiza datelor apare necesitatea studierii unor populatii care sunt eterogene
din punct de vedere al caracteristicilor analizate, fapt care complica procesul de cunoastere a
acestor populatii si impune efectuarea unui demers stiintific specific. Expresia cea mai
semnificativa a populatilor de tip eterogen este ntlnita n special n domeniul statisticii,
econometriei si analizei datelor, fiind reprezentata chiar de cantitatile foarte mari de informatie
care trebuie prelucrata, sintetizata si interpretata.
n cazul cercetarii unor populatii de acest tip, pentru ca rezultatele investigarii sa capete
consistenta si relevanta, este necesara o mpartire, o divizare a acestor populatii n subpopulatii
cu un anumit grad de omogenitate, urmnd ca analizele si procesul de modelare implicate n
studierea respectivei populatii sa se faca n mod diferentiat, pentru fiecare subpopulatie n parte.
Formularea unor concluzii corecte si robuste cu privire la manifestarea populatiilor
caracterizate de un grad mai mare sau mai mic de eterogenitate nu este posibila dect daca
analiza ia n considerare structurarea acestor populatii pe categorii.
n alte situatii, cum sunt cele n care sunt analizate diverse entitati economico-sociale,
considerate a proveni din populatii cu caracteristici foarte diferite, exista interesul de a identifica,
de a recunoaste, originea acestor entitati, si de a obtine o ncadrare corecta a acestora n anumite
clase reprezentative pentru populatia de origine. Situatiile de acest fel depasesc sfera economicofinanciara, ele ntlnindu-se n mod frecvent ntr-o mare varietate de alte domenii importante ale
stiintei, cum ar fi: informatica, biologia, antropologia, medicina, sociologia, geologia,
meteorologia etc.
54. Ce sunt clasificatorii de tip liniar. Descrieti logica discriminarii liniare si spatiul
discriminat
Prima modalitate de abordare a problemelor de clasificare cu ajutorul tehnicilor de analiza
discriminanta dateaza din anul 1933 si a fost propusa de Fisher. Ulterior abordarile de acest tip sau dezvoltat n mod constant, iar aplicatiile bazate pe analiza discriminanta s-au extins la din ce
n ce mai multe domenii de activitate si s-au diversificat din ce n ce mai mult.
Cele mai multe si cele mai utile aplicatii ale analizei discriminant bazata pe criteriul lui Fisher
sunt ntlnite n domeniul financiar-bancar, domeniu n care tehnicile de tip se numesc tehnici de
credit-scoring si constituie cele mai importante instrumente pentru fundamentarea deciziilor
privind acordarea de credite.
Metoda de analiza discriminanta propusa de Fisher este o metoda parametrica,
caracterizata prin simplitate si robustete si care ofera posibilitati de interpretare foarte utile
pentru analiza. Simplitatea acestei metode decurge din faptul ca utilizarea sa nu necesita dect
evaluarea unor estimatii pentru parametrii populatiei si claselor acesteia, parametrii reprezentati
de medii, variante sau covariante. Aceasta reprezinta un avantaj foarte important al analizei
discriminante de tip Fisher, n comparatie, de exemplu, cu tehnicile de analiza discriminanta
bazate pe criteriul Bayes-ian, tehnici a caror utilizare presupune cunoasterea probabilitatilor
apriorice.
Fundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza
variantei. Criteriul lui Fisher defineste o modalitate de deducere a functiilor discriminant pe baza
analizei comparative dintre variabilitatea intragrupala si variabilitatea intergrupala, la nivelul
claselor sau grupelor populatiei analizate. Functiile discriminant deduse pe baza criteriului lui
Fisher se mai numesc si functii scor si sunt functii liniare.

Dupa cum am mai mentionat, criteriul fundamental care sta la baza mpartirii multimii de
obiecte n submultimile 1,2,...k este un criteriu mixt, care urmareste minimizarea
variabilitatii intragrupale si maximizarea variabilitatii intergrupale. Utilizarea acestui criteriu
combinat asigura cea mai buna diferentiere a claselor sau grupelor populatiei .
Ideea care sta la baza criteriului lui Fisher este aceea a determinarii unor directii sau axe,
astfel nct, de-a lungul acestora, clasele multimii sa se diferentieze ct mai mult ntre ele si, n
acelasi timp, fiecare clasa sa aiba un grad de omogenitate ct mai mare. Cu alte cuvinte, criteriul
lui Fisher are ca scop determinarea unor directii de-a lungul carora variabilitatea intergrupala sa
fie ct mai mare, iar variabilitatea intragrupala sa fie ct mai mica. Proiectiile obiectelor pe axele
definite de aceste directii reprezinta noi coordonate ale obiectelor si se numesc scoruri
discriminant.
Dintr-un anumit punct de vedere, analiza discriminanta poate fi considerata| ca fiind
asemanatoare cu analiza componentelor principale, care are ca scop general identificarea unor
axe n raport cu care variabilitatea obiectelor sa fie maxima. Deosebirea principala dintre analiza
discriminanta si analiza componentelor principale este legata de faptul ca n cadrul analizei
componentelor principale spatiul cauzal este considerat n integralitatea sa, fara a se face nici o
diferentiere ntre elementele acestuia din punct de vedere al unui anumit criteriu.
n cazul analizei componentelor principale variabilitatea este privita ca o caracteristica
generala a populatiei analizate, fara a se tine seama de existenta unei eventuale structurari a
acestei populatii pe grupe sau clase. n consecinta, variabilitatea care face obiectul analizei
componentelor principale este considerata ca un tot unitar, fara a exista posibilitatea
descompunerii acesteia n raport cu o anumita structura a spatiului cauzal analizat.
Spre deosebire de aceasta, n cazul analizei discriminante se considera ca populatia
analizata este structurata pe grupe sau clase, iar variabilitatea acestei populatii poate fi
descompusa sub forma a doua componente importante: variabilitatea intergrupala si
variabilitatea intragrupala.
n plus, fata de diferenta mentionata, n analiza discriminanta noile directii care trebuie
identificate nu trebuie sa fie n mod obligatoriu ortogonale, spre deosebire de analiza
componentelor principale n care directiile de variabilitate maxima trebuie sa verifice
proprietatea de ortogonalitate.
Cea mai importanta problema a criteriului lui Fisher de discriminare ntre clasele unei
populatii este legata de descompunerea variabilittaii acestei populatii. Vom detalia modul n care
poate fi descompusa variabilitatea populatiei n raport cu cele doua sensuri ale acesteia:
variabilitatea simpla - exprimata prin intermediul sumei totale a patratelor abaterilor si
variabilitatea mixta sau compusa - masurata prin intermediul matricii produselor mixte ale
abaterilor. Este evident ca variabilitatea mixta poate fi definita numai pentru cazul obiectelor
multidimensionale.
Asa cum am precizat mai nainte, determinarea functiilor discriminant este echivalenta cu
gasirea unor directii, sau vectori, n raport cu care variabilitatea intragrupala sa fie minima, iar
variabilitatea intergrupala sa fie maxima. Aceste directii vor defini axele spatiului discriminat si
pot fi identificate sub forma unor combinatii liniare de variabilele descriptor selectate n analiza.

55. Definiti functiile discriminant liniare, variabilele discriminant si scorurile


discriminant
Functia discriminant liniara duce la obtinerea unui clasificator. De asemenea, pot fi folosite si alte criterii, cum ar fi
criteriul minimizarii costului clasificarii, criteriul lui Bayes sau criteriul probabilitatilor aposteriorice si altele.
Variabilele discriminant:

56. Descrieti clasificatorul Bayesian si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
Clasificatorul Bayesian
Acest algoritm de data mining are la baza notiuni fundamentale din teoria probabilitatilor.
Astfel,unul dintre conceptele utilizate in cadrul acestuia este reprezentat de probabilitatea
bayesiana a unui eveniment, care se defineste ca fiind gradul de incredere al unei persoane
asupra aparitiei acelui eveniment. Relatiile probabilistice dintre variabilele unei multimi sunt
reprezentate sub forma unui model grafic numit retea bayesiana ce poate manipula cu usurinta
multimi incomplete de date.
Algoritmul este utilizat in special atunci cand dimensiunea setului de date de intrare este
foarte mare. In figura urmatoare este ilustrata modalitatea de clasificare a obiectelor in verde
(GREEN) sau rosu (RED). Prin aplicarea algoritmului Bayesian asupra unui set de date, orice
obiect nou va fi incadrat intr-una din aceste doua categorii, dupa cum este reprezentat in
figura11:

Figura 11. Set de date

Probabilitatea ca un obiect nou sa apartina uneia din cele doua categorii se determina astfel:
p(green) =

p(red) =

Figura 12. Instanta noua

In cazul unui nou element,se vor calcula urmatoarele probabilitati:


p(green) =

p(red) =

Ulterior, pentru stabilirea apartenentei elementului nou se va calcula clasificatorul Bayesian


in ambele cazuri si se va analiza urmatoarea relatie:
p(A) * p (A) < p(B)* p (B)
-

daca relatia este adevarata, atunci obiectul va fi incadrat in clasa A


daca relatia este falsa, atunci obiectul va fi incadrat in clasa B
unde A si B reprezinta cele doua clase luate in considerare in vederea aplicarii
algoritmului.

In conditiile in care se lucreaza cu mai multe caracteristici de va utiliza urmatoarea relatie


de calcul:

unde :

reprezinta ponderea instantelor din clasa m pentru care valoarea

caracteristicii k are valoarea n.


57. Descrieti forma clasificatorului Bayesian in cazul normalitatii si homoscedasticitatii
claselor

Spre deosebire de analiza discriminanta de tip Fisher, analiza Bayesiana presupune cunoasterea
probabilitatilor apriorice.
Teorema lui Bayes reprezint un prim mijloc de a determina probabilitatea unui eveniment Ai
(component a unei repartiii) n situaia n care se tie c apariia acestuia este influenat de
ndeplinirea unui alt eveniment independent B. Prin mulime de evenimente mutual exclusive i
exhaustive se neleg acele evenimente care satisfac urmtoarele condiii: oricare ar fi dou
evenimente din mulimea respectiv, acestea nu pot avea loc simultan (exclusivitate); cu
evenimentele din mulime se pot descrie toate strile n care se afl sistemul la care aceste
evenimente fac referire (exhaustivitate). n aceasta relaie, expresia nu trebuie considerat n
sensul probabilitii de apariie a evenimentului B atunci cnd se cunoate c evenimentul Ai a
avut loc, deoarece estimarea evenimentului B este anterioar estimrii lui Ai. Interpretarea
corect a acestei expresii din cadrul teoremei lui Bayes este de probabilitate ca evenimentul B s
fi avut deja loc tiind c apariia sa a fost urmat de apariia evenimentului Ai.
58. Descrieti clasificatorul liniar Fisher si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
Separarea claselor in spatiul formelor se poate realiza prin mai multe tipuri de abordari, printre
care si criterial functiilor discriminant liniare ale lui Fisher.

59. Descrieti clasificatorul Mahalanobis si aratati cum poate fi utilizat acesta in


predictia apartenentei formelor

60. Descrieti modul de stabilire a abilitatii predictive a unui clasificator si matricea

corectitudinii clasificarii
Definiie: Clasa, grupa sau clusterul reprezint o entitate informaional distinct i cu
semnificaie concret, format din totalitatea obiectelor ale cror caracteristici sunt identice sau
difer foarte puin i care sunt semnificativ diferite de caracteristicile obiectelor din alte clase sau
grupe.
Definiie: Clasificatorul sau criteriul de clasificare reprezint regula sau mulimea de reguli pe
baza crora obiectele care aparin mulimii analizate sunt afectate sau atribuite unor clase sau
grupe bine definite. n funcie de natura regulilor utilizate n procesul de clasificare, exist mai
multe categorii de clasificatori:
clasificatori ierarhici
clasificatori de cost minim
clasificatori de distan minimal
clasificatori de tip Bayes-ian
clasificatori euristici etc.
Sub cea mai general form a sa, problema de clasificare poate fi formulat n termenii teoriei
deciziei, iar metodele de clasificare pot fi definite sub forma unor instrumente decizionale
specifice.
Explicarea apartenenei obiectelor mulimii la cele K clase presupune, de fapt, deducerea sau
identificarea unui criteriu de clasificare sau a unei reguli de clasificare, care s descrie modul de
structurare a obiectelor populaiei pe clase. Criteriul de clasificare mai este cunoscut i sub
numele de clasificator.
Problema general a clasificrii: Fiind dat o mulime de obiecte, se cere s se determine
criteriul sau regula care s descrie apartenena obiectelor la clasele sub forma crora se
structureaz respectiva mulime de obiecte. n funcie de cunoaterea sau necunoaterea aprioric
a apartenenei la cele K clase a obiectelor care aparin eantionului extras din popula ia ,
metodele de clasificare se mpart n dou mari categorii: de clasificare controlat i de
clasificare necontrolat. Odat ce criteriul de clasificare a fost stabilit, el poate fi folosit, n
continuare, pentru efectuarea de predicii privind apartenena la o anumit clas a unor noi
obiecte, din afara eantionului existent, obiecte a cror apartenen nu este cunoscut aprioric.
Dup ce criteriul de clasificare a fost identificat, i cu condiia ca apartenen a obiectelor
aparinnd eantionului disponibil s fie cunoscut, el poate fi utilizat i pentru verificarea
corectitudinii cu care acesta poate face clasificarea, adic pentru testarea calitii clasificatorului.
Calitatea criteriului de clasificare poate fi testat chiar pe obiectele din eantionul pe care acest
criteriu a fost identificat. n acest scop, fiecare obiect din eantion, a crui apartenen la o
anumit clas este cunoscut n mod efectiv, este reclasificat cu ajutorul respectivului criteriu, iar
rezultatul noii clasificri este comparat cu clasificarea real. Testarea clasificatorului poate s
conduc la o clasificare corect a unor obiecte din eantionul analizat i la o clasificare incorect
a altor obiecte din acest eantion. Aceasta nseamn c utilizarea clasificatorului respectiv poate
s conduc la situaia n care obiectele care aparin n mod real unei anumite clase s fie
clasificate fie n clasa corect, fie incorect, n oricare din celelalte clase. Modul n care un
clasificator asigur clasificarea obiectelor cu apartenen cunoscut poate fi descris prin
intermediul unei matrici, numit matricea corectitudinii clasificrii sau, mai simplu,
matricea clasificrii, care conine informaiile necesare pentru a aprecia corectitudinea

clasificrii obiectelor. Dac vom considera un eantion format din T obiecte, care apar in
claselor w1, w2, wK , atunci matricea de clasificare are forma din tabelul urmtor.

Un element Tij al matricii de clasificare arat numrul de obiecte aparinnd n mod real clasei
wi i care, prin utilizarea tehnicilor de recunoatere a formelor, sunt clasificate n clasa wi.
Definind n acest fel elementele matricii de clasificare, rezult c numrul de obiecte clasificate
corect este reprezentat de suma elementelor de pe diagonala principal a matricii clasificrii,
respectiv:

Similar, numrul de obiecte clasificate incorect este reprezentat de suma elementelor aflate n
afara diagonalei principale a matricii clasificrii, respectiv:

S-ar putea să vă placă și