Intrebari Data Mining
Intrebari Data Mining
Un alt criteriu de clasificare a variabilelor este cel al naturii mulimii n care acestea pot lua valori. Din
acest punct de vedere, variabilele se mpart n dou categorii: variabile de tip discret i variabile de tip
continuu.
Variabilele de tip discret sunt variabile care pot lua valori ntr-o mulime finit, indiferent de natura
calitativ sau cantitativ a acestora. Variabilele de tip discret pot s fie att variabile calitative, ct i
variabile cantitative, cu condiia ca n cazul ultimelor, numrul de valori posibile s fie finit. Exemple de
variabile de tip discret : categoria de venit, nivelul de instruire, vrsta, numrul de salariai, numrul de
cumprtori, numrul de piese defecte, numrul de firme falimentare, numrul de tranzacii la burs.
Variabilele de tip continuu sunt variabile numerice pentru care mulimea de valori posibile este o
mulime de numere reale, care are puterea continuului. Exemple : masa monetar dintr-o economie, preul
unui bun economic, rata inflaiei, rata omajului, cursul de schimb al monedei na ionale etc.
Un alt criteriu de clasificare a variabilelor este cel reprezentat de rolul acestora n contextul relaiilor de
cauzalitate i, implicit, n cadrul modelelor care descriu relaii de acest fel. Din acest punct de vedere,
variabilele se mpart n trei categorii: variabile endogene, variabile exogene i variabile fictive.
Variabilele endogene sunt variabile care exprim fenomene de tip efect sau rezultat, considerate a se
forma sub influena unor alte fenomene i apar n cadrul modelelor econometrice ca variabile dependente.
Variabilele exogene sunt varia-bile care simbolizeaz fenomene de tip cauze, care, prin modul lor de
manifestare, determin comportamentul unui fenomen de tip efect. Variabilele endogene si variabilele
exogene pot fi atat de tip calitativ cat si de tip cantitativ.
Variabilele fictive sunt variabile artificiale, care sunt utilizate n con-struc ia modelelor econometrice cu
scopul de a asigura flexibilizarea modelelor sau cu scopul de a cuantifica influen e de tip sezonier. De
regul, variabilele fictive sunt variabile de tip binar, adic variabile care pot lua dou valori posibile. n
cazul n care varibilele fictive sunt incluse ntr-un model cu scopul de a descrie sezo-nalitatea, numrul
acestora i valorile lor posibile sunt determinate de numrul de perioade din intervalul de ciclitate
Variabilele pot fi clasificate i n funcie de tipul scalelor pe care sunt msurate valorile acestor variabile.
Din acest punct de vedere, exist patru tipuri de variabile, respectiv variabile nominale sau categoriale,
variabile ordinale, variabile de tip interval i variabile de tip raport, tipuri ce corespund scalelor
nominal, ordinal, interval sau raport.
Singura transformare invarianta a scalei ordinale este translatia, adica transformarea care
pastreaza ordinea valorilor unei variabile. Analitic, acest tip de transformare invarianta a
scalei ordinale poate fi definit astfel: y=a+x
unde a este o constanta, pozitiva sau negativa, care da sensul si marimea translatiei
valorilor scalei ordinale, valori reprezentate de x.
Operatiunile posibile pe aceasta scala:
Pentru caracteristicile masurate pe scala ordinala, pot fi calculati o serie de indicatori
statistici cum ar fi: modulul, mediana, coeficientul de corelatie a rangurilor, frecventa. De
asemenea, se poate evidentia si distributia de frecventa. Este important sa se faca, in acest
context, precizarea ca media si diferentele valorilor variabilelor ordinale sunt nerelevante, nu au
sens informational si nici sens logic.
Def: Scala raport este o scala metrica, prin intermediul careia valorilor posibile pe care le pot
lua caracteristicile masurate li se atribuie numere definite in raport cu o origine prestabilita.
Caracteristici:
Originea scalei indica absenta proprietatii, caracteristicii. In plus fata de celelalte scale,
pe aceasta scala este definit si raportul valorilor, adica se poate compara de cate ori o
valoare este mai mare decat alta.
Scala raport este invarianta pana la o transformare proportionala pozitiva, adica pana la
transformarea: y=ax
Variabilele masurate pe scala raport se numesc variabile tip raport si sunt variabile
cantitative (exp: pretul, venitul, varsta, salariul, profitul, volumul vanzarilor, numarul
cumparatorilor, etc).
Pe aceasta scala sunt permise toate operatiile definite pentru variabilele numerice.
6.
Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al
unei caracteristici studiate
Proprietati::
1. Media este indicator statistic cu cel mai mare grad de aplicabilitate practica.
2. Media se prezinta ca marime cu caracter abstract, n sensul ca valoarea medie - de cele
mai multe ori - nu coincide cu niciuna dintre valorile individuale din care s-a calculat
3. Media este nivelul la care ar fi ajuns caracteristica nregistrata, daca, n toate cazurile,
toti factorii esentiali si neesentiali ar fi actionat constant.
4. Pentru a asigura un continut real mediei calculate, valorile individuale din care se obtin
trebuie sa fie ct mai apropiate, sa existe o omogenitate a colectivitatii. n cazul eterogenitatii
colectivitatii, aceasta trebuie separata pe grupe calitative pentru care se calculeaza medii partiale.
5. n analiza statistica se calculeaza mai multe tipuri de medii:
- media aritmetica
- media armonica;
- media patratica;
- media geometrica;
- media cronologica.
Unde:
X-sirul de date
N-numarul de date
Media este recomandata n cazul variabilelor numerice care ndeplinesc conditiile
parametrice (distributie normala, omogenitate)
2.Mediana
Mediana este acel parametru care prin pozitia sa, se afla n mijlocul seriei de date. Ea
reprezinta punctul central al seriei, deoarece la stnga si la dreapta ei se situeaza cte 50% din
totalitatea datelor. Mediana coincide cu media n cazul unei distributii teoretice normale si se
ndeparteaza mult de aceasta daca distributia este asimetrica
Locul medianei intr-o serie de n termini se calculeaxa dupa formula:
3.Modulul
Proprietati:
corespunde unuia sau mai multor elemente ale seriei (n caz de frecvente egale).
Modul este foarte util n cazul variabilelor de tip categorial (date calitative, nominale), deoarece nu
putem calcula ceilalti parametrii centrali.
Varianta reprezinta suma patratelor abaterilor valorilor individuale n raport cu media ce revine,
n medie, pe fiecare valoare individuala, adica pe fiecare observatie efectuata asupra variabilei.
urmatoare:
si =
2
x ti
(x i)
T
T 1 t =1
V T = s i
i=1
Exista o strnsa legatura ntre marimea unghiului format de cei doi vectori si corelatia
dintre cele doua variabile. Aceasta consta n faptul ca, de fapt, coeficientul de corelatie
este cosinusul unghiului dintre vectorii ce reprezinta cele doua variabile. ntr-adevar, daca
unghiul dintre cei doi vectori este zero, adica vectorii se suprapun, legatura perfecta existenta n
aceasta situatie este evidentiata att printr-o valoare a coeficientului de corelatie egala cu
unitatea, ct si prin valoarea unitara a cosinusului unghiului respectiv. Invers, daca unghiul dintre
vectori este de 90 de grade, adica vectorii sunt ortogonali, inexistenta legaturii specifice acestei
situatii este evidentiata prin faptul ca att coeficientul de corelatie, ct si cosinusul unghiului
respective sunt egale cu zero. Cele trei situatii de corelare posibila a doua variabile x1 si x2 , ale
caror observatii sunt reprezentate prin
Corelatia reprezinta tehnica statistic care msoar i descrie gradul de asociere linear dintre
dou variabile cantitative continue normal distribuite.
Date
Obs
12. Definiti datele de tip profil, de tip cronologic si de tip panel. Exemplificati fiecare
geometric)
Cele mai interesante i mai utile aspecte ale analizei componentelor principale sunt n
primul rnd legate, nu de aparatul matematic pe care aceast analiz se bazeaz, ci de multiplele
i nuan atele interpretri posibile pe care aceasta le ofer.
Pentru a da o ilustrare intuitiv clar, bazat pe o interpretare geometric simplificat,
ra ionamentului primar care st la baza analizei componentelor principale, vom dedica aceast
parte, n exclusivitate, interpretrilor i exemplificrilor numerice.
n acest sens, vom considera contextul numeric oferit de exemplul urmtor, context care va servi
ca referin pentru multe din interpretrile i exemplificrile ulterioare.
Exemplu:
Vom considera cazul unui numr de 10 obiecte sau observa ii, referitoare la dou
variabile, X1 i X2. Tabelul urmtor con ine observa iile ini iale disponibile pentru cele dou
variabile, precum i valorile centrate ce corespund acestor observa ii.
Valorile observa iilor ini iale i centrate
Observa ia
O1
O2
O3
O4
O5
O6
O7
O8
O9
O10
Media
Variana
X2
10,0
11,0
15,0
5,0
10,0
13,0
12,0
11,0
8,0
10,0
10,5
7,389
Valori centrale
X c1
0,6
-1,4
3,6
-4,4
-1,4
-0,4
0,6
2,6
0,6
-0,4
0
4,933
X c2
-0,5
0,5
4,5
-5,5
-0,5
2,5
1,5
0,5
-2,5
-0,5
0
7,389
Variana individual pentru fiecare din cele dou variabile este 4,933, respectiv 7,389, iar
variana total, corespunztoare celor dou variabile, X1 i X2 este 12,322:
S11 = 4,933;
S22 = 7,389;
VT = 12,322.
n aceste condiii, se poate spune c rolul informaional al celor dou variabile este
aproximativ acelai, c cele dou variabile au aproximativ aceeai contribuie la formarea
variabilitii totale ce caracterizeaz spaiul cauzal iniial. Prima variabil are o contribuie la
formarea varianei totale de 46,45%, iar cea de-a doua variabil contribuie cu 53,55% la
formarea varianei totale:
S 11
VT
S 22
VT
= 46,45%;
= 53,55%.
(454,0
712,0
712,0
1169,0
S=
( 4,933
4,444
4,444
7,389
R=
(1,000
0,736
0,736
1,000
(44,4
40,0
40,0
66,5
S=
( 4,933
4,444
4,444
7,389
R=
(1,000
0,736
0,736
1,000
Dup cum se poate observa, n urma operaiei de centrare se modific doar matricea
produselor ncruciate, matricea de covarian i matricea de corelaie rmnnd neschimbate.
Matricea de corelaie evideniaz faptul c cele dou variabile sunt corelate, la nivelul unui
coeficient de corelaie de 0,736, adic:
r12 = r21 = 0,736
Avnd n vedere intensitatea relativ ridicat a legturii dintre cele dou variabile
originale, este de ateptat ca aceste variabile s poat fi sintetiyate prin intermediul unei singure
componente principale, n condiiile unei pierderi informaionale minime.
18. Definiti componentele principale si mentionati proprietatile acestora
Componentele principale sunt variabile vectoriale abstracte, definite sub forma unor
combinaii liniare de variabilele originale.
Proprietile componentelor principale sunt:
Sunt necorelate dou cte dou i suma ptratelor coeficienilor care definesc combinaia
liniar ce corespunde unei componente principale este egal cu unitatea;
Prima component principal este o combinaie liniar normalizat a crei varian este
maxim, cea de-a doua component principal este o combinaie liniar necorelat cu
prima component principal i care are o varian ct mai mare posibil, ns mai mic
dect cea a primei componente etc.
19. Formulati modelul matematic al analizei componentelor principale, definiti si
interpretati marimile definitorii ale acestuia
Analiza componentelor principale este o tehnica de analiza multidimensionala care are ca scop descompunerea
variabilitatii totale din spatial cauzal initial sub forma unui numar redus de component si /reducerea
dimensionalitatii spatiului cauzal initial, in conditiile unei pierdei informationale minime.
- Simplificarea structurii dependentei cauzale. Structura dependentei este reprezentata de multimea
variabilelor cauzale supuse analizei. Prin simplificarea spatiului cauzal se intelege reducerea
dimensionalitatii acestuia, astfel incat sa se obtina un spatiu cauzal de dimensiune mai mica si care sa
permita o reprezentare mai simpla si mai sugestiva a obiectelor.
- Reducerea dimensionalitatii. La baza analizei componentelor principale sta ideea ca reprezentarea
unitatilor n sistemul initial de coordonate, adica n sistemul pe ale carui axe sunt masurate
caracteristicile originale ale unitatilor, nu este totdeauna cea mai potrivita, considernduse ca poate
exista o alta modalitate de reprezentare mai relevanta, mai eficienta din punct de vedere informational.
Aceasta modalitate de reprezentare, mai avantajoasa din punct de vedereinformational, poate fi
obtinuta considernd un nou spatiu de reprezentare, spatiu care defineste prin axele sale, n mod
implicit, noi caracteristici ale obiectelor. Coordonatele obiectelor n acest nou spatiu sunt valorile
nregistrate de obiecte la aceste noi caracteristici. n contextul simbolizarii cu ajutorul variabilelor,
noile caracteristici sunt numite componente principale, iar valorilenregistrate de obiecte la aceste noi
caracteristici sunt numite scoruri
: - >
unde n
, k sunt dou| spaii vectoriale reale, iar dimensiunea celui de-al doilea spaiu este mult mai mic|
Elementele matricei factor se numesc intensitati ale factorilor ai au o interpretare interesanta din
punct de vedere al legaturii dintre variabilele originale si componentele principale. Astfel
elemental care se regaseste la intersectia liniei I cu coloana j in matricea factor, reprezinta
coeficientul de corelatie dintre cea de-a I variabila standardizata cu cea de-a j component
principala.
25. Detaliati modul n care pot fi interpretate componentele principale n termeni cu
semnificatie concreta. Exemplificati
26. Criterii de alegere a numarului de componente principale
n mod practic, exprimarea celor T observatii efectuate asupra variabilelor originale sub forma
scorurilor factor, respectiv calculul concret al scorurilor factor, se bazeaza pe urmatoarele relatii:
Zkj=bkixji K=1,2,.p J=1,2,T
31. Metode de estimarea modelului factorial
Utilizarea analizei factoriale pentru dezvoltarea unor probleme specifice presupune i
determinarea numrului de factori comuni ce vor fi reinui n model.Exist o serie de criterii
care pot s orienteze utilizatorul atunci cnd ia o astfel de decizie.
1. Criteriul procentului de acoperire:
n general, alegerea numrului de factori care s fie inclui n modelul factorial depinde de
proporia din variabilitatea comun coninut n spaiul cauzal iniial pe care utilizatorul dore te
s-o exprime prin intermediul unei siccesiuni de factori comuni. O estimaie aproximativ a
acestei proporii poate fi obinut cu ajutorul formulei :
,
pk = {i=1,k}i/{i=1,n}i, unde k este numrul de factori re inu i, n este numrul variabilelor
originale, iar este valarea proprie n raport cu care este definit factorul comun i.
2. Criteriul lui Kaiser:
Pate fi folosit atunci cnd analiza factorial este efectuat pe o matrice de corela ie, adic atunci
cnd se presupune c variabilele originale sunt standardizate. n conformitate cu acest criteriu,
numrul de factori necesari a fi inclui ntr-un model de analiz factorial este egal cu numrul
de valori proprii mai mari sau egale cu 1.
3. Criteriul granulozitii:
Dup acest criteriu, numrul de factori ce vor reinui n modelul de analiz factorial se
stabilete pe baza unei analize grafice a valorilor proprii. Graficul se construie te lund n
abscis numrul de ordine al valorilor proprii, iar n ordonat valorile acestor valori proprii.
Valorile proprii fiind ordonate dup magnitudinea lor descresctoare, graficul are forma
aproximativ a unei curbe de tipul exponenialei negative.
Numrul de factori ce se vor reine n model este determinat de punctul de pe grafic n dreapta
cruia panta curbei devine neglijabil, numrul de ordine al valorii proprii corespunztoare
acestui punct determinnd numril de factori ce se vor reine.
32. Definiti recunoasterea formelor si exemplificati cteva dintre aplicatiile acesteia n
domeniul economico-financiar.
1,
2, .....,
n,
explicative. In acest fel, un obiect din populatia poate fi reprezentat sub forma unui vector Ndimensional de forma:
= ( 1, 2, ..... , n , )t
existenta apriorica a unui numar dat de clase si a unui set de forme, numite prototipuri sau
referinte, a caror apartenenta la aceste clase este cunoscuta. Acest set de forme este reprezentat
de esantionul de obiecte extrase din populatia supusa studiului, esantion cunoscut si sub numele
de set de formare sau set de nvatare. Sistemul de recunoastere controlata a formelor reprezinta
totalitatea activitatilor si procedurilor care au ca scop deducerea unor criterii de partajare a unei
populatii de entitati informationale (obiecte sau variabile), sub forma unui numar cunoscut de
clase, pe baza cunoasterii caracteristicilor si a apartenentei elementelor unui esantion provenit
din respectiva populatie.
36. Ce este analiza cluster, care sunt conceptele fundamentale ale acesteia si care sunt
domeniile utilizarii ei
Analiza cluster - poate fi definita ca reprezentnd o multime de principii, metode si algoritmi de
clasificare, avnd ca scop organizarea datelor sub forma unor structuri informationale
semnificative, relevante.
Concepte fundamentale
Termenul de analiza cluster a fost utilizat pentru prima oara n anul 1939, de catre R. C. Tyron, n
lucrarea Cluster Analysis. Acest termen este folosit n prezent ca nume generic pentru o
multime variata de proceduri si algoritmi de clasificare de tip necontrolat.
Prin intermediul analizei cluster fiecare obiect din multimea analizata este atribuit unei singure
clase, iar multimea claselor este o multime discreta si neordonabila. Clasele rezultate n urma
utilizarii analizei cluster au o semnificatie concreta si generalizatoare, pe baza careia pot fi
efectuate o serie de interpretari si pot fi formulate o serie de concluzii importante pentru procesul
de cunoastere. Clasele sau grupele sub forma carora se structureaza multimile de obiecte se mai
numesc si clustere. Un cluster este o submultime formata din obiecte similare, adica din obiecte
care sunt suficient de asemanatoare ntre ele din punct de vedere al caracteristicilor care le
definesc. Clusterul poate fi privit si ca reprezentnd o regiune a unui spatiu multidimensional,
caracterizata printr-o densitate relative mare de puncte sau de obiecte. De exemplu, n cazul
aplicatiilor informatice, clusterul poate sa fie reprezentat de o submultime de documente de
acelasi tip sau cu continut asemanator. Aceste documente pot fi programe sursa, pagini WEB,
fisiere de tip text, fisiere HTML etc. Un astfel de document poate fi privit ca un punct dintr-un
spatiu multidimensional, n care fiecare dimensiune a spatiului este asociata cu un anumit cuvnt.
Coordonatele care definesc pozitia unui document n acest spatiu sunt reprezentate de frecventele
cu care apar diferitele cuvinte n cadrul documentului.
Domeniile utilizarii analizei cluster
Desi folosirea tehnicilor de analiza cluster nu este specifica doar pentru anumite domenii de
activitate, totusi, utilizarea cea mai frecventa a acestora este ntlnita n domeniul marketingului,
n investigatiile de natura psihosociala sau n evaluarile economico-sociale la nivel teritorial.
n domeniul marketingului, se detaseaza aplicatiile tehnicilor de analiza cluster n studierea
comportamentului consumatorilor. Aceste aplicatii vizeaza evaluarea sanselor pe care poate sa le
aiba lansarea unui produs nou, identificarea unor noi piete, modalitatile de segmentare a pietii
sau identificarea pozitionarii pe piata a produselor diferitilor producatori. Posibilitatea de a
deduce tipologii specifice pe multimea clientilor unei firme este deosebit de importanta pentru
fundamentarea si stabilirea politicilor comerciale ale firmei.
n cazul determinarii pozitionarii pe piata a diferitelor marci ale unui produs, analiza cluster este
folosita pentru a clasifica marcile de fabricatie, n functie de similitudinea sau disimilitudinea
perceptiilor pe care le manifesta consumatorii fata de aceste marci. Pe baza modului n care se
clasifica marcile si a caracteristicilor consumatorilor care si manifesta preferintele, un
producator poate identifica marcile concurente si trasaturile specifice ale categoriilor de
consumatori care prefera produsul acestui producator. De exemplu, marcile aflate n aceeasi clasa
cu marca unui producator sunt marci concurente, deoarece ele se adreseaza aceluiasi segment de
consumatori.
37. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate n analiza
cluster
Analiza cluster are ca scop cautarea si identificarea de clase, grupe sau clustere n cadrul unor
multimi de obiecte sau forme, astfel nct elementele care apar in aceleiasi clase sa fie ct mai
asemanatoare, iar elementele care apartin la clase diferite sa fie ct mai deosebite ntre ele. Altfel
spus, analiza cluster este o modalitate de examinare a similaritatilor si disimilaritatilor dintre
obiectele apartinnd unei anumite multimi, n scopul gruparii acestor obiecte sub forma unor
clase distincte ntre ele si omogene n interior.
Este o analiza explorativa, de tip multidimensional, care are ca scop gruparea unor entitati
informationale, cu natura fizica sau abstracta, n clase sau clustere alcatuite din entitati
informationale cu grad ridicat de similaritate.
Este definita ca un instrument care are ca scop reducerea unor multimi de obiecte, sau chiar de
variabile, la un numar mai restrns de entitati informationale, care sunt clasele sau clusterele.
fi privita ca o modalitate de alegere a celei mai adecvate partitii sau submultimi din cadrul
familiei de parti a multimii de obiecte analizate.
Clasificare: Din punct de vedere al naturii lor, al modului de operare si al tipului de solutii pe
care le furnizeaza, metodele de analiza cluster pot fi mpartite n doua mari categorii: metode de
tip ierarhic si metode de tip iterativ sau de partitionare.
Algoritmii sau metodele de tip ierarhic au ca scop producerea mai multor solutii cluster, solutii
numite ierarhii cluster. Caracteristica principala a acestor algoritmi consta n faptul ca numarul
de clustere nu este cunoscut aprioric.
Exista doua categorii de algoritmi de clasificare ierarhica: algoritmi de agregare si algoritmi de
dezagregare.
Algoritmii de clasificare ierarhica furnizeaza mai multe solutii, de tip multinivel, care se numesc
ierarhii cluster si care difera ntre ele prin numarul de clustere pe care le includ si prin gradul de
agregare al clusterelor.
Algorimii sau metodele de tip iterativ au ca scop producerea unei structuri cluster formata dintro singura solutie cluster. O astfel de structura cluster se numeste structura cluster uninivel si
contine o singura cluster, care include un numar fixat de clustere. n cazul metodelor de
clasificare prin partitionare, numarul de clustere este cunoscut aprioric.
n functie de natura criteriului utilizat n procesul propriu-zis de clasificare, metodele de analiza
cluster pot fi mpartite n doua categorii: metode euristice si metode algoritmice
Metodele euristice includ procedurile de clasificare dezvoltatea pe baza unei anumite euristici. O
euristica este o modalitate intuitiva de solutionare a unei anumite probleme particulare.
Euristicile reprezinta seturi de reguli sau de recomandari cu caracter general, deduse pe baza
unor rationamente teoretice sau pe baza unor observatii statistice. Prin natura lor, metodele de
clasificare ierarhica sunt metode euristice.
Metodele algoritmice includ procedurile de clasificare de tip formal, bazate pe existenta unui
anumit algoritm de solutionare a problemei. Un algoritm este o multime de finita si complet
definita de operatii, pai sau proceduri, a caror executie determina obtinerea unui anumit
rezultat sau a unei anumite solutii. Orice algoritm se compune din trei parti esentiale:
initializarea, procedura sau schema iterativa si criteriul de oprire.
Analiza cluster de tip ierarhic
metoda de clasificare bazata pe gruparea obiectelor pe baza de agregare succesiva n clase din ce
n ce mai largi de obiecte sau de dezagregare succesiva n clase din ce n ce mai mici.
Se imparte in:- Metode de clasificare ierarhica prin agregare (care se imparte in Metoda
agregarii simple, Metoda agregarii complete, Metoda agregarii medii, Metoda centroidului,
Metoda lui Ward,
- Metode de divizare: numite si metode de tip descendent, sunt analoage cu metodele
aglomerative, cu deosebirea ca derularea acestora se desfasoara ntr-o maniera inversa.
Ca si n cazul metodelor de agregare, solutiile obtinute cu ajutorul metodelor divizative
sunt ierarhii de clustere, care pot fi reprezentate prin intermediul arborilor cluster sau
dendrogramelor.
Metoda agregarii simple este o metoda de clasificare ierarhica de tip ascendent, care comaseaza
n fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre cei mai apropiati
vecini este cea mai mica, n comparative cu alte perechi de clustere.
Metoda agregarii complete este o metoda de clasificare ierarhica de tip ascendent, care
comaseaza n fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre cei mai
departati vecini este cea mai mica, n comparative cu alte perechi de clustere.
Metoda agregarii medii este o metoda de clasificare ierarhica de tip ascendent, care comaseaza
n fiecare etapa a clasificarii acele doua clustere pentru care distanta medie dintre toate perechile
formate cu obiecte din cele doua clustere este cea mai mica, n comparatie cu alte perechi de
clustere.
Metoda centroidului este o metoda de clasificare ierarhica de tip ascendent, care comaseaza n
fiecare etapa a clasificarii acele doua clustere pentru care distanta dintre centroizii celor doua
clustere este cea mai mica, n comparative cu alte perechi de clustere.
Metoda lui Ward este o metoda de clasificare ierarhica de tip ascendent, care comaseaza n
fiecare etapa a clasificarii acele doua clustere pentru care suma patratelor abaterilor la nivelul
clusterului rezultat din comasare este cea mai mica, n comparatie cu alte perechi de clustere.
Algoritmi de partitionare: includ o serie de metode de analiza cluster, cu mult mai performante
dect metodele de clasificare ierarhica. Dintre cei mai importanti algoritmi de partitionare,
mentinem: algoritmul celor K-medii si algoritmul celor K-medoizi.
39. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor
dintre forme
Distanta reprezinta unul dintre cele mai importante si mai frecvent utilizate concepte
din domeniul analizei datelor. n acelasi timp, distanta constituie una dintre cele mai relevante
modalitati de sumarizare a informatiilor manipulate n analiza datelor, mai ales n situatiile n
care sunt investigate interdependentele dintre fenomene si procese. Ca marime, distanta se
calculeaza pentru a evalua apropierea sau departarea dintre obiectele sau caracteristicile care se
supun studiului, pentru a masura gradul de similitudine sau nesimilitudine dintre acestea, din
punct de vedere al caracteristicilor studiate. Definirea si interpretarea conceptului de distanta
presupune, n mod implicit, existenta unui spatiu n raport cu care are loc nu numai definirea, ci
si evaluarea numerica a distantei. Spatiul n care este posibil a fi definit ca o distanta se numeste
spatiu metric si poate fi spatiul variabilelor sau spatiul observatiilor.
Corespunzator celor doua modalitati de reprezentare, n spatiul variabilelor si n
spatiul observatiilor, distanta poate fi utilizata pentru a evalua apropierea sau departarea dintre
puncte ale unui spatiu multidimensional, puncte ce pot reprezenta att obiecte, ct si
caracteristici.
n functie de modul n care distanta este evaluata, adica n functie de modul n care se evalueaza
gradul de departare sau apropiere dintre doua obiecte, exista mai multe tipuri importante de
distante: distanta euclidiana, distanta statistica, distanta standadizata, distanta Mahalanobis etc.
40. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea
Unde yAB = (nAyA + nByB)/(nA + nB) iar nA, nB, si nAB =nA + nB sunt nr din punctele A si B,
respectiv AB.
Evaluarea variabilitatii intra cluster:
Daca A este compus doar din yi, iar B doar din yj, atunci SSEA si SSEB sunt egale cu zero.
Atunci ecuatia se reduce la :
42. Metode de evaluare a distantelor dintre clustere
Evaluarea distantelor dintre clustere
O problema dificila care apare n analiza cluster, este legata de necesitatea evaluarii distantelor
dintre clase sau clustere.
Dificultatea acestei probleme este data de faptul ca distantele dintre clase sau clustere sunt, de
fapt, distante ntre multimi de obiecte sau distante ntre multimi de variabile.
Problema evaluarii distantelor dintre clustere apare n special n cazul analizei cluster de tip
ierarhic, n care construirea arborelui de clustere poate fi facuta pe baza comasarii succesive sau
divizarii succesive a clusterelor. Comasarea clusterelor este numita amalgamare sau agregare, iar
divizarea clusterelor este numita dezagregare.
Teoretic, procesul de agregare sau dezagregare succesiva a clusterelor se bazeaza pe definirea
unei distante limita ntre clustere, distanta numita si prag de agregare, respectiv prag de
dezagregare. n principiu, decizia de comasare a doua clustere sau de divizare a unui cluster este
luata numai daca distanta dintre aceste clustere este mai mica, respectiv mai mare dect distanta
limita fixata.
Daca n cazul evaluarii gradului de apropiere sau departare dintre doua obiecte lucrurile sunt
relativ simple, fiind suficient
sa se calculeze una din distantele mentionate mai sus, n cazul n care este necesar a fi evaluat
gradul de apropiere sau departare dintre doua clustere lucrurile devin ceva mai complicate si
presupun existenta unei metode specifice de evaluare.
Distanta dintre doua clustere este, de fapt, o distanta dintre doua multimi de puncte, adica o
distanta mai dificil de evaluat.
Ca distanta ntre doua multimi de puncte, distanta dintre doua clustere poate fi masurata cu
ajutorul uneia dintre mai multe metode posibile.
Dintre metodele propuse pentru evaluarea distantelor dintre clustere mentionam: metoda celor
mai apropiati vecini, metoda celor mai departati vecini, metoda distantei medii ntre perechi,
metoda centroidului si metoda lui Ward etc.
Metoda celor mai apropiati vecini
Metoda celor mai apropiati vecini evalueaza distanta dintre doua clustere ca fiind distanta
minima dintre toate perechile posibile de forme din cele doua clustere. Aceasta nseamna ca
distanta dintre doua clustere este masurata prin distanta dintre cele mai apropiate obiecte
apartinnd celor doua clase.
Definitie: Metoda celor mai apropiati vecini evalueaza distanta dintre doua clustere ca distanta
ntre doua obiecte, unul din primul cluster, iar celalalt din cel de-al doilea cluster, care sunt cele
mai apropiate ntre ele n sensul distantei utilizate.
n figura urmatoare este vizualizata distanta dintre doua clustere, evaluata dupa metoda celor mai
apropiati vecini.
Metoda celor mai departati vecini
Metoda celor mai departati vecini este metoda dupa care distanta dintre doua clase este
masurata prin distanta dintre cele mai departate obiecte apartinnd celor doua clustere. Pe baza
acestei metode, doua clustere sunt considerate a fi mai apropiate sau mai departate, n functie de
proximitatea dintre cele mai departate obiecte din cele doua clustere.
Definitie: Metoda celor mai departati vecini evalueaza distanta dintre doua clustere ca distant
ntre doua obiecte, unul din primul cluster, iar celalalt din cel de-al doilea cluster, care sunt cel
mai departate ntre ele n sensul distantei utilizate.
Calculul distantei dintre doua clustere cu ajutorul metodei celor mai departati vecini se face pe
baza datelor din matricea
distantelor dintre obiectele din cele doua clustere, prin identificarea n aceasta matrice a
elementului cu valoarea cea mai mare.
Figura 8.5: Distanaa dintre doua clustere n cazul metodei celor mai departati vecini
Pentru evaluarea distantelor dintre obiectele cele mai departate din cele doua clustere poate fi
utilizata oricare dintre metodele cunoscute de calcul a distantelor dintre obiecte, n functie de
natura variabilelor care definesc obiectele supuse clasificarii.
Metoda distantei medii dintre perechi
Metoda distantei medii dintre perechile de obiecte evalueaza distanta dintre doua clustere prin
intermediul distantei medii dintre toate perechile posibile de obiecte care apartin celor doua
clustere.
Definitie: Metoda distantei medii dintre perechi evalueaza distanta dintre doua clustere ca medie
a distantelor dintre oricare doua obiecte care apartin celor doua clustere, unul primului cluster, iar
celalalt din celui de-al doilea cluster.
Evaluarea distantei dintre doua clustere cu ajutorul metodei distantei medii ntre perechile de
obiecte se face pe baza datelor din matricea distantelor dintre obiectele din cele doua clustere,
calculnd media acestor distante.
n figura urmatoare este sugerata o interpretare geometrica a modului de calcul a distantei dintre
clustere cu ajutorul metodei distantei medii dintre perechi.
n aceasta figura, centroizii celor doua clustere sunt marcati prin cele doua puncte de dimensiune
mai mare.
Pentru fiecare dintre cele doua tipuri de clusterizare exista mai multe proceduri specifice, ntre
care mentionam: metoda agregarii simple, metoda agregarii complete, metoda agregarii medii,
metoda lui Ward etc.
44. Descrieti metoda agregarii simple de analiza cluster
1. Distanta Euclidiana, care mai este cunoscuta si sub numele de norma de tip , este distanta cea
mai frecvent utilizata n problemele de analiza cluster. Ea se calculeaza ca radacina patrata a
sumei patratelor diferentelor coordonatelor celor doua obiecte sau variabile pentru care se
evalueaza distanta.
2. Distanta Manhattan, numita si distana rectangulara, distanta City-Block sau norma de tip , se
calculeaza ca suma a valorilor absolute ale diferentelor coordonatelor celor doua obiecte sau
celor doua variabile analizate.
3. Distanta Cebsev, cunoscuta si sub numele de maxim al dimensiunilor sau norma de tip ,
este o distanta de tip valoare absoluta si se determina ca fiind valoarea maxima a valorilor
absolute ale diferentelor dintre coordonatele obiectelor sau variabilelor.
4. Distanta Mahalanobis reprezinta singurul tip de distanta care ia n considerare, ntr-o maniera
completa, gradul de dispersare al multimii de obiecte sau al multimii de variabile analizate,
precum si gradul de corelare al respectivelor entitati informationale.
45. Descrieti metoda agregarii complete de analiza cluster
Metoda agregarii complete reprezinta o clasificare ierarhica de tip ascendent care comaseaza
clusterele ce au cea mai mica distanta intre cei mai apropiati vecini
Deoarece centroidul este vectorul mediilor corespunzatoare tuturor obiectelor dintr-un cluster, n
calculul distanTei dintre doua clustere cu ajutorul metodei centroidului sunt luate n considerare,
n mod implicit, toate obiectele din fiecare cluster.
METODE SI TEHNICI DE ANALIZA CLUSTER
Metoda centroidului este o metoda de clasificare ierahica ascendenta, n care distantele dintre
clustere sunt evaluate cu ajutorul metodei centroidului. Ideea de baza a metodei centroidului este
aceea de obtinere a unui nou cluster prin comasarea a doua clustere existente, n functie de
distanta cea mai mica dintre centroizii clusterelor care sunt verificate n scopul comasarii.
Definitie: Metoda centroidului este o metoda de clasificare ierarhica de tip ascendent, care
comaseaza n fiecare etapa a clasific|rii acele doua clustere pentru care distanta dintre centroizii
celor doua clustere este cea mai mica, n comparatie cu alte perechi de clustere. Doua clustere
sunt comasate ntr-un nou cluster daca si numai daca distanta dintre centroizii lor este cea mai
mica dintre toate distantele dintre centroizii oricaror doua clustere care apartin configuratiei
cluster disponibile. n figura urmatoare este vizualizat modul de comasare a dou| clustere
folosind metoda centroidului.
Ward este o metoaa de evaluare a distantei dintre dou| clustere care se bazeaza pe maximizarea
gradului de omogenitate a clusterelor.
Definitie: Metoda lui Ward este o metoda de clasificare ierarhica de tip ascendent, care
comaseaza n fiecare etapa a clasificarii acele doua clustere pentru care suma patratelor abaterilor
la nivelul clusterului rezultat din comasare este cea mai mica, n comparatie cu alte perechi de
clustere. Metoda lui Ward nu este o metoda propriu-zisa de calcul a distantelor dintre clustere, ci
o metoda de formare a clusterelor pe baza maximizarii gradului de omogenitate a clusterelor. Ca
masura a gradului de omogenitate a clusterelor este utilizata suma patratelor abaterilor, numita
suma patratelor abaterilor intracluster. Gradul de omogenitate a unui cluster se considera a fi cu
att mai mare cu ct suma abaterilor intracluster este mai mica. Distanta Ward se evalueaza
pentru toate combinatiile posibile de comasare ntr-un singur cluster a oricaror doua clustere din
configuratia initiala.
49. Descrieti algoritmul k-means
Algoritmul k-means asigneaz un punct acelui cluster al crui centru, numit centroid, este cel mai apropiat de
el. Centrul este media tuturor punctelor din cluster coordonatele acestuia sunt determinate ca medie aritmetic, n
funcie de metrica aleas. De exemplu, daca setul de date are 3 dimensiuni iar clusterul are dou puncte X =
(x1,x2,x3) i Y = (y1,y2,y3), atunci centroidul Z devine Z = (z1,z2,z3), unde
i
.
Paii de execuie ai algoritmului sunt:
Alegerea numrului de clustere k
Generarea la ntmplare a k clustere i determinarea centrelor acestora sau generarea la ntmplare a
unor puncte considerate centrele acestora
Asignarea fiecrui punct ctre clusterul cu centrul cel mai apropiat, utiliznd metrica aleas
Recalcularea centrelor clusterelor
Repetarea celor doi pai precedeni pn cnd se ndeplinete criteriul de convergen ales
Principalele avantaje ale algoritmului sunt simplitatea i viteza sa de execu ie care i permite s lucreze cu
seturi mari de date. Dezavantajul su este faptul c nu ofer acela i rezultat de la execu ie la execu ie, din moment
ce clusterele rezultante depind de iniializrile care se fac la ntmplare la nceputul rulrii algoritmului. Alt
dezavantaj este faptul c trebuie s se cunoasc de la nceput numrul de clustere, ceea ce nu e posibil ntotdeauna.
n cea mai mare parte a lor, algoritmii de clasificare ierahica sunt algoritmi de tip euristic. Exista
nsa si o categorie aparte algoritmi de clasificare ierarhici, reprezentati de algoritmii de tip model
formal, care genereaza structurile cluster pe baza maximizarii verosimilitatii.
Rezultatul utilizarii analizei cluster de tip ierarhic l reprezinta o multime de structuri particulare
de clustere, numita arbore al clasificarii sau arbore ierarhic. Structurile cluster care alcatuiesc
arborerele de clasificare includ un numar de clustere diferit. O solutie cluster ce corespunde unui
nivel mai ridicat de agregare contine un numar de clustere mai mic cu 1 dect o solutie cluster
corespunzatoare proximului nivel ierarhic inferior. Aceasta nseamna ca structurile cluster de tip
ierarhic sunt caracterizate prin nivele diferite de agregare, cuprinse ntre un nivel minim si un
nivel maxim.
Structura cluster cu cel mai nalt nivel de agregare este formata dintr-un singur cluster, care
include toate obiectele supuse clasificarii. Structura cluster cu cel mai redus nivel de agregare
este formata dintr-un numar de clustere egal cu numarul de obiecte analizare, fiecare cluster
incluznd un singur obiect. Numarul de clustere din dou| structuri cluster succesive difera printro unitate, structura cluster cu nivel mai nalt de agregare continnd cu un cluster mai putin dect
structura cluster precedent.
Cu ct nivelul de agregare al structurilor cluster este mai ridicat, cu att similaritatile dintre
obiectele unui cluster sunt mai reduse, adic| clusterele sunt mai eterogene. Acest lucru se explica
prin faptul ca un cluster de la un nivel de agregare mai nalt contine un numar mai mare de
obiecte dect un cluster de la un nivel de agregare mai redus.
51. Cum se alege numarul de clustere n cazul clasificarilor de tip ierarhic
In cazul clasificarii de tip ierarhic, se va alege din multimea de solutii claster, o singura
solutie. Desi alegerea se face in principal in functie de scopurile urmarite, pentru a se obtine o
clasificare semnificativa, este necesar ca alegerea partitiei sa se faca pe o evaluare cat mai exacta
a calitatii tuturor partilor incluse in ierarhia cluster.
52. Formulati problema generala a recunoasterii supervizate a formelor si mentionati
cateva domenii de utilizare
Problema este ca in multe domenii de activitate este necesara gruparea, clasificarea si
diferentierea anumitor entitati sub forma unor clase, a caror limitare trebuie sa fie foarte clara.
Exista insa situatii in care informatiile de care se dispune nu sunt suficiente pentru a face aceste
clasificari in mod corect. Acest lucru este des intalnit in cazul obiectelor de tip multidimensional.
In acest caz diferentierea nu mai poate fi facuta numai pe cale ituitiva, fiind necesar sa se apeleze
la o serie de metode statistico-matematice.
Domenii de utilizare: analiza financiara, marketing, medicina, biologie, meteorologie.
53. Definiti scopurile recunoasterii supervizate a formelor si descrieti tipul informatiilor
utilizate n recunoasterea supervizata
n mod frecvent, n analiza datelor apare necesitatea studierii unor populatii care sunt eterogene
din punct de vedere al caracteristicilor analizate, fapt care complica procesul de cunoastere a
acestor populatii si impune efectuarea unui demers stiintific specific. Expresia cea mai
semnificativa a populatilor de tip eterogen este ntlnita n special n domeniul statisticii,
econometriei si analizei datelor, fiind reprezentata chiar de cantitatile foarte mari de informatie
care trebuie prelucrata, sintetizata si interpretata.
n cazul cercetarii unor populatii de acest tip, pentru ca rezultatele investigarii sa capete
consistenta si relevanta, este necesara o mpartire, o divizare a acestor populatii n subpopulatii
cu un anumit grad de omogenitate, urmnd ca analizele si procesul de modelare implicate n
studierea respectivei populatii sa se faca n mod diferentiat, pentru fiecare subpopulatie n parte.
Formularea unor concluzii corecte si robuste cu privire la manifestarea populatiilor
caracterizate de un grad mai mare sau mai mic de eterogenitate nu este posibila dect daca
analiza ia n considerare structurarea acestor populatii pe categorii.
n alte situatii, cum sunt cele n care sunt analizate diverse entitati economico-sociale,
considerate a proveni din populatii cu caracteristici foarte diferite, exista interesul de a identifica,
de a recunoaste, originea acestor entitati, si de a obtine o ncadrare corecta a acestora n anumite
clase reprezentative pentru populatia de origine. Situatiile de acest fel depasesc sfera economicofinanciara, ele ntlnindu-se n mod frecvent ntr-o mare varietate de alte domenii importante ale
stiintei, cum ar fi: informatica, biologia, antropologia, medicina, sociologia, geologia,
meteorologia etc.
54. Ce sunt clasificatorii de tip liniar. Descrieti logica discriminarii liniare si spatiul
discriminat
Prima modalitate de abordare a problemelor de clasificare cu ajutorul tehnicilor de analiza
discriminanta dateaza din anul 1933 si a fost propusa de Fisher. Ulterior abordarile de acest tip sau dezvoltat n mod constant, iar aplicatiile bazate pe analiza discriminanta s-au extins la din ce
n ce mai multe domenii de activitate si s-au diversificat din ce n ce mai mult.
Cele mai multe si cele mai utile aplicatii ale analizei discriminant bazata pe criteriul lui Fisher
sunt ntlnite n domeniul financiar-bancar, domeniu n care tehnicile de tip se numesc tehnici de
credit-scoring si constituie cele mai importante instrumente pentru fundamentarea deciziilor
privind acordarea de credite.
Metoda de analiza discriminanta propusa de Fisher este o metoda parametrica,
caracterizata prin simplitate si robustete si care ofera posibilitati de interpretare foarte utile
pentru analiza. Simplitatea acestei metode decurge din faptul ca utilizarea sa nu necesita dect
evaluarea unor estimatii pentru parametrii populatiei si claselor acesteia, parametrii reprezentati
de medii, variante sau covariante. Aceasta reprezinta un avantaj foarte important al analizei
discriminante de tip Fisher, n comparatie, de exemplu, cu tehnicile de analiza discriminanta
bazate pe criteriul Bayes-ian, tehnici a caror utilizare presupune cunoasterea probabilitatilor
apriorice.
Fundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza
variantei. Criteriul lui Fisher defineste o modalitate de deducere a functiilor discriminant pe baza
analizei comparative dintre variabilitatea intragrupala si variabilitatea intergrupala, la nivelul
claselor sau grupelor populatiei analizate. Functiile discriminant deduse pe baza criteriului lui
Fisher se mai numesc si functii scor si sunt functii liniare.
Dupa cum am mai mentionat, criteriul fundamental care sta la baza mpartirii multimii de
obiecte n submultimile 1,2,...k este un criteriu mixt, care urmareste minimizarea
variabilitatii intragrupale si maximizarea variabilitatii intergrupale. Utilizarea acestui criteriu
combinat asigura cea mai buna diferentiere a claselor sau grupelor populatiei .
Ideea care sta la baza criteriului lui Fisher este aceea a determinarii unor directii sau axe,
astfel nct, de-a lungul acestora, clasele multimii sa se diferentieze ct mai mult ntre ele si, n
acelasi timp, fiecare clasa sa aiba un grad de omogenitate ct mai mare. Cu alte cuvinte, criteriul
lui Fisher are ca scop determinarea unor directii de-a lungul carora variabilitatea intergrupala sa
fie ct mai mare, iar variabilitatea intragrupala sa fie ct mai mica. Proiectiile obiectelor pe axele
definite de aceste directii reprezinta noi coordonate ale obiectelor si se numesc scoruri
discriminant.
Dintr-un anumit punct de vedere, analiza discriminanta poate fi considerata| ca fiind
asemanatoare cu analiza componentelor principale, care are ca scop general identificarea unor
axe n raport cu care variabilitatea obiectelor sa fie maxima. Deosebirea principala dintre analiza
discriminanta si analiza componentelor principale este legata de faptul ca n cadrul analizei
componentelor principale spatiul cauzal este considerat n integralitatea sa, fara a se face nici o
diferentiere ntre elementele acestuia din punct de vedere al unui anumit criteriu.
n cazul analizei componentelor principale variabilitatea este privita ca o caracteristica
generala a populatiei analizate, fara a se tine seama de existenta unei eventuale structurari a
acestei populatii pe grupe sau clase. n consecinta, variabilitatea care face obiectul analizei
componentelor principale este considerata ca un tot unitar, fara a exista posibilitatea
descompunerii acesteia n raport cu o anumita structura a spatiului cauzal analizat.
Spre deosebire de aceasta, n cazul analizei discriminante se considera ca populatia
analizata este structurata pe grupe sau clase, iar variabilitatea acestei populatii poate fi
descompusa sub forma a doua componente importante: variabilitatea intergrupala si
variabilitatea intragrupala.
n plus, fata de diferenta mentionata, n analiza discriminanta noile directii care trebuie
identificate nu trebuie sa fie n mod obligatoriu ortogonale, spre deosebire de analiza
componentelor principale n care directiile de variabilitate maxima trebuie sa verifice
proprietatea de ortogonalitate.
Cea mai importanta problema a criteriului lui Fisher de discriminare ntre clasele unei
populatii este legata de descompunerea variabilittaii acestei populatii. Vom detalia modul n care
poate fi descompusa variabilitatea populatiei n raport cu cele doua sensuri ale acesteia:
variabilitatea simpla - exprimata prin intermediul sumei totale a patratelor abaterilor si
variabilitatea mixta sau compusa - masurata prin intermediul matricii produselor mixte ale
abaterilor. Este evident ca variabilitatea mixta poate fi definita numai pentru cazul obiectelor
multidimensionale.
Asa cum am precizat mai nainte, determinarea functiilor discriminant este echivalenta cu
gasirea unor directii, sau vectori, n raport cu care variabilitatea intragrupala sa fie minima, iar
variabilitatea intergrupala sa fie maxima. Aceste directii vor defini axele spatiului discriminat si
pot fi identificate sub forma unor combinatii liniare de variabilele descriptor selectate n analiza.
56. Descrieti clasificatorul Bayesian si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
Clasificatorul Bayesian
Acest algoritm de data mining are la baza notiuni fundamentale din teoria probabilitatilor.
Astfel,unul dintre conceptele utilizate in cadrul acestuia este reprezentat de probabilitatea
bayesiana a unui eveniment, care se defineste ca fiind gradul de incredere al unei persoane
asupra aparitiei acelui eveniment. Relatiile probabilistice dintre variabilele unei multimi sunt
reprezentate sub forma unui model grafic numit retea bayesiana ce poate manipula cu usurinta
multimi incomplete de date.
Algoritmul este utilizat in special atunci cand dimensiunea setului de date de intrare este
foarte mare. In figura urmatoare este ilustrata modalitatea de clasificare a obiectelor in verde
(GREEN) sau rosu (RED). Prin aplicarea algoritmului Bayesian asupra unui set de date, orice
obiect nou va fi incadrat intr-una din aceste doua categorii, dupa cum este reprezentat in
figura11:
Probabilitatea ca un obiect nou sa apartina uneia din cele doua categorii se determina astfel:
p(green) =
p(red) =
p(red) =
unde :
Spre deosebire de analiza discriminanta de tip Fisher, analiza Bayesiana presupune cunoasterea
probabilitatilor apriorice.
Teorema lui Bayes reprezint un prim mijloc de a determina probabilitatea unui eveniment Ai
(component a unei repartiii) n situaia n care se tie c apariia acestuia este influenat de
ndeplinirea unui alt eveniment independent B. Prin mulime de evenimente mutual exclusive i
exhaustive se neleg acele evenimente care satisfac urmtoarele condiii: oricare ar fi dou
evenimente din mulimea respectiv, acestea nu pot avea loc simultan (exclusivitate); cu
evenimentele din mulime se pot descrie toate strile n care se afl sistemul la care aceste
evenimente fac referire (exhaustivitate). n aceasta relaie, expresia nu trebuie considerat n
sensul probabilitii de apariie a evenimentului B atunci cnd se cunoate c evenimentul Ai a
avut loc, deoarece estimarea evenimentului B este anterioar estimrii lui Ai. Interpretarea
corect a acestei expresii din cadrul teoremei lui Bayes este de probabilitate ca evenimentul B s
fi avut deja loc tiind c apariia sa a fost urmat de apariia evenimentului Ai.
58. Descrieti clasificatorul liniar Fisher si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
Separarea claselor in spatiul formelor se poate realiza prin mai multe tipuri de abordari, printre
care si criterial functiilor discriminant liniare ale lui Fisher.
corectitudinii clasificarii
Definiie: Clasa, grupa sau clusterul reprezint o entitate informaional distinct i cu
semnificaie concret, format din totalitatea obiectelor ale cror caracteristici sunt identice sau
difer foarte puin i care sunt semnificativ diferite de caracteristicile obiectelor din alte clase sau
grupe.
Definiie: Clasificatorul sau criteriul de clasificare reprezint regula sau mulimea de reguli pe
baza crora obiectele care aparin mulimii analizate sunt afectate sau atribuite unor clase sau
grupe bine definite. n funcie de natura regulilor utilizate n procesul de clasificare, exist mai
multe categorii de clasificatori:
clasificatori ierarhici
clasificatori de cost minim
clasificatori de distan minimal
clasificatori de tip Bayes-ian
clasificatori euristici etc.
Sub cea mai general form a sa, problema de clasificare poate fi formulat n termenii teoriei
deciziei, iar metodele de clasificare pot fi definite sub forma unor instrumente decizionale
specifice.
Explicarea apartenenei obiectelor mulimii la cele K clase presupune, de fapt, deducerea sau
identificarea unui criteriu de clasificare sau a unei reguli de clasificare, care s descrie modul de
structurare a obiectelor populaiei pe clase. Criteriul de clasificare mai este cunoscut i sub
numele de clasificator.
Problema general a clasificrii: Fiind dat o mulime de obiecte, se cere s se determine
criteriul sau regula care s descrie apartenena obiectelor la clasele sub forma crora se
structureaz respectiva mulime de obiecte. n funcie de cunoaterea sau necunoaterea aprioric
a apartenenei la cele K clase a obiectelor care aparin eantionului extras din popula ia ,
metodele de clasificare se mpart n dou mari categorii: de clasificare controlat i de
clasificare necontrolat. Odat ce criteriul de clasificare a fost stabilit, el poate fi folosit, n
continuare, pentru efectuarea de predicii privind apartenena la o anumit clas a unor noi
obiecte, din afara eantionului existent, obiecte a cror apartenen nu este cunoscut aprioric.
Dup ce criteriul de clasificare a fost identificat, i cu condiia ca apartenen a obiectelor
aparinnd eantionului disponibil s fie cunoscut, el poate fi utilizat i pentru verificarea
corectitudinii cu care acesta poate face clasificarea, adic pentru testarea calitii clasificatorului.
Calitatea criteriului de clasificare poate fi testat chiar pe obiectele din eantionul pe care acest
criteriu a fost identificat. n acest scop, fiecare obiect din eantion, a crui apartenen la o
anumit clas este cunoscut n mod efectiv, este reclasificat cu ajutorul respectivului criteriu, iar
rezultatul noii clasificri este comparat cu clasificarea real. Testarea clasificatorului poate s
conduc la o clasificare corect a unor obiecte din eantionul analizat i la o clasificare incorect
a altor obiecte din acest eantion. Aceasta nseamn c utilizarea clasificatorului respectiv poate
s conduc la situaia n care obiectele care aparin n mod real unei anumite clase s fie
clasificate fie n clasa corect, fie incorect, n oricare din celelalte clase. Modul n care un
clasificator asigur clasificarea obiectelor cu apartenen cunoscut poate fi descris prin
intermediul unei matrici, numit matricea corectitudinii clasificrii sau, mai simplu,
matricea clasificrii, care conine informaiile necesare pentru a aprecia corectitudinea
clasificrii obiectelor. Dac vom considera un eantion format din T obiecte, care apar in
claselor w1, w2, wK , atunci matricea de clasificare are forma din tabelul urmtor.
Un element Tij al matricii de clasificare arat numrul de obiecte aparinnd n mod real clasei
wi i care, prin utilizarea tehnicilor de recunoatere a formelor, sunt clasificate n clasa wi.
Definind n acest fel elementele matricii de clasificare, rezult c numrul de obiecte clasificate
corect este reprezentat de suma elementelor de pe diagonala principal a matricii clasificrii,
respectiv:
Similar, numrul de obiecte clasificate incorect este reprezentat de suma elementelor aflate n
afara diagonalei principale a matricii clasificrii, respectiv: