Ordinatie
Onder ordinatie, ook wel (multivariate) gradiëntanalyse of multidimensional scaling, worden methoden verstaan waarmee het aantal dimensies van waarnemingen aan meerdimensionale variabelen gereduceerd wordt door een bepaalde rangschikking. Afbeeldingen van deze rangschikking van objecten, een zogenaamde ordinogram of scattergram, geven een ruimtelijke voorstelling van de structuur van de onderzochte gegevensverzameling.[1]
Het ordinogram is een diagram waarin de op elkaar gelijkende objecten (onderzoekseenheden) dicht bij elkaar staan (een kleine onderlinge afstand hebben) en sterk van elkaar verschillende objecten ver van elkaar af staan.
Ordinatiemethoden maken meestal gebruik van afstandsmaten, zoals de euclidische afstand of de chi-kwadraatafstand. De ordinaat van een punt in een plat vlak met een cartesisch coördinatenstelsel is de -coördinaat van dat punt.[2] Ordinatie kan voor de analyse van iedere verzameling multivariate objecten worden gebruikt, zowel bij beschrijvend, exploratief als bij experimenteel onderzoek, bijvoorbeeld ten behoeve van de datareductie.
Door ordinatie wordt de redundantie opgespoord en samengevat, ruis onderdrukt, en kunnen uitbijters worden herkend. Ordinatietechnieken worden veelal toegepast om de samenhang en onderliggende patronen in grote gegevensverzamelingen op te sporen, te visualiseren en eventueel te verklaren.
Ordinatietechnieken worden vanwege de genoemde eigenschappen in de populatiebiologie en in de synecologie of gemeenschapsecologie vaak gebruikt.[3]
Ordinatietechnieken, in combinatie met regressieanalyse, zoals bij gebonden of canonische ordinatie en bij partiële ordinatie, en statistische toetsen, bijvoorbeeld de Monte-Carlosimulatie, worden tegenwoordig in experimenteel veldwerk en onderzoek gebruikt.[4]
Begrippen en achtergrond
[bewerken | brontekst bewerken]
|
Ordinatietechnieken als hoofdcomponentenanalyse (PCA), correspondentieanalyse (CA) en de canonische vormen daarvan als redundantieanalyse (RDA) en canonische correspondentieanalyse (CCA), worden evenals clusteranalyse tot de multivariate statistiek of multivariate analyse gerekend.
Er kunnen zes typen problemen van data-analyse worden onderscheiden:
- Regressie, zoals (meervoudige) lineaire regressie,
- Kalibratie, zoals gewogen gemiddelde,
- Ordinatie, zoals hoofdcomponentenanalyse en correspondentieanalyse,
- Canonische ordinatie of gebonden ordinatie, zoals redundantie-analyse en canonische correspondentieanalyse,
- Partiële ordinatie,
- Partiële canonische ordinatie.
Begrippen
[bewerken | brontekst bewerken]Ordinatie is het rangschikken van objecten langs gradiënten (of latente variabelen) op grond van meerdimensionale waarnemingen. Met rangschikken of ordenen wordt het positioneren of het ordenen van objecten in een coördinatenstelsel bedoeld. De ruimtelijke rangschikking in een klein aantal dimensies kan in een ordinogram worden weergegeven.
In de gemeenschapsecologie ((en) community ecology) gaat het om
- een ruimtelijke rangschikking van soorten, die worden waargenomen op bepaalde waarnemingspunten, en/of om
- een ordening van die waarnemingspunten, waarbij eventueel metingen zijn verricht aan de lokale milieufactoren om te kunnen dienen als verklarende variabele.
De objecten of de entiteiten zijn stalen, monsters of steekproeven, waaraan metingen en waarnemingen zijn verricht. Het zijn de operationele eenheden (instanties) die in de analyse moeten worden beschreven en geordend of geclassificeerd moeten worden.
Gradiënten en ordinatieassen zijn de weergaven van reële, gemeten variabelen of van berekende variabelen:
- combinaties van een of meer gemeten onafhankelijke en afhankelijke variabelen of factoren. Deze worden in de gemeenschapsecologie ecologische gradiënten genoemd: waarnemingen van abiotische factoren langs een gemeenschapsgradiënt.
- onderliggende variabelen, hypothetische assen, geabstraheerde variabelen, latente variabelen of eigenvectoren. Deze worden in de gemeenschapsecologie gemeenschapsgradiënten genoemd.
Een respons of responsie zijn in dit verband de waargenomen waarden voor de afhankelijke variabele op grond van waarnemingen (observaties) of metingen.
De afhankelijke variabelen of responsvariabelen zijn de variabelen voor de eigenschappen, kwaliteiten of kenmerken van de attributen. Het gaat in de ecologie bijvoorbeeld om de af- of aanwezigheid van soorten en de mate daarvan, de biomassa, de afmetingen, de fenologische toestand.
Toepassing in de ecologie
[bewerken | brontekst bewerken]Ordinatie wordt onder andere veelvuldig toegepast bij ecologisch gemeenschapsonderzoek, community ecology. Objecten, de operationele eenheden die in de analyse beschreven of geclassificeerd moeten worden, zijn bijvoorbeeld vegetatieopnamen, vangsten in vallen, steekproefnamen of tellingen van de soorten op een bepaald moment of periode of over een reeks van tijdstippen en op een bepaalde of op meerdere te vergelijken plaatsen. Als deze gegevens in een matrix gezet worden, vormen deze gewoonlijk een ijle matrix, dat wil zeggen dat de matrix voor een groot deel bestaat uit nullen.
De afhankelijke variabelen bij ecologisch onderzoek zijn de waargenomen soorten. De waarde van de afhankelijke variabele per object is de respons, met andere woorden: de mate van aanwezigheid, de abundantie, biomassa of de dichtheid van de soorten per opname of telling. Een gradiënt in het kader van de ordinatie kan zijn:
- een gemeenschapsgradiënt, een systematische verloop in soortensamenstelling van de opnamen of tellingen; een hypothetische variabele die indirect wordt afgeleid uit de gegevens betreffende de soortensamenstellingen van de opnames.
berekende systematische verschillen in soortensamenstelling over een reeks van monsters, "onderliggende variabelen", hypothetische assen, geabstraheerde variabelen, latente variabelen, of - een ecologische gradiënt, een verloop in de waarden van de milieufactoren; deze kunnen worden gemeten of experimenteel worden beïnvloed;
milieugradienten; over een reeks van veldwaarnemingen aangetroffen geleidelijke veranderingen in de waarden van milieufactoren, bijvoorbeeld waterdiepte, hoogte boven zeeniveau, intensiteit van betreding, beschaduwing, of zelfs - combinaties van een of meer gemeten experimentele variabelen, verklarende variabelen, onafhankelijke variabelen of 'factoren'
Ordinatie kan zowel worden toegepast op de objecten als op de attributen. Bij een aantal ordinatiemethoden (zoals hoofdcomponentenanalyse en correspondentieanalyse) kan dit gelijktijdig gebeuren en kunnen de resultaten worden weergegeven in een biplot of een triplot.
De ordinatiescores van de objecten kunnen achteraf vergeleken worden met de waarden van gemeten verklarende variabelen, bijvoorbeeld door berekening van correlatiecoëfficiënten of door meervoudige lineaire regressie van de ordinatie-as op de verklarende variabelen.
Canonische ordinatie
[bewerken | brontekst bewerken]"Canonische ordinatie" is een combinatie van ordinatie en multipele regressie. De canonische ordinatie-assen zijn dan een lineaire combinatie van verklarende variabelen en worden daaruit berekend door multipele lineaire regressie. Een voorbeeld is de canonische correspondentieanalyse en redundantieanalyse, een variant van de hoofdcomponentenanalyse.
Gegevensverzameling
[bewerken | brontekst bewerken]Multivariate gegevens (data) bestaan uit waarnemingen (observaties) van een aantal afhankelijke variabelen, gemaakt op een verzameling van objecten: responsies. De term 'multivariaat' slaat op het grotere aantal variabelen. Over het algemeen worden ordinatiemethoden gebruikt om te relaties beschrijven tussen de responsies (de waarden voor de afhankelijke variabelen) en de onderliggende variabelen. De onderliggende variabelen zijn de verklarende variabelen en de factoren die de patronen in de responsies beïnvloeden.
In sommige gevallen is er bij de ruwe data op voorhand al een duidelijk onderscheid te maken tussen afhankelijke en onafhankelijke variabelen. Deze laatste kunnen dan gebruikt worden voor de statistische verklaring van de gegevensstructuur.
In exploratief onderzoek ontbreken vaak de meetwaarden voor de onafhankelijke variabelen. In bijzondere gevallen zijn uit de literatuur gemiddelde of kenmerkende waarden bekend voor bepaalde variabelen, de zogenaamde indicatorwaarden voor bepaalde indicatorvariabelen. Ook deze kunnen weer gebruikt worden bij de analyse met behulp van multivariate kalibratie. Deze techniek wordt met behulp van indicatorsoorten en met ellenberg-indicatorwaarden veel toegepast in het vegetatiekundig onderzoek.
Typen variabelen
[bewerken | brontekst bewerken]De variabelen zijn onder te verdelen in verschillende typen, afhankelijk van de rol die ze hebben in de ordinatie:
- de afhankelijke variabele of responsvariabele: de gemeten variabele, voorspeld of geobserveerd door de onderzoeker. Van deze variabele wordt aangenomen dat hij wordt beïnvloed door de onafhankelijke variabelen.
- de onafhankelijke of externe variabele: de variabele waarvan wordt aangenomen dat het een oorzaak weergeeft van de waarden van de responsvariabele:
- experimentele variabelen: door de onderzoeker gemanipuleerde of ingestelde variabelen,
- passieve variabelen of factoren: variabelen die invloed hebben op de responsies en kunnen worden vastgesteld of gemeten, maar niet experimenteel worden beïnvloed.
- In sommige gevallen zijn indicatorvariabelen bekend voor verschillende attributen. In dat geval kunnen door middel van kalibratie waarden worden berekend voor de objecten. In de vegetatiekunde worden daarvoor indicatorsoorten en ellenberg-indicatorwaarden gebruikt.
Transformaties
[bewerken | brontekst bewerken]Het is bij sommige ordinatietechnieken nodig de variabelen eerst te transformeren, afhankelijk van de gebruikte meetschaal.
-
- Nominale en ordinale variabelen worden naar binaire, nieuw gedeclareerde variabelen getransformeerd, zodat ermee kan worden gerekend.
- Circulaire variabelen moeten naar twee nieuwe variabelen worden omgezet.
- Normalisatie van numerieke variabelen, wat de waarden herschaalt.
- Bij numerieke variabelent is het echter ook mogelijk de gegevensverzameling te standaardiseren.
Voorbeelden van transformatie van een nominale, een circulaire en een numerieke variabele:
- Nominale variabelen
De nominale variabele oogkleur met de mogelijke waarden [bruin, blauw, groen] moet getransformeerd worden naar drie variabelen:
- Oogkleur_bruin met de waarden 0 of 1,
- Oogkleur_blauw met de waarden 0 of 1,
- Oogkleur_groen met de waarden 0 of 1. Let op: deze variabele is overbodig als de waarden [bruin, blauw, groen] elkaar uitsluiten.
- Circulaire variabelen
De circulaire variabele windrichting met de waarden van [0° - 360°] kan getransformeerd worden naar twee variabelen:
- Cos_Windrichting met de waarde cos(windrichting) met waarden in het bereik [-1, 1]
- Sin_Windrichting met de waarde sin(windrichting) met waarden in het bereik [-1, 1]
- Numerieke variabelen
Een voorbeeld van een normalisatie van de waarnemingen is:
Dit geeft voor waarden in het bereik [0, 1].
Standaardisatie naar Z-scores, zodat het gemiddelde 0 is en de variantie 1:
met de waargenomen waarde, het gemiddelde en de standaardafwijking.
Distantie en similariteit, verschil en overeenkomst
[bewerken | brontekst bewerken]Objecten kunnen overeenkomen of verschillen van elkaar op grond van de waarden van de responsvariabelen. Op grond van de onderlinge verschillen: distanties, dissimilariteit en afstanden tussen de objecten kunnen deze door ordinatie in een meerdimensionale ruimte worden geplaatst of worden geclusterd.[5][6][7] De onderlinge afstanden kunnen met verschillende distantiematen worden aangegeven, zoals euclidische afstand, chikwadraat-afstand en verschillende correlatiematen.
Sommige ordinatietechnieken, zoals nonmetric multidimensional scaling NMDS hebben een maat nodig voor de distantie. Door het berekenen van de distanties tussen de objecten gaat de informatie van de variabelen verloren. Methoden gebaseerd op afstand geven niet simultaan de scores voor de objecten en de attributen, in tegenstelling tot eigenanalysemethoden.
In bijvoorbeeld de ecologie en de psychologie zijn een zeer groot aantal andere maten voor distantie of voor overeenkomst in omloop. Maten voor overeenkomst kunnen vaak eenvoudig worden omgerekend in maten voor verschil, en omgekeerd. Objecten met overeenkomstige waarden voor de attributen krijgen in een ordinatie waarden op de ordinatie-assen die vlak bij elkaar liggen, maar als de verschillen groter zijn komen de objecten verder bij elkaar vandaan te liggen.
De eigenanalysemethoden kunnen ordinatieassen voor de objecten en de attributen simultaan berekenen zonder de tussenstap van het vooraf berekenen van distanties. Toch blijken deze methoden indirect verband te houden met distanties, zoals de euclidische afstand bij de hoofdcomponentenanalyse of chi-kwadraatafstand bij de correspondentieanalyse.
Responsmodellen
[bewerken | brontekst bewerken]Afhankelijk van het toepassingsgebied moet er een verwacht verband worden geformuleerd tussen de ordinatieas en de respons. Niet altijd mag een lineair verband worden verwacht tussen de onafhankelijke variabele en de responsvariabele.
Het unimodale model stelt dat responsiefuncties van attributen (dat wil zeggen het verband tussen de responsies als functie van positie langs een ordinatiegradiënt) unimodaal of eentoppig is (gaussische functie). Een dergelijk model wordt door drie waarden vastgelegd:
- het optimum (Opt.), de ligging van de top, hier bij 3,0
- de tolerantie (Tol), de breedte van de curve, soms standaard deviatie (sd) genoemd; hier 0,1
- de amplitude (Ampl.), de hoogte van de curve, hier 10
Eigenanalyse
[bewerken | brontekst bewerken]Het bepalen van eigenwaarden staat centraal in de lineaire algebra. De singulierewaardenontbinding is een techniek die leidt tot een lineaire reductie in dimensionaliteit. Eigenanalyse kan worden uitgevoerd op een vierkante, symmetrische distantiematrix, of direct op de gegevensmatrix. Er is een unieke oplossing ongeacht de volgorde van de gegevens. Bij grote matrices vereist eigenanalyse een iteratieve aanpak voor benadering van het antwoord.
De ordinatie-assen zijn de eigenvectoren, die bestaan uit de scores voor de objecten en voor de attributen. Door orthogonalisatie zijn deze ordinatie-assen ongecorreleerd.
De eigenwaarden, die met een eigenvector samenhangen, vormen een maat voor de sterkte van de as. Ze hebben wiskundige betekenis, die kan helpen bij de interpretatie. In de hoofdcomponentenanalyse en redundantie-analyse zijn eigenwaarden de 'verklaarde variantie', bij correspondentieanalyse en verwante methoden zijn eigenwaarden 'verklaarde inertia'. De eerste as heeft de hoogste eigenwaarde, de volgende assen hebben een steeds lagere eigenwaarde.
Eigenanalyse-methoden pogen zo getrouw mogelijk attributen langs assen (gradiënten) te plaatsen. Sommige op eigenanalyse gebaseerde ordinatiemethoden zijn bijzondere gevallen van op distanties gebaseerde methoden, waar de distantie is gebaseerd op de euclidische afstand of op de chi-kwadraat afstand.
Objecten en attributen worden gelijktijdig geordineerd, dus kunnen in hetzelfde ordinogram of biplot worden weergegeven.
Indirecte of directe, canonische ordinatie
[bewerken | brontekst bewerken]Men spreekt van indirecte ordinatie of ongebonden gradiëntanalyse als bij de ordinatie geen verklarende variabelen zijn betrokken. De gradiënten worden berekend uit de gegevensmatrix (tabel) met de onderlinge verschillen tussen de objecten (distantiematrix), of als latente variabelen uit de gegevens van de responsvariabelen. Veel gebruikte indirecte ordinatiemethoden zijn hoofdcomponentenanalyse (PCA), correspondentieanalyse (CA) en detrended correspondence analysis (DCA).
Men spreekt van directe ordinatie, gebonden gradiëntanalyse of van canonische ordinatie, constrained ordination, als de gradiënten bestaan uit combinaties van verklarende variabelen. De gradiënten worden berekend uit de gegevensmatrix van de objecten en responsvariabelen en door regressie uit de verklarende variabelen. Hiervoor is ook een gegevensmatrix van de objecten en de verklarende variabelen nodig. De in de ecologie meest gebruikte directe ordinatiemethoden zijn de redundantieanalyse (RDA) en vooral de canonische correspondentieanalyse (CCA).
In partiële ordinatie worden de effecten van bepaalde verklarende variabelen, de covariabelen, door middel van partiële regressie geëlimineerd. Partiële ordinatie kan zowel worden toegepast bij de indirecte als bij de directe ordinatie. Een reden kan zijn dat men niet geïnteresseerd is in deze variabele af dat het effect reeds bekend is.
Overzicht van methoden
[bewerken | brontekst bewerken]responsvariabelen, afhankelijke variabelen |
geen covariabelen | ≥ 1 covariabele | |||
aantal | responsiemodel | geen verklarende variabelen |
≥ 1 verklarende variabele |
geen verklarende variabele |
≥ 1 verklarende variabelen |
1 responsvariabele (univariaat) |
onbekend | samenvatting van de verdeling (kengetallen) |
regressie | partiële regressie | |
lineair | lineaire regressie, GLM, GAM | ||||
unimodaal | niet-lineaire regressie, GLM, GAM | ||||
veel responsvariabelen (multivariaat) |
onbekend | clusteranalyse, NMDS |
discriminantanalyse | - | |
lineair | PCA | RDA | partiële PCA | partiële RDA | |
unimodaal | CA, DCA |
WA, CCA, DCCA |
partiële CA, partiële DCA |
partiële CCA partiële DCCA | |
+ indicatorvariabelen | WA, kalibratie, multivariate kalibratie |
- |
De te kiezen analysemethode hangt in de eerste plaats af van de te analyseren afhankelijke variabele: van het aantal, maar ook van het te verwachten verband met de onderliggende, verklarende variabelen. Dat kan onbekend zijn, er kan een lineair (monotoon) verband verwacht worden of een optimimcurve (Gaussische kromme).
Samenhangend met de onderzoeksopzet is daarnaast de aanwezigheid van verklarende variabelen van grote invloed op de te gebruiken analysemethode. De verklarende factoren, waarvan men weet dat ze invloed hebben op de onderzoeksresultaten, maar waarin men verder niet geïnteresseerd is moeten constant gehouden worden, of als covariabele behandeld worden waardoor hun effect kan worden weggerekend.
Eigenschappen van de technieken
[bewerken | brontekst bewerken]Acroniem | Naam | Methode | Distantiemaat | Onderliggend model |
Ordinatie- assen |
Vervorming 2de as |
Opmerking |
---|---|---|---|---|---|---|---|
PO | Polaire ordinatie | distantie | expliciet | onbekend | indirect | onbekend | bijzonder geval: → PCO |
Bray-Curtis Ordination | |||||||
Wisconsin Ordination | |||||||
PCoA | Principal Coordinates Analysis | ||||||
Metric Multidimensional Scaling | |||||||
NMDS | Nonmetric MultiDimensional Scaling | ||||||
Multidimensional Scaling | |||||||
PCA | Principal Component Analysis | eigenwaarde | impliciet, euclidische afstand |
monotoon lineair | hoefijzer | ||
Hoofdcomponentenanalyse | |||||||
CA | Correspondence Analysis | impliciet, chi-kwadraat afstand |
unimodaal | boog | |||
Reciprocal Averaging | |||||||
Correspondentieanalyse | |||||||
DCA | Detrended correspondence analysis | detrended | |||||
RDA | Redundancy Analysis | impliciet, euclidische afstand |
monotoon lineair | direct, canonisch | onbekend | ||
Redundantieanalyse | |||||||
CCA | Canonical Correspondence Analysis | impliciet, chi-kwadraat afstand |
unimodaal | ||||
Canonische correspondentieanalyse | |||||||
DCCA | Detrended Canonical Correspondence Analysis | detrended |
Gewogen gemiddelden, WA
[bewerken | brontekst bewerken]Het ordenen of rangschikken van objecten volgens de waarden van gemeten onafhankelijke (verklarende) variabelen valt onder de informele methoden. Voor de attributen kunnen gewogen gemiddelden worden berekend aan de hand van:
- de waarden van een verklarende variabele voor de objecten
- de waarden van de afhankelijk variabelen voor de objecten, die daarbij als gewicht dienen (deze mogen niet negatief zijn)
Deze methode is in de ecologie bekend geworden onder de naam Weighted Averaging (WA). Door deze eenvoudige methode kan in de ecologie op snelle wijze goed communiceerbare resultaten worden verkregen.
Op distanties gebaseerde methoden
[bewerken | brontekst bewerken]Een aantal ordinatietechnieken gebruiken een vooraf berekende matrix met distanties.[8]
Polaire ordinatie, PO
[bewerken | brontekst bewerken]Polaire ordinatie, Bray-Curtis ordinatie of Wisconsin ordinatie is een eenvoudigste techniek om de ordinatie te visualiseren, en kan eventueel met de hand worden uitgevoerd. PO wordt uitgevoerd op grond van een matrix met distanties tussen de objecten. De ordinatie begint met de keuze van twee objecten met een grote onderlinge distantie voor de eerste ordinatie-as. De plaats van de overige objecten op deze as wordt berekend met de distanties ten opzichte van beide eindpunten. Op deze as worden twee bij elkaar liggende objecten met desondanks grote distantie gezocht voor de volgende as.
Principal coordinates analysis, PCoA
[bewerken | brontekst bewerken]Principal coordinates analysis, acroniem PCoA, vroeger ook metric multidimensional scaling, maximaliseert de lineaire correlatie tussen afstandsmaten en afstand tussen de punten in de ordinatie. Als men alleen beschikt over een distantiematrix of een similariteitsmatrix is dit een geschikte methode. Het onderliggende is dat er een vast aantal gradiënten is. Meestal worden er 2 of 3 assen geselecteerd. De methode maximaliseert de lineaire correlatie tussen de afstanden in de distantie matrix en de afstanden in een ruimte met een lage dimensie. Als de euclidische afstand als distantie wordt gekozen, dan is PCoA gelijk aan PCA.
Nonmetric multidimensional scaling, NMDS
[bewerken | brontekst bewerken]Nonmetric multidimensional scaling (NMDS) heet soms multidimensional scaling (MDS), hoewel deze term eigenlijk gebruikt wordt voor PCoA. Als men alleen beschikt over een distantiematrix of een similariteitsmatrix is dit een geschikte methode. Het onderliggende model is dat er een vast aantal van gradiënten is. NMDS maximaliseert rangordecorrelatie tussen afstandsmaten en afstand in de ordinatieruimte. Punten worden zodanig verplaatst dat de "stress" geminimaliseerd wordt. Stress is een maat voor de discrepantie tussen de twee attributen (soorten) afstand. Vooraf wordt het aantal dimensies opgeven. Dit kan op grond van een grafiek van de stress als functie van het aantal assen.
Indirecte gradiëntanalyse op basis van eigenanalyse
[bewerken | brontekst bewerken]De belangrijkste methoden voor indirecte gradiëntanalyse op basis van eigenanalyse zijn: hoofdcomponentenanalyse en correspondentieanalyse.[9]
Hoofdcomponentenanalyse, PCA
[bewerken | brontekst bewerken]Hoofdcomponentenanalyse is relatief objectief en biedt een redelijke, maar grove indicatie van relaties. Het is de eenvoudigste en oudste eigenanalyse-gebaseerde methode. Het is voor veel doeleinden gebruikt, ook als een ordinatie-methode. Hoofdcomponentenanalyse was een van de eerste op ecologische gegevens toegepast ordinatiemethoden.[10]
Wiskundig is hoofdcomponentenanalyse een eigenanalyse. Meetkundig is PCA een starre rotatie van de oorspronkelijke gegevensmatrix, en kan gedefinieerd worden als een projectie van de objecten (monsters) op een nieuwe set van assen, zodanig dat de maximale variantie wordt "geëxtraheerd", dat wil zeggen: geprojecteerd of langs de eerste as; het maximale verschil met niet-gecorreleerde as 1 is geprojecteerd op de tweede as; de maximale variatie ongecorreleerd met de eerste en tweede as is geprojecteerd op de derde as, en zo verder. Zo wordt er een hoog-dimensionale ruimte geproduceerd, waarbij de afstanden tussen de objecten hun euclidische afstand wordt.
De eerste ordinatieas kan men zich voorstellen als een regressielijn in de n-dimensionale ruimte van attributen (soorten) en/of monsterpunten, waarbij de afstand tussen elk der punten en de lijn zo klein mogelijk is (kleinste kwadraten methode, lineaire regressie). De tweede en volgende PCA-assen worden op dezelfde wijze berekend als de eerste, waarbij echter een stap is ingebouwd waardoor de as ongecorreleerd wordt gemaakt aan de voor-gaande as(sen): zodat de loodrechte afstand van elk object naar de ordinatie assen tot een minimum wordt beperkt. De assen zijn lineaire combinaties van variabelen (attributen). De gewichten staan bekend als 'coëfficiënten' of 'lading'.
De eigenvalues vertegenwoordigen de door elke as "geëxtraheerde variantie" of "verklaarde variantie". De som van de eigenvalues zal de som van de variantie van alle variabelen.
In de meeste toepassingen van hoofdcomponentenanalyse worden variabelen vaak gemeten in verschillende eenheden. De gegevens worden dan gestandaardiseerd, met gemiddelde van nul en variantie-eenheid (hoofdcomponentenanalyse met een correlatiematrix). De variabelen kunnen negatieve waarden aannemen. Indien uitgevoerd op een correlatiematrix is de som van de eigenvalues gelijk aan het aantal variabelen. Indien uitgevoerd op een covariantiematrix zal de som van de eigenvalues gelijk aan de som van de varianties van alle attributen.
soort nr. ↓ |
↙ monsterpunt nr. ↘ | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | ||
Spec 01 | 5 | 3 | 1 | . | . | . | . | . | . | . | |
Spec 02 | 3 | 5 | 3 | 1 | . | . | . | . | . | . | |
Spec 03 | 1 | 3 | 5 | 3 | 1 | . | . | . | . | . | |
Spec 04 | . | 1 | 3 | 5 | 3 | 1 | . | . | . | . | |
Spec 05 | . | . | 1 | 3 | 5 | 3 | 1 | . | . | . | |
Spec 06 | . | . | . | 1 | 3 | 5 | 3 | 1 | . | . | |
Spec 07 | . | . | . | . | 1 | 3 | 5 | 3 | 1 | . | |
Spec 08 | . | . | . | . | . | 1 | 3 | 5 | 3 | 1 | |
Spec 09 | . | . | . | . | . | . | 1 | 3 | 5 | 3 | |
Spec 10 | . | . | . | . | . | . | . | 1 | 3 | 5 | |
milieufactor ↓ | |||||||||||
Var 01 | 20 | 19 | 18 | 17 | 16 | 15 | 14 | 13 | 12 | 11 | |
Vanwege een beveiligingsprobleem met de MediaWiki Graph-software is het momenteel niet mogelijk deze grafiek weer te geven. Zodra de software is bijgewerkt zal de grafiek vanzelf weer zichtbaar worden. | |||||||||||
Vanwege een beveiligingsprobleem met de MediaWiki Graph-software is het momenteel niet mogelijk deze grafiek weer te geven. Zodra de software is bijgewerkt zal de grafiek vanzelf weer zichtbaar worden. |
Hoofdcomponentenanalyse is een methode die gebaseerd is op een lineair responsie model van de attributen. In de ecologie werkt deze benadering alleen als een beperkt traject van de milieugradiënten (de verklarende variabele) wordt bekeken. Als hoofdcomponentenanalyse wordt toegepast op gegevens van uiteenlopende milieus (dus van lange milieugradiënten), treedt het hoefijzereffect op. Dit komt doordat hoofdcomponentenanalyse is gebaseerd op een lineair responsmodel. Voor de analyse van vegetatiegegevens is dit een serieus probleem. Dit wordt veroorzaakt door de curvilineariteit (kromlijnig verband) van attributen (soorten) langs gradiënten, vooral bij lange milieugradiënten (dat wil zeggen: een matig tot hoge beta-diversiteit). In dergelijke gevallen is correspondentieanalyse een betere benadering.
Correspondentieanalyse, CA, RA
[bewerken | brontekst bewerken]Correspondentieanalyse is een methode voor ordinatie en kwantitatieve analyse van de gegevens van levensgemeenschappen. Correspondentieanalyse (acroniem CA, ook wel Reciprocal Averaging, acronym RA of Two-way weighted averaging) kan worden beschreven in termen van chi-kwadraat afstanden, op dezelfde manier waarop hoofdcomponentenanalyse kan worden beschreven in termen van euclidische afstanden.[11]
Reciprocal Averaging (wederzijdse middeling) betekent dat scores van de objecten worden berekend als een gewogen gemiddelde van de scores van de responsvariabelen (attributen) en van de scores van de responsvariabelen worden berekend als een gewogen gemiddelde van de (gestandaardiseerde) scores van de objecten. De iteraties worden voortgezet totdat er geen verandering meer optreedt. De methode is een heuristische benadering van een ordinatie die op een eentoppig gaussisch responsmodel is gebaseerd.[12] Er zijn een aantal verschillende algoritmen voor CA. De eigenwaarde van een as is gelijk de correlatiecoëfficiënt tussen scores van de attributen en de scores voor de steekproeven.
Correspondentieanalyse heeft twee problemen bij analyse van gegevens van ecologische gradiënten (zie tabel):
- Als eerste probleem is er het "boogeffect": de tweede ordinatie-as kan een kwadratische vervorming zijn van de eerste as. Het boogeffect wordt ook veroorzaakt door unimodale verdeling langs gradiënten. Omdat de uiteinden van de gradiënt niet zijn ingebogen is het boogeffect niet zo ernstig als het "hoefijzereffect" bij de hoofdcomponentenanalyse.
- Het tweede probleem bij de correspondentieanalyse is dat aan de uiteinden van de ordinatie-assen (meestal de eerste as) de objecten te dicht op elkaar liggen en daardoor samengedrukt lijken. Dit heeft te maken met het feit dat de responsvariabelen (attributen) die voorkomen in de objecten (monsterpunten) die aan het einde van de gradiënt liggen in het gegevensmateriaal niet meer een unimodale respons vertonen, maar monotoon, dalend of stijgend zijn. Door middel van niet-lineaire herschaling ('nonlinear rescaling') worden de uiteinden van de ordinatie-assen opgerekt. Dat is onder andere toegepast in detrended correspondence analysis (DCA).
Detrended correspondence analysis, DCA
[bewerken | brontekst bewerken]Bij detrended correspondence analysis (acroniem: DCA) worden twee tekortkomingen van correspondentieanalyse op kunstmatige verholpen.[13]
- De tweede ordinatieas is vaak een kwadratische vervorming van de eerste ordinatieas (Jongman et al. 1995). Door middel van 'detrending' wordt het kwadratische verband verwijderd.
- Daarnaast treedt het verschijnsel dat de uiteinden van de ordinatieassen gecomprimeerd zijn waardoor de objecten of attributen daar te dicht op elkaar liggen. Dit heeft te maken met het feit dat de attributen die voorkomen in de objecten (monsterpunten) die aan het einde van de gradiënt liggen in het gegevensmateriaal niet meer een unimodale respons vertonen, maar monotoon of dalend of stijgend zijn. Door middel van 'nonlinear rescaling' worden de uiteinden van de ordinatieassen opgerekt.
In de ecologie wordt deze techniek veelvuldig toegepast, omdat de lengte van de ordinatieas een schatting is voor de beta-diversiteit. Bij korte ordinatieassen kan dan gekozen worden voor hoofdcomponentenanalyse, omdat het dan blijkbaar niet nodig is van een unimodaal model uit te gaan.
Directe gradiëntanalyse op basis van eigenanalyse
[bewerken | brontekst bewerken]Redundantieanalyse, RDA
[bewerken | brontekst bewerken]Redundantieanalyse is de canonische uitvoering van hoofdcomponentenanalyse. De (canonische) ordinatieassen zijn lineaire combinaties van de verklarende variabelen. RDA is nuttig wanneer er korte gradiënten zijn. Redundantieanalyse is een geschikte methode bij korte termijn experimentele studie. De behandelingen (treatments) vormen de verklarende variabelen en moeten meestal apart worden gedeclareerd.
De keuze van de verklarende (milieu)variabelen is van grote invloed op de uitkomst van gebonden ordinaties zoals RDA.
Canonische correspondentieanalyse, CCA
[bewerken | brontekst bewerken]Canonische correspondentieanalyse is de gebonden (canonische) uitvoering van correspondentieanalyse. De canonische ordinatieassen zijn lineaire combinaties van de verklarende variabelen. CCA is nuttig wanneer er korte gradiënten zijn. Evenals RDA is canonische correspondentieanalyse een geschikte methode bij kortetermijn experimentele studies. De behandelingen (treatments) vormen de verklarende variabelen en moeten meestal apart worden gedeclareerd. CCA is ook toepasbaar onder een lineair model, zolang men geïnteresseerd is in attributen-presenties in plaats van absolute waarden voor de attributen (ter Braak en Šmilauer).
De keuze van de verklarende (milieu)variabelen is van grote invloed op de uitkomst van gebonden ordinaties zoals CCA.
Detrended canonical correspondence analysis, DCCA
[bewerken | brontekst bewerken]Detrended canonical correspondence analysis is de gebonden (canonische) uitvoering van detrended correspondence analysis (DCA). De canonische ordinatieassen zijn lineaire combinaties van de verklarende variabelen.
Toepassingen
[bewerken | brontekst bewerken]In de toepassing van ordinatietechnieken zijn voorbeelden van objecten: kwadraten, relevés of vegetatieopnamen, archeologische sites, locaties, monsters, geografische locaties, stroomsedimenten, sedimentmonsters, pollenvallen.
De variabelen of kenmerken zijn abundanties, dichtheid, biomassa, frequentie, voorkomen, aan-en afwezigheid van soorten of artefacten, deeltjesgrootte klassen, morfometrische kenmerken, sporenelementen, pollentypen, diatomeeën-typen, fossiele taxa e.a.
Toepassingen in de ecologie
[bewerken | brontekst bewerken]Geschiedenis
[bewerken | brontekst bewerken]Ramensky begon in 1930 voor vegetatieonderzoek informele ordinatietechnieken te gebruiken. Deze informele en grotendeels subjectieve methoden werd bekend in de vroege jaren 1950 door Whittaker. Naar aanleiding van deze onderzoeken kwam men tot een beter beeld van de responsiecurven van planten en van ecologische gradiënten. Curtis en McIntosh (1951) ontwikkelden de continuüm-index, die later leidden tot conceptuele verbanden tussen soortresponsies op de gradiënten en multivariate methoden. Kort daarna introduceerde Goodall (1954) de naam ordinatie in een ecologische context voor de hoofdcomponentenanalyse. Bray en Curtis (1957) ontwikkelden de polaire ordinatie, die de eerste veel gebruikte ordinatietechniek werd in de ecologie. Austin (1968) gebruikt canonische correlatie om de relaties tussen plant en milieu te beoordelen in wat misschien het eerste voorbeeld van een multivariate analyse van de directe gradiënt in ecologie.
Een grote doorbraak kwam met de correspondentieanalyse, die door Hill in 1973 met een computerprogramma is geïmplementeerd. Hill introduceerde bij de ecologen de correspondentieanalyse, die een techniek is uit de jaren 1930. Correspondentieanalyse heeft geleidelijk de polaire ordinatie verdrongen, die vandaag de dag nog maar weinig beoefenaars heeft.
Fasham (1977) en Prentice (1977) ontdekten en toonden onafhankelijk het nut aan van Kruskal's (1964) metric multidimensional scaling voor de gemeenschapsecologie. Metric multidimensional scaling was oorspronkelijk bedoeld als een psychometrische techniek.
Hill (1979) corrigeerde een aantal van de gebreken van correspondentieanalyse. Daardoor ontstond de "detrended correspondence analysis", tegenwoordig de meest gebruikte techniek voor indirecte gradiëntanalyse. Het programma van Hill, DECORANA, voert DEtrended COrrespondence ANAlysis uit en is het voorbeeld voor volgende programma's geworden.
Gauch's boek "Multivariate Analysis in Community Ecology" (1982)[14] beschreef ordinatie in niet-technische termen voor de gemiddelde beoefenaar, waardoor verdere toepassing van ordinatiemethoden werd sterk bevorderd.
De fuzzy set theory, door Roberts (1986) ingevoerd bij de ecologen, is een veelbelovende aanpak die samenhangt met polaire ordinatie, maar moet nog veel aanhangers winnen.
In 1986 luidde Ter Braak (1986)[15] het begin in van de grootste revolutie in de moderne ordinatiemethoden met canonische correspondentieanalyse. Deze techniek koppelde correspondentie-analyse aan regressiemethoden, en voorziet in het testen van hypothesen. De canonische correspondentieanalyse is een hybride van correspondentieanalyse en regressie-analyse. Deze werd door Ter Braak ontwikkeld en geïmplementeerd, 1986.[16] Daarin werd tevens de bruikbaarheid van de redundantieanalyse, een hybride van hoofdcomponentenanalyse en regressie-analyse, aangetoond. Ook was het mogelijk de relatie tussen een externe variabele (verklarende variabele) en de responsies van soorten (afhankelijke variabele) te testen door middel van Monte Carlo tests. Tevens ontstond de mogelijk tot calibratie: het inschatten van de waarden van de verklarende variabelen op grond van de waarden voor de afhankelijke variabelen. Ordinatiemethoden werden nu bruikbaar voor de analyse van multivariate gegevens van (veld-)experimenten.
Ter Braak en Prentice (1988)[17] ontwikkelden een theoretisch basis van de ordinatietechnieken door een unificerende theorie en wiskundige onderbouwing van een familie de ordinatiemethoden. Zo voorzagen ze met de laatste, revolutionaire stap de gradiëntanalyse van een stevige theoretische fundering.
Organismen en milieu
[bewerken | brontekst bewerken]In de ecologie is het bekend dat ieder organismen een beperkte tolerantie met betrekking tot de milieufactoren: er is een minimumwaarde waaronder het organisme niet kan voorkomen (de respons = 0) en een maximumwaarde waarboven het niet meer kan voorkomen. Tussen het minimum en het maximum ligt een optimum, waar de mate van voorkomen (respons, bijvoorbeeld gemeten als talrijkheid of frequentie) maximaal is.
In het ideale geval heeft de responsecurve een symmetrische vorm en is eentoppig, maar in de praktijk komen andere vormen ook voor, zoals een bimodale respons. Veel ordinatiemethoden blijken in de ecologie goed te werken met het optimum-model als er voldoende spreiding is voor de waarden van de verklarende milieuvariabelen en door de aanwezigheid van een groot aantal soorten. Op de ordinatieas is er voor elke soort een unieke set van optimale waarden, waarbij de soort maximale respons bereikt.
Organismen hebben zo een beperkte tolerantie voor de milieufactoren. Zij vertonen gewoonlijk geen lineair maar een unimodaal verband tussen de milieugradiënt en de mate van voorkomen (bijvoorbeeld abundantieof frequentie). Tolerantie wordt soms standaard deviatie genoemd, en op vergelijkbare manier berekend. In andere gevallen wordt het verschil tussen maximum en minimum als tolerantie genomen. Tolerantiegrenzen bepalen verspreidingsgebied (areaal, het gebied waar van nature soort voorkomt) van een soort. Soorten met een kleine tolerantie (gevoelige soorten) kunnen als indicatorsoort gebruikt worden.
De beperkende factor is de abiotische factor waarvan de waarde het verst weg ligt van de optimumwaarde. Bepaalt de levenskansen en de groei. Als de beperkende factor het optimum meer nadert, zal dat een toename geven is de respons (mate van voorkomen).
Relaties tussen soorten, zoals concurrentie, predatie, parasitisme, kunnen invloed hebben op het effect van de milieufactoren, dus op de vorm van de optimimcurve. De curve kan daardoor een andere vorm krijgen, bijvoorbeeld afgeplat, scheef of tweetoppig.
Voetnoten
- ↑ Canoco for visualization of multivariate data Wageningen University & Research.
- ↑ Apollonius gebruikte in zijn belangrijkste werk Κωνικά, Konika, Kegelsneden, het begrip orde, τεταγμένος, tetagmenos, in het Latijn ordinatim.
- ↑ (en) Palmer M. Ordination Methods for Ecologists.
- ↑ (en) H.J.B. Birks, S.M. Peglar & H.A. Austin voor de Universiteit van Bergen. An Annotated Bibliography Of Canonical Correspondence Analysis And Related Constrained Ordination Methods 1986-1993, 1994.
- ↑ BS Everitt, S Landau, M Leese en D Stahl. Cluster Analysis, 2011.
- ↑ PHA Sneath en RR Sokal. Numerical Taxonomy, 1973.
- ↑ Wolfram Research. Distance and Similarity Measures.
- ↑ Palmer, M. Ordination Methods for Ecologists. Distance-based Ordination Methods.
- ↑ Palmer, M. Ordination Methods for Ecologists. Eigenanalysis-based ordination methods for indirect gradient analysis
- ↑ Palmer, M. Ordination Methods for Ecologists. Principal Components Analysis.
- ↑ Palmer, M. Ordination Methods for Ecologists. Correspondence Analysis.
- ↑ ter Braak 1985
- ↑ Palmer, M. Ordination Methods for Ecologists. Detrended Correspondence Analysis.
- ↑ (en) Gauch, HG, (1982)
- ↑ (en) Braak, CJF ter (1987) Unimodal models to relate species to environment. Wageningen
- ↑ (en) Braak, CJF ter & P Šmilauer (2002) CANOCO Reference Manual and CanoDraw for Windows User's Guide. Microcomputer Power, Ithaca. 500 pp.
- ↑ (en) Braak, CJF ter & IC Prentice (1988) A theory of gradient analysis. Adv. Ecol. Res. 18:271-313.
Literatuur
- (en) Causton, DR (1988) An introduction to vegetation analysis. Unwin Hyman, London.
- (en) Clark, C An Introduction to Ordination
- (en) Gauch, HG, (1982) Multivariate Analysis in Community Ecology. Cambridge University Press, Cambridge.
- (en) Jongman, RH et al. (1995) Data Analysis in Community and Landscape Ecology. Cambridge University Press, Cambridge.
- (nl) Katwijk, MM van & CJF ter Braak (2003) Handleiding voor het gebruik van multivariate analysetechnieken in de ecologie.
- (en) Kent, M & P Coker (1992) Vegetation description and analysis: a practical approach. Belhaven Press, London.
- (en) Palmer, M Ordination Methods for Ecologists., Botany Department, Oklahoma State University, Stillwater, Oklahoma
- (en) Pielou, EC (1984) The Interpretation of Ecological Data: A Primer on Classification and Ordination. Wiley, New York.
- (en) Whittaker, RH (1967) Gradient analysis of vegetation. Biol Rev 42:207-264
- (en) Whittaker, RH (1969) Evolution of diversity in plant communities. Brookhaven Symp. Biol. 22:178-195
- (en) Økland, RH (1990) Vegetation ecology: theory, methods and applications with reference to Fennoscandia. Sommerfeltia Supplement 1:1-233.