Evaluatie van een aantal hierarchische-polythetisch-divisieve clustermethoden met betrekking tot de verwerking van vegetatiekundige datasets

Kramer, K. (1986) Evaluatie van een aantal hierarchische-polythetisch-divisieve clustermethoden met betrekking tot de verwerking van vegetatiekundige datasets. Master's Thesis / Essay, Biology.

Preview

Text
Biol_Ma_1986_KKramer.CV.pdf - Published Version
Download (1MB) | Preview

Abstract

Vegetatie-gegevens bestaan uit ruis, redundante informatie, afwijkende soorten en opnamen, en relaties tussen soorten, tussen soorten en opnamen en tussen opnamen onderling. Gezamenlijk is dit een berg onoverzichtelijke informatie over soorten en opnamen met hun milieu. Met cluster en ordinatie-technieken is het mogelijk ruis en redundante informatie grotendeels weg te werken, afwijkende soorten en opnamen te ontdekken en af te zonderen om de relaties die soorten en opnamen met hun milieu hebben te verduidelijken. In de literatuur zijn zeer veel verschillende cluster methoden beschreven en toegepast. Dit onderzoek houdt zich bezig met een aantal theoretisch en mogelijk praktisch aentrekkelijke nummerieke methoden. Het theoretische deel houdt een literatuurstudie in over cluster methoden van een bepaald type, het praktische deel met het vergelijken van een drietal van dat type en de ondersteuning ervan met een ordinatiemethode. Het praktische deel van dit verslag gaat over het vergelijken van een drietal cluster-methoden t.w. de methode van Edwards & Cavalli-Sforza (1965), Nearest Centre en Twinspan, en de ordinatie methode Decorana. De methode van Edwards & Cavalli-Sforza is een theoretisch erg aantrekkelijke methode die echter enorm veel rekentijd vergt. Daarom is Nearest Centre ontwikkeld (door Fresco & Beintema-Hietbrink, 1969). Deze methode probeert hetzelfde resultaat te bereiken maar met een efficiënter algoritme. Onderzocht is in hoeverre Nearest Centre met de methode van Edwards & Cavalli-Sforza overeenkomt. Het blijkt dat Nearest Centre de methode van Edwards & Cavalli-Sforza inderdaad erg op elkaar lijken maar dat Nearest Centre meer aanleiding geeft tot 'chaining’. De resultaten van Nearest Centre zijn hierdoor wat moeilijker te interpreteren dan die van Edwards & Cavalli-Sforza. Twinspan is een specifiek voor vegetatie analyse ontworpen methode. Het gebruikt vegetatie specifieke eigenschappen als geleidelijke verandering van de vegetatie aan een geleidelijk veranderend milieu, diskontinue veranderingen in de vegetatie door discontinuïteiten in het milieu en het het verschijnsel van karakteristieke soorten van een bepaald vegetatietype. Deze methode levert ecologisch beter te interpreteren resultaten op dan de andere twee. Decorana maakt duidelijk dat de gevonden clusters inderdaad als groepjes langs verschillende gradiënten verdeeld zijn, en geen gevolg van het feit dat cluster methoden nu eenmaal gegevens moeten indelen. Voordat een methode daadwerkelijk op de gegevens wordt toegepast moeten deze worden aangepast. De verschillen tussen de waarden in de gegevensset zijn vaak zo groot dat de uitkomst uitsluitend bepaald zou worden door de hoogste waarden, wat veel gegevens tekort doet en een verkeerd beeld geeft van de vegetatie. Er zijn zeer veel verschillende manieren om gegevens aan te passen en er is geen eenduidig recept te geven hoe men gegevens moet aanpassen. Daarom is hier gekozen de gevolgen van een aantal gegevenswijzigingen zoals datatransformatie, standaardisatie, dissimilariteitmaten e.d. te bespreken en de gevolgen van enkele datatransformaties wat nauwkeuriger te bekijken. Het blijkt dat het van wezenlijk belang is dat weliswaar de invloed van hoge importantiewaarden op het eindresultaat. moet worden verminderd, maar dat de verschillen tussen de lage waarden behouden moeten blijven. Bij veel gebruikte datatransformaties als wortel en logaritmische transformatie is dit laatste niet het geval. Beter is dan ook om de ruwe dataset zodanig in te schalen dat de invloed van hoge bedekkingswaarden op het eindresultaat vermindert wordt met behoud van de verschillen van de lage Bedekkingswaarden In Twinspan wordt dit gedaan m.b.v. 'pseudo soorten' (zie Hst. 6). Clustertechnieken zijn in staat uitbijters te ontdekken. In een dendrogram zijn ze makkelijk te herkennen doordat het clusters van 1 element zijn. Een ordinatie moet toegepast worden op de dataset zonder uitbijters, aangezien uitbijters het resultaat van een ordinatie erg nadelig beïnvloeden. De ondersteuning van een ordinatie aan een gemaakte clustering ligt daarin dat ermee aan te tonen is of de clustering 'natuurlijk' uit de gegevens volgt, dat er werkelijke discontinuïteiten tussen de clusters bestaan, of dat de indeling zuiver een gevolg van het indelen. In het algemeen lijkt het raadzaam goed gebleken cluster techniek te gebruiken, b.v. Twinspan, en een opnameset met verschillende transformaties te onderzoeken. En niet 1 datatransformatie op een opnameset toe te passen om vervolgens de gevormde dataset met verschillende methoden te onderzoeken.

Item Type:	Thesis (Master's Thesis / Essay)
Degree programme:	Biology
Thesis type:	Master's Thesis / Essay
Language:	Dutch
Date Deposited:	15 Feb 2018 07:48
Last Modified:	15 Feb 2018 07:48
URI:	https://fse.studenttheses.ub.rug.nl/id/eprint/10146

Actions (login required)

View Item