İçeriğe atla

Dal-yaprak grafikleri

Vikipedi, özgür ansiklopedi
Tren tarifesinin "dal-yaprak gösterimi", Yokohoma, Japonya "Minatomirai" tren istasyonunda.

Dal-yaprak grafikleri (İngilizce: stem-and-leaf plot veya stemplot), betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

John Tukey’in yaptığı tanıma bağlı olarak açıklayacak olursak grafikteki satırlara "dal" (stem) satırların yanındaki açıklamalara (sayısal değerlere) "yaprak" (leaf) denir. Kısaca bu grafiği çizerken ve okurken kafamızda dallanmış bir ağaç görüntüsü oluşmalıdır.

Gösterim 20. yüzyılın ilk çeyreğinde istatistikçi Arthur Bowley’in çalışmalarında görülmektedir. Yaygın olarak kullanılmaya başlaması Amerikalı istatistikçi John Tukey’in 1977’de basılan Exploratory Data Analysis adlı kitabından sonradır.

Dal-yaprak grafiklerine görülebilecek veri nitelikleri

[değiştir | kaynağı değiştir]
  • Gözlem değerleri nerelerde yoğunlaşmıştır?
  • Verilerin yayılma aralığı ne kadardır?
  • Küme çarpık mıdır?
  • Veri kümesinde kaç tane tepe vardır?
  • Verilerin birbirine olan uzaklığı görülebilir.

Dal-yaprak grafiklerinin çizimi

[değiştir | kaynağı değiştir]

En basit dal-yaprak grafiği aralarında bir çizgi bulunan iki sütun sayıdan oluşur; bu sütunlardan soldaki ilki "dal"ler oluşturup sağdaki ikinci sütundakiler "yaprak"lardır. Böylece iki veya bir sayıdan oluşan bir veri seti olduğu gibi dal-yaprak grafiğinde görülür.

Bir dal-yaprak grafiği çizimi aşamaları şunlardır:

  • . Veri seti en küçükten değerden en büyük değere doğru sıralanır.
  • . Her gözlem değeri dal ve yaprak olarak ayrılır. İki basamaklı tam sayıların onlar basamağındaki rakam 'dal'; birler basamağındaki rakam 'yaprak' diye isimlendirilir. Daha büyük basamaklı veriler için veri değerlerinin belli bir basamağı için (örneğin yüzlüler basamağı şeklinde) yaklaşımları alınır ve bunlar "yaprak" olarak kullanılır.
  • . "Dallar" dikey bir doğrunun sol yanında küçükten büyüğe (veya büyükten küçüğe) doğru sıralanmış "yapraklar" ise dikey bir doğrunun sağ yanında dalların sağında sağa doğru dizilerek yazılır. Her bir veri bir "yaprak" ile ifade edilir.
  • . Kullanana biraz daha destek sağlamak için bir "anahtar" örnek değer, yaprak birimi ve dal birimi verilir.

Dal-yaprak grafiği çizilirken öncelikle gözlem değerleri büyüklük sırasına konulurlar. Gözlem değerlerinin kullanılan son sayısı "yapraktır". Buna göre veri değerleri değişik biçimlerde "dal" ve "yaprak" kısımlarına ayrılabilirler.

Ayrım biçimlerine örnek için dört sayılı bir veri değeri alınsın 2452:

  • 245|2 - Dört sayıdan (binler, yüzler, onlar ve birlerden) oluşan veri değeri ve yaprak dördüncü (birler) sayısı 5;
  • 24|5 - Üç sayıya yuvarlanan (binler, yüzler ve onlar) veri değeri ve yaprak üçüncü aşağı yuvarlanmış (onlar) sayısı 5;
  • 2|5 - İki sayıya yuvarlanan (binler, yüzler) veri değeri ve yaprak ikinci yukarı yuvarlanmış (yüzler) sayısı 5.

Yaprak değeri dal olan diğer değerler bir dik çizgi ile ayrılır. Bu dik çizginin solundakiler dal, sağındakiler yapraktır.

  • "Dal"ın onlar sayılarının "kolay anlaşılır (nice)" kısımlar ayrılması ile elde edilir yani ya 5'li ya 10'lu hatta 2'li dallar olabilir.

Örnek 1:
Veri değerleri 2030 yılında ülkelerin toplam nüfusu içinde olabilecek erkek nüfus oranları:

Ülke İngiltere ABD Türkiye Çin Togo Suriye Venezuela
Oran 24,7 41,5 10,2 25 13,4 51,6 20

Veri değerleri: "24,7", "41,5", "10,2", "25", "13,4", "51,6", "20" Sıralanmış veri değerleri: "10,2", "13,4", "20", "23,7", "25", "41,5", "51,6"

Bu veri değerleri üç hanelidir: onlar, birler ve ondalıklar. Yaprağın hangisi olarak seçileceği ilk sorun olur ve değişik seçimler değişik dal-yaprak-grafiği verir:

En uygun alternatif birler basamağını yaprak olarak farz ederek ve verileri yuvarlayıp onlar ve birlere indirerek çizime devam etmektir. Bu halde dal-yaprak-grafiği çizilmesi için kullanılan veri değerleri şunlar olur: 10, 13, 20, 24, 25, 42, 52
Dallar "onlar" olabilir: yani 1_, 2_, 3_, 4_, 5_

Kullanana biraz daha destek sağlamak için bir "anahtar" örnek değer, yaprak birimi ve gövde birimi verilir.

Bu alternatif için şu "dal-yaprak-grafiği çizimi" elde edilir:

  1|0 3
  2|0 4 5
  3|
  4|2
  5|2
 anahtar: 4|2=42
 yaprak birimi: 1,0
 dal birimi: 10,0

Bu çizimde sağdaki her bir yaprak sayı değişik veri değeridir; örneğin 2|0 4 5 üç veriyi gösterir 20, 24, 25. Yani dallanma ve yapraklama şu şekilde yapılmıştır: 1 dalı (Türkiye, Togo) 2 dalı (Çin, İngiltere, Venezuela), 4 dalı (ABD), 5 dalı (Suriye). Dallar yukarıdan aşağıya ister büyükten küçüğe ister küçükten büyüğe sıralanabilir.

Dal sayısı azsa yorumlamayı kolaylaştırmak adına her dal için "5 sayı" kullanılabilir. İlk dala 0-4 arası ikinci dala 5-9 arası sayıları yazilir vb..

   1|0 3
   1|
   2|0 4
   2|
   4|1
   4|
   5|1
   5|

Bu gösterim biçimiyle hemen bu grafiğin dezavantajı görülebilir. En uygun veriler iki sayılı olanlardır; burada onlar ve birler. Diğer sayılar (burada ondalıklar) basamağındaki ayrıntıyı yitiririz.

Dal yaprak grafiğini saatin tersi yönde 90 derece çevirirseniz grafiğin sıklık dağılımı tablosuna ve hatta bir histograma benzediğini görülebilir. Yorumlamalarda yardımcı olabilir.

Bu grafikten çıkarabileceğimiz yorumlar şunlardır: • 2030 yılında ülkelerdeki toplam nüfusa göre erkek nüfus oranı yayılımı (yani açıklık) %10 ile %51 arasındadır. • Oranlar özellikle %10 ve %20 arasında yoğunlaşmıştır. • Dağılım tek tepelidir. • Dağılım çarpıktır.

Eksi değerleri de görmek açısından şu örneği incelemek uygun olabilir.

Örnek 2:
Bir n=9 büyüklüğündeki bir örneklem veri seti şöyle verilmiş olsun:
"167,8" "56,78" "-236,652" "-14" "43,2" "55" "245" "124,5" "-124.52" "567,8"

Sıralanınca bu veri seti şöyle olur: "-236,652" "-124,53" "-14" "43,3" "55" "56,78" "167,8" "245" "567.8"

Bunları 2 basamaklı ifade etmek için her veri 10 ile bölünüp iki basamaklı hale gelinceye kadar yuvarlanır; yani:"-24" "-12" "-1" "4" "5" "6" "17" "25" "57"

"Dal-yaprak gösterimi" şu olur:

-2 | 4
-1 | 2
-0 | 1
 0 | 4 5 6 
 1 | 7
 2 | 5
 3 | 
 4 | 
 5 | 7
anahtar: -2|4=240 ≈ 236,652 
yaprak birimi: 10
dal birimi: 100,0

Sırt sırta dal yaprak grafikleri

[değiştir | kaynağı değiştir]

Dal yaprak grafiklerinin en önemli özelliklerinden biri iki veri kümesini karşılaştırmada sağladığı kolaylıktır. Bu grafiği çizerken dal kısmı ortaya yazılır ve farklı iki veri seti sağ ve sol yana yapraklandırılır. Bu şekilde iki farklı veri seti için sağlıklı yorumlar yapılabilir. Çizilmesinde başta belirtilen kurallar aynen geçerlidir.

Örnek 3:
Bir değişken hakkında iki örneklem veri seti elde edilsin:

Set 1 (n=25) :21 22 26 25 24 28 22 22 21 22 24 22 34 30 37 30 53 54 56 54 55 62 76 72 71
Set 2 (n=31) :28 22 20 20 26 20 20 29 26 24 23 28 26 38 32 30 30 36 54 51 52 50 55 56 59 58 54 61 75 76 77
Her iki örneklem veri seti de sıralanınca şunlar elde edilir:
Set 1 (n=25) :21 21 22 22 22 22 22 22 24 24 25 26 28 30 30 34 37 53 54 54 55 62 71 72 76
Set 2 (n=31) :20 20 20 20 22 23 24 26 26 26 28 28 29 30 30 32 36 38 50 51 52 54 54 55 56 58 59 61 75 76 77
"Sırt sırta dal-yaprak gösterimi" şu olur:
8 6 5 4 4 2 2 2 2 2 1 1|2|0 0 0 0 2 3 4 6 6 6 8 8 9 
                7 4 0 0|3|0 0 2 6 8
               5 4 4 3|5|0 1 2 4 4 5 6 8 9
                      2|6|1
                  6 2 1|7|5 6 7
 anahtar: 3|2=32
 yaprak birimi: 1,0
 dal birimi: 10,0

Daha önce dal yaprak grafiklerini okumayı açıklanmıştı. Burada da bunu karşılaştırma yoluyla yaparak iki veri seti arasındaki aynılıklar ve farkları görülebilir.

Veri setine bakarak Dal yaprak grafiklerini rahat bir şekilde çizebiliriz fakat birkaç işlem yaparak verilere ilişkin bilgileri arttırabiliriz. Bunun içinde beşli özet kullanılır. Beşli özet kısaca veri kümesindeki iki uç değerin, iki dördebölenin, bir de ortancanın bulunup alt alta yazılmasıdır.[1]

  1. ^ Şenesen (2004), s. 280

Ayrıca bakınız

[değiştir | kaynağı değiştir]
  • Tukey, John (1977), EDA Exploratory Data Analysis, Addison-Wesley. ISBN 0-201-07616-0. (İngilizce)
  • Akdeniz, Fikri (2006), Olasılık ve İstatistik, İstanbul:Kartal Yayınevi ISBN 975-8561-38-3.
  • Şenesen, Ümit (2004), İstatistik. Sayıların Arkasını Anlamak, İstanbul:Literatür Yayıncılık ISBN 9799750402839.