İçeriğe atla

Biyolojik veritabanı

Vikipedi, özgür ansiklopedi
Proteinler arasındaki fonksiyonel bağlantıları karakterize eden STRING adlı biyolojik veri tabanının ana sayfası[1]

Biyolojik veritabanları, bilimsel deneylerden, yayınlanmış literatürden, yüksek verimli deney teknolojisinden ve hesaplamalı analizlerden toplanan biyolojik bilimler kütüphaneleridir.[kaynak belirtilmeli] Genomik, proteomik, metabolomik, mikroarray gen ifadesi ve filogenetik gibi araştırma alanlarından bilgiler içerirler.[2] Biyolojik veritabanlarında yer alan bilgiler arasında gen fonksiyonu, yapısı, lokalizasyonu (hem hücresel hem de kromozomal), mutasyonların klinik etkilerinin yanı sıra biyolojik dizilerin ve yapıların benzerlikleri yer almaktadır.

Biyolojik veritabanları topladıkları veri türüne göre sınıflandırılabilir (aşağıya bakınız). Genel olarak, moleküler veritabanları (diziler, moleküller vb. için), fonksiyonel veritabanları (fizyoloji, enzim aktiviteleri, fenotipler, ekoloji vb. için), taksonomik veritabanları (türler ve diğer taksonomik sıralamalar için), görüntüler ve diğer medya veya numuneler (müze koleksiyonları vb. için) vardır.

Veritabanları, bilim insanlarının biyomoleküllerin yapısı ve etkileşimlerinden organizmaların tüm metabolizmasına ve türlerin evrimini anlamaya kadar bir dizi biyolojik olguyu analiz etmelerine ve açıklamalarına yardımcı olan önemli araçlardır. Bu bilgi hastalıklarla mücadeleyi kolaylaştırır, ilaçların geliştirilmesine, belirli genetik hastalıkların tahmin edilmesine ve yaşam tarihinde türler arasındaki temel ilişkilerin keşfedilmesine yardımcı olur.

Teknik temel ve teorik kavramlar

[değiştir | kaynağı değiştir]

Bilgisayar bilimlerinin ilişkisel veritabanı kavramları ve dijital kütüphanelerin bilgi erişim kavramları biyolojik veritabanlarını anlamak için önemlidir. Biyolojik veritabanı tasarımı, geliştirilmesi ve uzun vadeli yönetimi, biyoinformatik disiplininin temel bir alanıdır.[3] Veri içerikleri arasında gen dizileri, metinsel açıklamalar, öznitelikler ve ontoloji sınıflandırmaları, alıntılar ve tablo verileri yer alır. Bunlar genellikle yarı yapılandırılmış veriler olarak tanımlanır ve tablolar, anahtarla sınırlandırılmış kayıtlar ve XML yapıları olarak temsil edilebilir.[kaynak belirtilmeli]

Çoğu biyolojik veritabanı, kullanıcıların verilere çevrimiçi olarak göz atabileceği şekilde verileri düzenleyen web siteleri aracılığıyla kullanılabilir. Buna ek olarak, temel veriler genellikle çeşitli formatlarda indirilebilir. Biyolojik veriler birçok formatta gelir. Bu formatlar metin, dizi verileri, protein yapısı ve bağlantıları içerir. Bunların her biri belirli kaynaklardan bulunabilir, örneğin:[kaynak belirtilmeli]

  • Metin formatları PubMed ve OMIM tarafından sağlanmaktadır.
  • Dizi verileri, DNA açısından GenBank ve protein açısından UniProt tarafından sağlanmaktadır.
  • Protein yapıları PDB, SCOP ve CATH tarafından sağlanmaktadır.

Sorunlar ve zorluklar

[değiştir | kaynağı değiştir]

Biyolojik bilgi sayısız veritabanı arasında dağıtılmıştır. Bu durum bazen bilgilerin tutarlılığını sağlamayı zorlaştırmaktadır, örneğin aynı tür için farklı isimler veya farklı veri formatları kullanıldığında. Sonuç olarak, birlikte çalışabilirlik bilgi alışverişi için sürekli bir zorluktur. Örneğin, bir DNA dizisi veritabanı DNA dizisini bir türün adıyla birlikte saklıyorsa bu türün adındaki bir değişiklik, farklı bir ad kullanan diğer veritabanlarına olan bağlantıları bozabilir. Bütünleştirici biyoinformatik, birleşik erişim sağlayarak bu sorunun üstesinden gelmeye çalışan bir alandır. Çözümlerden biri, biyolojik veri tabanlarının, ilgili bilgileri birbirine bağlamak için erişim numaralarıyla diğer veri tabanlarına çapraz referans vermesidir (örneğin, bir tür adı değişse bile erişim numarasının aynı kalması). Birçok veritabanının aynı bilgiyi saklaması gerektiğinden fazlalık başka bir sorundur, örneğin protein yapısı veritabanları aynı zamanda kapsadıkları proteinlerin dizisini, dizilimini ve bibliyografik bilgilerini de içerir.

Model organizma veritabanları

[değiştir | kaynağı değiştir]

Bazı türler için, özellikle de araştırmalarda sıklıkla kullanılanlar (model organizmalar) için türe özgü veritabanları mevcuttur. Örneğin, EcoCyc bir E. coli veritabanıdır. Diğer popüler model organizma veritabanları arasında laboratuvar faresi Mus musculus için Mouse Genome Informatics, Rattus için Rat Genome Database, Danio rerio (zebra balığı) için ZFIN, Schizosaccharomyces pombe fisyon mayası için PomBase,[4] Drosophila için FlyBase, Caenorhabditis elegans ve Caenorhabditis briggsae nematodları için WormBase ve Xenopus tropicalis ve Xenopus laevis kurbağaları için Xenbase bulunmaktadır.

Biyoçeşitlilik ve tür veritabanları

[değiştir | kaynağı değiştir]
Catalogue of Life'tan hayvan grupları ve tür sayıları[5]

Çok sayıda veritabanı dünya üzerindeki yaşam çeşitliliğini belgelemeye çalışmaktadır. Öne çıkan örneklerden biri, ilk olarak 2001 yılında Species 2000 ve Integrated Taxonomic Information System tarafından oluşturulan Catalogue of Life'tır.[6] Catalogue of Life, dünyada şu anda kabul edilen tüm türlerin taksonomik kategorizasyonunu belgelemeyi amaçlayan ortak bir projedir.[7] Catalogue of Life, araştırmacıların ve politika yapıcıların başvurabileceği konsolide ve tutarlı bir veritabanı sağlamaktadır. Catalogue of Life, Conifer Database, ICTV MSL (virüsler için) ve LepIndex (kelebekler ve güveler için) gibi diğer kaynaklardan güncel veri setlerini derlemektedir. Catalogue of Life, Mayıs 2022 itibarıyla toplam 165 veri tabanından yararlanmaktadır.[8] Catalogue of Life'ın operasyonel masrafları Global Biodiversity Information Facility, Illinois Natural History Survey, Naturalis Biodiversity Center ve Smithsonian Institution tarafından karşılanmaktadır.[9]

Bazı biyolojik veritabanları farklı türlerin coğrafi dağılımını da belgelemektedir. Shuang Dai ve arkadaşları, Çin'deki 1371 kuş türünün mekânsal/coğrafi dağılımını belgelemek için yeni bir çok kaynaklı veritabanı oluşturmuştur, çünkü mevcut veritabanları birçok tür için mekânsal dağılım verilerinde ciddi eksikliklere sahiptir.[10] Bu yeni veritabanının kaynakları arasında kitaplar, literatür, GPS takibi ve çevrimiçi web sayfası verileri yer alıyordu. Yeni veritabanında her tür için taksonomi, dağılım, tür bilgisi ve veri kaynakları gösterildi. Kuş mekansal dağılım veritabanının tamamlanmasının ardından, Çin'de bilinen türlerin %61'inin daha önce bilindiklerinin ötesindeki bölgelerde dağılım gösterdiği keşfedildi.[10]

Tıbbi veritabanları

[değiştir | kaynağı değiştir]
WoundsDB'de ayak yaraları[11]

Tıbbi veritabanları, biyomedikal veri kaynaklarının özel bir durumudur ve PubMed gibi bibliyografyalardan yapay zeka tabanlı teşhis yazılımlarının geliştirilmesine yönelik görüntü veritabanlarına kadar çeşitlilik gösterebilir. Örneğin, böyle bir görüntü veritabanı, yara izleme algoritmalarının geliştirilmesine yardımcı olmak amacıyla geliştirilmiştir.[12] Fotoğraflar, termal görüntüler ve 3D ağ derinlik haritalarından oluşan 79 hasta ziyaretinden 188'den fazla çok modlu görüntü seti derlendi. Yara ana hatları manuel olarak çizildi ve fotoğraf veri setlerine eklendi.[11] Veritabanı, Kronik Yara Veritabanı web sitesinden indirilebilen WoundsDB adlı bir program şeklinde kamuya açık hale getirildi.

Nucleic Acids Research Veritabanı Sayısı

[değiştir | kaynağı değiştir]

Biyolojik veri tabanlarını bulmak için önemli bir kaynak, Nucleic Acids Research (NAR) dergisinin yıllık özel sayısıdır. NAR'ın Veritabanı Sayısı ücretsiz olarak erişilebilir ve halka açık biyolojik veritabanlarının çoğunu kategorize eder. Çevrimiçi Moleküler Biyoloji Veritabanı Koleksiyonu adı verilen bu sayıya eşlik eden bir veritabanı, 1380 çevrimiçi veritabanını listelemektedir.[13] MetaBase ve Bioinformatics Links Collection gibi başka veritabanı koleksiyonları da mevcuttur.[14][15]

Ayrıca bakınız

[değiştir | kaynağı değiştir]
  1. ^ Szklarczyk D; Franceschini A; Kuhn M; ve diğerleri. (January 2011). "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored". Nucleic Acids Res. 39 (Database issue). ss. D561-8. doi:10.1093/nar/gkq973. PMC 3013807 $2. PMID 21045058. 
  2. ^ Altman RB (March 2004). "Building successful biological databases". Brief. Bioinformatics. 5 (1). ss. 4-5. doi:10.1093/bib/5.1.4. PMID 15153301. 
  3. ^ Bourne P (August 2005). "Will a biological database be different from a biological journal?". PLOS Comput. Biol. 1 (3). ss. 179-81. Bibcode:2005PLSCB...1...34B. doi:10.1371/journal.pcbi.0010034. PMC 1193993 $2. PMID 16158097. 
  4. ^ Lock, A; Rutherford, K; Harris, MA; Hayles, J; Oliver, SG; Bähler, J; Wood, V (13 Ekim 2018). "PomBase 2018: user-driven reimplementation of the fission yeast database provides rapid and intuitive access to diverse, interconnected information". Nucleic Acids Research. 47 (D1). ss. D821-D827. doi:10.1093/nar/gky961. PMC 6324063 $2. PMID 30321395. 
  5. ^ Catalogue of Life (2001). "Homepage". Search. Species 2000. 5 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  6. ^ Jones, Andrew C. (2011). "Identifying and Relating Biological Concepts in the Catalogue of Life". Journal of Biomedical Semantics. 2 (1). s. 7. doi:10.1186/2041-1480-2-7. PMC 3245425 $2. PMID 22004596. 
  7. ^ Catalogue of Life (2001). "What is Catalogue of Life?". Our Mission. Species 2000. 5 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  8. ^ Catalogue of Life (2001). "Source Datasets". Species 2000. 14 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  9. ^ Catalogue of Life (2001). "Funding". Species 2000. 5 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  10. ^ a b Dai, Shuang (2019). "A Spatialized Digital Database for All Bird Species in China". Science China Life Sciences. 62 (5). ss. 661-667. doi:10.1007/s11427-018-9419-2. PMID 30900164. Erişim tarihi: 5 Mayıs 2022. 
  11. ^ a b "Chronic Wound Database". WoundsDB. Silesian University of Technology. 2020. 18 Aralık 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Mayıs 2022. 
  12. ^ Kręcichwost, Michał (2021). "Chronic Wounds Multimodal Image Database". Computerized Medical Imaging and Graphics. Cilt 88. s. 101844. doi:10.1016/j.compmedimag.2020.101844. PMID 33477091. Erişim tarihi: 5 Mayıs 2022. 
  13. ^ Galperin MY; Fernández-Suárez XM (January 2012). "The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection". Nucleic Acids Res. 40 (Database issue). ss. D1-8. doi:10.1093/nar/gkr1196. PMC 3245068 $2. PMID 22144685. 
  14. ^ Bolser DM; Chibon PY; Palopoli N; ve diğerleri. (January 2012). "MetaBase--the wiki-database of biological databases". Nucleic Acids Res. 40 (Database issue). ss. D1250-4. doi:10.1093/nar/gkr1099. PMC 3245051 $2. PMID 22139927. 
  15. ^ Brazas MD; Yim DS; Yamada JT; Ouellette BF (July 2011). "The 2011 Bioinformatics Links Directory update: more resources, tools and databases and features to empower the bioinformatics community". Nucleic Acids Res. 39 (Web Server issue). ss. W3-7. doi:10.1093/nar/gkr514. PMC 3125814 $2. PMID 21715385. 

Dış bağlantılar

[değiştir | kaynağı değiştir]