Pergi ke kandungan

Sains data

Daripada Wikipedia, ensiklopedia bebas.

Sains data ialah sebuah cabang disiplin yang menggunakan kaedah saintifik, proses, algoritma dan sistem untuk mendapatkan pengetahuan dan pandangan dari data dalam pelbagai bentuk, kedua-dua tersusun dan keselesaan,[1][2] sama dengan perlombongan data.

Sains data ialah "konsep untuk menyatukan statistik, analisis data, pembelajaran mesin dan kaedah yang berkaitan" untuk "memahami dan menganalisis fenomena sebenar" dengan data. Ia menggunakan teknik dan teori yang diambil dari banyak bidang dalam konteks matematik, statistik, sains maklumat, dan sains komputer.

Pemenang penganugerahan Turing Jim Gray membayangkan sains data sebagai "paradigma keempat" sains (empirikal, teoritis, pengkomputeran dan kini didorong oleh data) dan menegaskan bahawa "segala sesuatu tentang sains berubah kerana kesan teknologi maklumat" dan banjir data.[3][4]

Teknologi

[sunting | sunting sumber]
  • Python adalah bahasa pengaturcaraan dengan sintaks sederhana yang biasanya digunakan untuk sains data.[5] Antara kamus yang popular untuk sains data adalah numpy, pandas, and scipy.
  • R adalah bahasa pengaturcaraan yang dibangunkann untuk ahli statistik dan perlombongan data[6] dan dioptimumkan untuk proses menganalisis data.
  • TensorFlow adalah kerangka untuk membuat model pembelajaran mesin yang dikembangkan oleh Google.
  • Pytorch adalah kerangka pembelajaran mesin yang dikembangkan oleh Facebook.
  • Jupyter Notebook adalah muka web interaktif untuk pengaturcaraan yang membolehkan eksperimen dijalankan dengan lebih pantas.
  • Tableau berfungsi untuk membuat pelbagai perisian yang digunakan untuk visualisasi data.[7]
  • Apache Hadoop adalah kerangka perisian yang digunakan untuk memproses data melalui sistem teragih yang besar.
  1. ^ Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64. doi:10.1145/2500499.
  2. ^ Jeff Leek (2013-12-12). "The key word in "Data Science" is not Data, it is Science". Simply Statistics.
  3. ^ Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4.
  4. ^ Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075.
  5. ^ Shell, M Scott (September 24, 2019). "An introduction to Python for scientific computing" (PDF). Dicapai pada April 2, 2020.
  6. ^ "R FAQ". cran.r-project.org. Dicapai pada 2020-04-03.
  7. ^ Rhodes, Margaret (15 July 2014). "A Dead-Simple Tool That Lets Anyone Create Interactive Maps". Wired. Dicapai pada 2020-04-03.