วิทยาการข้อมูล
วิทยาการข้อมูล (อังกฤษ: Data science) เป็นสหสาขาวิชาที่ใช้วิธีการ กระบวนการ อัลกอริทึม และระบบทางวิทยาศาสตร์มาใช้เพื่อหาความรู้จากข้อมูลหลากหลายรูปแบบ ทั้งจัดเก็บเป็นระเบียบและไม่เป็นระเบียบ[1][2] เป็นสาขาที่เกี่ยวข้องกับการทำเหมืองข้อมูล การเรียนรู้เชิงลึก และข้อมูลขนาดใหญ่
วิทยาการข้อมูลเป็นศาสตร์ที่เป็นการบูรณาการสถิติศาสตร์ การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องเข้าด้วยกันเพื่อให้สามารถเข้าใจและวิเคราะห์ปรากฏการณ์ที่เกิดขึ้นจริงในข้อมูลได้[3] ใช้เทคนิคและทฤษฎีที่ได้มาจากคณิตศาสตร์ สถิติศาสตร์ วิทยาการคอมพิวเตอร์ และวิทยาการสารสนเทศ
จิม เกรย์ นักวิทยาศาสตร์ผู้ได้รับรางวัลทัวริงมองว่า วิทยาการข้อมูลเป็นวิทยาศาสตร์แขนงที่สี่ ต่อยอดมาจากวิทยาศาสตร์การทดลอง วิทยาศาสตร์ทฤษฎี และวิทยาศาสตร์เชิงคำนวณ โดยเชื่อว่าทุกอย่างที่เกี่ยวข้องกับวิทยาศาสตร์กำลังจะเปลี่ยนไปโดยอิทธิพลของเทคโนโลยีสารสนเทศและการเพิ่มขึ้นของข้อ[4][5]
พื้นฐาน
[แก้]วิทยาการข้อมูลเป็นสหสาขาวิชาที่มุ่งเน้นการหาความรู้จากกลุ่มข้อมูลซึ่งส่วนมากมักมีขนาดใหญ่[6] ครอบคลุมตั้งแต่การเตรียมข้อมูลเพื่อวิเคราะห์ วิเคราะห์ และนำเสนอสิ่งที่ค้นพบให้กับผู้มีอำนาจใจการตัดสินใจในองค์กร จึงต้องใช้ทักษะทางด้านวิทยาการคอมพิวเตอร์ คณิตศาสตร์ สถิติศาสตร์ การนำเสนอข้อมูลด้วยภาพ การออกแบบกราฟิก และธุรกิจ[7][8]
นักสถิติศาสตร์หลายคน อาทิ เนท ซิลเวอร์ มองว่าวิทยาการข้อมูลไม่ได้เป็นศาสตร์ใหม่ แต่เป็นอีกชื่อหนึ่งของสถิติศาสตร์[9] แต่บ้างก็แย้งว่าวิทยาการข้อมูลเน้นการศึกษาปัญหาและเทคนิคที่แตกต่างกับวิชาสถิติ[10] โดยวิสันต์ ธาร์ ศาสตราจารย์ที่มหาวิทยาลัยนิวยอร์กมองว่าสถิติจะเน้นการศึกษาข้อมูลเชิงปริมาณและหาคำอธิบาย ส่วนวิทยาการข้อมูลจะเน้นศึกษาทั้งข้อมูลเชิงปริมาณและเชิงคุณภาพ (เช่นภาพ) และเน้นการพยากรณ์และการลงมือทำ[11]
เส้นทางอาชีพ
[แก้]วิทยาการข้อมูลเป็นศาสตร์ที่กำลังเติบโต นักวิทยาการข้อมูลเป็นอาชีพหนึ่งที่ได้รับเงินเดือนระดับที่สูงมากในสหรัฐอเมริกา[12] โดยมีค่ามัธยฐานอยู่ที่ 118,370 ดอลลาร์สหรัฐต่อปี หรือประมาณ 56.91 ดอลลาร์ต่อชั่วโมง[13] การเติบโตของสายงานสูงกว่าค่าเฉลี่ยของแรงงานในตลาด คาดว่าจะเติบโตราวร้อยละ 16 ระหว่างปี ค.ศ. 2018 ถึง ค.ศ. 2028[14]
สาขาเฉพาะทางของวิทยาการข้อมูล
[แก้]- นักวิทยาศาสตร์การเรียนรู้ของเครื่อง มีหน้าที่วิจัยหาวิธีการวิเคราะห์ข้อมูบแบบใหม่และสร้างอัลกอริทึม
- นักวิเคราะห์ข้อมูล ใช้ข้อมูลขนาดใหญ่เพื่อรวบรวมข้อมูลที่ตรงตามความความสนใจของบริษัท
- ที่ปรึกษาด้านข้อมูล ทำงานร่วมกับภาคธุรกิจเพื่อศึกษาว่าจะใช้ข้อมูลจากการวิเคราะห์ให้เกิดประโยชน์ได้อย่างไร
- สถาปนิกข้อมูล สร้างโซลูชันข้อมูลที่เหมาะสมกับการนำไปใช้งาน
- สถาปนิกการนำไปใช้งาน ติดตามการนำไปใช้งานตลอดทั้งวงจรธุรกิจ
ผลกระทบของวิทยาการข้อมูล
[แก้]เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่เริ่มเป็นเครื่องมือสำคัญสำหรับภาคธุรกิจและบริษัททุกระดับ[15] การมีข้อมูลขนาดใหญ่และมีความสามารถในการตีความได้เปลี่ยนแปลงโมเดลธุรกิจรูปแบบเก่า ก่อให้เกิดการสร้างโมเดลแบบใหม่ ธุรกิจที่เกิดจากข้อมูลมีมูลค่ารวมกันสูงถึง 1.2 ล้านล้านดอลลาร์สหรัฐในปี ค.ศ. 2020 เพิ่มขึ้นจากปี ค.ศ. 2015 ที่มีอยู่เพียง 333 พันล้านดอลลาร์[16] นักวิทยาการข้อมูลเป็นผู้ที่ย่อยข้อมูลให้อยู่ในรูปแบบที่มีประโยชน์ สร้างซอฟต์แวร์และอัลกอริทึมที่ช่วยให้บริษัทและองค์กรค้นพบวิธีการที่ดีที่สุดในการดำเนินธุรกิจ[17] ข้อมูลขนาดใหญ่มีผลกระทบอย่างมหาศาลทั่วโลก[17]
เทคโนโลยีและเทคนิค
[แก้]เทคนิค
[แก้]- การแบ่งกลุ่มข้อมูล เป็นวิธีการจัดกลุ่มข้อมูลเข้าด้วยกัน
- การลดมิติ ใช้เพื่อลดความความซับซ้อนในการคำนวณเพื่อให้การทำงานเร็วขึ้น
- การเรียนรู้ของเครื่อง ใช้ในการหารูปแบบจากข้อมูล
เทคโนโลยี
[แก้]- ภาษาไพธอน เป็นภาษาคอมพิวเตอร์ที่ใช้กันทั่วไปในวงการวิทยาการข้อมูล มีไลบรารีให้เลือกใช้มากมา
- ภาษาอาร์ เป็นภาษาคอมพิวเตอร์ที่ใช้สำหรับการวิเคราะห์ทางสถิติและการทำเหมืองข้อมูล
- TensorFlow เป็นเฟรมเวิร์คที่ใช้ในการสร้างโมเดลการเรียนรู้ของเครื่อง พัฒนาโดยกูเกิล
- PyTorch เป็นเฟรมเวิร์คที่ใช้ในการสร้างโมเดลการเรียนรู้ของเครื่อง พัฒนาโดยเฟซบุ๊ค
- Jupyter เป็นส่วนติดต่อกับผู้ใช้รูปแบบเว็บสำหรับการเขียนภาษาไพธอนที่ทำให้การทำงานสะดวกขึ้น
- Tableau Software ใช้สำหรับการนำเสนอข้อมูลด้วยภาพ
- อะแพชีฮาดูป เป็นเฟรมเวิร์คสำหรับประมวลผลข้อมูลขนาดใหญ่ในระบบปฏิบัติการเชิงกระจาย
ดูเพิ่ม
[แก้]อ้างอิง
[แก้]- ↑ Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73. doi:10.1145/2500499. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 9 November 2014. สืบค้นเมื่อ 2 September 2015.
- ↑ Jeff Leek (2013-12-12). "The key word in "Data Science" is not Data, it is Science". Simply Statistics. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2 January 2014. สืบค้นเมื่อ 1 January 2014.
- ↑ Hayashi, Chikio (1998-01-01). "What is Data Science? Fundamental Concepts and a Heuristic Example". ใน Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (บ.ก.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (ภาษาอังกฤษ). Springer Japan. pp. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
- ↑ Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 20 March 2017. สืบค้นเมื่อ 16 December 2016.
- ↑ Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007.
- ↑ "About Data Science | Data Science Association". www.datascienceassn.org. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2020-08-10. สืบค้นเมื่อ 2020-04-03.
- ↑ "1. Introduction: What Is Data Science? - Doing Data Science [Book]". www.oreilly.com (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.
- ↑ "the three sexy skills of data geeks". m.e.driscoll: data utopian (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.
- ↑ "Nate Silver: What I need from statisticians - Statistics Views". www.statisticsviews.com. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2020-06-11. สืบค้นเมื่อ 2020-04-03.
- ↑ "What's the Difference Between Data Science and Statistics?". Priceonomics (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.
- ↑ DharVasant (2013-12-01). "Data science and prediction". Communications of the ACM (ภาษาอังกฤษ). 56 (12): 64–73. doi:10.1145/2500499.
- ↑ "Best Jobs in America". Glassdoor (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.
- ↑ "Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics". www.bls.gov (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2020-04-03.
- ↑ "Computer and Information Research Scientists : Occupational Outlook Handbook: : U.S. Bureau of Labor Statistics". www.bls.gov (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2020-04-03.
- ↑ Pham, Peter. "The Impacts Of Big Data That You May Not Have Heard Of". Forbes (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.
- ↑ Martin, Sophia (2019-09-20). "How Data Science will Impact Future of Businesses?". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.
- ↑ 17.0 17.1 Martin, Sophia (2019-09-20). "How Data Science will Impact Future of Businesses?". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2020-04-03.