0% found this document useful (0 votes)

32 views18 pages

Unit 1 Part 1

This document provides an introduction to data science. It discusses that data science is an interdisciplinary field that uses algorithms and systems to extract knowledge and insights from large amounts of data. It notes that data science combines domains like statistics, computer science, and fields of expertise to make sense of both structured and unstructured data. The document also gives examples of data science tasks like prediction, recommendation, segmentation, and optimization. Finally, it outlines the typical stages in a data science project including data acquisition, cleaning, exploration, feature engineering, and modeling.

Uploaded by

Girraj Dohare

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views18 pages

Unit 1 Part 1

Uploaded by

Girraj Dohare

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

Introduction to

Data Science
Data Science is: Popular
● Lots of Data => Lots of Analysis => Lots of Jobs
● Universities: Starting new multidisciplinary programs
● Industry: Cottage industry evolving for online and training
courses
Data is: Big!
● 2.5 quintillion (1018) bytes of data are generated every day!
● Everything around you collects/generates data
– Social media sites
– Business transactions
– Location-based data
– Sensors
– Digital photos, videos
– Consumer behaviour (online and store transactions)
● More data is publicly available
● Database technology is advancing
● Cloud based & mobile applications are widespread
If I have data, I will know:
● Everyone wants better predictability, forecasting, customer
satisfaction, market differentiation, prevention, great user
experience, ...
● How can I price a particular product?
● What can I recommend online customers to buy after buying X, Y or
Z?
● How can we discover market segments? group customers into market
segments?
● What customer will buy in the upcoming holiday season? (what to
stock?)
● What is the price point for customer retention for subscriptions?
Data Science is: making sense of Data
● Data science is an interdisciplinary field that uses scientific methods,
processes, algorithms and systems to extract knowledge and insights
from data in various forms, both structured and unstructured, similar to
data mining. ~Wikipedia
● Data science is the field of study that combines domain expertise,
programming skills, and knowledge of math and statistics to extract
meaningful insights from data.
● Data science practitioners apply machine learning algorithms to
numbers, text, images, video, audio, and more to produce artificial
intelligence (AI) systems that perform tasks which ordinarily require
human intelligence.
● In turn, these systems generate insights that analysts and business
users translate into tangible business value.
AI, ML and DS
Data Science is: multidisciplinary
● Statisticians
● Mathematicians
● Computer Scientists in
– Data mining
– Artificial Intelligence & Machine Learning
– Systems Development and Integration
– Database development
– Analytics
● Domain Experts
– Medical experts
– Geneticists
– Finance, Business, Economy experts ○ etc.
Data science fields
● Statistics and Probability
● Python
● Machine Learning
● Data Processing
● Data Visualization
● Data Mining
● Predictive Analytics
● Big Data
● Modelling
● Data Consultancy etc.....
Data science impact
● Empowering management and officers to make better decision
● Directing actions based on trends—which in turn help to define goals
● Challenging the staff to adopt best practices and focus on issues that
matter
● Identifying opportunities
● Decision making with quantifiable, data-driven evidence
● Testing these decisions
● Identification and refining of target audiences
● Recruiting the right talent for the organization
● & much more.....
Data Team
Data Acquisition Stage
● At this stage, one must assess:
– What type of data is available
– What might be required and currently is not collected
– Is it available from other units of the company?
– Does she need to crawl/buy data from third parties?
– How much data is needed? (Data volume)
– How to access the data?
– Is the data private?
– Is it legally OK to use the data?
● Data may not exist
● Sources of data may be public or private
● Not all sources of data may be suitable for processing
● Data are often incomplete and dirty
● Data consolidation and cleanup are essential
Data Cleaning
● Data are often incomplete, incorrect.
– Typo : e.g., text data in numeric fields
– Missing Values : some fields may not be collected for some of the
examples
– Impossible Data combinations: e.g., gender=MALE, pregnant =
TRUE
– Out-of-Range Values: e.g., age=1000
● Garbage In Garbage Out
● Scripting, Visualization
Exploratory Data Analysis
● Univariate Analysis: Analyze/explore variables one by one
● Bivariate Analysis: Explore relationship between variables
● Coverage, missing values: treating unknown values
● Outliers: detect and treat values that are distant from other observations
● Feature Engineering: Variable transformations and creation of new better
variables from raw features
● Commonly used tools:
– SQL
– R: plyr, reshape, ggplot2, data.table,
– Python: NumPy, Pandas, SciPy, matplotlib
Feature Engineering
● Create new features from existing raw features: discretize, bin
● Transform Variables
● Create new categorical variables: too many levels, levels that
rarely occur, one level almost always occur
● Extremely skewed data - outliers
● Imputation: Filling in missing data

Unit 3 - Operating System - WWW - Rgpvnotes.in
No ratings yet
Unit 3 - Operating System - WWW - Rgpvnotes.in
38 pages
Unit 1 - Exploratory Data Analysis Fundamentals
No ratings yet
Unit 1 - Exploratory Data Analysis Fundamentals
47 pages
Unit 1 DS BCA NOTES
No ratings yet
Unit 1 DS BCA NOTES
7 pages
DS Career Landscape - ACs
No ratings yet
DS Career Landscape - ACs
35 pages
By, Mrs - Prathibha S, Assistant Professor, Departement of CSE, PESITM, Shimoga
No ratings yet
By, Mrs - Prathibha S, Assistant Professor, Departement of CSE, PESITM, Shimoga
13 pages
DS Notes
No ratings yet
DS Notes
159 pages
Chapter 1 Data Science Fundamentals
No ratings yet
Chapter 1 Data Science Fundamentals
34 pages
Data Science Unit 1
No ratings yet
Data Science Unit 1
85 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
17 pages
Unit 5 - Operating System - WWW - Rgpvnotes.in
No ratings yet
Unit 5 - Operating System - WWW - Rgpvnotes.in
27 pages
Introductiontodatascience 230122140841 B90a0856 1
No ratings yet
Introductiontodatascience 230122140841 B90a0856 1
44 pages
Data Science Life Cycle
No ratings yet
Data Science Life Cycle
12 pages
Unit 1-FDS
100% (2)
Unit 1-FDS
18 pages
PH Process Chemistry
No ratings yet
PH Process Chemistry
25 pages
JobRecord MUHAMMAD NAEEM F70a3eba Db3d 11ef A12f 96f32f87411b
No ratings yet
JobRecord MUHAMMAD NAEEM F70a3eba Db3d 11ef A12f 96f32f87411b
63 pages
Anshumoocs
No ratings yet
Anshumoocs
20 pages
Data Science in IOT
No ratings yet
Data Science in IOT
220 pages
Module 1 Applied Data Science 1.1 and 1.2
No ratings yet
Module 1 Applied Data Science 1.1 and 1.2
104 pages
Unit 4 - Operating System - WWW - Rgpvnotes.in
No ratings yet
Unit 4 - Operating System - WWW - Rgpvnotes.in
23 pages
Data Science
No ratings yet
Data Science
18 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
11 pages
Science
No ratings yet
Science
8 pages
Introduction To Datasciecne
No ratings yet
Introduction To Datasciecne
50 pages
Datascience (Mod1)
No ratings yet
Datascience (Mod1)
4 pages
Data Science CLASS 12 INVESTIGATORY PROJECT
No ratings yet
Data Science CLASS 12 INVESTIGATORY PROJECT
9 pages
Handbook Introduction of Data Science AY 23-24
No ratings yet
Handbook Introduction of Data Science AY 23-24
171 pages
Data Science: by Neha Tyagi
100% (1)
Data Science: by Neha Tyagi
17 pages
Unit-3 Intr Data Science
No ratings yet
Unit-3 Intr Data Science
150 pages
Trends in Data Science: AI and DS-I
No ratings yet
Trends in Data Science: AI and DS-I
32 pages
Anunnaki
No ratings yet
Anunnaki
97 pages
IDS Complete Notes
No ratings yet
IDS Complete Notes
126 pages
Data Science
No ratings yet
Data Science
59 pages
DS Unit-1 PDF
No ratings yet
DS Unit-1 PDF
50 pages
Applied - Data - Science MODULE 1 SEM8
No ratings yet
Applied - Data - Science MODULE 1 SEM8
16 pages
Unit 1
No ratings yet
Unit 1
60 pages
Fundamentals of Data Science Unit 1
No ratings yet
Fundamentals of Data Science Unit 1
33 pages
Data Science Introduction
No ratings yet
Data Science Introduction
24 pages
Summer Training
No ratings yet
Summer Training
8 pages
Introductiontodatascience 230122140841 B90a0856
No ratings yet
Introductiontodatascience 230122140841 B90a0856
44 pages
Emerging - 2021 - Module 2 PDF
No ratings yet
Emerging - 2021 - Module 2 PDF
61 pages
Unit-1 Data Science
No ratings yet
Unit-1 Data Science
74 pages
DS B&V-1
No ratings yet
DS B&V-1
30 pages
Data Science
No ratings yet
Data Science
6 pages
Fds Module 1
No ratings yet
Fds Module 1
65 pages
Dsdm-Unit1 241031 194317
No ratings yet
Dsdm-Unit1 241031 194317
38 pages
Unit I
No ratings yet
Unit I
52 pages
Data Analytics 1
No ratings yet
Data Analytics 1
4 pages
Inroduction To Data Science
No ratings yet
Inroduction To Data Science
62 pages
Data Science
No ratings yet
Data Science
18 pages
Session 1819
No ratings yet
Session 1819
47 pages
Anu Data Scie
No ratings yet
Anu Data Scie
32 pages
Basics of Data Science KPK
No ratings yet
Basics of Data Science KPK
38 pages
DSF 1-2
No ratings yet
DSF 1-2
28 pages
File
No ratings yet
File
27 pages
Ds Intro KK
No ratings yet
Ds Intro KK
11 pages
ACC 222 Costing
No ratings yet
ACC 222 Costing
17 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
7 pages
Data Science Ppt1 Update
No ratings yet
Data Science Ppt1 Update
67 pages
What Is Data Science
No ratings yet
What Is Data Science
8 pages
Cross Coverage
No ratings yet
Cross Coverage
31 pages
Bearing Cross Reference PDF
100% (2)
Bearing Cross Reference PDF
21 pages
Data Science
No ratings yet
Data Science
6 pages
The Neural Substrates of Religious Experience: John Rabin, M.D
No ratings yet
The Neural Substrates of Religious Experience: John Rabin, M.D
13 pages
CoSM Vision Plan 2018 Small
No ratings yet
CoSM Vision Plan 2018 Small
64 pages
Blending in Perfectly - Jackson Tegu - 2020sep
0% (1)
Blending in Perfectly - Jackson Tegu - 2020sep
8 pages
Introduction To Data Science What Is Data Science?
No ratings yet
Introduction To Data Science What Is Data Science?
11 pages
UNIT - 2 - Material
No ratings yet
UNIT - 2 - Material
252 pages
50 Quick Ideas
No ratings yet
50 Quick Ideas
216 pages
2015 HK
No ratings yet
2015 HK
20 pages
1 1 Intro To Data and Data Science Course Notes
No ratings yet
1 1 Intro To Data and Data Science Course Notes
8 pages
CSO (160311) - Unit 1
No ratings yet
CSO (160311) - Unit 1
134 pages
What Is Data Science
No ratings yet
What Is Data Science
13 pages
ICOMOS, 2004. The WHL Filling The Gaps
No ratings yet
ICOMOS, 2004. The WHL Filling The Gaps
98 pages
Unit - 3 Digital Electronics - All
No ratings yet
Unit - 3 Digital Electronics - All
121 pages
SPM Unit2
No ratings yet
SPM Unit2
17 pages
CH-8a (GSchmidt)
No ratings yet
CH-8a (GSchmidt)
76 pages
Varm All 300 English-1
No ratings yet
Varm All 300 English-1
26 pages
Assessment Recording Sheet and Data Tracker: Created by Primary Junction
No ratings yet
Assessment Recording Sheet and Data Tracker: Created by Primary Junction
7 pages
Unit 4 Part 1
No ratings yet
Unit 4 Part 1
62 pages
209-Article Text-803-1-10-20220211
No ratings yet
209-Article Text-803-1-10-20220211
12 pages
Resume Columbia
No ratings yet
Resume Columbia
1 page
Unit 2 Digital Electronics
No ratings yet
Unit 2 Digital Electronics
37 pages
16 MM MS Plate 355 JR - India-MTC
No ratings yet
16 MM MS Plate 355 JR - India-MTC
1 page
Unit 4 Part 2
No ratings yet
Unit 4 Part 2
24 pages
MasterEase 3503 v1
No ratings yet
MasterEase 3503 v1
2 pages
IRD Project 1
No ratings yet
IRD Project 1
16 pages
Tamil Sangam
No ratings yet
Tamil Sangam
3 pages
Imiforce 200 SC
No ratings yet
Imiforce 200 SC
5 pages
Planetarium Paradigm Shift
No ratings yet
Planetarium Paradigm Shift
6 pages
Python Basics
No ratings yet
Python Basics
15 pages
Private Placement Memorandum Manager
No ratings yet
Private Placement Memorandum Manager
4 pages
Resource Persons: Chief Patron Patron Chairman Convenor Co-Convenors
No ratings yet
Resource Persons: Chief Patron Patron Chairman Convenor Co-Convenors
2 pages
General Ledger Conversion Document - Workday Community
No ratings yet
General Ledger Conversion Document - Workday Community
7 pages
Samba de Verão & Wave - Sax
No ratings yet
Samba de Verão & Wave - Sax
2 pages
Objective:: Lab#10: 7-Segment Display SSUET/QR/114
No ratings yet
Objective:: Lab#10: 7-Segment Display SSUET/QR/114
4 pages
Mohit SOP (University of Adelaide)
No ratings yet
Mohit SOP (University of Adelaide)
2 pages
Alliance Supplier Guide 2.3
No ratings yet
Alliance Supplier Guide 2.3
3 pages
"Big Data Science" Basic Concepts and Applications
From Everand
"Big Data Science" Basic Concepts and Applications
Sukanta Bhattacharya
No ratings yet
Data Analytics for Businesses 2019: Master Data Science with Optimised Marketing Strategies using Data Mining Algorithms (Artificial Intelligence, Machine Learning, Predictive Modelling and more)
From Everand
Data Analytics for Businesses 2019: Master Data Science with Optimised Marketing Strategies using Data Mining Algorithms (Artificial Intelligence, Machine Learning, Predictive Modelling and more)
Riley Adams
5/5 (1)
Mastering Data Science with Python: The Ultimate Guide: Unlock the Power of Data Analysis and Visualization with Python's Cutting-Edge Tools and Techniques
From Everand
Mastering Data Science with Python: The Ultimate Guide: Unlock the Power of Data Analysis and Visualization with Python's Cutting-Edge Tools and Techniques
daniel Huston
No ratings yet

Unit 1 Part 1

Uploaded by

Unit 1 Part 1

Uploaded by

Introduction to

You might also like