0% found this document useful (0 votes)

18 views2 pages

Ds Short

The document outlines the challenges in data processing, including volume, variety, velocity, veracity, and value. It defines data science as an interdisciplinary field and describes roles in a data science project, such as data engineer and data scientist. Additionally, it discusses data types, collection, management, regression analysis, common errors in data handling, and the importance of model maintenance.

Uploaded by

praisikamahendran13568

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views2 pages

Ds Short

Uploaded by

praisikamahendran13568

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

1.

Different Facets of Data and Challenges in Processing

 Volume: Handling large datasets requires efficient storage and computing power.
 Variety: Data can be structured, unstructured, or semi-structured, requiring different
processing techniques.
 Velocity: Real-time data streams need fast processing.
 Veracity: Ensuring data accuracy and reliability is challenging.
 Value: Extracting meaningful insights from raw data is complex.

2. Statistical Description of Data

 Measures of Central Tendency: Mean, Median, Mode

 Measures of Dispersion: Variance, Standard Deviation, Range
 Shape of Data Distribution: Skewness, Kurtosis
 Correlation: Relationship between variables

3. Definition of Data Science

Data Science is an interdisciplinary field that combines statistics, programming, and domain
knowledge to extract insights and knowledge from structured and unstructured data using
analytical and machine learning techniques.

4. Use of Roles in a Data Science Project

 Data Engineer: Prepares and manages data pipelines.

 Data Scientist: Develops models and performs analysis.
 Machine Learning Engineer: Deploys and maintains models.
 Business Analyst: Interprets insights for business decisions.

5. Difference Between Structured and Unstructured Data

Feature Structured Data Unstructured Data

Format Well-organized (tables, rows, columns) Freeform (text, images, videos)
Storage Relational Databases (SQL) NoSQL, Data Lakes
Processing Easier to analyze Complex analysis required
Example Sales records, Customer details Social media posts, Emails

6. Short Notes on Data Collection and Management

 Data Collection: Gathering data from various sources (surveys, IoT, databases).
 Data Cleaning: Handling missing values, duplicates, and inconsistencies.
 Data Storage: Using databases, data warehouses, or cloud storage.
 Data Governance: Ensuring data security, privacy, and compliance.

7. Difference Between Simple Regression and Multiple Regression

Feature Simple Regression Multiple Regression

Number of One independent variable Two or more independent variables
Feature Simple Regression Multiple Regression
Predictors
Complexity Easier to interpret More complex
Predicting house price Predicting house price based on area, location,
Example
based on area and number of rooms

8. Common Errors in Data Retrieval and Cleansing Solutions

 Missing Data → Use imputation or remove incomplete records

 Duplicate Data → Identify and remove duplicates
 Inconsistent Data → Standardize formats and correct errors
 Outliers → Detect and handle using statistical methods
 Encoding Errors → Convert data to a consistent format

9. Model Maintenance and Relevance

 Difficulty: Models degrade over time due to changing data patterns.

 Lifespan: If left untouched, models may remain relevant for weeks to months,
depending on data drift.
 Solution: Regular retraining, monitoring for concept drift, and updating features.

10. Statistical Description of Data

o Central Tendency: Mean, Median, Mode

o Dispersion: Range, Variance, Standard Deviation

o Distribution: Histogram, Box Plot

o Correlation: Pearson, Spearman

Data Science PDF
No ratings yet
Data Science PDF
11 pages
Evolution of Entrepreneurship: The 17 Century The Middle Ages The Earliest Stage
0% (1)
Evolution of Entrepreneurship: The 17 Century The Middle Ages The Earliest Stage
2 pages
What Is Data Science
No ratings yet
What Is Data Science
13 pages
FM Modulators: Experiment 7
100% (2)
FM Modulators: Experiment 7
17 pages
IPD Products For Caterpillar Spark Ignited Engines: The Standard For Quality, Innovation, Service and Support Since 1955
No ratings yet
IPD Products For Caterpillar Spark Ignited Engines: The Standard For Quality, Innovation, Service and Support Since 1955
52 pages
CAPE Computer Science Unit 1 - Proposal
No ratings yet
CAPE Computer Science Unit 1 - Proposal
2 pages
Final Industrial Report
No ratings yet
Final Industrial Report
34 pages
Sem 6
No ratings yet
Sem 6
12 pages
Data Science Course in Hyderabad
No ratings yet
Data Science Course in Hyderabad
9 pages
Data-Science-Report - Priyesh
No ratings yet
Data-Science-Report - Priyesh
32 pages
File
No ratings yet
File
27 pages
TRAINING Report
No ratings yet
TRAINING Report
32 pages
Use of Modified Bitumen in Highway Construction: Minakshi Singhal Yudhvir Yadav
No ratings yet
Use of Modified Bitumen in Highway Construction: Minakshi Singhal Yudhvir Yadav
7 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
#10 - Energy Balance - 01 (Rev01)
No ratings yet
#10 - Energy Balance - 01 (Rev01)
48 pages
Unit I
No ratings yet
Unit I
52 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
DS Unit 1
No ratings yet
DS Unit 1
35 pages
Transfluid Clutch in 1412TP
No ratings yet
Transfluid Clutch in 1412TP
4 pages
2023 NEC Code Changes
75% (4)
2023 NEC Code Changes
46 pages
2 Literature Review
No ratings yet
2 Literature Review
15 pages
Kruthika CV
No ratings yet
Kruthika CV
4 pages
MLM FDS
No ratings yet
MLM FDS
19 pages
Suntech Infra Company Profile
No ratings yet
Suntech Infra Company Profile
54 pages
Introduction Data Science Edited
No ratings yet
Introduction Data Science Edited
33 pages
FDS For Sem
No ratings yet
FDS For Sem
11 pages
Dsdm-Unit1 241031 194317
No ratings yet
Dsdm-Unit1 241031 194317
38 pages
Data Science
No ratings yet
Data Science
10 pages
Internship Report: T.J.Instituteoftechnology
No ratings yet
Internship Report: T.J.Instituteoftechnology
29 pages
BITSAT Preference Sheet 2021
No ratings yet
BITSAT Preference Sheet 2021
4 pages
File of ML
No ratings yet
File of ML
42 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
21CS64 Data Science and Visualization (PE)
No ratings yet
21CS64 Data Science and Visualization (PE)
37 pages
Test 03a
No ratings yet
Test 03a
4 pages
Data Science & Cyber Security
No ratings yet
Data Science & Cyber Security
13 pages
Fd45092a Ccad 459e Bc18 B01536fd6bac Untitled
No ratings yet
Fd45092a Ccad 459e Bc18 B01536fd6bac Untitled
53 pages
اخلاق طبابت
No ratings yet
اخلاق طبابت
230 pages
Botany in Berlin
100% (1)
Botany in Berlin
285 pages
Module1 Data Science
No ratings yet
Module1 Data Science
15 pages
Data Science and Analytics Reviewer
No ratings yet
Data Science and Analytics Reviewer
5 pages
Data Science Notes
No ratings yet
Data Science Notes
3 pages
What Is Data Science?
No ratings yet
What Is Data Science?
94 pages
FITA - Academy - UI UX Design
No ratings yet
FITA - Academy - UI UX Design
17 pages
Data Science Notes 1
No ratings yet
Data Science Notes 1
3 pages
Impact of Data Science Across Industries
No ratings yet
Impact of Data Science Across Industries
3 pages
II CSE - A&B (96) DS-int 1 QP ANS-set1
No ratings yet
II CSE - A&B (96) DS-int 1 QP ANS-set1
7 pages
Data Engineer - Ireland
No ratings yet
Data Engineer - Ireland
3 pages
5th Sem Internship Eport
No ratings yet
5th Sem Internship Eport
83 pages
DS - Unit I
No ratings yet
DS - Unit I
3 pages
Procurement Profile
No ratings yet
Procurement Profile
18 pages
Introduction To Data Science - 23CSH-283
100% (1)
Introduction To Data Science - 23CSH-283
48 pages
BY:-Walabuma Lenjiso: Advisor
No ratings yet
BY:-Walabuma Lenjiso: Advisor
22 pages
Dynamic Fluid Pulsation
No ratings yet
Dynamic Fluid Pulsation
17 pages
Week 1 - Lecture Prinsip Perakaunan Principles of Accounting (Bt11003)
No ratings yet
Week 1 - Lecture Prinsip Perakaunan Principles of Accounting (Bt11003)
30 pages
Module 2
No ratings yet
Module 2
49 pages
Project-Description-for-Scoping MCTEP
No ratings yet
Project-Description-for-Scoping MCTEP
33 pages
DTS 201 Lecture Note
No ratings yet
DTS 201 Lecture Note
24 pages
Fundamental of Data Science
No ratings yet
Fundamental of Data Science
20 pages
Data Science Process Stages Lecture 2
No ratings yet
Data Science Process Stages Lecture 2
4 pages
Miraña Genus Aeromonas
No ratings yet
Miraña Genus Aeromonas
1 page
Dsur Ea2352001010391 W3
No ratings yet
Dsur Ea2352001010391 W3
3 pages
He Sas 1
No ratings yet
He Sas 1
3 pages
K. Palepu - Business Analysis Valuation - Ch.1
No ratings yet
K. Palepu - Business Analysis Valuation - Ch.1
40 pages
Data Science Management - Vss
No ratings yet
Data Science Management - Vss
84 pages
Prediction of Compressive Strength of Concrete With Agricultural Waste and Natural Fibre 2024
No ratings yet
Prediction of Compressive Strength of Concrete With Agricultural Waste and Natural Fibre 2024
5 pages
2-Array (E-Next - In)
No ratings yet
2-Array (E-Next - In)
40 pages
CNC Milling Practical Marking Scheme
No ratings yet
CNC Milling Practical Marking Scheme
14 pages
Data Science Module 1 Q & A
No ratings yet
Data Science Module 1 Q & A
16 pages
Data Science
No ratings yet
Data Science
14 pages
Quran & Prime Numbers - Part 2
No ratings yet
Quran & Prime Numbers - Part 2
6 pages
01 Introduction
No ratings yet
01 Introduction
7 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
Wa0001.
No ratings yet
Wa0001.
9 pages
Data Science
No ratings yet
Data Science
14 pages
IoT 2m
No ratings yet
IoT 2m
4 pages
Ai For IT Coders
No ratings yet
Ai For IT Coders
18 pages
Ds Report
No ratings yet
Ds Report
5 pages
Se Project Repot
No ratings yet
Se Project Repot
22 pages
Ixs8h l8mgc
No ratings yet
Ixs8h l8mgc
40 pages
Data Science
No ratings yet
Data Science
10 pages
DS 3-Marks Semeseter Suggestion
No ratings yet
DS 3-Marks Semeseter Suggestion
54 pages
Extreme Programming (XP) Process
No ratings yet
Extreme Programming (XP) Process
14 pages
Data Science
No ratings yet
Data Science
11 pages
Ase Lab Upto 3 Completed
No ratings yet
Ase Lab Upto 3 Completed
20 pages
Dir Ex1
No ratings yet
Dir Ex1
20 pages
Project 1234
No ratings yet
Project 1234
58 pages
EX - NO:1 Date: Write A Problem Statement To Define A Title of The Project With Bounded Scope of The Project Aim
No ratings yet
EX - NO:1 Date: Write A Problem Statement To Define A Title of The Project With Bounded Scope of The Project Aim
16 pages
Data Science
No ratings yet
Data Science
5 pages
Data Science
No ratings yet
Data Science
17 pages
Foundations of Data Science
No ratings yet
Foundations of Data Science
138 pages
Unit 1 Introduction To Datascience
No ratings yet
Unit 1 Introduction To Datascience
14 pages
Q1. Explain Data Science Process Along With Detailed Diagram
No ratings yet
Q1. Explain Data Science Process Along With Detailed Diagram
7 pages
Foundations Data Science 2 Marks Complete
No ratings yet
Foundations Data Science 2 Marks Complete
4 pages
Detailed Explanation: IR Vs Web Search Vs Web
No ratings yet
Detailed Explanation: IR Vs Web Search Vs Web
15 pages
Working With Data From Files in R
No ratings yet
Working With Data From Files in R
1 page
Data Science Unit 01
No ratings yet
Data Science Unit 01
19 pages
2018 HotelMarketingGuide FINAL
No ratings yet
2018 HotelMarketingGuide FINAL
12 pages

Ds Short

Uploaded by

Ds Short

Uploaded by

1.

Different Facets of Data and Challenges in Processing

2. Statistical Description of Data

 Measures of Central Tendency: Mean, Median, Mode

3. Definition of Data Science

4. Use of Roles in a Data Science Project

 Data Engineer: Prepares and manages data pipelines.

5. Difference Between Structured and Unstructured Data

Feature Structured Data Unstructured Data

6. Short Notes on Data Collection and Management

7. Difference Between Simple Regression and Multiple Regression

Feature Simple Regression Multiple Regression

8. Common Errors in Data Retrieval and Cleansing Solutions

 Missing Data → Use imputation or remove incomplete records

9. Model Maintenance and Relevance

 Difficulty: Models degrade over time due to changing data patterns.

10. Statistical Description of Data

o Central Tendency: Mean, Median, Mode

o Dispersion: Range, Variance, Standard Deviation

o Distribution: Histogram, Box Plot

o Correlation: Pearson, Spearman

You might also like