0% found this document useful (0 votes)

8 views9 pages

BIDA Thoerypdf

The document outlines various data analysis techniques using tools like Microsoft Excel, R, and Python, covering topics such as pivot tables, what-if analysis, decision tree classification, clustering, regression, and data visualization. It highlights applications in financial reporting, sales analysis, customer segmentation, and more, emphasizing the importance of data staging and OLAP models for efficient data management. Each section provides a brief overview of methods, key concepts, and practical applications in business intelligence and analytics.

Uploaded by

sharmahritesh4014

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views9 pages

BIDA Thoerypdf

Uploaded by

sharmahritesh4014

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Prac_1: Data Analysis Using Microsoft Excel

● Pivot Tables: A tool to summarize large datasets by grouping, filtering, and

organizing data into meaningful categories like totals, averages, and counts.
● Pivot Charts: Graphical representations of Pivot Table data, enabling visual analysis
of trends and patterns.
● Data Cubes: Multidimensional data models that store data across multiple
dimensions (e.g., time, product, region) for faster analysis.

Applications:

● Financial reporting: Summarizing company expenses and revenues.

● Sales analysis: Tracking performance by region or product.
● Inventory management: Analyzing stock levels and trends over time.

Prac_2: What-If Analysis Using Excel

● What-if Analysis: A feature in Excel that allows users to explore different scenarios
by changing input variables and seeing how they affect the outcome.
● Scenario Manager: Enables creating and comparing multiple possible outcomes
(e.g., best-case, worst-case scenarios).
● Goal Seek: Helps in determining the required input value to achieve a desired result
by adjusting other variables.

Applications:

● Budget forecasting: Evaluating the impact of different cost assumptions.

● Profit maximization: Analyzing how price changes affect profits.
● Loan repayment planning: Calculating how varying interest rates influence loan
payments.
Prac_3: - Perform the data classification using classification algorithm using R.

Decision Tree Classification:

1. A decision tree is a supervised learning model used for classification or regression.
2. It works by recursively splitting the data based on feature values, creating a tree-like
structure.
3. Each internal node represents a decision on a feature, each branch represents an
outcome, and leaf nodes represent the predicted class.

Applications:

1. Customer segmentation,

2. Medical diagnosis,
3. credit risk assessment.

Prac_4: - Perform the data clustering using a clustering algorithm using R.

Clustering Overview:

1. Clustering is an unsupervised learning technique used to group similar data points
into clusters based on their features.
2. Unlike supervised learning, clustering does not require labeled data or predefined
classes. Instead, the algorithm identifies inherent patterns or groupings in the dataset.
3. Common clustering algorithms include K-Means, Hierarchical Clustering, and
DBSCAN.

Applications of Clustering:

1. Customer segmentation in marketing.

2. Image and pattern recognition.

3. Document classification.

4. Social network analysis.

Steps for K-Means:

1. Dataset: The table contains Height and Weight values of individuals, serving as input
features.

2. Initialization:

o Number of clusters: K = 2.

o Initial centroids are randomly chosen:

▪ K1: (185, 72).

▪ K2: (170, 56).

3. Step 1: Calculate Euclidean Distance: For each data point, calculate its distance
from K1 and K2 using the Euclidean distance formula:

Example: For data point (162, 60),

Assign the point to the nearest cluster.

4. Step 2: Update Centroids: Compute the new centroid for each cluster by averaging
the Height and Weight of all points in the cluster.
Example for K2:

5. Step 3: Repeat: Recalculate distances using the updated centroids and reassign points
to clusters. Update centroids iteratively until cluster assignments stabilize.

6. Final Clusters:

o K1: Data points {1, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

o K2: Data points {2, 3}.

Prac_5: - Perform the Linear regression on the given data warehouse data using R.

Regression Theory

1. Regression is a supervised learning technique used to model the relationship between
a dependent variable (target) and one or more independent variables (predictors).
2. It helps predict outcomes and understand how variables are related.

Key Concepts:

● Dependent Variable: The variable we aim to predict (e.g., annual profit).

● Independent Variables: The variables used to make predictions (e.g., profit per
month, cost per product).

● Applications: Forecasting (e.g., stock prices, sales), understanding trends, and

decision-making in business or science.

Types of Regression

1. Linear Regression:

o Used for predicting numerical/continuous values.

o Fits the best line through the data points, minimizing the error (distance
between predicted and actual values).

Example: Predicting a company’s annual profit based on monthly profit.

2. Logistic Regression:

o Used for predicting categorical outcomes (e.g., yes/no).

o Outputs probabilities (0 to 1) that are converted into classes.

Example: Will a customer buy a product (yes or no)?

Prac_6: Perform the logistic regression on the given data warehouse data using
R/Python.

● Logistic regression models the relationship between a binary dependent variable and
one or more independent variables using a sigmoid function:

It is commonly used for classification tasks.

Steps:

1. Import libraries (pandas, sklearn).

2. Load and preprocess the dataset (handle missing values, encode categorical variables).
3. Split data into training and testing sets.
4. Train a logistic regression model using LogisticRegression from sklearn.
5. Predict and evaluate the model using metrics like accuracy and confusion matrix.
Prac_7: Python Program for Data Analysis Using Pandas

● CSV Handling: Reading and analyzing data from CSV files using the Pandas library
in Python, which provides efficient data manipulation tools.
● Dataframes: Pandas dataframes are two-dimensional structures that simplify data
filtering, sorting, and grouping for analysis.
● Basic Insights: Pandas offers methods for generating insights, like statistical
summaries, correlation analysis, and data visualization.

Applications:

● Data cleaning and preprocessing: Preparing datasets for machine learning or

reporting.
● Financial analysis: Analyzing stock price trends or revenue growth.
● Customer behavior analysis: Segmenting customers based on purchase history.

Prac_8: Data Visualization

a. Python Visualization

● Matplotlib/Seaborn: Libraries in Python used for creating plots like bar charts, line
graphs, and heatmaps to visualize patterns in data.
● Customization: Offers flexibility in styling, labeling, and formatting graphs for better
clarity.
● Interactive Visualizations: Tools like Plotly enable interactive graphs for better
insights.

Applications:

● Sales performance visualization: Tracking sales growth or dips over time.

● Marketing campaigns: Analyzing engagement rates across different regions or
demographics.
● Operational efficiency: Monitoring performance metrics in real-time dashboards.
b. PowerBI Visualization

● Data Dashboards: PowerBI is a business intelligence tool that creates interactive

dashboards to provide real-time insights.
● Data Connection: Integrates with multiple data sources like SQL databases, Excel,
and cloud services.
● Interactive Reports: Allows users to drill down into the data and create customized
reports tailored to their needs.

Applications:

● Executive dashboards: Real-time monitoring of business KPIs.

● Financial analysis: Visualizing monthly or quarterly performance for stakeholders.
● Customer analytics: Creating dashboards for customer satisfaction and retention
analysis.

Prac_9: Data Staging Using SQL

● Data Staging: The process of cleaning, transforming, and loading data from various
sources into a staging area before loading it into a data warehouse.
● ETL (Extract, Transform, Load): Involves extracting raw data, transforming it
(cleaning, filtering, merging), and loading it into the destination database.
● Optimization: Data is optimized for faster querying and analysis by organizing it in
staging tables, removing duplicates, and ensuring consistency.

Applications:

● Data warehousing: Prepares data for storage in large-scale data warehouses.

● Reporting systems: Ensures accurate and timely data is available for generating
reports.
● Business intelligence: Supports decision-making by staging clean and structured data
for analysis.
Prac_10: Cube Creation and OLAP Models

● Data Cubes: Multidimensional data storage models that allow for fast querying and
analysis by aggregating data across different dimensions (e.g., time, location).
● ROLAP, MOLAP, HOLAP:
○ ROLAP (Relational OLAP) uses relational databases for data storage.
○ MOLAP (Multidimensional OLAP) uses pre-calculated cubes for fast
querying.
○ HOLAP (Hybrid OLAP) combines both approaches to balance performance
and storage.
● Cube Dimensions and Facts: Dimensions represent perspectives like time or
product, while fact tables store quantitative data like sales or revenue.

Applications:

● Retail analysis: Analyzing sales across different stores and time periods.
● Financial planning: Summarizing revenue, expenses, and profit margins across
regions.
● Inventory management: Tracking product demand and stock levels over multiple
dimensions.

Big Data Analytics Algorithm, Tools in Systematic Review
No ratings yet
Big Data Analytics Algorithm, Tools in Systematic Review
7 pages
BI 04 Merged
No ratings yet
BI 04 Merged
28 pages
Analytics 02011 Learning Path - Curriculum (6632)
No ratings yet
Analytics 02011 Learning Path - Curriculum (6632)
22 pages
BI Journal KC
No ratings yet
BI Journal KC
38 pages
BI 19 Priya
No ratings yet
BI 19 Priya
28 pages
Data Science Course Agenda
No ratings yet
Data Science Course Agenda
29 pages
DSP Detailed Curriculum
No ratings yet
DSP Detailed Curriculum
1 page
Ivy - Data Science and Data Visualization Certification Course
100% (1)
Ivy - Data Science and Data Visualization Certification Course
10 pages
BDM Curriculum 1665047518017
No ratings yet
BDM Curriculum 1665047518017
2 pages
Lecture 01 2025 Introduction
No ratings yet
Lecture 01 2025 Introduction
27 pages
Viva Preparation Notes
No ratings yet
Viva Preparation Notes
6 pages
Comprehensive Data Analysis Course Roadmap
No ratings yet
Comprehensive Data Analysis Course Roadmap
4 pages
Final Course Outline - Data Analytics B
No ratings yet
Final Course Outline - Data Analytics B
31 pages
Final Course Outline - Data Analytics B
No ratings yet
Final Course Outline - Data Analytics B
31 pages
Data Science Training in Hyderabad
No ratings yet
Data Science Training in Hyderabad
7 pages
Report Shawari
No ratings yet
Report Shawari
10 pages
Explore and Transform Data Based On Rows - Transcript
No ratings yet
Explore and Transform Data Based On Rows - Transcript
3 pages
KPMG DSP e Brochure
No ratings yet
KPMG DSP e Brochure
6 pages
Data Science Course Content Chapter 1: Introduction To Data Science
No ratings yet
Data Science Course Content Chapter 1: Introduction To Data Science
8 pages
Step by Step Data Wrangling
No ratings yet
Step by Step Data Wrangling
4 pages
50 Interview Questions & Answers!
No ratings yet
50 Interview Questions & Answers!
52 pages
Steps in The Implementation of Data Analysis
No ratings yet
Steps in The Implementation of Data Analysis
2 pages
Advanced Certification in Data Science (213 Hours) 75,999
No ratings yet
Advanced Certification in Data Science (213 Hours) 75,999
5 pages
Data Analyst Roadmap New
No ratings yet
Data Analyst Roadmap New
9 pages
Data Analysis
No ratings yet
Data Analysis
36 pages
Business Data Analytics Part 4
No ratings yet
Business Data Analytics Part 4
52 pages
Girish Data Scientist 1
No ratings yet
Girish Data Scientist 1
3 pages
CU Data Science
No ratings yet
CU Data Science
8 pages
Certified Business Analytics Professional Course Curriculum: Topic What Does It Mean? Introduction To Business Analytics
No ratings yet
Certified Business Analytics Professional Course Curriculum: Topic What Does It Mean? Introduction To Business Analytics
3 pages
Executive Program in Data Science & Data Analytics Along With Python
No ratings yet
Executive Program in Data Science & Data Analytics Along With Python
21 pages
All Units MAAL BDA - Chatgpt
No ratings yet
All Units MAAL BDA - Chatgpt
17 pages
Data Analytics Roadmap
No ratings yet
Data Analytics Roadmap
8 pages
Datascience and Machine Learning
No ratings yet
Datascience and Machine Learning
8 pages
R Lect1 Introduction
No ratings yet
R Lect1 Introduction
16 pages
Unit 2
No ratings yet
Unit 2
48 pages
Assignment Solution 074
No ratings yet
Assignment Solution 074
8 pages
Lab Manual FOR CSE 355/ Data Science Professional Certification Name
No ratings yet
Lab Manual FOR CSE 355/ Data Science Professional Certification Name
20 pages
CPrime Burndown Template
No ratings yet
CPrime Burndown Template
1 page
Ba Theory
No ratings yet
Ba Theory
10 pages
Tyit BI Practical File
No ratings yet
Tyit BI Practical File
60 pages
DS Curriculum
No ratings yet
DS Curriculum
4 pages
BI Practical Journal Final-1
No ratings yet
BI Practical Journal Final-1
53 pages
Course 5: Quantitative Techniques For Decision Making - Ii (Machine Learning Techniques)
No ratings yet
Course 5: Quantitative Techniques For Decision Making - Ii (Machine Learning Techniques)
5 pages
Bi Practical
No ratings yet
Bi Practical
31 pages
Ds Final
No ratings yet
Ds Final
3 pages
Unit 1 Introduction To BA
No ratings yet
Unit 1 Introduction To BA
33 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
Oe Cae 3
No ratings yet
Oe Cae 3
7 pages
CS3352 Foundations of Data Science APRIL MAY 2023
No ratings yet
CS3352 Foundations of Data Science APRIL MAY 2023
16 pages
Girish Data Scientist
No ratings yet
Girish Data Scientist
3 pages
Presentation 1
No ratings yet
Presentation 1
14 pages
Data Analysis Roadmap
No ratings yet
Data Analysis Roadmap
2 pages
DA unit-II
No ratings yet
DA unit-II
15 pages
Master Data Analytics
No ratings yet
Master Data Analytics
17 pages
Data Analytics Syllabus
No ratings yet
Data Analytics Syllabus
12 pages
Data Analytics
No ratings yet
Data Analytics
30 pages
Unit 1 - Exploratory Data Analysis Fundamentals
No ratings yet
Unit 1 - Exploratory Data Analysis Fundamentals
47 pages
Microsoft Certified: Power BI Data Analyst Associate PL 300 Practice Tests
From Everand
Microsoft Certified: Power BI Data Analyst Associate PL 300 Practice Tests
CertSquad Professional Trainers
No ratings yet
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
From Everand
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
WINTON CLEM
No ratings yet
Practical Data Strategies and Recipes
From Everand
Practical Data Strategies and Recipes
Tom Henricksen
No ratings yet
Chapter 3: Semiconductors: Electronic Materials
No ratings yet
Chapter 3: Semiconductors: Electronic Materials
12 pages
Oct-2023 Tybsc Cs 363 Web Technologies II
No ratings yet
Oct-2023 Tybsc Cs 363 Web Technologies II
2 pages
Well - Stimulation Techniques - For Geothermal - Projects in Sedimentary Basins
No ratings yet
Well - Stimulation Techniques - For Geothermal - Projects in Sedimentary Basins
175 pages
Diborane: Click To Edit Master Subtitle Style
No ratings yet
Diborane: Click To Edit Master Subtitle Style
36 pages
Jaa Principles of Flight Demo
No ratings yet
Jaa Principles of Flight Demo
7 pages
Polarization Index Value Measurement
No ratings yet
Polarization Index Value Measurement
12 pages
Tree
No ratings yet
Tree
7 pages
Section 2.0 - Specifications Square Drive Tools: W ENG-5525-056 AD) Page 6 of 40 Eng Us
No ratings yet
Section 2.0 - Specifications Square Drive Tools: W ENG-5525-056 AD) Page 6 of 40 Eng Us
3 pages
Book List For Iit Jee
100% (2)
Book List For Iit Jee
13 pages
Projectile Motion (Lecture Note)
No ratings yet
Projectile Motion (Lecture Note)
16 pages
General Principles of Machine Tool Design
100% (1)
General Principles of Machine Tool Design
16 pages
Henry Martin: 2013 Hyundai Veloster
No ratings yet
Henry Martin: 2013 Hyundai Veloster
2 pages
CFD Sample Answer
No ratings yet
CFD Sample Answer
3 pages
Problem Set 1 General Equilibrium
No ratings yet
Problem Set 1 General Equilibrium
2 pages
Non-Invasive Cylicon (Cylinder and Cone) Antenna For Blood Glucose Monitoring
No ratings yet
Non-Invasive Cylicon (Cylinder and Cone) Antenna For Blood Glucose Monitoring
5 pages
38_SAE International Journal of Passenger Cars - Mechanical Systems Volume 7 Issue 1 2014 [Doi 10.4271_2014!01!0872] Li, Bin; Yang, Xiaobo; Yang, James -- Tire Model Application and Parameter Identific
No ratings yet
38_SAE International Journal of Passenger Cars - Mechanical Systems Volume 7 Issue 1 2014 [Doi 10.4271_2014!01!0872] Li, Bin; Yang, Xiaobo; Yang, James -- Tire Model Application and Parameter Identific
13 pages
Physical Chemistr y Inorganic Chemistr y Organic Chemistr Y: Class XII
No ratings yet
Physical Chemistr y Inorganic Chemistr y Organic Chemistr Y: Class XII
1 page
Vibration of Single Degree of Freedom System
No ratings yet
Vibration of Single Degree of Freedom System
31 pages
TG - Momentum, Acceleration
No ratings yet
TG - Momentum, Acceleration
25 pages
Software Engineering
100% (2)
Software Engineering
185 pages
Dell Inspiron n5110 m5110 Dq15 Wistron Queen 15 Intel Discrete Uma Sandy Bridge Rev A00 SCH
No ratings yet
Dell Inspiron n5110 m5110 Dq15 Wistron Queen 15 Intel Discrete Uma Sandy Bridge Rev A00 SCH
108 pages
Vector Addition Activity
No ratings yet
Vector Addition Activity
4 pages
Fire Protection System
No ratings yet
Fire Protection System
60 pages
British Standard: A Single Copy of This British Standard Is Licensed To Giorgio Cavalieri On March 15, 2001
No ratings yet
British Standard: A Single Copy of This British Standard Is Licensed To Giorgio Cavalieri On March 15, 2001
21 pages
CLS Aipmt-18-19 XII Phy Study-Package-6 SET-2 Chapter-8 PDF
No ratings yet
CLS Aipmt-18-19 XII Phy Study-Package-6 SET-2 Chapter-8 PDF
17 pages
Waves Exam Q
0% (1)
Waves Exam Q
24 pages
An Introduction To Role Provisioning and De-Provisioning in Oracle Fusion HCM Cloud Application
No ratings yet
An Introduction To Role Provisioning and De-Provisioning in Oracle Fusion HCM Cloud Application
6 pages
Report
No ratings yet
Report
1 page
CPX27xx-0010: Installation and Operating Instructions - EN
No ratings yet
CPX27xx-0010: Installation and Operating Instructions - EN
39 pages
SwissProjectionGIS Version1 2
No ratings yet
SwissProjectionGIS Version1 2
6 pages

BIDA Thoerypdf

Uploaded by

BIDA Thoerypdf

Uploaded by

Prac_1: Data Analysis Using Microsoft Excel

●​ Pivot Tables: A tool to summarize large datasets by grouping, filtering, and

●​ Financial reporting: Summarizing company expenses and revenues.

Prac_2: What-If Analysis Using Excel

●​ Budget forecasting: Evaluating the impact of different cost assumptions.

Decision Tree Classification:

1.​ Customer segmentation,

Prac_4: - Perform the data clustering using a clustering algorithm using R.

1.​ Customer segmentation in marketing.

2.​ Image and pattern recognition.

3.​ Document classification.

Steps for K-Means:

o​ Initial centroids are randomly chosen:

▪​ K1: (185, 72).

▪​ K2: (170, 56).

Example: For data point (162, 60),

Assign the point to the nearest cluster.

6.​ Final Clusters:

o​ K1: Data points {1, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

o​ K2: Data points {2, 3}.

●​ Dependent Variable: The variable we aim to predict (e.g., annual profit).

●​ Applications: Forecasting (e.g., stock prices, sales), understanding trends, and

1.​ Linear Regression:

o​ Used for predicting numerical/continuous values.

Example: Predicting a company’s annual profit based on monthly profit.

2.​ Logistic Regression:

o​ Used for predicting categorical outcomes (e.g., yes/no).

o​ Outputs probabilities (0 to 1) that are converted into classes.

Example: Will a customer buy a product (yes or no)?

1.​ Import libraries (pandas, sklearn).

●​ Data cleaning and preprocessing: Preparing datasets for machine learning or

Prac_8: Data Visualization

●​ Sales performance visualization: Tracking sales growth or dips over time.

●​ Data Dashboards: PowerBI is a business intelligence tool that creates interactive

●​ Executive dashboards: Real-time monitoring of business KPIs.

Prac_9: Data Staging Using SQL

●​ Data warehousing: Prepares data for storage in large-scale data warehouses.

You might also like

● Pivot Tables: A tool to summarize large datasets by grouping, filtering, and

● Financial reporting: Summarizing company expenses and revenues.

● Budget forecasting: Evaluating the impact of different cost assumptions.

1. Customer segmentation,

1. Customer segmentation in marketing.

2. Image and pattern recognition.

3. Document classification.

o Initial centroids are randomly chosen:

▪ K1: (185, 72).

▪ K2: (170, 56).

6. Final Clusters:

o K1: Data points {1, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

o K2: Data points {2, 3}.

● Dependent Variable: The variable we aim to predict (e.g., annual profit).

● Applications: Forecasting (e.g., stock prices, sales), understanding trends, and

1. Linear Regression:

o Used for predicting numerical/continuous values.

2. Logistic Regression:

o Used for predicting categorical outcomes (e.g., yes/no).

o Outputs probabilities (0 to 1) that are converted into classes.

1. Import libraries (pandas, sklearn).

● Data cleaning and preprocessing: Preparing datasets for machine learning or

● Sales performance visualization: Tracking sales growth or dips over time.

● Data Dashboards: PowerBI is a business intelligence tool that creates interactive

● Executive dashboards: Real-time monitoring of business KPIs.

● Data warehousing: Prepares data for storage in large-scale data warehouses.