Module 5 - Data Analytics

The document provides an overview of Apache Pig, Hive, and HBase, highlighting their roles in big data analytics and processing. It discusses execution modes, data manipulation operators, and comparisons with traditional databases for Pig and Hive, while also detailing HBase's architecture and data modeling. Additionally, it introduces machine learning concepts, including supervised and unsupervised learning, as well as collaborative filtering techniques.

Uploaded by

Shreyas C.K

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views4 pages

Module 5 - Data Analytics

Uploaded by

Shreyas C.K

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

BIG DATA & ANALYTICS (ELECTIVE)

Unit -V

Apache Pig
Apache Pig is a high-level platform designed for analyzing large data sets using a simple
scripting language called Pig Latin. It runs on top of Apache Hadoop and provides an
abstraction over MapReduce, making it easier for developers to work with big data without
writing complex MapReduce programs. Pig is particularly valuable for ETL (Extract,
Transform, Load) operations and data pipeline creation.
Execution Modes
Pig offers two primary execution modes to accommodate different use cases:
1. Local Mode: In this mode, Pig runs on a single machine, making it ideal for testing
and development with smaller datasets. All files are processed from the local file
system.
2. MapReduce Mode: This is the production mode where Pig runs on a Hadoop cluster,
processing data from HDFS (Hadoop Distributed File System).
Comparison with Traditional Databases
Unlike traditional RDBMS systems that require structured data and predefined schemas, Pig
offers several advantages:
 Schema-on-read flexibility allows data structure to be defined when querying
 Native support for complex data types like bags, tuples, and maps
 Built-in support for ETL operations and data transformations
 Ability to handle semi-structured and unstructured data effectively
Pig Latin and Data Processing Operators
Pig Latin provides a rich set of operators for data manipulation:
 LOAD/STORE: For reading and writing data
 FILTER: For selecting specific records
 GROUP: For aggregating data
 JOIN: For combining datasets
 FOREACH: For transforming data records
 DISTINCT: For removing duplicates
Apache Hive
Apache Hive is a data warehouse infrastructure built on top of Hadoop that provides data
summarization, query, and analysis capabilities. It allows SQL developers to write familiar
queries while processing data stored in a distributed environment.
Hive Architecture Components
The Hive architecture consists of several key components:
1. Hive Shell: Command-line interface for executing HiveQL queries
2. Hive Services: Including HiveServer2 for client connections and query processing
3. Hive Metastore: Central repository storing metadata about tables, columns, partitions
HiveQL and Data Operations
HiveQL closely resembles SQL but with additional features for big data processing. Here's an
example of creating and querying a table:
Create a table for customer data
CREATE TABLE customers (
customer_id INT,
name STRING,
email STRING,
purchase_date DATE
)
PARTITIONED BY (country STRING);

Query to analyze customer purchases

SELECT country, COUNT(*) as customer_count,
AVG(purchase_amount) as avg_purchase
FROM customers
GROUP BY country
HAVING customer_count > 1000;

Comparison with Traditional Databases

Hive differs from traditional databases in several ways:
 Designed for large-scale data processing rather than transaction processing
 Schema-on-read approach allows flexible data handling
 Built-in support for Hadoop ecosystem integration
 Partitioning and bucketing features for optimizing large dataset queries
Apache HBase
HBase is a distributed, scalable, big data store designed for random, real-time read/write
access to large datasets. It's modeled after Google's BigTable and runs on top of HDFS.
Key Concepts
1. Tables: Data is organized into tables
2. Column Families: Columns are grouped into column families
3. Regions: Tables are horizontally split into regions
4. Row Keys: Each row has a unique identifier
Example of HBase data modeling:
// Creating a table
create 'users', 'profile', 'activity'
// Inserting data
put 'users', 'user123', 'profile:name', 'John Doe'
put 'users', 'user123', 'activity:last_login', '2025-02-14'
// Retrieving data
get 'users', 'user123'
HBase vs RDBMS
Key differences include:
 Schema-less data model
 Automatic sharding and distribution
 Built for horizontal scalability
 Optimized for high-throughput operations
Data Analytics with R and Machine Learning
Introduction to Machine Learning
Machine learning enables systems to learn from data without being explicitly programmed.
It's particularly valuable for discovering patterns and making predictions from large datasets.
Supervised Learning
In supervised learning, algorithms learn from labeled training data. Common applications
include:
Unsupervised Learning
Unsupervised learning finds hidden patterns in unlabeled data. Common techniques include:
 Clustering: Grouping similar data points
 Dimensionality Reduction: Reducing data complexity while preserving important
features
Collaborative Filtering
Collaborative filtering is used in recommendation systems to predict user preferences based
on similarities between users or items. Common approaches include:
 User-based: Finding similar users and recommending items they liked
 Item-based: Recommending items similar to those the user already likes

SI Modernization Scorecard
No ratings yet
SI Modernization Scorecard
43 pages
Apache HIVE
100% (1)
Apache HIVE
105 pages
Chapter 5 - Introducing Pig Pig Architecture
No ratings yet
Chapter 5 - Introducing Pig Pig Architecture
81 pages
Techlog Fundamentals Course Exercises
100% (1)
Techlog Fundamentals Course Exercises
10 pages
Hadoop Ecosystem
No ratings yet
Hadoop Ecosystem
55 pages
Hive - PIG - HBase - Zookeeper
100% (1)
Hive - PIG - HBase - Zookeeper
31 pages
Big Data Analytics Unit 4
No ratings yet
Big Data Analytics Unit 4
83 pages
BD - Unit - IV - Hive and Pig
No ratings yet
BD - Unit - IV - Hive and Pig
41 pages
Database Final Project Report
No ratings yet
Database Final Project Report
8 pages
Bda From Module 3
No ratings yet
Bda From Module 3
81 pages
Big Data Testing
100% (1)
Big Data Testing
34 pages
COPO
No ratings yet
COPO
164 pages
Mca 201 DBMS
No ratings yet
Mca 201 DBMS
67 pages
Unit-V CC&BD CS62
No ratings yet
Unit-V CC&BD CS62
73 pages
DA Unit-5
No ratings yet
DA Unit-5
78 pages
Unit 5 Bda
No ratings yet
Unit 5 Bda
42 pages
1st Monthly Exam Grade 7 ICT 2nd Grading Useng Edited
No ratings yet
1st Monthly Exam Grade 7 ICT 2nd Grading Useng Edited
2 pages
03 Database Management System Important Questions Answers
No ratings yet
03 Database Management System Important Questions Answers
35 pages
Unit 4 Hadoop Eco System PDF
No ratings yet
Unit 4 Hadoop Eco System PDF
78 pages
2 Unit 5
No ratings yet
2 Unit 5
24 pages
Big Data Analytics
No ratings yet
Big Data Analytics
20 pages
Unit 5 Lecture No-1 (Hive)
No ratings yet
Unit 5 Lecture No-1 (Hive)
30 pages
Unit 5 Lecture No-1 (Hive)
No ratings yet
Unit 5 Lecture No-1 (Hive)
30 pages
Current Log
No ratings yet
Current Log
27 pages
Bda 4 Og
No ratings yet
Bda 4 Og
18 pages
Big Data Analytics QP
No ratings yet
Big Data Analytics QP
36 pages
Final Doc Presentation Hive
No ratings yet
Final Doc Presentation Hive
20 pages
Hadoop Intro - Part1
No ratings yet
Hadoop Intro - Part1
45 pages
Session 3.1
No ratings yet
Session 3.1
29 pages
4-Big Data Management
No ratings yet
4-Big Data Management
40 pages
S Pig Hive HBase Zookeeper
No ratings yet
S Pig Hive HBase Zookeeper
19 pages
Case Study Pig Hive Hbase
No ratings yet
Case Study Pig Hive Hbase
15 pages
BDH Unit 3
No ratings yet
BDH Unit 3
16 pages
BDS Session 8
No ratings yet
BDS Session 8
49 pages
Unit 5 Bigdata
No ratings yet
Unit 5 Bigdata
14 pages
Bda Unit 5 Notes
No ratings yet
Bda Unit 5 Notes
20 pages
Unit 5 (Pig, Hive, Hbase)
No ratings yet
Unit 5 (Pig, Hive, Hbase)
18 pages
S Pig Hive HBase
No ratings yet
S Pig Hive HBase
19 pages
Enterprise Systems Emerging Technologies and The Data-Driven Knowledge Organisation
No ratings yet
Enterprise Systems Emerging Technologies and The Data-Driven Knowledge Organisation
14 pages
Bda Ia-3 QB-1
No ratings yet
Bda Ia-3 QB-1
17 pages
Reviewed Oracle 1z0 084 Dumps by Ware 01-04-2024 10qa Ebraindumps
No ratings yet
Reviewed Oracle 1z0 084 Dumps by Ware 01-04-2024 10qa Ebraindumps
23 pages
Big Data 4
No ratings yet
Big Data 4
14 pages
Data Security - Unstructured Data, Storage and Databases
No ratings yet
Data Security - Unstructured Data, Storage and Databases
37 pages
Big Data UNIT 5 Own
No ratings yet
Big Data UNIT 5 Own
18 pages
Session 3.2
No ratings yet
Session 3.2
27 pages
Unit 5 Short
No ratings yet
Unit 5 Short
14 pages
BD U-5 (Anupam Sir)
No ratings yet
BD U-5 (Anupam Sir)
12 pages
Apache Hive: An Introduction
No ratings yet
Apache Hive: An Introduction
51 pages
Unit 1
No ratings yet
Unit 1
19 pages
Data Analytics Chapter 5
No ratings yet
Data Analytics Chapter 5
14 pages
Design and Implementation of A Computerised Stadium Management Information System
No ratings yet
Design and Implementation of A Computerised Stadium Management Information System
33 pages
Unit-5 (1) BD
No ratings yet
Unit-5 (1) BD
18 pages
Unit V Notes
No ratings yet
Unit V Notes
17 pages
BDA Unit 5 Notes
No ratings yet
BDA Unit 5 Notes
19 pages
S Pig Hive HBase Zookeeper 07
No ratings yet
S Pig Hive HBase Zookeeper 07
21 pages
Unit 5-1
No ratings yet
Unit 5-1
8 pages
Bda 06
No ratings yet
Bda 06
15 pages
BDA Answers
No ratings yet
BDA Answers
10 pages
Big Data Analytics Using Hadoop Tools - Apache Hive VS Apache Pig - 1604726800
No ratings yet
Big Data Analytics Using Hadoop Tools - Apache Hive VS Apache Pig - 1604726800
5 pages
Hsslive-SAY-652 (Com. Sci. Infn. Tech.)
No ratings yet
Hsslive-SAY-652 (Com. Sci. Infn. Tech.)
8 pages
Statistic and Probability (Continuity)
No ratings yet
Statistic and Probability (Continuity)
16 pages
DS Interview Questions
No ratings yet
DS Interview Questions
5 pages
Apache HIVE
No ratings yet
Apache HIVE
5 pages
Unit 5
No ratings yet
Unit 5
4 pages
Cambridge International AS & A Level: Computer Science 9618/11
No ratings yet
Cambridge International AS & A Level: Computer Science 9618/11
9 pages
Generative AI Report Internship
No ratings yet
Generative AI Report Internship
4 pages
Introduction To Big Dat1
No ratings yet
Introduction To Big Dat1
6 pages
6 H Data With Hive Big Data Analytics B.tech. Final Year
No ratings yet
6 H Data With Hive Big Data Analytics B.tech. Final Year
24 pages
What Is Apache Pig
No ratings yet
What Is Apache Pig
8 pages
Big Data Overview
No ratings yet
Big Data Overview
39 pages
3 DBMS - Quest
No ratings yet
3 DBMS - Quest
19 pages
B.Sc. (Computer Science) SYLLABUS: Sem I S. No. Paper Code Paper Name
No ratings yet
B.Sc. (Computer Science) SYLLABUS: Sem I S. No. Paper Code Paper Name
11 pages
Half Yearly-Viii Comp MR
No ratings yet
Half Yearly-Viii Comp MR
2 pages
Dataware Housing and Data Mining Question
No ratings yet
Dataware Housing and Data Mining Question
8 pages
Akash Thumma Resumed
No ratings yet
Akash Thumma Resumed
1 page
Rahane 2018
No ratings yet
Rahane 2018
5 pages
TRAINIG
No ratings yet
TRAINIG
3 pages
NPTEL Assignment-Week 3
No ratings yet
NPTEL Assignment-Week 3
4 pages
Report On Hive of Apache
No ratings yet
Report On Hive of Apache
3 pages
Oracle® Database: Unplugging, Plugging, and Upgrading A PDB Toanewcdb
No ratings yet
Oracle® Database: Unplugging, Plugging, and Upgrading A PDB Toanewcdb
13 pages
Big Data Emerging Technologie
No ratings yet
Big Data Emerging Technologie
10 pages
Jni Qsee
No ratings yet
Jni Qsee
7 pages
Akhilesh Kumar Singh: Linkedin: Address: Havant, Hampshire, United Kingdom Post Code: PO9 1PR
No ratings yet
Akhilesh Kumar Singh: Linkedin: Address: Havant, Hampshire, United Kingdom Post Code: PO9 1PR
6 pages
Frequent CHECK TIMED OUT Status of Listener and DB Resources (Doc ID 1608197.1)
No ratings yet
Frequent CHECK TIMED OUT Status of Listener and DB Resources (Doc ID 1608197.1)
2 pages
Big Data Hadoop - Course Curriculum - V1
No ratings yet
Big Data Hadoop - Course Curriculum - V1
7 pages
Big Data Analytics
From Everand
Big Data Analytics
Nitin Kumar Yadav
No ratings yet
Apache Hive Handbook: Query, Analyze, and Optimize Big Data
From Everand
Apache Hive Handbook: Query, Analyze, and Optimize Big Data
Robert Johnson
No ratings yet
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
From Everand
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
Wei Liu
No ratings yet
Learn Hbase in 24 Hours
From Everand
Learn Hbase in 24 Hours
Alex Nordeen
No ratings yet
Learn Hive in 24 Hours
From Everand
Learn Hive in 24 Hours
Alex Nordeen
No ratings yet

Module 5 - Data Analytics

Uploaded by

Module 5 - Data Analytics

Uploaded by

BIG DATA & ANALYTICS (ELECTIVE)

Query to analyze customer purchases

Comparison with Traditional Databases

You might also like