0% found this document useful (0 votes)

67 views6 pages

Course Pack BDA

It's a course pack of big data

Uploaded by

h4198390

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

67 views6 pages

Course Pack BDA

It's a course pack of big data

Uploaded by

h4198390

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

DEPARTMENT OF COMPUTER SCIENCE AND ENGINEERING

AY. 2024-2025 COURSE PACK FOR BIG DATA ANALYTICS - 22ADE12 PE-I

Course Title Big Data Analytics Course Type PE-I

Course Code 22ADE12 Credits 3 Class V Semester
Contact Work
TLP Credits Total Number
Hours Load Assessment in
of Classes
Theory 3 2 2 Per Semester Weightage
Course
Practice - -
Structure
Theory Practical CIE SEE
Tutorial - 1 1

Total 3 3 3 40 - 40 60
Course Lead: Dr Raman ( Course Coordinator )

Course Theory Practice

Instructors V SEM 2024-25
Dr D RAMAN -
Dr. G.VANITHA

COURSE OVERVIEW:
About Data handling Storage, Processing, tools and techniques
COURSE OBJECTIVE
This course aims to:

1. Introduce the importance of big data and role of Hadoop framework in analyzing large
datasets by writing
mapper and reducer for a given problem.
2. Familiarize writing queries in Pig and Hive to process big data
3. Present the latest big data frameworks and applications using Spark and Scala.
4. Discuss the concept and writing applications using SparkSQL.
5. Investigate the integration of Kafka with other streaming frameworks like Apache Spark and
Apache.
COURSE OUTCOMES (COs) : After the completion of the course, the student will be able to:

CO# Course Outcomes POs PSOs

Understand the processing of large datasets in Hadoop
1 PO1,2,3,4,5, 1,3
framework and Apply MapReduce architecture to solve real 10 & PO12
world problems.
2 Develop scripts using Pig over large datasets and query using PO1-PO6 1,2,3
Hive. PO10,PO12
3 Understand the Implementation of Spark and the Scala PO1PO8, 1,3
programming. PO10-PO12
4 Expertise in using Resilient Distributed Datasets (RDD) for PO1PO8, 1,2,3
creating applications in Spark and query using SparkSQL. PO10-PO12
5 PO1PO8, 1,2,3
Apply streaming technologies in real-time data processing
PO10-PO12

BLOOM’S LEVEL OF THE COURSE OUTCOMES

Bloom’s Level
CO# Remember Understand Apply Analyze Evaluate Create
(L1) (L2) (L3) (L4) (L5) (L6)

1 ✔ ✔
2 ✔ ✔ ✔ ✔

3 ✔ ✔ ✔ ✔
4 ✔ ✔ ✔
5 ✔ ✔ ✔
6 ✔ ✔

COURSE ARTICULATION MATRIX

Note: 1-Low, 2-Medium, 3-High
COURSE ASSESSMENT
Component
S Duration Total Marks
Component Wise Weighta Marks
No in Hours
Mark ge
s
1 Theory: Test-1 1 20 Average of T1, 40 40
(T1) T2 (20 )
2 Theory: Test-2 1 20
(T2)
Alternate
Aver

3 5 Best two Average of

Assessments
Continuous S1,S2,S3 (5)
Slip Test-01
Internal (S1)
Evaluation
Slip Test-02
(CIE) 5
(S2)
Slip Test-03
5
(S3)
Assignment- Average of A1, A2
4 10 (10)
01 (A1)
Assignment-
10
02 (A1)
5 Attendance 5 5 marks >=85%
4 marks >=80%
3 marks >=75%
2 marks >=70%
1 marks >=65%.
-
6 Practical Exam - -
7 Semester End Exam (SEE) 3 Part-A Part- A contains 60 60
(Questions:Q, Marks:M) (5Q*3M=15M) five questions one
Part-B from each unit
(5Q* 9M=45M) Part-B
Covering all the
five units with
internal choice.
Questions in
Part-A and part-B
may have
subdivision
Total Marks 100

* Assignment, Quiz, Class test, SWAYAM/NPTEL/MOOCs and etc.

Course Prerequisites: Basic knowledge of programming language such as python.

COURSE CONTENT
UNIT-I
Introduction to Big Data: Introduction, Big Data Enabling Technologies, Hadoop Stack for Big Data. The
Hadoop Distributed Files system: Overview, The Design of HDFS, HDFS Concepts, The Command-Line
Interface, Hadoop File systems. MapReduce: Overview, Developing a MapReduce Application, How
MapReduce works, MapReduce Types and Formats, MapReduce Features, MapReduce Examples.
UNIT-II
Pig: Generating Examples, Comparison with Databases, Pig Latin, User-Defined Functions, Data Processing
Operators, Pig in Practice. Hive: Comparison with Traditional Databases, HiveQL, Tables, Querying Data,
User
Defined Functions, Writing a User Defined Functions, Writing a User Defined Aggregate Function.
UNIT-III
Parallel programming with Spark: Overview of Spark, Fundamentals of Scala and functional
programming,
Spark concepts - Resilient Distributed Datasets (RDD), creating RDDs, Basic Transformations, Basic
Actions,
Word Count example; Spark operations, Job execution, Spark Applications : Cluster computing with working
sets. Spark SQL: What is SQL, Big Data and SQL: Spark SQL, Creating DataFrames, Dataframes
Operations,
How to Run Spark SQL Queries, Tables, Views, Databases, Select Statements. UNIT-IV
Machine Learning with Spark: Designing a Machine Learning System, Obtaining, Processing and
Preparing
Data with Spark, Building a Recommendation Engine with Spark, Building a Classification Model with
Spark,
Building a Regression Model with Spark and Building a Clustering Model with Spark. Spark GraphX &
Graph
Analytics: GraphX : Introduction, Graphs in Machine Learning Landscape, Graph-structured data, PageRank,
Graph Analytics: Property Graphs, Graph Operators, Distributed Graphs, GraphX Unified Analytics; Case
Study:
Flight Data Analysis using Spark GraphX.
UNIT-V
Streaming: Introduction to Stream Processing, Batch processing vs. stream processing, Spark structured
streaming API, use case using Spark streaming. Apache Kafka Fundamentals: Architecture, Brokers,
Topics,
Partitions, Producers, Consumers, Kafka Connect and Kafka Streams. Advanced Kafka Features: xactly-
Once
Semantics, Kafka Transactions, Tiered Storage, Integrating Kafka with Apache Spark and Apache Flink,
Integrating Kafka with Spark Streaming, Real-time Analytics Use Cases with Kafka such as Fraud Detection,
Clickstream Analysis, Real-time Monitoring.
Text Books:
1. Tom White, "Hadoop: The Definitive Guide", 4th Edition, O'Reilly Media Inc, 2015.
2. Bill Chambers, Matei Zaharia, “Spark: The Definitive Guide”, 4 th Edition, O'Reilly Media Inc, 2018.
3. Anand Rajaraman and Jeffrey David Ullman,”Mining of Massive Datasets”, 2 nd Edition, Cambridge
University Press, 2014.
4. Neha Narkhede, Gwen Shapira, Todd Palino, "Kafka: The Definitive Guide", 2nd Edition, O'Reilly
Media, 2017
5. Viktor Gamov, "Kafka Streams in Action", 1st Edition, Manning Publications, 2018
Suggested Reading:
1. Thilinagunarathne Hadoop MapReduce v2 Cookbook – 2 nd Edition, Packet Publishing, 2015.
2. Chuck Lam, Mark Davis, Ajit Gaddam, “Hadoop in Action”, Manning Publications Company, 2016.
3. Alex Holmes,” Hadoop in Practice”, Manning Publications Company, 2012.
4. Alan Gates, "Programming Pig", O'Reilly Media Inc, 2011.
5. Edward Capriolo, Dean Wampler, and Jason Rutherglen, "Programming Hive", O'Reilly Media Inc,
October 2012.
Online Resources:
1. http://www.planetcassandra.org/what-is-nosql
2. http://www.iitr.ac.in/media/facspace/patelfec/16Bit/index.html
3. https://class.coursera.org/datasci-001/lecture
4. http://bigdatauniversity

Self-Learning Exercises:

LESSON PLAN
Unit Topic
No.
I Unit I
1. Introduction to Big Data: Introduction, Big Data Enabling Technologies, Hadoop Stack
for Big Data.
2. The Hadoop Distributed Files system: Overview
3. The Design of HDFS, HDFS Concepts, The Command-Line Interface
4. Hadoop File systems. MapReduce: Overview
5. Developing a MapReduce Application, How MapReduce works
6. MapReduce Types and Formats
7. MapReduce Features, MapReduce Examples.
8. Overview of Unit-1 Concepts
Unit II
9. Overview of Unit-2 Pig: Generating Examples.
10. Comparison with Databases, Pig Latin
11. User-Defined Functions, Data Processing Operators, Pig in Practice.
12. SLIPTEST-1 Hive: Comparison with Traditional Databases,
13. HiveQL Tables, Querying Data, User Defined Functions,
14. Writing a User Defined Functions
15. Writing a User Defined Aggregate Function
16. ASSIGNMENT-1
Unit III
17. Parallel programming with Spark: Overview of Spark
18. Fundamentals of Scala and functional programming
19. Spark concepts - Resilient Distributed Datasets (RDD)
20. Creating RDDs, Basic Transformations, Basic Actions,Word Count example; Spark
operations
21. Job execution, Spark Applications : Cluster computing with working sets.
22. Spark SQL: What is SQL, Big Data and SQL: Spark SQL
23. Creating DataFrames, Dataframes Operations
24. How to Run Spark SQL Queries, Tables, Views, Databases, Select Statements.
Unit IV
25. SLIPTEST-2 Machine Learning with Spark: Designing a Machine Learning System
26. Obtaining, Processing and Preparing Data with Spark
27. Building a Recommendation Engine with Spark, Building a Classification Model with
Spark
28. Building a Regression Model with Spark and Building a Clustering Model with Spark.
29. Spark GraphX & Graph Analytics: GraphX : Introduction, Graphs in Machine Learning
Landscape
30. Graph-structured data, PageRank, Graph Analytics: Property Graphs
31. Graph Operators, Distributed Graphs, GraphX Unified Analytics;

Unit V
32. Streaming: Introduction to Stream Processing, Batch processing vs. stream processing
33. Spark structured streaming API, use case using Spark streaming.
34. Apache Kafka Fundamentals: Architecture, Brokers, Topics, Partitions, Producers,
Consumers
35. Kafka Connect and Kafka Streams. Advanced Kafka Features: xactly-Once Semantics
36. SLIPTEST-3 Kafka Transactions, Tiered Storage, Integrating Kafka with Apache Spark
and Apache Flink
37. Integrating Kafka with Spark Streaming
38. Real-time Analytics Use Cases with Kafka such as Fraud Detection
39. Clickstream Analysis, Real-time Monitoring
40. ASSIGNMENT-2
Revision
Over all Syllabus Discussions as per GATE Exam
TOTAL HRS : 39

Signature of Course Coordinator Signature of HoD

Syllabus BCS714D-Big Data Analytics
50% (2)
Syllabus BCS714D-Big Data Analytics
3 pages
10bda Lesson Plan 24-25
No ratings yet
10bda Lesson Plan 24-25
3 pages
Big Data SV Publication
No ratings yet
Big Data SV Publication
142 pages
Big Data Management Syllabus
100% (1)
Big Data Management Syllabus
5 pages
Big Data Engineer Course
No ratings yet
Big Data Engineer Course
31 pages
Bda - Digital Notes
No ratings yet
Bda - Digital Notes
85 pages
Big Data Analytics
No ratings yet
Big Data Analytics
131 pages
Big Data Analytics Digital Notes
No ratings yet
Big Data Analytics Digital Notes
119 pages
COMP9313: Big Data Management: Course Web Site: HTTP://WWW - Cse.unsw - Edu.au/ cs9313
No ratings yet
COMP9313: Big Data Management: Course Web Site: HTTP://WWW - Cse.unsw - Edu.au/ cs9313
76 pages
Bca Bigdata Fifth - Sem Approved Syllabus
No ratings yet
Bca Bigdata Fifth - Sem Approved Syllabus
23 pages
Big Data Analytics-Digital Notes
No ratings yet
Big Data Analytics-Digital Notes
86 pages
22IS61 Big Data Analytics 2025
No ratings yet
22IS61 Big Data Analytics 2025
4 pages
Big Data Analytics Syllabus - 22UAI603C - 204 - 2025
No ratings yet
Big Data Analytics Syllabus - 22UAI603C - 204 - 2025
2 pages
Information Technology Engineering Syllabus Sem Viii Mumbai University
No ratings yet
Information Technology Engineering Syllabus Sem Viii Mumbai University
60 pages
19CS4701D
No ratings yet
19CS4701D
2 pages
Bigdata Syllabus
No ratings yet
Bigdata Syllabus
3 pages
Syllabus
No ratings yet
Syllabus
7 pages
Specialised Programme On Big Data and Machine Learning - 8 Weeks
No ratings yet
Specialised Programme On Big Data and Machine Learning - 8 Weeks
6 pages
Big Data Analytics - Sem 7 CVMU
No ratings yet
Big Data Analytics - Sem 7 CVMU
4 pages
Bigdata Syllabus
No ratings yet
Bigdata Syllabus
2 pages
Big Data Analytics - Notes
No ratings yet
Big Data Analytics - Notes
13 pages
Big Data Technologies Course Outline
No ratings yet
Big Data Technologies Course Outline
2 pages
Big Data Analytics Course Outline (Fall 2020) : Dr. Tariq Mahmood 830 Am - 11 Am (Monday) Scope
No ratings yet
Big Data Analytics Course Outline (Fall 2020) : Dr. Tariq Mahmood 830 Am - 11 Am (Monday) Scope
3 pages
BE AIDS R 20 VII VIII Sem Syllabus - Compressed
No ratings yet
BE AIDS R 20 VII VIII Sem Syllabus - Compressed
55 pages
Big Data Analytics
No ratings yet
Big Data Analytics
2 pages
Big Data analyticsNEW SYLLABUS FRAMING
No ratings yet
Big Data analyticsNEW SYLLABUS FRAMING
3 pages
20IT503 - Big Data Analytics - Unit4
No ratings yet
20IT503 - Big Data Analytics - Unit4
73 pages
Big Data-2
No ratings yet
Big Data-2
3 pages
Bigdata
No ratings yet
Bigdata
3 pages
COMP9313: Big Data Management
No ratings yet
COMP9313: Big Data Management
79 pages
Big Data With Hadoop and Spark - 2023-25
No ratings yet
Big Data With Hadoop and Spark - 2023-25
4 pages
113 Ce 74
No ratings yet
113 Ce 74
4 pages
Get Syllabus PDF
No ratings yet
Get Syllabus PDF
2 pages
Syllabus E63 2018 Fall PDF
No ratings yet
Syllabus E63 2018 Fall PDF
3 pages
Int 421
No ratings yet
Int 421
2 pages
MCA - II Sem - Curriculum and Syllabus
No ratings yet
MCA - II Sem - Curriculum and Syllabus
15 pages
2024 25 ODD CE449 BDA Syllabus
No ratings yet
2024 25 ODD CE449 BDA Syllabus
4 pages
Koe097big Data
No ratings yet
Koe097big Data
1 page
IOT Analytics - AI361
No ratings yet
IOT Analytics - AI361
3 pages
IV Yr II Sem Lesson Plans
No ratings yet
IV Yr II Sem Lesson Plans
19 pages
Syllabus
No ratings yet
Syllabus
2 pages
CCS334 BDA Syllabus
No ratings yet
CCS334 BDA Syllabus
5 pages
SEM VII BDA Syllabus Theory
No ratings yet
SEM VII BDA Syllabus Theory
4 pages
Introduction To Data Analytics Syllabus
No ratings yet
Introduction To Data Analytics Syllabus
3 pages
CC ZG522 Course Handout
No ratings yet
CC ZG522 Course Handout
6 pages
BDA Syllabus - Sem VII - Mumbai University
No ratings yet
BDA Syllabus - Sem VII - Mumbai University
3 pages
Final PPL Lesson Plan
No ratings yet
Final PPL Lesson Plan
6 pages
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
No ratings yet
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
3 pages
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
No ratings yet
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
2 pages
Bite411l Big-data-Analytics TH 1.0 73 Bite411l 67 Acp
No ratings yet
Bite411l Big-data-Analytics TH 1.0 73 Bite411l 67 Acp
2 pages
Syllabus
No ratings yet
Syllabus
3 pages
Big Data and Analytics Syllabus 2021
No ratings yet
Big Data and Analytics Syllabus 2021
3 pages
Syllabus of Big Data Analysis - Proposed
No ratings yet
Syllabus of Big Data Analysis - Proposed
2 pages
Big Data Syllabus For Theory and Lab
No ratings yet
Big Data Syllabus For Theory and Lab
4 pages
Big Data Analytics Syllabus
No ratings yet
Big Data Analytics Syllabus
2 pages
BDA Syllabus
No ratings yet
BDA Syllabus
4 pages
Big Data Analytics Comp Syllabus Sem7
No ratings yet
Big Data Analytics Comp Syllabus Sem7
4 pages
Big Data Analytics
No ratings yet
Big Data Analytics
3 pages
Unit 9 DevOps
100% (1)
Unit 9 DevOps
39 pages
Mths112 Reader 2023 e
No ratings yet
Mths112 Reader 2023 e
134 pages
Tutorial FFXED
No ratings yet
Tutorial FFXED
8 pages
Chapter 4 Computer Codes
No ratings yet
Chapter 4 Computer Codes
30 pages
CSN236 Introduction To HCI Notes 2023 - 2024
No ratings yet
CSN236 Introduction To HCI Notes 2023 - 2024
32 pages
TS 00103.1 - 1.00 - 25 KV AC Traction System - Part 1 Traction Power System
No ratings yet
TS 00103.1 - 1.00 - 25 KV AC Traction System - Part 1 Traction Power System
55 pages
Shell Script Guide For Red Teams - by Codelivly
No ratings yet
Shell Script Guide For Red Teams - by Codelivly
50 pages
Noregon Jpro 2019 smn0sp
No ratings yet
Noregon Jpro 2019 smn0sp
2 pages
Cisco Channelized T1/E1 and Isdn Pri Modules For The Integrated Services Routers Data Sheet
No ratings yet
Cisco Channelized T1/E1 and Isdn Pri Modules For The Integrated Services Routers Data Sheet
9 pages
Creality Workshop User Manual - EN
0% (1)
Creality Workshop User Manual - EN
12 pages
All State Acronym List
No ratings yet
All State Acronym List
89 pages
Brochure - OmniFlow iBPS Intelligent Business Process Suite
No ratings yet
Brochure - OmniFlow iBPS Intelligent Business Process Suite
11 pages
Internet of Things - Unit 1
No ratings yet
Internet of Things - Unit 1
22 pages
Ip Office Power User - lb4323
No ratings yet
Ip Office Power User - lb4323
2 pages
Ies200 V25 2S4P
No ratings yet
Ies200 V25 2S4P
4 pages
Relational Model
No ratings yet
Relational Model
16 pages
Computer Keyboard Shortcut Keys
No ratings yet
Computer Keyboard Shortcut Keys
43 pages
Bafpred Module 2 Week 5 6
No ratings yet
Bafpred Module 2 Week 5 6
35 pages
Base Paper
No ratings yet
Base Paper
8 pages
Hadi Kiroto, S.Pd. : Training Transcript Educator Center
No ratings yet
Hadi Kiroto, S.Pd. : Training Transcript Educator Center
3 pages
Explain High Level and Low Level Languages?: Examples
No ratings yet
Explain High Level and Low Level Languages?: Examples
4 pages
Traffic Light Detection System in Self-Driving Cars
No ratings yet
Traffic Light Detection System in Self-Driving Cars
6 pages
MK 0034 Level 1 and WOCRM User Guide
No ratings yet
MK 0034 Level 1 and WOCRM User Guide
6 pages
GTD2000-Tx Instruction Manual: Revision: 1
No ratings yet
GTD2000-Tx Instruction Manual: Revision: 1
44 pages
Manual en 250 0816 E BM2v3
No ratings yet
Manual en 250 0816 E BM2v3
84 pages
GP Project Asm 510-2
No ratings yet
GP Project Asm 510-2
26 pages
Hidaya Tun Nahv - English Australian Islamic Library WWW - Australianislamiclibrary.org Free Download, Borrow, and Streami
No ratings yet
Hidaya Tun Nahv - English Australian Islamic Library WWW - Australianislamiclibrary.org Free Download, Borrow, and Streami
1 page
Sample
No ratings yet
Sample
6 pages
Unit 6
No ratings yet
Unit 6
9 pages
Math Script
No ratings yet
Math Script
4 pages
Advanced Backend Code Optimization
From Everand
Advanced Backend Code Optimization
Sid Touati
No ratings yet
IGNOU MCA Previous Years Unsolved Papers All in One
From Everand
IGNOU MCA Previous Years Unsolved Papers All in One
Manish Soni
No ratings yet

Course Pack BDA

Uploaded by

Course Pack BDA

Uploaded by

DEPARTMENT OF COMPUTER SCIENCE AND ENGINEERING

Course Title Big Data Analytics Course Type PE-I

Course Theory Practice

CO# Course Outcomes POs PSOs

BLOOM’S LEVEL OF THE COURSE OUTCOMES

COURSE ARTICULATION MATRIX

3 5 Best two Average of

* Assignment, Quiz, Class test, SWAYAM/NPTEL/MOOCs and etc.

Signature of Course Coordinator Signature of HoD

You might also like