0% found this document useful (0 votes)

19 views9 pages

Electronic Health Records EHR Data Analysis Using Hadoop and Spark

This project analyzes Electronic Health Records (EHR) data using Apache Hadoop and Spark to process large-scale healthcare data, focusing on patient demographics, hospital admissions, and stay durations. It involves setting up the environment, uploading data to HDFS, and performing data analysis and visualizations with Python. Future improvements include implementing machine learning models, optimizing performance, and integrating real-time data streaming.

Uploaded by

reaperz0704

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views9 pages

Electronic Health Records EHR Data Analysis Using Hadoop and Spark

Uploaded by

reaperz0704

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 9

Electronic Health Records

(EHR) Data Analysis using

Hadoop and Spark

This project focuses on analyzing Electronic Health Records (EHR)

data using Apache Hadoop and Apache Spark to efficiently process
large-scale healthcare data. The analysis involves data preprocessing,
exploratory data analysis (EDA), and visualizations to extract
meaningful insights regarding patient demographics, hospital
admissions, and stay durations.
by Siddharth Panda
Project Setup and
Prerequisites

Apache Hadoop Apache Spark Python

With Pandas, NumPy,
Configured and Used for fast data Matplotlib, and
running for analysis and Seaborn libraries.
distributed data processing.
processing.
Ensure Apache Hadoop and Spark are installed and configured.
Python is required with Pandas, NumPy, Matplotlib, and Seaborn
libraries. A Jupyter Notebook or any Python IDE is needed. HDFS must
be configured and running.
Dataset Overview
Patient Demographics
Age, gender, and other relevant patient information.

Hospital Admission Sources

Details on how patients were admitted to the hospital.

Length of Hospital Stays

Duration of patient stays in the hospital.

Discharge Statuses
Information on patient discharge outcomes.

The dataset, ehr_data.csv, contains structured data related to hospital records. It

includes fields such as patient demographics (age, gender, etc.), hospital
admission sources, length of hospital stays, and discharge statuses.
Running Hadoop Services

Start DFS
Run start-dfs.sh to start Hadoop Distributed File System.

Start YARN
Run start-yarn.sh to start YARN services.

Verify Services
Use jps command to verify NameNode and DataNode are running.

To start Hadoop services, run the start-dfs.sh and start-yarn.sh

commands. Verify that NameNode and DataNode are running using the jps
command. This ensures the Hadoop environment is properly set up for data
processing.
Data Upload to HDFS
Create Directories
1 Create /EHR_project and /EHR_project/input in HDFS.

Upload Dataset
2 Move ehr_data.csv to /EHR_project/input/.

Verify Upload
3 Use hdfs dfs -ls to confirm the file is in HDFS.

Create directories in Hadoop for storing the dataset using hdfs dfs -mkdir /EHR_project and hdfs dfs -mkdir
/EHR_project/input. Move the dataset into Hadoop’s file system using hdfs dfs -put. Verify the file upload using hdfs
dfs -ls /EHR_project/input/.
EHR Data Analysis with Python
Load Data Data Cleaning Spark DataFrame Data Visualization

Load EHR data from HDFS Handle missing values

using Pandas. using forward fill. Convert Pandas Create visualizations
DataFrame to Spark using Matplotlib and
DataFrame. Seaborn.

Use a Python script to perform analysis on the dataset. Load data from HDFS, handle missing values, convert to Spark
DataFrame, and create visualizations. Key visualizations include gender distribution, age distribution, hospital admission
sources, hospital stay length, and patient discharge status.
Key Insights from Visualizations
52% 65 Emergency
Gender Distribution Average Age Admission Source
Identifies the proportion of male Displays the average age of patients. Highlights the most common
patients. admission source.

The visualizations provide insights into gender distribution, age distribution, hospital admission sources, hospital stay
length, and patient discharge status. These insights help identify trends and patterns in the data.
Conclusion and Future
Improvements
Scalable Analysis
Hadoop and Spark enable scalable data analysis for large healthcare datasets.

Machine Learning
Implement Machine Learning models to predict patient outcomes.

Performance Optimization
Optimize performance using Spark SQL and Parquet format.

Real-time Data
Integrate real-time data streaming with Kafka and Spark Streaming.

This project demonstrates how Hadoop and Spark enable scalable data analysis and
visualization for large healthcare datasets. Possible future improvements include
implementing Machine Learning models to predict patient outcomes, performance
optimization using Spark SQL and Parquet format, and real-time data streaming
integration with Kafka and Spark Streaming.
Thank You
Thank you for attending this presentation.

We have covered the key aspects of using Hadoop and Spark for EHR
data analysis.

Statistics and Machine Learning Methods For EHR Data From Data Extraction To Data Analytics 1st Edition Scribd PDF Download
100% (10)
Statistics and Machine Learning Methods For EHR Data From Data Extraction To Data Analytics 1st Edition Scribd PDF Download
17 pages
Literature Review Electronic Medical Records
100% (2)
Literature Review Electronic Medical Records
7 pages
EDA in Healthcare Analysis
No ratings yet
EDA in Healthcare Analysis
9 pages
Big Data Analytics For Healthcare Industry
100% (1)
Big Data Analytics For Healthcare Industry
20 pages
Medical Management System Using Python
No ratings yet
Medical Management System Using Python
10 pages
Case Study DSBDA Report Final
No ratings yet
Case Study DSBDA Report Final
24 pages
Electronic Health Record Literature Review
100% (2)
Electronic Health Record Literature Review
5 pages
Waste Management Practices of Poultry Farms
100% (3)
Waste Management Practices of Poultry Farms
112 pages
Stihl Ms 180 Manual PDF
No ratings yet
Stihl Ms 180 Manual PDF
2 pages
8 Analytics and EHR
100% (1)
8 Analytics and EHR
34 pages
Paper+18+ (2024 6 5) +Natural+Language+Processing+ (NLP) +in+analyzing
No ratings yet
Paper+18+ (2024 6 5) +Natural+Language+Processing+ (NLP) +in+analyzing
13 pages
2016-12 Hortonworks Road Show - From Acquisition To Insights
No ratings yet
2016-12 Hortonworks Road Show - From Acquisition To Insights
24 pages
Applsci 12 11709 v2
No ratings yet
Applsci 12 11709 v2
24 pages
Manju.S Report
No ratings yet
Manju.S Report
42 pages
Health & Wellness Management System
No ratings yet
Health & Wellness Management System
8 pages
2018 - Deep EHR - A Survey of Recent Advances in Deep Learning Techniques For Electronic Health Record (EHR) Analysis
No ratings yet
2018 - Deep EHR - A Survey of Recent Advances in Deep Learning Techniques For Electronic Health Record (EHR) Analysis
17 pages
Medicine Ball Workouts For Basketball Players
100% (3)
Medicine Ball Workouts For Basketball Players
34 pages
Fast Food Vs Homemade Food
No ratings yet
Fast Food Vs Homemade Food
19 pages
The Story of Unbreakable Woman
No ratings yet
The Story of Unbreakable Woman
320 pages
Medical Technology Prayer: PAMET: Philippine Association of Medical Technologists
No ratings yet
Medical Technology Prayer: PAMET: Philippine Association of Medical Technologists
3 pages
Electronic Health Record
100% (2)
Electronic Health Record
29 pages
Health Care Chapter - Big Data
No ratings yet
Health Care Chapter - Big Data
39 pages
Freeze Drying 2nd Edition Georg-Wilhelm Oetjen
No ratings yet
Freeze Drying 2nd Edition Georg-Wilhelm Oetjen
60 pages
Creating A Health Data Management Platform Using Hadoop
No ratings yet
Creating A Health Data Management Platform Using Hadoop
4 pages
Electronic Health Record: DR - Nikita Dhange
No ratings yet
Electronic Health Record: DR - Nikita Dhange
25 pages
FenilSeminar Presentation
No ratings yet
FenilSeminar Presentation
6 pages
Transforming Healthcare With Data Science
No ratings yet
Transforming Healthcare With Data Science
10 pages
Deep Learning For Electronic Health Record Analyti
No ratings yet
Deep Learning For Electronic Health Record Analyti
14 pages
Hospital Management System Using Python
No ratings yet
Hospital Management System Using Python
10 pages
Ngay 13-4.2
No ratings yet
Ngay 13-4.2
9 pages
Ria 37.06 16
No ratings yet
Ria 37.06 16
6 pages
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
No ratings yet
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
6 pages
Finding The Nerve Graphic Organizer
No ratings yet
Finding The Nerve Graphic Organizer
6 pages
Charles Boicey Stony Brook Medicine R Nusa
No ratings yet
Charles Boicey Stony Brook Medicine R Nusa
33 pages
E Healthcare System Final
No ratings yet
E Healthcare System Final
9 pages
Case Study DS-BDA
No ratings yet
Case Study DS-BDA
29 pages
Mini Project Doc 2
No ratings yet
Mini Project Doc 2
25 pages
Medical App Draft
No ratings yet
Medical App Draft
2 pages
Escort Officers Handbook
100% (1)
Escort Officers Handbook
166 pages
Health Care Data Analytics
No ratings yet
Health Care Data Analytics
15 pages
Li 2018
No ratings yet
Li 2018
11 pages
Case Study On Processing Data Driven For Health
No ratings yet
Case Study On Processing Data Driven For Health
9 pages
Understanding EHR and EMR Systems
No ratings yet
Understanding EHR and EMR Systems
11 pages
1b. Information Systems For Health Information Management
No ratings yet
1b. Information Systems For Health Information Management
15 pages
Final Test Series (Online) JEE (Advanced) - 2021: Phase-I
No ratings yet
Final Test Series (Online) JEE (Advanced) - 2021: Phase-I
15 pages
Puc - Parivahan.gov - in Puc Views pucPublicNew - XHTML
No ratings yet
Puc - Parivahan.gov - in Puc Views pucPublicNew - XHTML
1 page
Amplifying The Impact: Examining The Intersection of Mobile Health and Mobile Finance
No ratings yet
Amplifying The Impact: Examining The Intersection of Mobile Health and Mobile Finance
18 pages
Developing A Website That Integrates With Existing Electronic Health Record Systems
No ratings yet
Developing A Website That Integrates With Existing Electronic Health Record Systems
10 pages
Lecture 21 PDF
100% (1)
Lecture 21 PDF
14 pages
"Big Data" and The Electronic Health Record
No ratings yet
"Big Data" and The Electronic Health Record
8 pages
Ojha 2016
No ratings yet
Ojha 2016
7 pages
(Solved) Case Study - GlobalHealth Innovations LTD, A Leading Healthcare... - Course Hero
No ratings yet
(Solved) Case Study - GlobalHealth Innovations LTD, A Leading Healthcare... - Course Hero
6 pages
Concept - The Eight Winds
No ratings yet
Concept - The Eight Winds
9 pages
Seminar Report
No ratings yet
Seminar Report
19 pages
De-Identified Personal Health Care System Using Hadoop
No ratings yet
De-Identified Personal Health Care System Using Hadoop
8 pages
2024 BCHRT 239
No ratings yet
2024 BCHRT 239
11 pages
Journal o Environmental Management: Review
No ratings yet
Journal o Environmental Management: Review
14 pages
Soal Bahasa Inggris Kelas 3 Semester 1 Animals
No ratings yet
Soal Bahasa Inggris Kelas 3 Semester 1 Animals
3 pages
5FINAL Institutional Assessment Instruments 2
No ratings yet
5FINAL Institutional Assessment Instruments 2
8 pages
Kineticsprelims 2010
No ratings yet
Kineticsprelims 2010
2 pages
Freeletics Workout Program Exees - Compress
No ratings yet
Freeletics Workout Program Exees - Compress
1 page
Advanced Monolithic Systems: Rohs Compliant
No ratings yet
Advanced Monolithic Systems: Rohs Compliant
8 pages
Assignment On A Sellable Product
No ratings yet
Assignment On A Sellable Product
2 pages
Litz Wire Termination Guide
No ratings yet
Litz Wire Termination Guide
5 pages
LAW 2103 - Labor Law I - JD 3. G.R. No. 176484 - Calamba Medical Center vs. NLRC - Case Digest 2
No ratings yet
LAW 2103 - Labor Law I - JD 3. G.R. No. 176484 - Calamba Medical Center vs. NLRC - Case Digest 2
3 pages
Wiring Guide - 15244 Baseboard LED Light - Alcon Lighting
No ratings yet
Wiring Guide - 15244 Baseboard LED Light - Alcon Lighting
2 pages
Attitudes of Dental and Pharmacy Students To Oral Health Behaviour at Jazan University, Kingdom of Saudi Arabia
No ratings yet
Attitudes of Dental and Pharmacy Students To Oral Health Behaviour at Jazan University, Kingdom of Saudi Arabia
5 pages
CS Algorithm
No ratings yet
CS Algorithm
1 page
Calcium Acetate Sources: Essential Guide To Food Additives
No ratings yet
Calcium Acetate Sources: Essential Guide To Food Additives
2 pages
ASME Course
100% (10)
ASME Course
283 pages
Ultimate Big Data Analytics with Apache Hadoop
From Everand
Ultimate Big Data Analytics with Apache Hadoop
Simhadri Govindappa
No ratings yet
Hadoop Essentials
From Everand
Hadoop Essentials
Shiva Achari
5/5 (2)
Elasticsearch for Hadoop
From Everand
Elasticsearch for Hadoop
Shukla Vishal
No ratings yet
Java for Data Science
From Everand
Java for Data Science
Richard M. Reese
No ratings yet
Mastering Hadoop
From Everand
Mastering Hadoop
Sandeep Karanth
No ratings yet
Big Data Analytics
From Everand
Big Data Analytics
Venkat Ankam
No ratings yet
Learning Hadoop 2
From Everand
Learning Hadoop 2
Garry Turkington
4/5 (1)
Mastering Data Engineering: Advanced Techniques with Apache Hadoop and Hive
From Everand
Mastering Data Engineering: Advanced Techniques with Apache Hadoop and Hive
Peter Jones
No ratings yet
Efficient Data Processing with Apache Pig: Definitive Reference for Developers and Engineers
From Everand
Efficient Data Processing with Apache Pig: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
From Everand
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
Matthew Rosch
No ratings yet
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
From Everand
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
Wei Liu
No ratings yet
Hadoop Blueprints
From Everand
Hadoop Blueprints
Anurag Shrivastava
No ratings yet
Hadoop Ecosystem for Big Data
From Everand
Hadoop Ecosystem for Big Data
Dr. Zemelak Goraga
No ratings yet
Big Data Analytics
From Everand
Big Data Analytics
Nitin Kumar Yadav
No ratings yet
Pandas Essentials for Data Analysis: Definitive Reference for Developers and Engineers
From Everand
Pandas Essentials for Data Analysis: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Advanced Hadoop Techniques: A Comprehensive Guide to Mastery
From Everand
Advanced Hadoop Techniques: A Comprehensive Guide to Mastery
Adam Jones
No ratings yet
HDInsight Essentials - Second Edition
From Everand
HDInsight Essentials - Second Edition
Rajesh Nadipalli
No ratings yet
Sqoop Essentials: Definitive Reference for Developers and Engineers
From Everand
Sqoop Essentials: Definitive Reference for Developers and Engineers
Richard Johnson
No ratings yet
Mastering Pandas in Python: Course Book
From Everand
Mastering Pandas in Python: Course Book
Pedro Martins
No ratings yet
Apache Hive Handbook: Query, Analyze, and Optimize Big Data
From Everand
Apache Hive Handbook: Query, Analyze, and Optimize Big Data
Robert Johnson
No ratings yet

Electronic Health Records EHR Data Analysis Using Hadoop and Spark

Uploaded by

Electronic Health Records EHR Data Analysis Using Hadoop and Spark

Uploaded by

Electronic Health Records

(EHR) Data Analysis using

This project focuses on analyzing Electronic Health Records (EHR)

Apache Hadoop Apache Spark Python

Hospital Admission Sources

Length of Hospital Stays

The dataset, ehr_data.csv, contains structured data related to hospital records. It

To start Hadoop services, run the start-dfs.sh and start-yarn.sh

Load EHR data from HDFS Handle missing values

You might also like