0% found this document useful (0 votes)

57 views10 pages

EDA Python For Data Analsis

The document provides a comprehensive guide on using Apache Spark for data manipulation, including data loading, cleaning, analysis, visualization, and machine learning integration. It covers various operations such as reading/writing different file formats, performing statistical analysis, and handling complex data types. Additionally, it discusses performance optimization techniques and advanced features like window functions, graph analysis, and real-time data processing.

Uploaded by

salmasaiff.22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

57 views10 pages

EDA Python For Data Analsis

Uploaded by

salmasaiff.22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

1.

Data Loading

• Read CSV File:

df = spark.read.csv('filename.csv', header=True, inferSchema=True)

• Read Parquet File:

df = spark.read.parquet('filename.parquet')

• Read from JDBC (Databases):

df=spark.read.format("jdbc").options(url="jdbc_url",dbtable="table_name").lo
ad()

2. show data

• Display Top Rows: df.show()

• Print Schema: df.printSchema()

• Summary Statistics: df.describe().show()

• Count Rows: df.count()

• Display Columns: df.columns

3. Data Cleaning

• Drop Missing Values: df.na.drop()

• Fill Missing Values: df.na.fill(value)

• Drop Irrelevant Columns: df.drop('column_name')

• Rename Column: df.withColumnRenamed('old_name', 'new_name')

• Check for Duplicates: df.dropDuplicates()

• Handle Duplicates: df.dropDuplicates(['column1', 'column2'])

• Remove Duplicates Completely: df.dropDuplicates()

• Check for Outliers:

6. Statistical Analysis

• Describe data: df.describe()

• To show distribution data: Sns.histplot(df,bins=20,kde=True)

• Correlation Matrix: from pyspark.ml.stat import Correlation;

Correlation.corr(df, 'column')

• Covariance: df.stat.cov('column1', 'column2')

• Frequency Items: df.stat.freqItems(['column1', 'column2'])

7. Data Visualization

• Bar Chart: df.groupBy('column').count().show()

• Histogram: df.select('column').rdd.flatMap(lambda x: x).histogram(10)

• Scatter Plot: df.select('column1', 'column2').show()

• Box Plot: pandas_df[['column']].boxplot()

• ……………………

8. Export Data in Python

• Convert to Pandas DataFrame: pandas_df = df.toPandas()

• Convert to CSV (Pandas): pandas_df.to_csv('path_to_save.csv',
index=False)

• Write DataFrame to CSV: df.write.csv('path_to_save.csv')

• Write DataFrameto Parquet: df.write.parquet('path_to_save.parquet')

9. Advanced Data Processing

• Window Functions: from pyspark.sql.window import Window;

df.withColumn('rank',
rank().over(Window.partitionBy('column').orderBy('other_column')))
• Pivot Table: df.groupBy('column').pivot('pivot_column').sum('sum_column')
• UDF (User Defined Functions): from pyspark.sql.functions import udf;
my_udf = udf(my_python_function); df.withColumn('new_col',
my_udf(df['col']))

10. Performance Optimization

• Caching DataFrame: df.cache()

• Repartitioning: df.repartition(10)

• Broadcast Join Hint: df.join(broadcast(df2), 'key', 'inner')

11. Exploratory Data Analysis Specifics

• Column Value Counts: df.groupBy('column').count().show()

• Distinct Values in a Column: df.select('column').distinct().show()

• Aggregations (sum, max, min, avg): df.groupBy().sum('column').show()

12. Working with Complex Data Types

• Exploding Arrays: df.withColumn('exploded', explode(df['array_column']))

• Working with Structs: df.select(df['struct_column']['field'])

• Handling Maps: df.select(map_keys(df['map_column']))

13. Joins

• Inner Join: df1.join(df2, df1['id'] == df2['id'])

• Left Outer Join: df1.join(df2, df1['id'] == df2['id'], 'left_outer')

• Right Outer Join: df1.join(df2, df1['id'] == df2['id'], 'right_outer')
14. Saving and Loading Models

• Saving ML Model: model.save('model_path')

• Loading ML Model:

from pyspark.ml.classification import LogisticRegressionModel;

LogisticRegressionModel.load('model_path')

15. Handling JSON and Complex Files

• Read JSON: df = spark.read.json('path_to_file.json')

• Explode JSON Object: df.selectExpr('json_column.*')

16. Custom Aggregations

• Custom Aggregate Function:

from pyspark.sql import functions as F;

df.groupBy('group_column').agg(F.sum('sum_column'))

17. Working with Null Values

• Counting Nulls in Each Column:

df.select([F.count(F.when(F.isnull(c), c)).alias(c) for c in df.columns])

• Drop Rows with Null Values: df.na.drop()

18. Data Import/Export Tips

• Read Text Files: df = spark.read.text('path_to_file.txt')

• Write Data to JDBC:

df.write.format("jdbc").options(url="jdbc_url", dbtable="table_name").save()

19. Advanced SQL Operations

• Register DataFrame as Table: df.createOrReplaceTempView('temp_table')

• Perform SQL Queries: spark.sql('SELECT * FROM temp_table WHERE
condition')

20. Dealing with Large Datasets

• Sampling Data: sampled_df = df.sample(False, 0.1)

• Approximate Count Distinct:

df.select(approx_count_distinct('column')).show()

21. Data Quality Checks

• Checking Data Integrity: df.checkpoint()

• Asserting Conditions: df.filter(df['column'] > 0).count()

22. Advanced File Handling

• Specify Schema While Reading: schema = StructType([...]); df =

spark.read.csv('file.csv', schema=schema)

• Writing in Overwrite Mode: df.write.mode('overwrite').csv('path_to_file.csv')

23. Debugging and Error Handling

• Collecting Data Locally for Debugging: local_data = df.take(5)

• Handling Exceptions in UDFs:

def safe_udf(my_udf): def wrapper(*args, **kwargs): try: return

my_udf(*args, **kwargs) except: return None; return wrapper

24. Machine Learning Integration

• Creating Feature Vector:

from pyspark.ml.feature import VectorAssembler; assembler =

VectorAssembler(inputCols=['col1', 'col2'], outputCol='features'); feature_df =
assembler.transform(df)
25. Advanced Joins and Set Operations

• Cross Join: df1.crossJoin(df2)

• Set Operations (Union, Intersect, Minus): df1.union(df2);

df1.intersect(df2); df1.subtract(df2)

26. Dealing with Network Data

• Reading Data from HTTP Source: spark.read.format("csv").option("url",

"http://example.com/data.csv").load()

27. Integration with Visualization Libraries

• Convert to Pandas for Visualization: pandas_df = df.toPandas();

pandas_df.plot(kind='bar')

28. Spark Streaming for Real-Time EDA

• Reading from a Stream: df = spark.readStream.format('source').load()

• Writing to a Stream: df.writeStream.format('console').start()

29. Advanced Window Functions

• Cumulative Sum: from pyspark.sql.window import Window;

df.withColumn('cum_sum',
F.sum('column').over(Window.partitionBy('group_column').orderBy('order_col
umn')))

• Row Number: df.withColumn('row_num',

F.row_number().over(Window.orderBy('column')))

30. Handling Complex Analytics

• Rollup: df.rollup('column1', 'column2').agg(F.sum('column3'))

• Cube for Multi-Dimensional Aggregation: df.cube('column1',

'column2').agg(F.sum('column3'))
31. Dealing with Geospatial Data

• Using GeoSpark for Geospatial Data:

from geospark.register import GeoSparkRegistrator;

GeoSparkRegistrator.registerAll(spark)

32. Advanced File Formats

• Reading ORC Files: df = spark.read.orc('filename.orc')

• Writing Data to ORC: df.write.orc('path_to_file.orc')

33. Dealing with Sparse Data

• Using Sparse Vectors:

from pyspark.ml.linalg import SparseVector; sparse_vec =

SparseVector(size, {index: value})

34. Handling Binary Data

• Reading Binary Files:

df = spark.read.format('binaryFile').load('path_to_binary_file')

35. Efficient Data Transformation

• Using mapPartitions for Transformation:

rdd = df.rdd.mapPartitions(lambda partition: [transform(row) for row in

partition])

36. Advanced Machine Learning Operations

• Using ML Pipelines:

from pyspark.ml import Pipeline; pipeline = Pipeline(stages=[stage1,

stage2]); model = pipeline.fit(df)
• Model Evaluation:

from pyspark.ml.evaluation import BinaryClassificationEvaluator;

evaluator = BinaryClassificationEvaluator(); evaluator.evaluate(predictions)

37. Optimization Techniques

• Broadcast Variables for Efficiency: from pyspark.sql.functions import

broadcast; df.join(broadcast(df2), 'key')

• Using Accumulators for Global Aggregates: accumulator =

spark.sparkContext.accumulator(0); rdd.foreach(lambda x:
accumulator.add(x))

38. Advanced Data Import/Export

• Reading Data from Multiple Sources: df =

spark.read.format('format').option('option', 'value').load(['path1', 'path2'])

• Writing Data to Multiple Formats: df.write.format('format').save('path',

mode='overwrite')

39. Utilizing External Data Sources

• Connecting to External Data Sources (e.g., Kafka, S3):

df = spark.read.format('kafka').option('kafka.bootstrap.servers',
'host1:port1').load()

40. Efficient Use of SQL Functions

• Using Built-in SQL Functions:

from pyspark.sql.functions import col, lit; df.withColumn('new_column',

col('existing_column') + lit(1))

41. Exploring Data with GraphFrames

• Using GraphFrames for Graph Analysis:

from graphframes import GraphFrame; g = GraphFrame(vertices_df,
edges_df)

42. Working with Nested Data

• Exploding Nested Arrays:

df.selectExpr('id', 'explode(nestedArray) as element')

• Handling Nested Structs: df.select('struct_column.*')

43. Advanced Statistical Analysis

• Hypothesis Testing:

from pyspark.ml.stat import ChiSquareTest; r = ChiSquareTest.test(df,

'features', 'label')

• Statistical Functions (e.g., mean, stddev):

from pyspark.sql.functions import mean, stddev; df.select(mean('column'),

stddev('column'))

44. Customizing Spark Session

• Configuring SparkSession:

spark=SparkSession.builder.appName('app').config('spark.some.config.optio
n', 'value').getOrCreate()

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Apache Spark With Scala - Cheatsheet
No ratings yet
Apache Spark With Scala - Cheatsheet
7 pages
ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
Loadmaster A100 Manual
No ratings yet
Loadmaster A100 Manual
34 pages
Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
Technical Information: SMA Modbus Interface For Sunny Boy / Sunny Tripower
100% (1)
Technical Information: SMA Modbus Interface For Sunny Boy / Sunny Tripower
77 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Py Spark
No ratings yet
Py Spark
7 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Cheat Sheet_Pandas
No ratings yet
Cheat Sheet_Pandas
6 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Spark Optimisation
No ratings yet
Spark Optimisation
7 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
Spark Optimization 1741826797
No ratings yet
Spark Optimization 1741826797
7 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Senior Data Engineer Qs
No ratings yet
Senior Data Engineer Qs
7 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
No ratings yet
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
14 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
Pyspark 12 Questions
No ratings yet
Pyspark 12 Questions
8 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
Apache Spark - Optimization Techniques
No ratings yet
Apache Spark - Optimization Techniques
7 pages
IBM PySpark CheatSheet
No ratings yet
IBM PySpark CheatSheet
2 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Top 100 Pyspark Functions For Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions For Data Engineers 1738131847
30 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
PySpark Interview Questions
No ratings yet
PySpark Interview Questions
3 pages
Journal
No ratings yet
Journal
47 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
PySpark Cheat Sheet
No ratings yet
PySpark Cheat Sheet
6 pages
Q1. Difference Between Cache and Pe
No ratings yet
Q1. Difference Between Cache and Pe
13 pages
Pyspark
No ratings yet
Pyspark
6 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Pyspark Code Quality by Azurelib
No ratings yet
Pyspark Code Quality by Azurelib
4 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
10 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Administering Microsoft Azure SQL Solutions DP 300
From Everand
Administering Microsoft Azure SQL Solutions DP 300
Manish Soni
No ratings yet
Couchbase Certified Java Developer - Exam Practice Tests
From Everand
Couchbase Certified Java Developer - Exam Practice Tests
Cristian Scutaru
No ratings yet
Assignment 4 - Modules & OOP
No ratings yet
Assignment 4 - Modules & OOP
2 pages
Authentication and Access Control (AJEX) - 12a
No ratings yet
Authentication and Access Control (AJEX) - 12a
210 pages
Installation and User's Guide Informix
No ratings yet
Installation and User's Guide Informix
52 pages
Tunneling GRE L2TP
No ratings yet
Tunneling GRE L2TP
8 pages
Boot1 - Debian Imx6
No ratings yet
Boot1 - Debian Imx6
11 pages
Event Management System Project Report
No ratings yet
Event Management System Project Report
13 pages
RCDC V3.2 Release Notes
100% (1)
RCDC V3.2 Release Notes
18 pages
06.4.19-Scorpio-TangoPrice April19 20190407 173256605
No ratings yet
06.4.19-Scorpio-TangoPrice April19 20190407 173256605
2 pages
Proposal PBL 3 - Flowchart of Logic Gates
No ratings yet
Proposal PBL 3 - Flowchart of Logic Gates
4 pages
8607 - Observation Reports
No ratings yet
8607 - Observation Reports
7 pages
Orar FILS Eng Sem 2 - Print
No ratings yet
Orar FILS Eng Sem 2 - Print
8 pages
MOdul Pengganti Untuk Egsv3
No ratings yet
MOdul Pengganti Untuk Egsv3
18 pages
Virtual - Machines GCP
No ratings yet
Virtual - Machines GCP
75 pages
Ind 780
No ratings yet
Ind 780
254 pages
Pendon Group
No ratings yet
Pendon Group
19 pages
Traditional Backend Building Vs Using Hasura
No ratings yet
Traditional Backend Building Vs Using Hasura
2 pages
Sample
No ratings yet
Sample
131 pages
SAP Counselling - Imved Technologies .
No ratings yet
SAP Counselling - Imved Technologies .
2 pages
CTM Admin 9.0.20 523377
No ratings yet
CTM Admin 9.0.20 523377
510 pages
Examples
No ratings yet
Examples
518 pages
MODBUS Protocol For T2S Vs4 2
No ratings yet
MODBUS Protocol For T2S Vs4 2
25 pages
Advanced Database Management System Mod13
No ratings yet
Advanced Database Management System Mod13
50 pages
Selecting A LMS and Switching From A Proprietary To Open Source LMS, Clayton R. Wright
No ratings yet
Selecting A LMS and Switching From A Proprietary To Open Source LMS, Clayton R. Wright
54 pages
Trends in Computer Operating Systems
No ratings yet
Trends in Computer Operating Systems
5 pages
Chapter-3 Msc-cs-1
No ratings yet
Chapter-3 Msc-cs-1
55 pages
Cracking The SAT Premium Edition With 7 Practice
No ratings yet
Cracking The SAT Premium Edition With 7 Practice
1 page
Beginning Javaserver Pages: Vivek Chopra Sing Li Rupert Jones Jon Eaves John T. Bell
No ratings yet
Beginning Javaserver Pages: Vivek Chopra Sing Li Rupert Jones Jon Eaves John T. Bell
15 pages
Noise Control Traffic Light Freebie Complete
No ratings yet
Noise Control Traffic Light Freebie Complete
7 pages