0% found this document useful (0 votes)

6K views7 pages

Databricks - Cheatsheet

Uploaded by

Vinicius

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6K views7 pages

Databricks - Cheatsheet

Uploaded by

Vinicius

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

# [ Databricks ] {CheatSheet}

1. Data Reading and Writing

● Reading Data from DBFS:

spark.read.format("csv").load("/FileStore/tables/data.csv")
● Writing Data to DBFS:
df.write.format("parquet").save("/FileStore/tables/output")
● Mounting S3 Buckets: dbutils.fs.mount("s3a://bucket-name",
"/mnt/bucket-name")
● Reading Data from Mounted S3 Bucket:
spark.read.parquet("/mnt/bucket-name/data")

2. Data Transformation and Processing

● Creating Temp Views for SQL Queries:

df.createOrReplaceTempView("tempView")
● Running SQL Commands: %sql SELECT * FROM tempView WHERE column > value
● Converting DataFrame to Pandas: pandas_df = df.toPandas()
● Creating DataFrame from Pandas: spark_df =
spark.createDataFrame(pandas_df)

3. Visualization and Display Functions

● Displaying DataFrame: display(df)

● Plotting Graphs: display(df) and use the plot options in the output
cell.
● Visualizing Data with SQL: %sql SELECT column1, column2 FROM tempView
● Custom Plotting with Matplotlib: %python import matplotlib.pyplot as plt;
plt.plot(x, y)

4. Databricks Utilities (dbutils)

● Listing Files in DBFS: dbutils.fs.ls("/FileStore/tables/")

● Copying Files in DBFS: dbutils.fs.cp("/FileStore/tables/data.csv",
"/FileStore/tables/data_copy.csv")
● Removing Files from DBFS: dbutils.fs.rm("/FileStore/tables/data.csv")
● Running Shell Commands: %sh ls /dbfs/FileStore/tables/

5. Spark SQL and DataFrames

By: Waleed Mousa

● Caching a DataFrame: df.cache()
● Uncaching a DataFrame: df.unpersist()
● Explaining Query Plan: df.explain()
● Aggregating Data: df.groupBy("column").count()

6. Optimization Techniques

● Broadcast Join Hint: df1.join(broadcast(df2), Seq("id"))

● Repartitioning Data: df.repartition(100)
● Caching Tables: %sql CACHE TABLE tableName
● Z-Ordering for Optimized File Layout:
df.write.format("parquet").option("zorder",
"column").save("/mnt/data/z_ordered_data")

7. Machine Learning with MLlib

● Using MLlib for Modeling: from pyspark.ml.classification import

LogisticRegression; val lr = LogisticRegression()
● Model Training: val model = lr.fit(trainDF)
● Model Prediction: val predictions = model.transform(testDF)
● Model Evaluation: from pyspark.ml.evaluation import
MulticlassClassificationEvaluator; val evaluator =
MulticlassClassificationEvaluator()

8. Deep Learning with Databricks

● Using TensorFlow or PyTorch: %pip install tensorflow; %pip install torch

● Distributed Training with Horovod: import horovod.spark
● Loading Data for Deep Learning: data =
spark.read.format("image").load("/mnt/data/images")

9. Libraries and Dependencies

● Installing Python Libraries: %pip install numpy pandas

● Attaching Libraries to Clusters: Using Databricks UI to attach libraries
to clusters.
● Using Maven Libraries: %scala
dbutils.library.install("com.databricks:spark-xml_2.12:0.9.0")
● Uninstalling Libraries: %scala
dbutils.library.uninstall("com.databricks:spark-xml_2.12:0.9.0")

By: Waleed Mousa

10. Job Scheduling and Automation

● Creating a Job in Databricks UI: Using ‘Jobs’ tab to create and schedule
notebooks or JARs.
● Parameterizing Notebooks for Jobs: dbutils.widgets.text("name", "") to
create input widgets.
● Running Jobs via Databricks REST API: Using POST /jobs/run-now endpoint.
● Monitoring Job Runs: Using ‘Jobs’ tab to monitor runs and view logs.

11. Data Exploration and Analysis

● Using Koalas for Pandas-like Syntax: %python import databricks.koalas as

ks; kdf = ks.DataFrame(df)
● Histograms and Boxplots: %python display(df.describe())
● SQL Queries for Analysis: %sql SELECT COUNT(*) FROM tempView GROUP BY
column
● Correlation Analysis: %python df.stat.corr("col1", "col2")

12. Accessing External Data Sources

● Connecting to JDBC Data Sources: val jdbcDF =

spark.read.format("jdbc").option("url", jdbcUrl).option("dbtable",
"tableName").load()
● Writing to External Databases: jdbcDF.write.format("jdbc").option("url",
jdbcUrl).option("dbtable", "tableName").save()

13. Delta Lake Integration

● Creating a Delta Table: df.write.format("delta").save("/delta/tablePath")

● Reading from Delta Table: val deltaDF =
spark.read.format("delta").load("/delta/tablePath")
● Time Travel Query: df.as("alias").where("versionAsOf = 2")

14. Working with Structured Streaming

● Defining a Streaming DataFrame: val streamDF =

spark.readStream.format("source").load("path")
● Writing Stream Output to DBFS:
streamDF.writeStream.format("delta").start("/delta/streamOutput")
● Triggering Streaming Jobs:
streamDF.writeStream.trigger(Trigger.ProcessingTime("1 minute")).start()

By: Waleed Mousa

15. Databricks CLI: Basic Operations

● Installing Databricks CLI: Run pip install databricks-cli in your

terminal.
● Configuring Databricks CLI: Execute databricks configure --token, then
enter your Databricks host URL and personal access token.
● Listing Databricks Workspaces: databricks workspace ls
● Exporting a Notebook: databricks workspace export /Users/name/notebook -o
notebook.py
● Importing a Notebook to Workspace: databricks workspace import -l PYTHON
notebook.py /Users/name/notebook

16. Databricks CLI: Managing Clusters

● Listing Clusters: databricks clusters list

● Creating a Cluster: databricks clusters create --json
'{"name":"clusterName", "spark_version":"7.3.x-scala2.12",
"node_type_id":"Standard_D3_v2", "num_workers":2}'
● Starting a Cluster: databricks clusters start --cluster-id 1234
● Terminating a Cluster: databricks clusters delete --cluster-id 1234
● Getting Cluster Information: databricks clusters get --cluster-id 1234

17. Databricks CLI: Jobs Management

● Creating a Job: databricks jobs create --json 'job_json_content'

● Running a Job: databricks jobs run-now --job-id 1234
● Listing Jobs: databricks jobs list
● Deleting a Job: databricks jobs delete --job-id 1234
● Getting Job Status: databricks jobs get --job-id 1234

18. Databricks CLI: Managing DBFS

● Listing DBFS Files: databricks fs ls dbfs:/FileStore/tables/

● Copying Files to DBFS: databricks fs cp local_file.py
dbfs:/FileStore/tables/local_file.py
● Copying Files from DBFS to Local: databricks fs cp
dbfs:/FileStore/tables/data.csv local_data.csv
● Removing Files from DBFS: databricks fs rm
dbfs:/FileStore/tables/data.csv
● Making Directories in DBFS: databricks fs mkdirs
dbfs:/FileStore/new_folder

By: Waleed Mousa

19. Databricks CLI: Libraries Management

● Installing a Library on a Cluster: databricks libraries install

--cluster-id 1234 --maven-coordinates "org.jsoup:jsoup:1.11.3"
● Listing Libraries on a Cluster: databricks libraries list --cluster-id
1234
● Uninstalling a Library from a Cluster: databricks libraries uninstall
--cluster-id 1234 --maven-coordinates "org.jsoup:jsoup:1.11.3"
● Checking Library Status on a Cluster: databricks libraries cluster-status
--cluster-id 1234

20. Databricks CLI: Advanced Utilities

● Running a Spark Submit Job: databricks jobs run-now --job-id 1234

--jar-params "param1 param2"
● Exporting All Notebooks from a Directory: databricks workspace export_dir
/Users/name /local_directory
● Importing All Notebooks to a Directory: databricks workspace import_dir
/local_directory /Users/name
● Running Databricks SQL Queries: databricks sql query -q "SELECT * FROM
table LIMIT 10" --cluster-id 1234

21. Databricks CLI: Token Management

● Creating a Personal Access Token: databricks tokens create --comment

"token for automation"
● Listing Access Tokens: databricks tokens list
● Revoking an Access Token: databricks tokens revoke --token-id abcd1234

22. Databricks CLI: Environment Information

● Listing Available Spark Versions: databricks clusters spark-versions

● Listing Node Types: databricks clusters list-node-types
● Listing Available Zones: databricks clusters list-zones

23. Databricks CLI: Workspace Management

● Listing Folders in Workspace: databricks workspace ls /Users/name/folder

● Deleting a Notebook from Workspace: databricks workspace rm
/Users/name/notebook

By: Waleed Mousa

● Moving a Notebook in Workspace: databricks workspace mv
/Users/name/notebook /Users/name/new_notebook

24. Performance Tuning and Best Practices

● Data Skewness Handling: Use techniques like salting to mitigate data

skew.
● Broadcast Hints in Joins: Use broadcast(df) to optimize join operations.
● Persisting Intermediate DataFrames: Use df.persist() or df.cache() for
reuse.
● Optimizing File Sizes and Formats: Choose efficient file formats like
Parquet and optimize file sizes for Spark operations.

25. Advanced Analytics

● MLflow for Experiment Tracking: Use MLflow to track experiments, log

parameters, and results.
● Hyperparameter Tuning: Use MLflow or hyperopt for hyperparameter tuning
in machine learning.
● Advanced UDFs: Write Scala or Python UDFs for complex transformations.

26. Handling Large Scale Data

● Partitioning Strategies: Optimize data partitioning based on the

workload.
● Z-Ordering in Delta Lakes: Use Z-Ordering to optimize data layout for
frequently filtered columns.
● Optimizing Data Shuffles: Minimize shuffles and repartition data
efficiently.

27. Advanced Data Processing

● GraphFrames for Graph Analysis: Leverage GraphFrames for complex graph

computations.
● Geospatial Analysis: Use libraries like Magellan for geospatial data
processing.
● Handling Complex Nested Structures: Efficiently process nested JSON or
XML data structures.

28. Notebook Workflows

By: Waleed Mousa

● Running Notebooks from Another Notebook:
dbutils.notebook.run("notebookPath", timeoutSeconds, parameters)
● Parameterizing Notebooks: Use widgets to create parameterized notebooks.

29. Scheduling and Automation

● Setting Up Jobs and Schedules: Configure jobs in Databricks to run

notebooks or JARs on a schedule.
● Dependency Management in Jobs: Ensure proper management of dependencies
in complex workflows.

30. Data Exploration and Visualization

● Built-in Visualization Tools: Use Databricks' built-in charts and graphs

for quick visualization.
● Interactive Data Exploration with %sql: Leverage %sql magic command for
interactive SQL queries.
● Third-party Visualization Libraries: Integrate with libraries like
Matplotlib or ggplot for advanced visualizations.

31. Monitoring and Logging

● Monitoring Cluster Metrics: Use Ganglia or other tools for monitoring

cluster performance.
● Application Logs Analysis: Analyze Spark application logs for debugging
and optimization.
● Auditing User Actions: Leverage auditing capabilities to monitor user
activities and data access.

32. Using Databricks for ETL

● ETL Pipelines: Build robust ETL pipelines leveraging Spark’s

capabilities.
● Incremental Data Loading: Use Delta Lake for efficient incremental data
loading.
● Data Quality Checks: Implement data quality checks and validations in
ETL workflows.

By: Waleed Mousa

Azure Databricks Interview Question
No ratings yet
Azure Databricks Interview Question
12 pages
Azure Comapny Wise Question
No ratings yet
Azure Comapny Wise Question
68 pages
Azure Data Engineer Interview Questions and Answers
No ratings yet
Azure Data Engineer Interview Questions and Answers
7 pages
Azure Databricks Interview
100% (2)
Azure Databricks Interview
35 pages
Azure Data Factory Interview Questions
0% (1)
Azure Data Factory Interview Questions
14 pages
Databricks Questions
No ratings yet
Databricks Questions
23 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
WP Rest API
100% (1)
WP Rest API
58 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
Azure Data Engineer Content
No ratings yet
Azure Data Engineer Content
6 pages
De Mod 5 Deploy Workloads With Databricks Workflows
No ratings yet
De Mod 5 Deploy Workloads With Databricks Workflows
19 pages
Azure Databricks Best Practices 1664384402
No ratings yet
Azure Databricks Best Practices 1664384402
30 pages
Databricks Project
No ratings yet
Databricks Project
1 page
Databricks: Building and Operating A Big Data Service Based On Apache Spark
No ratings yet
Databricks: Building and Operating A Big Data Service Based On Apache Spark
32 pages
Advanced Project For Data Engineering in Azure
100% (1)
Advanced Project For Data Engineering in Azure
5 pages
4 - Action and RDD Transformations
No ratings yet
4 - Action and RDD Transformations
25 pages
Pyspark Material
No ratings yet
Pyspark Material
16 pages
Pyspark Hands On
No ratings yet
Pyspark Hands On
189 pages
Spark Interview Q&A
No ratings yet
Spark Interview Q&A
31 pages
Databricks Course Curriculum
No ratings yet
Databricks Course Curriculum
2 pages
Databricks Lab 1
100% (3)
Databricks Lab 1
7 pages
Final Print Py Spark
No ratings yet
Final Print Py Spark
133 pages
Azure Data Engineer Interview Questions
No ratings yet
Azure Data Engineer Interview Questions
35 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
Data Factory
100% (2)
Data Factory
26 pages
Azure Cosmos DB Workshop
100% (1)
Azure Cosmos DB Workshop
147 pages
1 Introduction To Databricks Machine Learning
No ratings yet
1 Introduction To Databricks Machine Learning
9 pages
4.1 The Spark UI - Databricks
No ratings yet
4.1 The Spark UI - Databricks
7 pages
ADB Course Catalog
No ratings yet
ADB Course Catalog
84 pages
Notes of Azure Data Bricks
No ratings yet
Notes of Azure Data Bricks
16 pages
Azure DE Interview Que
100% (1)
Azure DE Interview Que
25 pages
Azure Analytics: Synapse
100% (4)
Azure Analytics: Synapse
251 pages
Databricks Pyspark 1712042928
100% (1)
Databricks Pyspark 1712042928
21 pages
Delta Table and Pyspark Interview Questions
100% (1)
Delta Table and Pyspark Interview Questions
14 pages
Azure Datalake
No ratings yet
Azure Datalake
8 pages
Databricks Dbutils
100% (1)
Databricks Dbutils
34 pages
Databricks
No ratings yet
Databricks
43 pages
Azure Data Factory Interview Questions and Aswers
No ratings yet
Azure Data Factory Interview Questions and Aswers
5 pages
AZURE DATA FACTORY Content
No ratings yet
AZURE DATA FACTORY Content
5 pages
Kanishk Resume
No ratings yet
Kanishk Resume
5 pages
Dp203 Notes
No ratings yet
Dp203 Notes
87 pages
Databricks Certified Data Engineer Professional Practice Questions
No ratings yet
Databricks Certified Data Engineer Professional Practice Questions
13 pages
Azure DataEngineering End To End Videos
No ratings yet
Azure DataEngineering End To End Videos
21 pages
Pipeline: Azure Data Factory Cheat Sheet by
100% (1)
Pipeline: Azure Data Factory Cheat Sheet by
14 pages
SQL Interview Questions For A Data Engineer
No ratings yet
SQL Interview Questions For A Data Engineer
11 pages
Interview DE by Company Azurelib Dot Com
No ratings yet
Interview DE by Company Azurelib Dot Com
14 pages
Azure Databricks An Introduction
No ratings yet
Azure Databricks An Introduction
54 pages
Apache Spark Interview Questions and Answers PDF
No ratings yet
Apache Spark Interview Questions and Answers PDF
31 pages
Spark Interview Questions 1713805760
No ratings yet
Spark Interview Questions 1713805760
40 pages
Azure Data Engineer - Updated Profile - Raaman
No ratings yet
Azure Data Engineer - Updated Profile - Raaman
4 pages
Top 50 Azure Data Factory Interview Questions and Answers
No ratings yet
Top 50 Azure Data Factory Interview Questions and Answers
14 pages
Python For Data Engineering Guide
No ratings yet
Python For Data Engineering Guide
4 pages
Loan Risk Analysis With Databricks and XGBoost - A Databricks Guide, Including Code Samples and Notebooks (2019)
No ratings yet
Loan Risk Analysis With Databricks and XGBoost - A Databricks Guide, Including Code Samples and Notebooks (2019)
11 pages
Spark Optimization PDF
100% (1)
Spark Optimization PDF
14 pages
Snowflake
No ratings yet
Snowflake
16 pages
Microsoft Certified: Azure Data Engineer Associate - Skills Measured
No ratings yet
Microsoft Certified: Azure Data Engineer Associate - Skills Measured
4 pages
Databricks Performance Tuning
No ratings yet
Databricks Performance Tuning
54 pages
Azure Data Factory Vs Databricks - 4 Key Differences - Hevo
No ratings yet
Azure Data Factory Vs Databricks - 4 Key Differences - Hevo
14 pages
Databricksmcqsquestionsandanswers
No ratings yet
Databricksmcqsquestionsandanswers
5 pages
Databricks Data Engineer Associate Notes
No ratings yet
Databricks Data Engineer Associate Notes
5 pages
Dbt Utilities
No ratings yet
Dbt Utilities
21 pages
Web Development Basics
No ratings yet
Web Development Basics
17 pages
API Development
No ratings yet
API Development
12 pages
Theory Slides v1.1
No ratings yet
Theory Slides v1.1
444 pages
CV - Mehreen Saqib Maniar 1
No ratings yet
CV - Mehreen Saqib Maniar 1
2 pages
HR HR HR Hrdev: Example: Using Data Pump Export and Data Pump Import
No ratings yet
HR HR HR Hrdev: Example: Using Data Pump Export and Data Pump Import
5 pages
Bugreport Sky - in AQ3A.240912.001 2024 12 23 21 34 16 Dumpstate - Log 4833
No ratings yet
Bugreport Sky - in AQ3A.240912.001 2024 12 23 21 34 16 Dumpstate - Log 4833
33 pages
1000 ChatGPT Prompts For Agile Project Management and Scrum Masters
No ratings yet
1000 ChatGPT Prompts For Agile Project Management and Scrum Masters
50 pages
Technology Resource Improvement Plan
No ratings yet
Technology Resource Improvement Plan
2 pages
Examiner Report 2018
No ratings yet
Examiner Report 2018
44 pages
Richa Gupta Resume
No ratings yet
Richa Gupta Resume
4 pages
ERP of SCB
100% (2)
ERP of SCB
12 pages
List of Units: Home About Stpi Services Info Career Media Contact Us
No ratings yet
List of Units: Home About Stpi Services Info Career Media Contact Us
341 pages
Cyber Security Initiatives by Securities and Exchange Board India
No ratings yet
Cyber Security Initiatives by Securities and Exchange Board India
8 pages
DP 1010 DeveloperGuide en
No ratings yet
DP 1010 DeveloperGuide en
183 pages
OceanStor S2600 Command Reference
No ratings yet
OceanStor S2600 Command Reference
274 pages
Data Domain
No ratings yet
Data Domain
11 pages
Foundations of Business Intelligence (BI) From Concept To Implementation
No ratings yet
Foundations of Business Intelligence (BI) From Concept To Implementation
75 pages
SGL - 14 - v01 - CloudSecurityForSaaS e PaaS - 20181220
No ratings yet
SGL - 14 - v01 - CloudSecurityForSaaS e PaaS - 20181220
12 pages
Priya Ghule Canonical Answers
No ratings yet
Priya Ghule Canonical Answers
4 pages
Ch02 OS9e
No ratings yet
Ch02 OS9e
52 pages
Flipping The Triangle
No ratings yet
Flipping The Triangle
84 pages
Misc Tasks
No ratings yet
Misc Tasks
11 pages
Example of A Feasibility Report Format
No ratings yet
Example of A Feasibility Report Format
3 pages
Computer Operator Mcqs With Answers
No ratings yet
Computer Operator Mcqs With Answers
6 pages
RHEL SimpleRisk Install Guide (PHP8)
No ratings yet
RHEL SimpleRisk Install Guide (PHP8)
18 pages
Python Assignment 3
No ratings yet
Python Assignment 3
11 pages
Social Media Infographic
No ratings yet
Social Media Infographic
1 page
Republic of The Philippines Sultan Kudarat State University Kalamansig Campus Collage of Fisheries
No ratings yet
Republic of The Philippines Sultan Kudarat State University Kalamansig Campus Collage of Fisheries
16 pages

Databricks - Cheatsheet

Uploaded by

Databricks - Cheatsheet

Uploaded by

# [ Databricks ] {CheatSheet}

1. Data Reading and Writing

● Reading Data from DBFS:

2. Data Transformation and Processing

● Creating Temp Views for SQL Queries:

3. Visualization and Display Functions

● Displaying DataFrame: display(df)

4. Databricks Utilities (dbutils)

● Listing Files in DBFS: dbutils.fs.ls("/FileStore/tables/")

5. Spark SQL and DataFrames

By: Waleed Mousa

● Broadcast Join Hint: df1.join(broadcast(df2), Seq("id"))

7. Machine Learning with MLlib

● Using MLlib for Modeling: from pyspark.ml.classification import

8. Deep Learning with Databricks

● Using TensorFlow or PyTorch: %pip install tensorflow; %pip install torch

9. Libraries and Dependencies

● Installing Python Libraries: %pip install numpy pandas

By: Waleed Mousa

11. Data Exploration and Analysis

● Using Koalas for Pandas-like Syntax: %python import databricks.koalas as

12. Accessing External Data Sources

● Connecting to JDBC Data Sources: val jdbcDF =

13. Delta Lake Integration

● Creating a Delta Table: df.write.format("delta").save("/delta/tablePath")

14. Working with Structured Streaming

● Defining a Streaming DataFrame: val streamDF =

By: Waleed Mousa

● Installing Databricks CLI: Run pip install databricks-cli in your

16. Databricks CLI: Managing Clusters

● Listing Clusters: databricks clusters list

17. Databricks CLI: Jobs Management

● Creating a Job: databricks jobs create --json 'job_json_content'

18. Databricks CLI: Managing DBFS

● Listing DBFS Files: databricks fs ls dbfs:/FileStore/tables/

By: Waleed Mousa

● Installing a Library on a Cluster: databricks libraries install

20. Databricks CLI: Advanced Utilities

● Running a Spark Submit Job: databricks jobs run-now --job-id 1234

21. Databricks CLI: Token Management

● Creating a Personal Access Token: databricks tokens create --comment

22. Databricks CLI: Environment Information

● Listing Available Spark Versions: databricks clusters spark-versions

23. Databricks CLI: Workspace Management

● Listing Folders in Workspace: databricks workspace ls /Users/name/folder

By: Waleed Mousa

24. Performance Tuning and Best Practices

● Data Skewness Handling: Use techniques like salting to mitigate data

25. Advanced Analytics

● MLflow for Experiment Tracking: Use MLflow to track experiments, log

26. Handling Large Scale Data

● Partitioning Strategies: Optimize data partitioning based on the

27. Advanced Data Processing

● GraphFrames for Graph Analysis: Leverage GraphFrames for complex graph

28. Notebook Workflows

By: Waleed Mousa

29. Scheduling and Automation

● Setting Up Jobs and Schedules: Configure jobs in Databricks to run

30. Data Exploration and Visualization

● Built-in Visualization Tools: Use Databricks' built-in charts and graphs

31. Monitoring and Logging

● Monitoring Cluster Metrics: Use Ganglia or other tools for monitoring

32. Using Databricks for ETL

● ETL Pipelines: Build robust ETL pipelines leveraging Spark’s

By: Waleed Mousa

You might also like