0% found this document useful (0 votes)

57 views7 pages

Data Wrangling With Dask CheatSheet 1731972488

This cheat sheet provides a comprehensive guide to data wrangling using Dask, covering key operations such as importing Dask objects, basic DataFrame operations, aggregation, merging, time series operations, and handling missing data. It also includes advanced features like custom functions, parallel computing, and data quality validation. Each section includes code snippets for practical implementation.

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

57 views7 pages

Data Wrangling With Dask CheatSheet 1731972488

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

# [ Data Wrangling with Dask ] ( CheatSheet )

1. Importing and Creating Dask Objects

● Import Dask DataFrame: import dask.dataframe as dd

● Import Dask Array: import dask.array as da
● Import Dask Bag: import dask.bag as db
● Create Dask DataFrame from CSV: df = dd.read_csv('data/*.csv')
● Create Dask DataFrame from Parquet: df =
dd.read_parquet('data/*.parquet')
● Create Dask Array: arr = da.random.random((10000, 10000), chunks=(1000,
1000))
● Create Dask Bag from list: bag = db.from_sequence([1, 2, 3, 4, 5])
● Create Dask DataFrame from Pandas: ddf = dd.from_pandas(pdf,
npartitions=4)

2. Basic Dask DataFrame Operations

● Show DataFrame info: df.info()

● Get column names: df.columns
● Get data types: df.dtypes
● Select a column: df['column_name']
● Select multiple columns: df[['column1', 'column2']]
● Rename columns: df = df.rename(columns={'old_name': 'new_name'})
● Add new column: df['new_column'] = df['column1'] + df['column2']
● Drop column: df = df.drop('column_name', axis=1)
● Filter rows: df[df['column'] > 5]
● Sort values: df = df.sort_values('column')
● Reset index: df = df.reset_index()
● Set index: df = df.set_index('column')

3. Aggregation and Grouping

● Compute column sum: df['column'].sum().compute()

● Compute column mean: df['column'].mean().compute()
● Compute column median: df['column'].quantile(0.5).compute()
● Group by and aggregate: df.groupby('category').agg({'value':
'sum'}).compute()

By: Waleed Mousa

● Group by multiple columns: df.groupby(['cat1', 'cat2']).agg({'value':
['sum', 'mean']}).compute()
● Count unique values: df['column'].nunique().compute()
● Value counts: df['column'].value_counts().compute()

4. Merging and Joining

● Merge DataFrames: merged = dd.merge(df1, df2, on='key')

● Left join: left_join = dd.merge(df1, df2, on='key', how='left')
● Right join: right_join = dd.merge(df1, df2, on='key', how='right')
● Outer join: outer_join = dd.merge(df1, df2, on='key', how='outer')
● Concatenate DataFrames vertically: concat_df = dd.concat([df1, df2])
● Concatenate DataFrames horizontally: concat_df = dd.concat([df1, df2],
axis=1)

5. Time Series Operations

● Convert to datetime: df['date'] = dd.to_datetime(df['date'])

● Set datetime index: df = df.set_index('date')
● Resample to monthly frequency: monthly = df.resample('M').mean()
● Rolling window calculation: df['rolling_mean'] =
df['value'].rolling(window=7).mean()
● Shift data: df['previous_day'] = df['value'].shift(1)
● Time series difference: df['diff'] = df['value'].diff()

6. String Operations

● Convert to lowercase: df['text'] = df['text'].str.lower()

● Convert to uppercase: df['text'] = df['text'].str.upper()
● Strip whitespace: df['text'] = df['text'].str.strip()
● Replace substring: df['text'] = df['text'].str.replace('old', 'new')
● Extract substring: df['substring'] = df['text'].str[0:5]
● String contains: mask = df['text'].str.contains('pattern')
● String split: df['split'] = df['text'].str.split(',')

7. Missing Data Handling

● Check for missing values: df.isnull().sum().compute()

● Drop rows with missing values: df = df.dropna()
● Fill missing values with a constant: df = df.fillna(0)

By: Waleed Mousa

● Fill missing values with method: df = df.fillna(method='ffill')
● Interpolate missing values: df = df.interpolate()

8. Data Type Conversion

● Convert to integer: df['column'] = df['column'].astype(int)

● Convert to float: df['column'] = df['column'].astype(float)
● Convert to string: df['column'] = df['column'].astype(str)
● Convert to category: df['column'] = df['column'].astype('category')

9. Advanced Operations

● Apply custom function: df['new_col'] = df['col'].apply(lambda x: x * 2)

● Map values: df['mapped'] = df['col'].map({1: 'A', 2: 'B', 3: 'C'})
● One-hot encoding: df = dd.get_dummies(df, columns=['category'])
● Binning: df['binned'] = dd.cut(df['value'], bins=[0, 25, 50, 75, 100])
● Calculate percentiles: df['percentile'] = df['value'].rank(pct=True)

10. Dask Array Operations

● Create array from numpy: darr = da.from_array(np.array([1, 2, 3]),

chunks=2)
● Array shape: darr.shape
● Array mean: darr.mean().compute()
● Array sum: darr.sum().compute()
● Element-wise operations: result = da.sin(darr)
● Matrix multiplication: result = da.matmul(arr1, arr2)
● Concatenate arrays: combined = da.concatenate([arr1, arr2], axis=0)
● Reshape array: reshaped = darr.reshape((2, 2))

11. Dask Bag Operations

● Create bag from list: bag = db.from_sequence([1, 2, 3, 4, 5])

● Map function to bag: result = bag.map(lambda x: x * 2)
● Filter bag: filtered = bag.filter(lambda x: x > 2)
● Flatten bag of lists: flattened = bag.flatten()
● Reduce bag: sum_result = bag.sum()
● Group by key: grouped = bag.groupby(lambda x: x % 2)
● Count items: count = bag.count()

By: Waleed Mousa

12. Computation and Persistence

● Compute result: result = df.column.sum().compute()

● Persist DataFrame in memory: df = df.persist()
● Visualize task graph: df.visualize(filename='graph.svg')
● Get dask performance report: from dask.diagnostics import ProgressBar;
with ProgressBar(): result = df.compute()
● Write DataFrame to CSV: df.to_csv('output/*.csv')
● Write DataFrame to Parquet: df.to_parquet('output/data.parquet')

13. Parallel and Distributed Computing

● Set number of workers: from dask.distributed import Client; client =

Client(n_workers=4)
● Submit function to cluster: future = client.submit(func, *args)
● Map function across cluster: futures = client.map(func, sequence)
● Gather results: results = client.gather(futures)
● Scale cluster: client.scale(10) # Scale to 10 workers

14. Dask-ML Operations

● Import Dask-ML: import dask_ml.preprocessing as dmp

● Scale features: scaler = dmp.StandardScaler(); scaled =
scaler.fit_transform(df)
● Train-test split: from dask_ml.model_selection import train_test_split;
X_train, X_test, y_train, y_test = train_test_split(X, y)
● Linear regression: from dask_ml.linear_model import LinearRegression; lr
= LinearRegression(); lr.fit(X, y)
● Logistic regression: from dask_ml.linear_model import LogisticRegression;
lr = LogisticRegression(); lr.fit(X, y)

15. Advanced Dask Features

● Use custom scheduler: from dask.distributed import Client; client =

Client('scheduler-address:8786')
● Create delayed function: from dask import delayed; @delayed def func(x):
return x * 2
● Compute delayed function: result = func(10).compute()
● Create Dask collection from delayed objects: dask_list =
[delayed(func)(i) for i in range(10)]

By: Waleed Mousa

● Optimize Dask graph: from dask.optimization import fuse; optimized =
fuse(dask_list)
● Use callback for computation: from dask.callbacks import Callback; with
Callback(): result = df.compute()
● Profile Dask computation: from dask.diagnostics import ResourceProfiler;
with ResourceProfiler() as rprof: result = df.compute()
● Visualize resource usage: rprof.visualize()

16. Advanced Data Manipulation

● Pivot table: pivoted = df.pivot_table(values='value', index='category',

columns='date')
● Melt DataFrame: melted = df.melt(id_vars=['id'], value_vars=['col1',
'col2'])
● Explode list column: exploded = df.explode('list_column')
● Cumulative sum: df['cumsum'] = df.groupby('category')['value'].cumsum()
● Rolling window with custom function: df['custom_roll'] =
df.rolling(window=3).apply(lambda x: x.max() - x.min())

17. Time Series Advanced Operations

● Lag multiple periods: df['lag_3'] = df.groupby('id')['value'].shift(3)

● Forward fill within groups: df['filled'] =
df.groupby('category')['value'].ffill()
● Compute year-over-year growth: df['yoy_growth'] =
df.groupby('id')['value'].pct_change(freq='Y')
● Resample with custom aggregation: resampled =
df.resample('M').agg({'value': 'mean', 'count': 'sum'})
● Time-based rolling operation: df['roll_7d'] =
df.rolling('7D')['value'].mean()

18. Window Functions

● Rank within groups: df['rank'] = df.groupby('category')['value'].rank()

● Percent rank: df['percentile'] =
df.groupby('category')['value'].rank(pct=True)
● Cumulative distribution: df['cdf'] =
df.groupby('category')['value'].rank(pct=True)
● Moving correlation: df['rolling_corr'] = df.groupby('id')['x',
'y'].rolling(window=10).corr().unstack().iloc[:, 1]

By: Waleed Mousa

● Expanding window calculations: df['expanding_mean'] =
df.groupby('category')['value'].expanding().mean()

19. String and Text Processing

● Extract using regex: df['extracted'] = df['text'].str.extract('(\d+)')

● Count occurrences: df['count'] = df['text'].str.count('pattern')
● Pad strings: df['padded'] = df['text'].str.pad(10, side='left',
fillchar='0')
● Remove accents: df['clean'] =
df['text'].str.normalize('NFKD').str.encode('ascii',
errors='ignore').str.decode('utf-8')
● Concatenate strings across rows: df['concat'] =
df.groupby('id')['text'].transform(lambda x: ' '.join(x))

20. Complex Aggregations

● Weighted average: result = df.groupby('category').apply(lambda x:

np.average(x['value'], weights=x['weight'])).compute()
● First and last values: result = df.groupby('category').agg({'value':
['first', 'last']})
● Custom aggregation function: result =
df.groupby('category').agg({'value': lambda x: x.nlargest(3).mean()})
● Multiple aggregations: result = df.groupby('category').agg({'value':
['mean', 'median', 'std', 'min', 'max']})
● Aggregation with filtering: result = df[df['value'] >
0].groupby('category')['value'].mean()

21. Advanced Joining and Merging

● Merge with indicator: merged = dd.merge(df1, df2, on='key', how='outer',

indicator=True)
● Merge multiple DataFrames: merged = dd.multi.merge([df1, df2, df3],
on='key')
● Merge with complex conditions: merged = dd.merge(df1, df2,
left_on='key1', right_on='key2', suffixes=('_1', '_2'))
● Merge and aggregate: result = dd.merge(df1, df2,
on='key').groupby('category').agg({'value': 'sum'})
● Self-join: self_joined = dd.merge(df, df, left_on='parent',
right_on='id')

By: Waleed Mousa

22. Data Quality and Validation

● Check for duplicates: duplicates = df.duplicated().sum().compute()

● Identify outliers (Z-score method): df['is_outlier'] = abs((df['value'] -
df['value'].mean()) / df['value'].std()) > 3
● Check column correlation: correlation = df[['col1',
'col2']].corr().compute()
● Validate value ranges: invalid = df[(df['value'] < min_val) |
(df['value'] > max_val)]
● Check for inconsistent categories: inconsistent =
set(df['category'].unique().compute()) - set(valid_categories)

23. Advanced Dask Features

● Custom partitioning: df = df.repartition(npartitions=20)

● Repartition by column: df = df.set_index('date', sorted=True)
● Optimize task graph: from dask.optimization import cull; culled_dask, _ =
cull(df.dask, list(df.__dask_keys__()))
● Use high-level task graphs: from dask.highlevelgraph import
HighLevelGraph; hlg = HighLevelGraph.from_collections('name', df.dask,
dependencies={'dep': df2.dask})
● Create custom Dask collection: from dask.base import DaskMethodsMixin;
class CustomCollection(DaskMethodsMixin): ...

By: Waleed Mousa

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Korean Phrases
100% (2)
Korean Phrases
62 pages
2 TheNewDynamicChurch
No ratings yet
2 TheNewDynamicChurch
133 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
4 pages
Discount Rates: III: Relative Risk Measures
No ratings yet
Discount Rates: III: Relative Risk Measures
20 pages
Python For DS Cheat Sheet
100% (2)
Python For DS Cheat Sheet
6 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Crimeprevpdf PDF
100% (1)
Crimeprevpdf PDF
68 pages
Maa Kamakali-Mula Mantra & Kavacham
100% (1)
Maa Kamakali-Mula Mantra & Kavacham
4 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Power BI Important Shortcuts
No ratings yet
Power BI Important Shortcuts
5 pages
SSC CGL 9th Dec 2022 Shift-2 by Cracku
No ratings yet
SSC CGL 9th Dec 2022 Shift-2 by Cracku
29 pages
Beginning Algebra 9th Edition Tobey Test Bank
100% (33)
Beginning Algebra 9th Edition Tobey Test Bank
25 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Comprehensive Python CheatSheet 1731972192
No ratings yet
Comprehensive Python CheatSheet 1731972192
10 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
12 Useful Pandas Techniques in Python For Data Manipulation
100% (2)
12 Useful Pandas Techniques in Python For Data Manipulation
19 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Python Notes by Prof T
No ratings yet
Python Notes by Prof T
10 pages
GitLab CI CD Operations CheatSheet 1731972419
No ratings yet
GitLab CI CD Operations CheatSheet 1731972419
11 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
4 pages
Claim Divine Your Dinner A Cookbook For Using Tarot As Your Guide To Magickal Meals Premium Ebook Download
No ratings yet
Claim Divine Your Dinner A Cookbook For Using Tarot As Your Guide To Magickal Meals Premium Ebook Download
16 pages
Data Wrangling With Python and Pandas
No ratings yet
Data Wrangling With Python and Pandas
7 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Speaking (Daily Activities)
100% (1)
Speaking (Daily Activities)
3 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Pandas para Analisis de Datos
No ratings yet
Pandas para Analisis de Datos
10 pages
EXSPI
No ratings yet
EXSPI
235 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Flava Works vs. Adam4Adam
No ratings yet
Flava Works vs. Adam4Adam
61 pages
Assessment of Existing Steel Structures - Reccomendations For Estimation of Exisitng Fatigue Life
No ratings yet
Assessment of Existing Steel Structures - Reccomendations For Estimation of Exisitng Fatigue Life
109 pages
CNet Training Brochure
No ratings yet
CNet Training Brochure
52 pages
Fundamentals of Employee D Iscipline Norms of Conduct Reference: Civil Service Manual
No ratings yet
Fundamentals of Employee D Iscipline Norms of Conduct Reference: Civil Service Manual
44 pages
A Tangled Tale Carrol L.
No ratings yet
A Tangled Tale Carrol L.
57 pages
IP Record Python 23-24 Aryan
No ratings yet
IP Record Python 23-24 Aryan
42 pages
DL 650 Am 3
No ratings yet
DL 650 Am 3
108 pages
Tire Impressions: Reveals More Than You Think!
No ratings yet
Tire Impressions: Reveals More Than You Think!
30 pages
Usage of NumPy For Numerical Data in Detail
No ratings yet
Usage of NumPy For Numerical Data in Detail
52 pages
Ebooks File Professional Responsibility 5th Ed., Paperback Edition W. Bradley Wendel All Chapters
100% (14)
Ebooks File Professional Responsibility 5th Ed., Paperback Edition W. Bradley Wendel All Chapters
85 pages
Pandas CheatSheet
No ratings yet
Pandas CheatSheet
18 pages
L6 and 7-Data Preprocessing-Coding
No ratings yet
L6 and 7-Data Preprocessing-Coding
34 pages
Seminar Report "Gas Turbine and Its Various Applications"
No ratings yet
Seminar Report "Gas Turbine and Its Various Applications"
8 pages
Power BI Deployment Pipelines CheatSheet 1731972155
No ratings yet
Power BI Deployment Pipelines CheatSheet 1731972155
10 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
1 - Student Materials - Anchor Phenomenon Launch - Performance Task - V4
No ratings yet
1 - Student Materials - Anchor Phenomenon Launch - Performance Task - V4
18 pages
Web Scraping and Data Collection CheatSheet 1731972399
No ratings yet
Web Scraping and Data Collection CheatSheet 1731972399
10 pages
MKU
No ratings yet
MKU
5 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Delica n2 v1v2 Text Medium
No ratings yet
Delica n2 v1v2 Text Medium
18 pages
SQL For Data Science
No ratings yet
SQL For Data Science
8 pages
04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
04 Getting Started With Pandas
No ratings yet
04 Getting Started With Pandas
85 pages
Report
No ratings yet
Report
18 pages
EDA Python For Data Analsis
No ratings yet
EDA Python For Data Analsis
10 pages
Python Report Ritik
No ratings yet
Python Report Ritik
15 pages
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
No ratings yet
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
12 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Data Analysis Tools
No ratings yet
Data Analysis Tools
26 pages
All India Mock Test - 02
No ratings yet
All India Mock Test - 02
16 pages
Python Essential Methods in Machine Learning
No ratings yet
Python Essential Methods in Machine Learning
6 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
The Evidence Based Practitioner Applying Research To Meet Client Needs 1st Edition, (Ebook PDF
No ratings yet
The Evidence Based Practitioner Applying Research To Meet Client Needs 1st Edition, (Ebook PDF
50 pages
Python Lists, Sets, and Tuples
No ratings yet
Python Lists, Sets, and Tuples
5 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Python CSBS Bhavya Lab Manual
No ratings yet
Python CSBS Bhavya Lab Manual
14 pages
Important Pandas Operations 1697910759
No ratings yet
Important Pandas Operations 1697910759
6 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
Introduction To Pandas in Data Analytics
No ratings yet
Introduction To Pandas in Data Analytics
12 pages
What Is Pandas
No ratings yet
What Is Pandas
9 pages
Pandas
No ratings yet
Pandas
5 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
3rd Week Report
No ratings yet
3rd Week Report
7 pages
First Video: How Your Brain Predictions Interfere With What You See - Georg Keller
No ratings yet
First Video: How Your Brain Predictions Interfere With What You See - Georg Keller
2 pages
Data Mining - Week - 4
No ratings yet
Data Mining - Week - 4
8 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
Data Analysis
No ratings yet
Data Analysis
20 pages
Inflations, Its Types and Causes of Inflation in Pakistan
No ratings yet
Inflations, Its Types and Causes of Inflation in Pakistan
5 pages
Pandas Notes Design
No ratings yet
Pandas Notes Design
5 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
ELT Using Pandas
No ratings yet
ELT Using Pandas
5 pages
CFP Iwinac24
No ratings yet
CFP Iwinac24
2 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
DT Vs NDT
No ratings yet
DT Vs NDT
2 pages
Pandas Notes
No ratings yet
Pandas Notes
3 pages
DataFrame 1
No ratings yet
DataFrame 1
3 pages
Manipulating Dataframes - Beginner
No ratings yet
Manipulating Dataframes - Beginner
2 pages
Ibps Po Prelims - 25 (18-10-2024) - Rank List
No ratings yet
Ibps Po Prelims - 25 (18-10-2024) - Rank List
2 pages
Relation-Reincarnation and Globalisation.
No ratings yet
Relation-Reincarnation and Globalisation.
3 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Data Wrangling With Dask CheatSheet 1731972488

Uploaded by

Data Wrangling With Dask CheatSheet 1731972488

Uploaded by

# [ Data Wrangling with Dask ] ( CheatSheet )

1. Importing and Creating Dask Objects

● Import Dask DataFrame: import dask.dataframe as dd

2. Basic Dask DataFrame Operations

● Show DataFrame info: df.info()

3. Aggregation and Grouping

● Compute column sum: df['column'].sum().compute()

By: Waleed Mousa

4. Merging and Joining

● Merge DataFrames: merged = dd.merge(df1, df2, on='key')

5. Time Series Operations

● Convert to datetime: df['date'] = dd.to_datetime(df['date'])

● Convert to lowercase: df['text'] = df['text'].str.lower()

7. Missing Data Handling

● Check for missing values: df.isnull().sum().compute()

By: Waleed Mousa

8. Data Type Conversion

● Convert to integer: df['column'] = df['column'].astype(int)

● Apply custom function: df['new_col'] = df['col'].apply(lambda x: x * 2)

10. Dask Array Operations

● Create array from numpy: darr = da.from_array(np.array([1, 2, 3]),

11. Dask Bag Operations

● Create bag from list: bag = db.from_sequence([1, 2, 3, 4, 5])

By: Waleed Mousa

● Compute result: result = df.column.sum().compute()

13. Parallel and Distributed Computing

● Set number of workers: from dask.distributed import Client; client =

14. Dask-ML Operations

● Import Dask-ML: import dask_ml.preprocessing as dmp

15. Advanced Dask Features

● Use custom scheduler: from dask.distributed import Client; client =

By: Waleed Mousa

16. Advanced Data Manipulation

● Pivot table: pivoted = df.pivot_table(values='value', index='category',

17. Time Series Advanced Operations

● Lag multiple periods: df['lag_3'] = df.groupby('id')['value'].shift(3)

18. Window Functions

● Rank within groups: df['rank'] = df.groupby('category')['value'].rank()

By: Waleed Mousa

19. String and Text Processing

● Extract using regex: df['extracted'] = df['text'].str.extract('(\d+)')

20. Complex Aggregations

● Weighted average: result = df.groupby('category').apply(lambda x:

21. Advanced Joining and Merging

● Merge with indicator: merged = dd.merge(df1, df2, on='key', how='outer',

By: Waleed Mousa

● Check for duplicates: duplicates = df.duplicated().sum().compute()

23. Advanced Dask Features

● Custom partitioning: df = df.repartition(npartitions=20)

By: Waleed Mousa

You might also like