0% found this document useful (0 votes)

17 views5 pages

HPC Mini

This document discusses optimizing database query performance through parallelization. It shows how to parallelize reading, writing and updating a PostgreSQL database table to improve performance over serial processing. The execution times are compared between serial and parallel approaches for reading, inserting and updating large amounts of random test data to demonstrate the performance gains of parallelization.

Uploaded by

Dhanashri Salunkhe

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views5 pages

HPC Mini

Uploaded by

Dhanashri Salunkhe

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

mini-project-1

Mini Project - Implement Parallelization of Database Query optimization

from multiprocessing import Process,freeze_support, Pool

import psycopg2
[ ]:
import time
import os
import pandas as pd
import datetime,random
import concurrent.futures

[ ]: USER = "user_1"
DB = "test_1"
PASS = "postgres"

df = None

[ ]: def serial_read():
start_time = time.time()
conn = psycopg2.connect(database = DB, user = USER, password = PASS, host =␣
𝗌HOST, port= PORT)

cursor = conn.cursor()
cursor.execute("SELECT * from employees.employee ORDER BY id ASC")
records = cursor.fetchall()
conn.close()
print(f"Execution time for serial read:{round(time.time() - start_time,3)}␣
𝗌s")

df = pd.DataFrame(records,columns=["ID","Birth Date", "First Name", "Last␣

𝗌Name", "Gender", "Hire Date"])

return df

[ ]: df = serial_read()
df

Execution time for serial read:0.477 s

1
[ ]: ID Birth Date First Name Last Name Gender Hire Date
0 10001 1953-09-02 Georgi Facello M 1986-06-26
1 10002 1964-06-02 Bezalel Simmel F 1985-11-21
2 10003 1959-12-03 Parto Bamford M 1986-08-28
3 10004 1954-05-01 Chirstian Koblick M 1986-12-01
4 10005 1955-01-21 Kyoichi Maliniak M 1989-09-12
… … … … … … …
341029 541005 2007-09-27 {gap dsbp M 2007-10-15
341030 541006 2021-01-21 q sgbhxa F 1975-06-06
341031 541007 1981-10-16 ccbmn ylbpo F 2009-12-23
341032 541008 2022-08-15 e niaef F 2014-09-19
341033 541009 2009-07-12 ix dwcxgb F 2006-11-13

[341034 rows x 6 columns]

[ ]: def execute_select():
conn = psycopg2.connect(database = DB, user = USER, password = PASS, host =␣
𝗌HOST, port= PORT)

cursor = conn.cursor()
cursor.execute("SELECT * from employees.employee ORDER BY id ASC")
records = cursor.fetchall()
cursor.close()
return records

def parallel_read():
start_time = time.time()
records = []
with concurrent.futures.ProcessPoolExecutor() as executor:
proc = [executor.submit(execute_select)]
for f in concurrent.futures.as_completed(proc):
records.extend(f.result())

print(f"Execution time for parallel read:{round(time.time() -␣

𝗌start_time,3)} s")

# print(records[])
df = pd.DataFrame(records,columns=["ID","Birth Date", "First Name", "Last␣
𝗌Name", "Gender", "Hire Date"])

return df

[ ]: df = parallel_read()

Execution time for parallel read:2.201 s

[ ]:
d = random.randint(1, int(time.time()))
return datetime.date.fromtimestamp(d).strftime('%Y-%m-%d')

2
def generate_name():
length = random.randint(1,6)
name = ""
for i in range(length):
j = random.randint(0,26)
name += chr(97+j)
return name
def create_record(id):
id = int(id)
seed = random.randint(0,1)
gender = ""
if seed == 0:
gender = 'M'
else:
gender = 'F'
query = """INSERT INTO employees.employee (id, birth_date, first_name,␣
𝗌last_name, gender, hire_date) VALUES (%s,%s,%s,%s,%s,%s)"""

values =␣
𝗌(id,random_date(),generate_name(),generate_name(),gender,random_date())

return query,values
def generate_records(n):
records = []
for i in range(n):
records.append(create_record(int(df.iloc[df.shape[0] - 1,0]) + i + 1))
return records

[ ]:

[ ]: 541009

[ ]:

[ ]: def insert_serially(n):
records = generate_records(n)
orignal_size = df.shape[0]
start_time = time.time()
conn = psycopg2.connect(database = DB, user = USER, password = PASS, host =␣
𝗌HOST, port= PORT)

cursor = conn.cursor()
for record in records:
try:
query, values = record
cursor.execute(query,values)
conn.commit()
except Exception as e:
pass

3
print(f"Execution time for sequential insert:{round(time.time() -␣

[ ]: insert_serially(100000)
df = serial_read()

Execution time for sequential insert:341.939 s

100000 records inserted successfully
Execution time for serial read:0.526 s
[ ]: ID Birth Date First Name Last Name Gender Hire Date
0 10001 1953-09-02 Georgi Facello M 1986-06-26
1 10002 1964-06-02 Bezalel Simmel F 1985-11-21
2 10003 1959-12-03 Parto Bamford M 1986-08-28
3 10004 1954-05-01 Chirstian Koblick M 1986-12-01
4 10005 1955-01-21 Kyoichi Maliniak M 1989-09-12
… … … … … … …
441029 641005 2000-12-05 quxgx w F 1988-08-12
441030 641006 1974-04-14 wzvlzz rrfqin M 1986-02-15
441031 641007 1983-06-12 onftaa q M 1975-11-08
441032 641008 2004-01-30 nx jqrie{ M 2018-09-23
441033 641009 1989-11-19 b el F 1984-10-31

[441034 rows x 6 columns]

[ ]: def insert(query,values):
conn = psycopg2.connect(database = DB, user = USER, password = PASS, host =␣
𝗌HOST, port= PORT)

cursor = conn.cursor()
cursor.execute(query,values)
conn.commit()
conn.close()

def parallel_write(n):
records = generate_records(n)
orignal_size = df.shape[0]
start_time = time.time()
with concurrent.futures.ProcessPoolExecutor() as executor:
proc = [executor.submit(insert,query=query,values=values) for␣
𝗌query,values in records]

4
print(f"Execution time for parallel insert:{round(time.time() -␣
𝗌start_time,3)} s")

conn = psycopg2.connect(database = DB, user = USER, password = PASS, host =␣

𝗌HOST, port= PORT)

cursor = conn.cursor()
cursor.execute('select count(*) from employees.employee')
rows = cursor.fetchall()
if rows[0][0] - orignal_size == n:
print(f"{n} records inserted successfully")

conn.close()

[ ]: parallel_write(100000)
df = parallel_read()
df

Execution time for parallel insert:143.09 s

100000 records inserted successfully
Execution time for parallel read:2.906 s

[ ]: ID Birth Date First Name Last Name Gender Hire Date

0 10001 1953-09-02 Georgi Facello M 1986-06-26
1 10002 1964-06-02 Bezalel Simmel F 1985-11-21
2 10003 1959-12-03 Parto Bamford M 1986-08-28
3 10004 1954-05-01 Chirstian Koblick M 1986-12-01
4 10005 1955-01-21 Kyoichi Maliniak M 1989-09-12
… … … … … … …
541029 741005 2009-04-28 mwqvpi b M 1973-12-25
541030 741006 2006-08-10 vkfs i F 1972-07-17
541031 741007 2012-06-15 rt{ kheuc F 2010-12-19
541032 741008 1996-05-03 bejqz b F 1989-07-19
541033 741009 1977-11-05 k wx M 2022-03-05

[541034 rows x 6 columns]

Adis 12th Project
No ratings yet
Adis 12th Project
44 pages
PDF 15dec23 0758 Merged
No ratings yet
PDF 15dec23 0758 Merged
20 pages
Anand Ip Pro
No ratings yet
Anand Ip Pro
35 pages
SQL Python Prject-2024 FINAL4
No ratings yet
SQL Python Prject-2024 FINAL4
26 pages
Emp MGMT
No ratings yet
Emp MGMT
25 pages
Empmgnt System
No ratings yet
Empmgnt System
24 pages
CS Project Final
No ratings yet
CS Project Final
29 pages
Dental Management System: Informatics Practices Project 2022-22
No ratings yet
Dental Management System: Informatics Practices Project 2022-22
10 pages
Class 12th IP Project 2019-20
No ratings yet
Class 12th IP Project 2019-20
20 pages
Dhabba Employeers
No ratings yet
Dhabba Employeers
25 pages
Psycopg 2010 Stuttgart
No ratings yet
Psycopg 2010 Stuttgart
44 pages
Source Cod and Output
No ratings yet
Source Cod and Output
11 pages
Emp Mangtproj
No ratings yet
Emp Mangtproj
18 pages
Prac Programs
No ratings yet
Prac Programs
12 pages
CS Project (J)
No ratings yet
CS Project (J)
18 pages
Employee Management System
No ratings yet
Employee Management System
10 pages
Interface 2
No ratings yet
Interface 2
18 pages
Python Code
No ratings yet
Python Code
37 pages
Cs Project Term2
No ratings yet
Cs Project Term2
18 pages
Car/ As
No ratings yet
Car/ As
13 pages
Final
No ratings yet
Final
8 pages
20 21 22
No ratings yet
20 21 22
12 pages
Computer Project
No ratings yet
Computer Project
35 pages
Practicals SQL Notes
No ratings yet
Practicals SQL Notes
8 pages
BIM in General Construction
No ratings yet
BIM in General Construction
198 pages
Railway Reservation System Report
No ratings yet
Railway Reservation System Report
13 pages
New Text Document
No ratings yet
New Text Document
6 pages
Python PostgreSQL Basics
No ratings yet
Python PostgreSQL Basics
19 pages
Cs Proj RIDDHI & SIDDHI
No ratings yet
Cs Proj RIDDHI & SIDDHI
31 pages
Pdfjoiner Removed
No ratings yet
Pdfjoiner Removed
14 pages
Certificate: Signature of Subject Signature of External Teacher Examiner
No ratings yet
Certificate: Signature of Subject Signature of External Teacher Examiner
19 pages
Codes
No ratings yet
Codes
11 pages
Source Code
No ratings yet
Source Code
5 pages
Cs Final Project For Cbse (2023-24)
No ratings yet
Cs Final Project For Cbse (2023-24)
4 pages
LabManual (14 17)
No ratings yet
LabManual (14 17)
10 pages
Computer Project
No ratings yet
Computer Project
4 pages
Rani Laxmi Bai Memorial School Vikas Nagar, Sector-3: Computer Science (083) Project
No ratings yet
Rani Laxmi Bai Memorial School Vikas Nagar, Sector-3: Computer Science (083) Project
46 pages
Lab 11
No ratings yet
Lab 11
3 pages
Hospital Management Code With Output
No ratings yet
Hospital Management Code With Output
8 pages
21.mysql - Students. 1
No ratings yet
21.mysql - Students. 1
6 pages
Shanti
No ratings yet
Shanti
9 pages
0996 HKK
No ratings yet
0996 HKK
18 pages
Food Order System
No ratings yet
Food Order System
8 pages
Hospital Management Code With Output
No ratings yet
Hospital Management Code With Output
7 pages
Document 3
No ratings yet
Document 3
12 pages
Shivam Cs Proj Updated
No ratings yet
Shivam Cs Proj Updated
32 pages
Comp Progs
No ratings yet
Comp Progs
9 pages
Batch Reserve
No ratings yet
Batch Reserve
166 pages
ASdfkkdkdoeoosmns PDF
No ratings yet
ASdfkkdkdoeoosmns PDF
10 pages
Viernes
No ratings yet
Viernes
5 pages
DMO With System Move
No ratings yet
DMO With System Move
8 pages
Python Connecting To Mysql Database
No ratings yet
Python Connecting To Mysql Database
6 pages
Improving Our Database Service
No ratings yet
Improving Our Database Service
34 pages
Dbms Explaination
No ratings yet
Dbms Explaination
4 pages
Ope PSQL Q8
No ratings yet
Ope PSQL Q8
1 page
Dental Management System
No ratings yet
Dental Management System
8 pages
IMC111 Assigment 1
No ratings yet
IMC111 Assigment 1
20 pages
Hospital Management 2
No ratings yet
Hospital Management 2
46 pages
LINUX2
No ratings yet
LINUX2
7 pages
Wa0001
No ratings yet
Wa0001
2 pages
Notes 120725
No ratings yet
Notes 120725
4 pages
Psycopg2 Tutorial
No ratings yet
Psycopg2 Tutorial
6 pages
SITA Aircom Server User Guide
No ratings yet
SITA Aircom Server User Guide
153 pages
Mobile Recharge Report
No ratings yet
Mobile Recharge Report
110 pages
PDF Advanced Database Management System
No ratings yet
PDF Advanced Database Management System
282 pages
Question #1: Correct Answer: CDE
No ratings yet
Question #1: Correct Answer: CDE
93 pages
C.S Project
No ratings yet
C.S Project
29 pages
Unit 3 - Databases PDF
No ratings yet
Unit 3 - Databases PDF
24 pages
Wipro Interview Questions
100% (2)
Wipro Interview Questions
39 pages
Finaljava QBank
No ratings yet
Finaljava QBank
40 pages
LIS S511 Bow SP22 1
No ratings yet
LIS S511 Bow SP22 1
17 pages
Ms-Access-notes For Computer Packages
No ratings yet
Ms-Access-notes For Computer Packages
27 pages
Lesson 3 Measures of Central Tendency, Dispersion and Skewness An Kurtosis
No ratings yet
Lesson 3 Measures of Central Tendency, Dispersion and Skewness An Kurtosis
31 pages
Exam C1000-100 IBM Cloud Solution Architect v4 Sample Test
No ratings yet
Exam C1000-100 IBM Cloud Solution Architect v4 Sample Test
4 pages
Power Bi - Azure Ebook Rsm17e - 014
No ratings yet
Power Bi - Azure Ebook Rsm17e - 014
12 pages
Kanhai Kumar Gupta Final-Report (02311804421)
No ratings yet
Kanhai Kumar Gupta Final-Report (02311804421)
36 pages
Veeam Backup User Permitions For VM Files and SQL PDF
No ratings yet
Veeam Backup User Permitions For VM Files and SQL PDF
3 pages
Sigma LT Hand-Held - Quick Start Guide
No ratings yet
Sigma LT Hand-Held - Quick Start Guide
2 pages
What Is Cohort Analysis
No ratings yet
What Is Cohort Analysis
10 pages
Super Mario 64 Decomp Mega Document
No ratings yet
Super Mario 64 Decomp Mega Document
15 pages
Chapter - 1/1
No ratings yet
Chapter - 1/1
8 pages
03-Credits (3:0:0) : Principles, Collaborative Approaches, Collaboration Tools, Collaborative Design Systems
No ratings yet
03-Credits (3:0:0) : Principles, Collaborative Approaches, Collaboration Tools, Collaborative Design Systems
2 pages
Modulewise Question Bank: Entity-Relationship Model
No ratings yet
Modulewise Question Bank: Entity-Relationship Model
5 pages
DBMS (R19) Assignment Questions
No ratings yet
DBMS (R19) Assignment Questions
2 pages
Introduction To RDBMS ORDBMS
No ratings yet
Introduction To RDBMS ORDBMS
5 pages
Running ASMCA Command-Line
No ratings yet
Running ASMCA Command-Line
3 pages
Unit 3 SQL Extra-1-4
No ratings yet
Unit 3 SQL Extra-1-4
4 pages
Restore Ew DB
No ratings yet
Restore Ew DB
5 pages
File Input and Output
No ratings yet
File Input and Output
2 pages

HPC Mini

Uploaded by

HPC Mini

Uploaded by

mini-project-1

Mini Project - Implement Parallelization of Database Query optimization

from multiprocessing import Process,freeze_support, Pool

df = pd.DataFrame(records,columns=["ID","Birth Date", "First Name", "Last␣

Execution time for serial read:0.477 s

[341034 rows x 6 columns]

print(f"Execution time for parallel read:{round(time.time() -␣

Execution time for parallel read:2.201 s

Execution time for sequential insert:341.939 s

[441034 rows x 6 columns]

conn = psycopg2.connect(database = DB, user = USER, password = PASS, host =␣

Execution time for parallel insert:143.09 s

[ ]: ID Birth Date First Name Last Name Gender Hire Date

[541034 rows x 6 columns]

You might also like