SRC 7

The document contains Python code for analyzing TV show data from an IMDb dataset. The code extracts non-adult TV shows from 1970 onwards from a TSV file, cleans the data, and stores it in a CSV or SQLite database. Over the course of 4 files, the code is improved to handle missing data fields, add primary keys, and normalize the data across two tables with a one-to-many relationship.

Uploaded by

Godo Quaran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views11 pages

SRC 7

Uploaded by

Godo Quaran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

favorites0.

1 import csv
2
3 # Open CSV file
4 with open("CS50 2019 - Lecture 7 - Favorite TV Shows (Responses) - Form Responses 1.csv", "r") as file:
5
6 # Create DictReader
7 reader = csv.DictReader(file)
8
9 # Iterate over CSV file, printing each title
10 for row in reader:
11 print(row["title"])
favorites1.py

1 import csv
2
3 # For counting favorites
4 counts = {}
5
6 # Open CSV file
7 with open("CS50 2019 - Lecture 7 - Favorite TV Shows (Responses) - Form Responses 1.csv", "r") as file:
8
9 # Create DictReader
10 reader = csv.DictReader(file)
11
12 # Iterate over CSV file
13 for row in reader:
14
15 # Force title to lowercase
16 title = row["title"].lower()
17
18 # Add title to counts
19 if title in counts:
20 counts[title] += 1
21 else:
22 counts[title] = 1
23
24 # Print counts
25 for title, count in counts.items():
26 print(title, count, sep=" | ")
favorites2.py

1 import csv
2
3 # For counting favorites
4 counts = {}
5
6 # Open CSV file
7 with open("CS50 2019 - Lecture 7 - Favorite TV Shows (Responses) - Form Responses 1.csv", "r") as file:
8
9 # Create DictReader
10 reader = csv.DictReader(file)
11
12 # Iterate over CSV file
13 for row in reader:
14
15 # Force title to lowercase
16 title = row["title"].lower()
17
18 # Add title to counts
19 if title in counts:
20 counts[title] += 1
21 else:
22 counts[title] = 1
23
24 # Print counts, sorted by title
25 for title, count in sorted(counts.items()):
26 print(title, count, sep=" | ")
favorites3.py

1 import csv
2
3 # For counting favorites
4 counts = {}
5
6 # Open CSV file
7 with open("CS50 2019 - Lecture 7 - Favorite TV Shows (Responses) - Form Responses 1.csv", "r") as file:
8
9 # Create DictReader
10 reader = csv.DictReader(file)
11
12 # Iterate over CSV file
13 for row in reader:
14
15 # Force title to lowercase
16 title = row["title"].lower()
17
18 # Add title to counts
19 if title in counts:
20 counts[title] += 1
21 else:
22 counts[title] = 1
23
24 # Function for comparing items by value
25 def f(item):
26 return item[1]
27
28 # Print counts, sorted by key
29 for title, count in sorted(counts.items(), key=f, reverse=True):
30 print(title, count, sep=" | ")
favorites4.py

1 import csv
2
3 # For counting favorites
4 counts = {}
5
6 # Open CSV file
7 with open("CS50 2019 - Lecture 7 - Favorite TV Shows (Responses) - Form Responses 1.csv", "r") as file:
8
9 # Create DictReader
10 reader = csv.DictReader(file)
11
12 # Iterate over CSV file
13 for row in reader:
14
15 # Force title to lowercase
16 title = row["title"].lower()
17
18 # Add title to counts
19 if title in counts:
20 counts[title] += 1
21 else:
22 counts[title] = 1
23
24 # Print counts, sorted by key
25 for title, count in sorted(counts.items(), key=lambda item: item[1], reverse=True):
26 print(title, count, sep=" | ")
import0.py

1 import csv
2
3 # Open TSV file
4 # https://datasets.imdbws.com/title.basics.tsv.gz
5 with open("title.basics.tsv", "r") as titles:
6
7 # Create DictReader
8 reader = csv.DictReader(titles, delimiter="\t")
9
10 # Open CSV file
11 with open("shows0.csv", "w") as shows:
12
13 # Create writer
14 writer = csv.writer(shows)
15
16 # Write header
17 writer.writerow(["tconst", "primaryTitle", "startYear", "genres"])
18
19 # Iterate over TSV file
20 for row in reader:
21
22 # If non-adult TV show
23 if row["titleType"] == "tvSeries" and row["isAdult"] == "0":
24
25 # Write row
26 writer.writerow([row["tconst"], row["primaryTitle"], row["startYear"], row["genres"]])
import1.py

1 import csv
2
3 # Open TSV file
4 # https://datasets.imdbws.com/title.basics.tsv.gz
5 with open("title.basics.tsv", "r") as titles:
6
7 # Create DictReader
8 reader = csv.DictReader(tiles, delimiter="\t")
9
10 # Open CSV file
11 with open("shows1.csv", "w") as shows:
12
13 # Create writer
14 writer = csv.writer(shows)
15
16 # Write header
17 writer.writerow(["tconst", "primaryTitle", "startYear", "genres"])
18
19 # Iterate over TSV file
20 for row in reader:
21
22 # If non-adult TV show
23 if row["titleType"] == "tvSeries" and row["isAdult"] == "0":
24
25 # If year not missing
26 if row["startYear"] != "\\N":
27
28 # If since 1970
29 if int(row["startYear"]) >= 1970:
30
31 # Write row
32 writer.writerow([row["tconst"], row["primaryTitle"], row["startYear"], row["genres"]])
import2.py

1 import csv
2
3 # Open TSV file
4 # https://datasets.imdbws.com/title.basics.tsv.gz
5 with open("title.basics.tsv", "r") as titles:
6
7 # Create DictReader
8 reader = csv.DictReader(titles, delimiter="\t")
9
10 # Open CSV file
11 with open("shows2.csv", "w") as shows:
12
13 # Create writer
14 writer = csv.writer(shows)
15
16 # Write header
17 writer.writerow(["tconst", "primaryTitle", "startYear", "genres"])
18
19 # Iterate over TSV file
20 for row in reader:
21
22 # If non-adult TV show
23 if row["titleType"] == "tvSeries" and row["isAdult"] == "0":
24
25 # If year not missing
26 if row["startYear"] != "\\N":
27
28 # Remove \N from genres
29 genres = row["genres"] if row["genres"] != "\\N" else None
30
31 # If since 1970
32 if int(row["startYear"]) >= 1970:
33
34 # Write row
35 writer.writerow([row["tconst"], row["primaryTitle"], row["startYear"], genres])
import3.py

1 import cs50
2 import csv
3
4 # Create database
5 open("shows3.db", "w").close()
6 db = cs50.SQL("sqlite:///shows3.db")
7
8 # Create table
9 db.execute("CREATE TABLE shows (tconst TEXT, primaryTitle TEXT, startYear NUMERIC, genres TEXT)")
10
11 # Open TSV file
12 # https://datasets.imdbws.com/title.basics.tsv.gz
13 with open("title.basics.tsv", "r") as titles:
14
15 # Create DictReader
16 reader = csv.DictReader(titles, delimiter="\t")
17
18 # Iterate over TSV file
19 for row in reader:
20
21 # If non-adult TV show
22 if row["titleType"] == "tvSeries" and row["isAdult"] == "0":
23
24 # If year not missing
25 if row["startYear"] != "\\N":
26
27 # If since 1970
28 startYear = int(row["startYear"])
29 if startYear >= 1970:
30
31 # Remove \N from genres
32 genres = row["genres"] if row["genres"] != "\\N" else None
33
34 # Insert show
35 db.execute("INSERT INTO shows (tconst, primaryTitle, startYear, genres) VALUES(?, ?, ?, ?)",
36 row["tconst"], row["primaryTitle"], startYear, genres)
import4.py

1 import cs50
2 import csv
3
4 # Create database
5 open("shows4.db", "w").close()
6 db = cs50.SQL("sqlite:///shows4.db")
7
8 # Create tables
9 db.execute("CREATE TABLE shows (id INT, title TEXT, year NUMERIC, PRIMARY KEY(id))")
10 db.execute("CREATE TABLE genres (show_id INT, genre TEXT, FOREIGN KEY(show_id) REFERENCES shows(id))")
11
12 # Open TSV file
13 # https://datasets.imdbws.com/title.basics.tsv.gz
14 with open("title.basics.tsv", "r") as titles:
15
16 # Create DictReader
17 reader = csv.DictReader(titles, delimiter="\t")
18
19 # Iterate over TSV file
20 for row in reader:
21
22 # If non-adult TV show
23 if row["titleType"] == "tvSeries" and row["isAdult"] == "0":
24
25 # If year not missing
26 if row["startYear"] != "\\N":
27
28 # If since 1970
29 startYear = int(row["startYear"])
30 if startYear >= 1970:
31
32 # Trim prefix from tconst
33 id = int(row["tconst"][2:])
34
35 # Insert show
36 db.execute("INSERT INTO shows (id, title, year) VALUES(?, ?, ?)", id, row["primaryTitle"], sta
rtYear)
37
38 # Insert genres
39 if row["genres"] != "\\N":
40 for genre in row["genres"].split(","):
41 db.execute("INSERT INTO genres (show_id, genre) VALUES(?, ?)", id, genre)
search.py

1 import csv
2
3 # Prompt user for title
4 title = input("Title: ")
5
6 # Open CSV file
7 with open("shows2.csv", "r") as input:
8
9 # Create DictReader
10 reader = csv.DictReader(input)
11
12 # Iterate over CSV file
13 for row in reader:
14
15 # Search for title
16 if title.lower() == row["primaryTitle"].lower():
17 print(row["primaryTitle"], row["startYear"], row["genres"], sep=" | ")

Jman Tech Round SQL Questions
No ratings yet
Jman Tech Round SQL Questions
10 pages
Xii Cs Worksheet-Csv File
No ratings yet
Xii Cs Worksheet-Csv File
3 pages
PT 2 - Practice Sheets
100% (1)
PT 2 - Practice Sheets
6 pages
SQL Case Study - Basic
0% (2)
SQL Case Study - Basic
3 pages
Scenario Based Python Questions-Unit 1
No ratings yet
Scenario Based Python Questions-Unit 1
30 pages
CSV Flie Question Bank Solutions
No ratings yet
CSV Flie Question Bank Solutions
20 pages
File Handling
No ratings yet
File Handling
23 pages
Laravel
No ratings yet
Laravel
54 pages
IP CSV Project For Class 12
No ratings yet
IP CSV Project For Class 12
22 pages
Studio Petrel 2020-1 ReleaseNotes
100% (1)
Studio Petrel 2020-1 ReleaseNotes
19 pages
LIBRARY Management System
No ratings yet
LIBRARY Management System
19 pages
Informatics Practices Project Work (2023-24) With All Cbse Instructions
No ratings yet
Informatics Practices Project Work (2023-24) With All Cbse Instructions
22 pages
Chapter 12: Interface Python With An SQL Database
100% (1)
Chapter 12: Interface Python With An SQL Database
4 pages
Python Solutions For IPA Jan 29th
No ratings yet
Python Solutions For IPA Jan 29th
14 pages
CSV FILES Online
No ratings yet
CSV FILES Online
84 pages
Red Shift
No ratings yet
Red Shift
210 pages
Class 12 - CS - I Preboard - 2024-25 - Set-A - Ans Keys
No ratings yet
Class 12 - CS - I Preboard - 2024-25 - Set-A - Ans Keys
9 pages
Chapter 3-Relational Data Model
No ratings yet
Chapter 3-Relational Data Model
8 pages
BCHP Screening Tool Version-2 Users Manual
No ratings yet
BCHP Screening Tool Version-2 Users Manual
146 pages
3BEL310097-271 B BaseInsight EventHook Release Notes
No ratings yet
3BEL310097-271 B BaseInsight EventHook Release Notes
46 pages
Kunj Project 2
No ratings yet
Kunj Project 2
31 pages
Sparsh DBMS Revised
No ratings yet
Sparsh DBMS Revised
38 pages
SYBBA (CA) Nodejs PDF
No ratings yet
SYBBA (CA) Nodejs PDF
18 pages
Code:: Q12.Write A Menu Driven Program To
No ratings yet
Code:: Q12.Write A Menu Driven Program To
41 pages
Gammu Manual
No ratings yet
Gammu Manual
65 pages
Database Interview Question
No ratings yet
Database Interview Question
27 pages
Dbms Material
No ratings yet
Dbms Material
40 pages
Mad Unit 5
No ratings yet
Mad Unit 5
70 pages
Movie Ticket Booking System
No ratings yet
Movie Ticket Booking System
41 pages
Grade12 Computer Set1 AK Sahodaya
No ratings yet
Grade12 Computer Set1 AK Sahodaya
9 pages
Section Two Nswer Sheet
No ratings yet
Section Two Nswer Sheet
20 pages
BLG 317E.Week 3.SQL - DDL.DML - Integrity Constraints
No ratings yet
BLG 317E.Week 3.SQL - DDL.DML - Integrity Constraints
71 pages
Practical File Cs
No ratings yet
Practical File Cs
25 pages
CS Project CSV
No ratings yet
CS Project CSV
32 pages
Guide To SQL 9th Edition Pratt Solutions Manual 1
100% (68)
Guide To SQL 9th Edition Pratt Solutions Manual 1
36 pages
Movie Ticket Booking
No ratings yet
Movie Ticket Booking
30 pages
Intership Report
No ratings yet
Intership Report
21 pages
Document 1
No ratings yet
Document 1
58 pages
CSV File Handling
No ratings yet
CSV File Handling
20 pages
Informatics Practices - File As Per Cbse
No ratings yet
Informatics Practices - File As Per Cbse
29 pages
Anime Analysis Project
No ratings yet
Anime Analysis Project
48 pages
Answer Key For Pb-Ii
No ratings yet
Answer Key For Pb-Ii
12 pages
Entrega 1 - Computer Science
No ratings yet
Entrega 1 - Computer Science
19 pages
Arpit
No ratings yet
Arpit
30 pages
Kelompok 9 ProjectSQL Wati's Fried Chicken
No ratings yet
Kelompok 9 ProjectSQL Wati's Fried Chicken
16 pages
Lecture 7 - CS50x 2024
No ratings yet
Lecture 7 - CS50x 2024
20 pages
CS PRACTICAL FILE 2024 2025 (1) .Document
No ratings yet
CS PRACTICAL FILE 2024 2025 (1) .Document
37 pages
Book My Show: Informatics Practices
No ratings yet
Book My Show: Informatics Practices
17 pages
CSV Files
No ratings yet
CSV Files
22 pages
5 Mark
No ratings yet
5 Mark
16 pages
Anexo 1.: Código HTML, CSS y PHP
No ratings yet
Anexo 1.: Código HTML, CSS y PHP
13 pages
Library Management System
No ratings yet
Library Management System
13 pages
Python 5,6,7
No ratings yet
Python 5,6,7
15 pages
7050-1712772706277-Unit 04 - Database Design and Development - 2024
No ratings yet
7050-1712772706277-Unit 04 - Database Design and Development - 2024
13 pages
FOP Lec - 10
No ratings yet
FOP Lec - 10
17 pages
Practical Ans C.S
No ratings yet
Practical Ans C.S
9 pages
CS Record Set 3
No ratings yet
CS Record Set 3
8 pages
Practcial Final 2023 1
No ratings yet
Practcial Final 2023 1
9 pages
Dbms Lesson Plan With Out Dates
No ratings yet
Dbms Lesson Plan With Out Dates
5 pages
Computer Science: As and A Level
No ratings yet
Computer Science: As and A Level
14 pages
Crotty PLSQL Bulk Collect Forall
No ratings yet
Crotty PLSQL Bulk Collect Forall
34 pages
Max OConnell
No ratings yet
Max OConnell
14 pages
All Programs 2024 To Back 2021 CSV Qs
No ratings yet
All Programs 2024 To Back 2021 CSV Qs
8 pages
Zaid File Handing
No ratings yet
Zaid File Handing
16 pages
Lecture 7 - CS50x 2021
No ratings yet
Lecture 7 - CS50x 2021
10 pages
Class12 boardPracQP
No ratings yet
Class12 boardPracQP
12 pages
CSV Files Worksheet
No ratings yet
CSV Files Worksheet
7 pages
Amity International School SESSION: 2024-25 Informatics Practices (065) Class Xii Practical List
No ratings yet
Amity International School SESSION: 2024-25 Informatics Practices (065) Class Xii Practical List
5 pages
Python Coding Interview Interview Questions Questions
No ratings yet
Python Coding Interview Interview Questions Questions
9 pages
Orange CS083 12 MS
No ratings yet
Orange CS083 12 MS
18 pages
Bollywood Analysis-1
No ratings yet
Bollywood Analysis-1
9 pages
Lecture 7 - CS50x
No ratings yet
Lecture 7 - CS50x
9 pages
CSV Files Worksheet Ans
No ratings yet
CSV Files Worksheet Ans
9 pages
CSV File
No ratings yet
CSV File
5 pages
Extracted Code
No ratings yet
Extracted Code
8 pages
Worksheet Topic: Data File Handling in Python CSV Files
No ratings yet
Worksheet Topic: Data File Handling in Python CSV Files
4 pages
IV Sem DS and RDBMS
No ratings yet
IV Sem DS and RDBMS
3 pages
Tuesday Lab Slot L11 L12 FAT
No ratings yet
Tuesday Lab Slot L11 L12 FAT
7 pages
Assignment 7
No ratings yet
Assignment 7
6 pages
Wa0002.
No ratings yet
Wa0002.
5 pages
Triggers - SQL Server - CodeProject
No ratings yet
Triggers - SQL Server - CodeProject
5 pages
25 March CSV PYQs Qs
No ratings yet
25 March CSV PYQs Qs
6 pages
Practicals Pythoncode24 25
No ratings yet
Practicals Pythoncode24 25
7 pages
Assignment 1
No ratings yet
Assignment 1
5 pages
Files Board Questions
No ratings yet
Files Board Questions
6 pages
Comp Rec Qs
No ratings yet
Comp Rec Qs
4 pages
Sodapdf
No ratings yet
Sodapdf
3 pages
SQL Commands - Booklet
No ratings yet
SQL Commands - Booklet
1 page
Cs Practical 12
No ratings yet
Cs Practical 12
1 page

SRC 7

Uploaded by

SRC 7

Uploaded by

favorites0.

You might also like