0% found this document useful (0 votes)

0 views5 pages

IR Assignment4

The document presents an assignment on implementing an Information Retrieval (IR) system using the vector space model. It explains the theory behind the vector model, including term frequency and inverse document frequency, and provides a Python program that executes the IR system. The program includes functions for processing documents, calculating term weights, and performing searches based on user queries.

Uploaded by

vinayostwal707

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

0 views5 pages

IR Assignment4

Uploaded by

vinayostwal707

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

WALCHAND INSTITUTE OF TECHNOLOGY, SOLAPUR

INFORMATION TECHNOLOGY
2021-22 SEMESTER - II
ASSIGNMENT - 4
Subject: Information Retrieval

Name: Ayush pande Roll no: 74 Class: Final Year Btech IT

Title: Implementation of IR system using Vector model

Theory: A representation that is often used for text documents is the vector space
model. In the vector space model, a document D is represented as an m-dimensional
vector, where each dimension corresponds to a distinct term and m are the total number
of terms used in the collection of documents. The document vector is written as, where
is the weight of term that indicates its importance. If document D does not contain term
then weight is zero.
In the vector approach the term weights are determined by indicating whether or
not a term appears in a document. The term is assigned value 1 if the term does occur
in the document, otherwise the term is assigned value 0. A more sophisticated measure
is the tf-idf scheme. In this approach the terms are assigned a weight that is based on
how often a term appears in a particular document and how frequently it occurs in the
entire document collection. The first part of the tf-idf scheme is called the term
frequency, the number of occurrences of term in document D. The second part is called
the inverse
Document frequency and is calculated as follows:
• Where n is the total number of documents in the collection and the number of
documents in which term appears at least once. The weighting factor of
document i is determined by the product of the term frequency and the inverse
document frequency:
• The assumptions behind tf-idf are based on two characteristics of text
documents. First, the more times a term appears in a document, the more relevant
it is to the topic of the document. Second, the more times a term occurs in all
documents in the collection, the more poorly it discriminates between
documents.

Program Code:
import glob
import math
import re
import sys
from collections import defaultdict
from functools import reduce

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize
from tkinter import *
from tkinter import filedialog

STOPWORDS = set(stopwords.words("english"))
CORPUS = "docs/*"
document_filenames = dict()
N=0
vocabulary = set()
postings = defaultdict(dict)
document_frequency = defaultdict(int)
length = defaultdict(float)

def main():
get_corpus()
initialize_terms_and_postings()
initialize_document_frequencies()
initialize_lengths()
while True:
scores = do_search()
print_scores(scores)

def get_corpus():
global document_filenames, N
documents = glob.glob(CORPUS)
N = len(documents)
document_filenames = dict(zip(range(N), documents))

def initialize_terms_and_postings():
global vocabulary, postings
for id in document_filenames:
with open(document_filenames[id], "r") as f:
document = f.read()
document = remove_special_characters(document)
document = remove_digits(document)
terms = tokenize(document)
unique_terms = set(terms)
vocabulary = vocabulary.union(unique_terms)
for term in unique_terms:
postings[term][id] = terms.count(term)

def tokenize(document):
terms = word_tokenize(document)

2
terms = [term.lower() for term in terms if term not in STOPWORDS]

return terms

def initialize_document_frequencies():
global document_frequency
for term in vocabulary:
document_frequency[term] = len(postings[term])

def initialize_lengths():
global length
for id in document_filenames:
l=0
for term in vocabulary:
l += term_frequency(term, id) ** 2
length[id] = math.sqrt(l)

def term_frequency(term, id):

if id in postings[term]:
return postings[term][id]
else:
return 0.0

def inverse_document_frequency(term):
if term in vocabulary:
return math.log(N / document_frequency[term], 2)
else:
return 0.0

def print_scores(scores):
print("-" * 42)
print("| %s | %-30s |" % ("Score", "Document"))
print("-" * 42)

for (id, score) in scores:

if score != 0.0:
print("| %s | %-30s |" % (str(score)[:5], document_filenames[id]))

print("-" * 42, end="\n\n")

def do_search():
query = tokenize(input("Search query >> "))

if query == []:
sys.exit()

3
scores = sorted(
[(id, similarity(query, id)) for id in range(N)],
key=lambda x: x[1],
reverse=True,
)

return scores

def intersection(sets):
return reduce(set.intersection, [s for s in sets])

def similarity(query, id):

similarity = 0.0

for term in query:

if term in vocabulary:
similarity += term_frequency(term, id) * inverse_document_frequency(term)

similarity = similarity / length[id]

return similarity

def remove_special_characters(text):
regex = re.compile(r"[^a-zA-Z0-9\s]")
return re.sub(regex, "", text)

def remove_digits(text):
regex = re.compile(r"\d")
return re.sub(regex, "", text)

if __name__ == "__main__":
main()

Screenshots/Output:

4
5

Programming Assignment Unit 05 - CS 3308 - Information Retrieval - University of The People
No ratings yet
Programming Assignment Unit 05 - CS 3308 - Information Retrieval - University of The People
9 pages
7SG17 - Rho3 Complete Technical Manual
No ratings yet
7SG17 - Rho3 Complete Technical Manual
80 pages
The Mental Game Trading
50% (2)
The Mental Game Trading
40 pages
Term Frequency and Inverse Document Frequency
No ratings yet
Term Frequency and Inverse Document Frequency
26 pages
IR Journal
No ratings yet
IR Journal
36 pages
CS8080 INFORMATION RETRIEVAL TECHNIQUES II INTERNAL EXAMINATION - Google Forms
No ratings yet
CS8080 INFORMATION RETRIEVAL TECHNIQUES II INTERNAL EXAMINATION - Google Forms
420 pages
Certificate: T.Y.Bsc Cs
No ratings yet
Certificate: T.Y.Bsc Cs
120 pages
AIML Unit5
No ratings yet
AIML Unit5
36 pages
Riasec PDF
100% (3)
Riasec PDF
2 pages
Term Weighting and Similarity Measures
50% (2)
Term Weighting and Similarity Measures
54 pages
IR Solutions Combined
No ratings yet
IR Solutions Combined
82 pages
Ir Journal
No ratings yet
Ir Journal
41 pages
Information Retrival
No ratings yet
Information Retrival
43 pages
3 Termweighting
No ratings yet
3 Termweighting
34 pages
3 termWeightingIR
No ratings yet
3 termWeightingIR
32 pages
Chapter 3 IR
No ratings yet
Chapter 3 IR
34 pages
Assignment 4
No ratings yet
Assignment 4
11 pages
2 Termweighting
No ratings yet
2 Termweighting
38 pages
CS 3308 Programming Assignment Unit 4
No ratings yet
CS 3308 Programming Assignment Unit 4
7 pages
Unit 4 Source Code
No ratings yet
Unit 4 Source Code
11 pages
Term Weighting 2021
100% (2)
Term Weighting 2021
38 pages
IR Practical
No ratings yet
IR Practical
24 pages
3 Term Weighting
No ratings yet
3 Term Weighting
34 pages
Index: SR. NO. Practical Name Date of Perform NO. Sign
No ratings yet
Index: SR. NO. Practical Name Date of Perform NO. Sign
23 pages
Lecture 10 - Term Frequency
No ratings yet
Lecture 10 - Term Frequency
17 pages
IR
No ratings yet
IR
12 pages
Language Engineering - Section
No ratings yet
Language Engineering - Section
20 pages
Text Pre Processing With NLTK
No ratings yet
Text Pre Processing With NLTK
42 pages
3 Termweighting
No ratings yet
3 Termweighting
34 pages
IR Journal (Printable)
No ratings yet
IR Journal (Printable)
20 pages
Assignment 3 Instructions
No ratings yet
Assignment 3 Instructions
10 pages
Chapter-3 Termweighting
No ratings yet
Chapter-3 Termweighting
17 pages
AP19110010110 Lab Assignment-2 - Jupyter Notebook
No ratings yet
AP19110010110 Lab Assignment-2 - Jupyter Notebook
18 pages
IR - 754 All Practical
No ratings yet
IR - 754 All Practical
21 pages
4 22865 CS475 2019 1 2 1 Exercises v5
No ratings yet
4 22865 CS475 2019 1 2 1 Exercises v5
14 pages
115 Ir 8
No ratings yet
115 Ir 8
8 pages
AI Assignment: Asad Nasir - 37 Muhammad Usman Ali - 29 Momin - 49
No ratings yet
AI Assignment: Asad Nasir - 37 Muhammad Usman Ali - 29 Momin - 49
7 pages
Inverted Index-Unit-3
No ratings yet
Inverted Index-Unit-3
11 pages
DeekshikaJadyada26 AP24LDS11
No ratings yet
DeekshikaJadyada26 AP24LDS11
7 pages
Information Retrieval WA
No ratings yet
Information Retrieval WA
9 pages
Série RI-récap Corrigée
No ratings yet
Série RI-récap Corrigée
11 pages
IR Practical Code
No ratings yet
IR Practical Code
13 pages
Vinayak 4 NC 5
No ratings yet
Vinayak 4 NC 5
4 pages
Assignment 2
No ratings yet
Assignment 2
4 pages
Vector Model-21PW41
No ratings yet
Vector Model-21PW41
5 pages
Lab - Activity-Iii: ST ND
No ratings yet
Lab - Activity-Iii: ST ND
9 pages
Web Mining DA
No ratings yet
Web Mining DA
13 pages
Lab3 IR BIM
No ratings yet
Lab3 IR BIM
14 pages
Assignment 2 IR
No ratings yet
Assignment 2 IR
6 pages
Cs 3308 Unit 7 Programming Assignment
No ratings yet
Cs 3308 Unit 7 Programming Assignment
8 pages
Experiment No. 4: Kjsce/It/Lybtech/Sem Viii/Ir/2023-24
No ratings yet
Experiment No. 4: Kjsce/It/Lybtech/Sem Viii/Ir/2023-24
4 pages
Dissertation RJM Pijpers September 2011
No ratings yet
Dissertation RJM Pijpers September 2011
294 pages
Allnlp
No ratings yet
Allnlp
15 pages
TF Idf
No ratings yet
TF Idf
4 pages
20BCE1779 - Web Mining - Lab-1
No ratings yet
20BCE1779 - Web Mining - Lab-1
9 pages
Pract 1 Measuring The Document Similarity in Python
No ratings yet
Pract 1 Measuring The Document Similarity in Python
6 pages
Written Assignmen Unit Four IR
No ratings yet
Written Assignmen Unit Four IR
3 pages
CS 3308 Programming Assignment Unit 2
No ratings yet
CS 3308 Programming Assignment Unit 2
10 pages
Chapter 1 The Role of Oral Communicationlec
100% (1)
Chapter 1 The Role of Oral Communicationlec
64 pages
16 - Practical - 6-7.ipynb - Colab
No ratings yet
16 - Practical - 6-7.ipynb - Colab
3 pages
Au Pair Itep
100% (2)
Au Pair Itep
3 pages
Course Syllabus Nail Care
No ratings yet
Course Syllabus Nail Care
3 pages
Ir Op 6
No ratings yet
Ir Op 6
2 pages
CSE508: Information Retrieval Assignment 2: Question 1 - (40 Points) Scoring and Term-Weighting
No ratings yet
CSE508: Information Retrieval Assignment 2: Question 1 - (40 Points) Scoring and Term-Weighting
3 pages
IR Practical 1
No ratings yet
IR Practical 1
5 pages
Virtue of Accuracy
No ratings yet
Virtue of Accuracy
185 pages
Mental Disorders and Disabilities
No ratings yet
Mental Disorders and Disabilities
395 pages
Final Written Exam Course: Intermediate Eight (I08) Book: American Big Picture (Units 10
100% (1)
Final Written Exam Course: Intermediate Eight (I08) Book: American Big Picture (Units 10
3 pages
Railway Recruitment Board: Employment Notice No. 3/2007
No ratings yet
Railway Recruitment Board: Employment Notice No. 3/2007
4 pages
Digital Electronics Ece 213 PDF
No ratings yet
Digital Electronics Ece 213 PDF
15 pages
Basic Elements of The Essay
No ratings yet
Basic Elements of The Essay
8 pages
Loewen Pile Testing Report 4
No ratings yet
Loewen Pile Testing Report 4
12 pages
Tugas RO Integer Programming Formulation
100% (2)
Tugas RO Integer Programming Formulation
3 pages
Why Need HW/SW Co-Design?: Ic Design Has Ushered in A New Era - Soc
No ratings yet
Why Need HW/SW Co-Design?: Ic Design Has Ushered in A New Era - Soc
31 pages
Living Religion - Everything Is Alive
No ratings yet
Living Religion - Everything Is Alive
23 pages
11 Advertising Case Study Freeman
No ratings yet
11 Advertising Case Study Freeman
6 pages
564SHJ22 01 Gym TC 101 1
No ratings yet
564SHJ22 01 Gym TC 101 1
1 page
41 IAS Assingment-2
No ratings yet
41 IAS Assingment-2
7 pages
B.tech IT 51 Devops Assingment 8
No ratings yet
B.tech IT 51 Devops Assingment 8
6 pages
B.tech IT 51 Devops Assingment 5
No ratings yet
B.tech IT 51 Devops Assingment 5
5 pages
On Anaximander - W A Heidel 23 Pages
No ratings yet
On Anaximander - W A Heidel 23 Pages
23 pages
CTO Tuesdays #47: Compensation
No ratings yet
CTO Tuesdays #47: Compensation
17 pages
ARM C Tutorial CD-ROM Course
No ratings yet
ARM C Tutorial CD-ROM Course
2 pages
IR Assignment5
No ratings yet
IR Assignment5
4 pages
B.tech IT 51 Devops Assingment 2
No ratings yet
B.tech IT 51 Devops Assingment 2
4 pages
IR Assignment10
No ratings yet
IR Assignment10
3 pages
IR Assignment2
No ratings yet
IR Assignment2
3 pages
IR Assignment3
No ratings yet
IR Assignment3
3 pages
B.tech IT 41 Devops Assingment 1
No ratings yet
B.tech IT 41 Devops Assingment 1
3 pages
Innovation Template
No ratings yet
Innovation Template
2 pages
IR Assignment7
No ratings yet
IR Assignment7
2 pages
Original Synthesis of Chromium (III) Oxide Nanoparticles: P. Gibot, L. Vidal
No ratings yet
Original Synthesis of Chromium (III) Oxide Nanoparticles: P. Gibot, L. Vidal
5 pages
ART20171514
No ratings yet
ART20171514
4 pages
Tobin Dorothy (Revised Resume)
No ratings yet
Tobin Dorothy (Revised Resume)
2 pages
"Erin Brockovich" PHE 455 Christopher Harley Quick Critique 2
No ratings yet
"Erin Brockovich" PHE 455 Christopher Harley Quick Critique 2
2 pages
Elllo #1253 Doctor Dreams - Answers
No ratings yet
Elllo #1253 Doctor Dreams - Answers
2 pages
NWN
No ratings yet
NWN
2 pages
Application Forma Nirtar
No ratings yet
Application Forma Nirtar
2 pages
MBA Case Let It Be Me
No ratings yet
MBA Case Let It Be Me
1 page
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Python: Advanced Guide to Programming Code with Python: Python Computer Programming, #4
From Everand
Python: Advanced Guide to Programming Code with Python: Python Computer Programming, #4
Charlie Masterson
No ratings yet

IR Assignment4

Uploaded by

IR Assignment4

Uploaded by

WALCHAND INSTITUTE OF TECHNOLOGY, SOLAPUR

Name: Ayush pande Roll no: 74 Class: Final Year Btech IT

Title: Implementation of IR system using Vector model

from nltk.corpus import stopwords

def term_frequency(term, id):

for (id, score) in scores:

print("-" * 42, end="\n\n")

def similarity(query, id):

for term in query:

similarity = similarity / length[id]

You might also like