0% found this document useful (0 votes)

10 views6 pages

UNIT 3 Notes

The document provides detailed notes on data compression and dynamic inverted indices, covering general-purpose data compression, modeling and coding techniques, and specific algorithms like Huffman and Arithmetic coding. It also discusses the importance of symbolwise text compression, methods for compressing postings lists, and the structure of dynamic inverted indices for efficient updates. Key concepts include various compression techniques, advantages and disadvantages of each, and strategies for maintaining index performance during updates.

Uploaded by

61 C Hritick Sidana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views6 pages

UNIT 3 Notes

Uploaded by

61 C Hritick Sidana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

UNIT 3 SUPER-DETAILED NOTES — Data Compression & Dynamic Inverted Indices

1. General-Purpose Data Compression

 Definition: Data compression is the process of transforming data into a compact

form such that it occupies less space and can be transmitted more efficiently, without
losing the original information (in case of lossless compression).

 Objectives:

o Reduce data storage requirements.

o Improve transmission efficiency.

o Optimize performance for both storage and retrieval.

 Types:

o Lossless Compression:

 Ensures that the original data can be perfectly reconstructed.

 Examples: ZIP (file compression), PNG (image compression), FLAC

(audio compression).

o Lossy Compression:

 Irreversibly removes less-important information to achieve higher

compression.

 Examples: JPEG (images), MP3 (audio), MPEG (video).

 Applications:

o Archival storage (backup systems, databases)

o Multimedia systems (images, audio, video streaming)

o Web services (reduced data transfer time)

o Scientific and medical imaging

2. Data Compression: Modeling and Coding

 Definition: A two-step process in data compression that aims to represent data

compactly by exploiting statistical redundancies.

 Modeling:

o Identifies statistical patterns in the data.

o Determines the probability distribution of symbols.

o Example: In English text, letters like ‘e’ and ‘t’ appear more frequently.

 Coding:

o Assigns binary codes to symbols based on their probabilities.

o Frequent symbols → shorter codes

o Rare symbols → longer codes

 Steps:

1. Analyze data to create a statistical model.

2. Design a coding scheme based on model (Huffman, Arithmetic, etc.)

3. Huffman Coding

 Definition: A lossless data compression algorithm that assigns variable-length codes

to input characters, with shorter codes assigned to more frequent characters.

 Working:

1. Count frequency of each symbol.

2. Build priority queue of symbols based on frequency.

3. Combine least frequent nodes into a binary tree.

4. Assign binary codes to branches (0-left, 1-right).

 Advantages:

o Simple and widely used.

o Optimal when symbol probabilities are known.

 Disadvantages:

o Inefficient for small alphabets.

o Requires symbol table to decode.

 Applications:

o File compression (ZIP)

o Text compression

o Multimedia (JPEG, MP3)

4. Arithmetic Coding

 Definition: A form of entropy encoding used in lossless data compression that

represents an entire message as a single number between 0 and 1.

 Working:

1. Assign probability ranges to symbols.

2. Narrow interval for each symbol.

3. Final fractional number represents full message.

 Advantages:

o Better compression than Huffman in some cases.

o Handles fractional probabilities efficiently.

 Disadvantages:

o Computationally intensive.

o Sensitive to floating-point precision.

 Applications:

o JPEG 2000

o Multimedia file compression

5. Symbolwise Text Compression

 Definition: Text compression methods that assign codes to individual symbols rather
than blocks of text.

 Key Methods:

o Huffman Coding

o Arithmetic Coding

 Importance:

o Essential for search engines, file storage, communication protocols.

6. Compressing Postings Lists (Inverted Index Compression)

 Definition: Postings lists store document IDs where terms occur. Compressing them
reduces storage and accelerates query processing.

Nonparametric Gap Compression

 Concept: Store gaps (difference between consecutive docIDs) instead of raw IDs.

 Techniques:

o Variable Byte Encoding

o Elias Gamma & Delta Coding

 Advantages: Simple, adaptive, good for small gaps.

 Disadvantages: Less efficient for large gaps.

Parametric Gap Compression

 Concept: Encode gaps using statistical models assuming known distribution.

 Example: Golomb Coding (for geometric distribution)

 Advantages: Compact if model fits data well.

 Disadvantages: Less flexible; needs parameter tuning.

Context-Aware Compression Methods

 Concept: Tailor compression method based on local properties of postings list.

 Example: PForDelta (Partitioned Frame of Reference + Delta Encoding)

 Advantages: High decompression speed, hardware-friendly.

Index Compression for High Query Performance

 Techniques:

o Block-wise Compression (compress blocks instead of whole list)

o SIMD-friendly Methods (Single Instruction Multiple Data)

 Advantages:

o Faster decompression during queries.

o Balance between space and speed.

Compression Effectiveness

 Metric: Compression Ratio = Compressed Size / Original Size

 Goal: Achieve high compression ratio without sacrificing performance.

Decoding Performance

 Metric: Time to decompress compressed postings.

 Trade-Off: Higher compression often slows down decoding; balance needed.

Document Reordering

 Concept: Reorder documents to minimize gaps between document IDs.

 Techniques:

o Sorting by similarity, URL, frequency.

 Benefits:

o Smaller gaps → higher compression.

o Better cache locality → faster queries.

7. Dynamic Inverted Indices

 Definition: Index structures that can be efficiently updated with additions, deletions,
or modifications.

Incremental Index Updates

 Concept: Update index continuously without full rebuild.

 Techniques:

o Maintain auxiliary index for new documents.

o Periodically merge with main index.

 Advantages:

o Real-time updates possible.

o Reduced downtime.

Contiguous Inverted Lists

 Concept: Store postings contiguously in memory.

 Advantages:

o Faster sequential access.

o Better cache utilization.

 Disadvantages:
o Harder to update incrementally.

Noncontiguous Inverted Lists

 Concept: Store postings in linked segments.

 Advantages:

o Flexible for updates.

 Disadvantages:

o Slower query performance due to pointer chasing.

Document Deletions: Invalidation List

 Concept: Maintain a list of invalid (deleted) document IDs.

 Advantages:

o Avoids immediate expensive updates.

o Easy to exclude deleted docs during query.

Garbage Collection

 Concept: Periodically clean up deleted document data.

 Advantages:

o Frees space.

o Optimizes index performance.

Document Modifications

 Concept: Modify a document by deleting old version and inserting new one.

 Advantages:

o Maintains index consistency.

 Disadvantages:

o Slightly more overhead than direct modification.

PPS Lab File With Solution
No ratings yet
PPS Lab File With Solution
70 pages
Pi Cossmil Soporte
No ratings yet
Pi Cossmil Soporte
90 pages
Modbus Utility User Manual
No ratings yet
Modbus Utility User Manual
161 pages
MDM (De) 4,5
No ratings yet
MDM (De) 4,5
199 pages
Seat Acceptance Fee
No ratings yet
Seat Acceptance Fee
2 pages
IR Unit 3
No ratings yet
IR Unit 3
66 pages
Chapter 5 Data Compression
No ratings yet
Chapter 5 Data Compression
71 pages
CS2100 Computer Organisation: MIPS Programming
No ratings yet
CS2100 Computer Organisation: MIPS Programming
175 pages
FG 74
No ratings yet
FG 74
10 pages
Unit 5
No ratings yet
Unit 5
36 pages
Training Report On C and C++
67% (3)
Training Report On C and C++
20 pages
Data Compression Seminar Report
67% (6)
Data Compression Seminar Report
34 pages
Network Design and Topologies
No ratings yet
Network Design and Topologies
13 pages
ISR Chap... 4
No ratings yet
ISR Chap... 4
43 pages
Stu-Lossless Compression Algos
No ratings yet
Stu-Lossless Compression Algos
21 pages
File Organization Lec910
No ratings yet
File Organization Lec910
37 pages
Microsoft CSP Vs Ea Data Sheet
No ratings yet
Microsoft CSP Vs Ea Data Sheet
1 page
Reasoning 06 - Class Notes - Pravesh Batch For CUET (General Test)
No ratings yet
Reasoning 06 - Class Notes - Pravesh Batch For CUET (General Test)
24 pages
Multimedia File Handling
No ratings yet
Multimedia File Handling
36 pages
Lecture 3 Compression in Multimedia
No ratings yet
Lecture 3 Compression in Multimedia
60 pages
Assignment Cyber Security Solved
No ratings yet
Assignment Cyber Security Solved
22 pages
Information Retrieval - 3
No ratings yet
Information Retrieval - 3
36 pages
Unit 3ir
No ratings yet
Unit 3ir
28 pages
Regular Expression 01
No ratings yet
Regular Expression 01
48 pages
The Rainbow Scada: Internet Enabled Genset Controller
100% (1)
The Rainbow Scada: Internet Enabled Genset Controller
42 pages
Research Paper
No ratings yet
Research Paper
15 pages
Chapter Four Indexing Structure
100% (2)
Chapter Four Indexing Structure
60 pages
MM-Lecture 5 Image Compression
No ratings yet
MM-Lecture 5 Image Compression
20 pages
Multimedia Data Compression
No ratings yet
Multimedia Data Compression
31 pages
Chapter 7
No ratings yet
Chapter 7
36 pages
Umit 1 Mmdcs
No ratings yet
Umit 1 Mmdcs
17 pages
Data Compression Unit-1 - 1
No ratings yet
Data Compression Unit-1 - 1
21 pages
Data Compression Techniques
No ratings yet
Data Compression Techniques
14 pages
Presentation Layer & Application Layer
No ratings yet
Presentation Layer & Application Layer
9 pages
HTCS501 Unit 4
No ratings yet
HTCS501 Unit 4
17 pages
5 Data Compression
No ratings yet
5 Data Compression
46 pages
DC M1 Merged
No ratings yet
DC M1 Merged
26 pages
Supercomputer: High-Throughput Computing Many-Task Computing Supercomputer (Disambiguation)
No ratings yet
Supercomputer: High-Throughput Computing Many-Task Computing Supercomputer (Disambiguation)
26 pages
Java Unit-4 Assignment Answers
No ratings yet
Java Unit-4 Assignment Answers
8 pages
Dec50132 Internet Based Controller Pw3
No ratings yet
Dec50132 Internet Based Controller Pw3
19 pages
3rd Semester Syllabus
No ratings yet
3rd Semester Syllabus
9 pages
Unit - 2 - Mathematical Preliminaries For Lossless Compression Models
No ratings yet
Unit - 2 - Mathematical Preliminaries For Lossless Compression Models
12 pages
DC 3
No ratings yet
DC 3
20 pages
Ponontle HP Parnership Technical Assessment 1
No ratings yet
Ponontle HP Parnership Technical Assessment 1
5 pages
Book Predictor Poster
No ratings yet
Book Predictor Poster
1 page
Unit 5 - Data Compression
No ratings yet
Unit 5 - Data Compression
46 pages
Hritick Sidana TCS Prime Resume
No ratings yet
Hritick Sidana TCS Prime Resume
2 pages
Unit III - Digital Image Fundamentals
No ratings yet
Unit III - Digital Image Fundamentals
19 pages
Prasada Reddy - Server Admin
No ratings yet
Prasada Reddy - Server Admin
5 pages
Computer Mouse
No ratings yet
Computer Mouse
22 pages
Chap 5.2oo Analysis
No ratings yet
Chap 5.2oo Analysis
81 pages
Second Order Systems Control Model - The SallenKey Configuration
No ratings yet
Second Order Systems Control Model - The SallenKey Configuration
27 pages
Producer Consumer Problem
No ratings yet
Producer Consumer Problem
4 pages
MM Unit-III - 0
No ratings yet
MM Unit-III - 0
22 pages
Assignment Agmase
No ratings yet
Assignment Agmase
14 pages
Data Compression
No ratings yet
Data Compression
22 pages
File Organization For Performance: Amogh P K, SVIT
No ratings yet
File Organization For Performance: Amogh P K, SVIT
12 pages
06 Use Case Modeling Part 1
No ratings yet
06 Use Case Modeling Part 1
6 pages
NOTES - Chap 1 Smartbooks
No ratings yet
NOTES - Chap 1 Smartbooks
2 pages
Nen Anh
No ratings yet
Nen Anh
36 pages
Compression PDF
No ratings yet
Compression PDF
55 pages
Dce Easy Solution
0% (1)
Dce Easy Solution
87 pages
Quiz Questions For Chapter 1
No ratings yet
Quiz Questions For Chapter 1
19 pages
PDF
No ratings yet
PDF
5 pages
5 Data Compression Ioenotes
No ratings yet
5 Data Compression Ioenotes
47 pages
Introduction To Data Compression - Guy E. Blelloch PDF
No ratings yet
Introduction To Data Compression - Guy E. Blelloch PDF
54 pages
A Survey On Different Text Data Compress
No ratings yet
A Survey On Different Text Data Compress
4 pages
UNIT - IV - PPT
100% (1)
UNIT - IV - PPT
18 pages
Main Techniques and Performance of Each Compression
No ratings yet
Main Techniques and Performance of Each Compression
23 pages
Dereje Teferi Dereje - Teferi@aau - Edu.et
No ratings yet
Dereje Teferi Dereje - Teferi@aau - Edu.et
36 pages
Analog & Digital Communication Presentation On Data Compression
No ratings yet
Analog & Digital Communication Presentation On Data Compression
31 pages
Data Compression Question Bank
No ratings yet
Data Compression Question Bank
1 page
Fundamentals of Compression: Prepared By: Haval Akrawi
No ratings yet
Fundamentals of Compression: Prepared By: Haval Akrawi
21 pages
Galileo GDS
No ratings yet
Galileo GDS
6 pages
Sound Card
No ratings yet
Sound Card
14 pages
Cs ch5 File Handelling
No ratings yet
Cs ch5 File Handelling
14 pages
20230707 - 1883736 - UNV【Datasheet】NVR301-S3 Series V1.07-EN - 973318 - 168459 - 0
No ratings yet
20230707 - 1883736 - UNV【Datasheet】NVR301-S3 Series V1.07-EN - 973318 - 168459 - 0
3 pages
Chapter-5 Data Compression
No ratings yet
Chapter-5 Data Compression
53 pages
Cyber Security Cover Letter - Heeral
No ratings yet
Cyber Security Cover Letter - Heeral
2 pages
Compression Techniques
No ratings yet
Compression Techniques
24 pages
Aadel Veri
No ratings yet
Aadel Veri
37 pages
Data Compresion 1
No ratings yet
Data Compresion 1
2 pages
EPLAN 2.7.3 Setup
No ratings yet
EPLAN 2.7.3 Setup
4 pages
Compression and Decompression Techniques
No ratings yet
Compression and Decompression Techniques
68 pages
Data Compression Report
No ratings yet
Data Compression Report
10 pages
Data Compression
No ratings yet
Data Compression
10 pages
What Is The Difference Between Defining and Declaring A Variable
No ratings yet
What Is The Difference Between Defining and Declaring A Variable
7 pages
Synopsis On: Data Compression
No ratings yet
Synopsis On: Data Compression
25 pages
Data Compression Techniques
No ratings yet
Data Compression Techniques
41 pages
Data Compression Report
No ratings yet
Data Compression Report
12 pages
Lovely Professional University Term Paper OF Digita L Communicaton System (Data Compression)
No ratings yet
Lovely Professional University Term Paper OF Digita L Communicaton System (Data Compression)
7 pages
Literature Survey
No ratings yet
Literature Survey
5 pages
Data Compression: Unlocking Efficiency in Computer Vision with Data Compression
From Everand
Data Compression: Unlocking Efficiency in Computer Vision with Data Compression
Fouad Sabry
No ratings yet
Mastering C: Advanced Techniques and Tricks
From Everand
Mastering C: Advanced Techniques and Tricks
Ted Norice
No ratings yet
Audio Visual Speech Recognition: Advancements, Applications, and Insights
From Everand
Audio Visual Speech Recognition: Advancements, Applications, and Insights
Fouad Sabry
No ratings yet