Information Retrieval: Assignment 1
Information Retrieval: Assignment 1
Information Retrieval
Dua Fetai
len(text)
Out[13]: 525
text.count("arsimi")
Out[14]: 0
text.count("Spasse")
Out[15]: 3
sorted(set(text))
Out[16]:
['!?"',
'!?.',
'"',
'",',
'(',
')',
'),',
').',
',',
'-',
'.',
'..."',
'.[',
'15',
'1934',
'1935',
'1944',
'1946',
'1952',
'1954',
'1958',
'1965',
'1968',
'1972',
'1973',
'1975',
'1978',
'1980',
'1983',
'1985',
'2',
'3',
'4',
':',
'Afërdita',
'Aleksandër',
'Arsimi',
'Arsimit',
'Artistëve',
'Ata',
'Botimeve',
'Botoi',
'Buzë',
'Derviçan',
'Dhimitër',
'Draçinin',
'Elbasan',
'Firencë',
'Gjirokastrës',
'Gollomboç',
'Hakiun',
'Harbutët',
'Italisë',
'Ja',
'Kjo',
'Kokonën',
'Korçë',
'Korçës',
'Kryengritësit',
'Kulturës',
'Kuror',
'Kutelin',
'Lidhjes',
'Literatura',
'Me',
'Min',
'Më',
'Ndërsa',
'Nga',
'Normale',
'Nusja',
'Në',
'Nëntori',
'Pishtarë',
'Po',
'Prespës',
'Pse',
'Punoi',
'Përpara',
'Qemal',
'Redaksia',
'Revista',
'Rilindja',
'Shkolla',
'Shkrimtarëve',
'Shkroi',
'Shqipërisë',
'Shuteriqin',
'Shuteriqit',
'Si',
'Sipas',
'Spasse',
'Spasses',
'Sterjo',
'Tiranë',
'Tiranën',
'Trebeshinës',
'Të',
'Vepra',
'Veprimtaria',
'Xhuvanin',
'Zgjimi',
'Zjarre',
'[',
']',
'].',
'ai',
'ajo',
'anglisht',
'arriti',
'artikuj',
'ashtu',
'atë',
'bashkëthemelues',
'botimi',
'botoi',
'botua',
'botuan',
'botuar',
'buzë',
'cili',
'cilën',
'dallua',
'dhe',
'dhjetë',
'duvak',
'e',
'etj',
'fala',
'femre',
'fill',
'fillore',
'fitores',
'fshat',
'fshati',
'fshatin',
'fshatrat',
'fundin',
'fundit',
'fushën',
'gazetën',
'gjithashtu',
'hartimin',
'here',
'herë',
'i',
'integral',
'ishin',
'ishte',
'iu',
'ja',
'jeta',
'jetë',
'jonë',
'jug',
'ka',
'kaloi',
'kaluar',
'katër',
'kishte',
'kohën',
'komplet',
'komuniste',
'korrespondencë',
'krahët',
'kreu',
'krijimet',
'kryevepra',
'ku',
'kurs',
'letrare',
'lindur',
'liqenit',
'liri',
'lirë',
'lufte',
'maqedonase',
'maqedonishtfolës',
'marrë',
'mbahet',
'me',
'monografi',
'muar',
'më',
'mësues',
'ndaj',
'ndryshme',
'ndryshëm',
'ndërsa',
'nga',
'nisi',
'njihet',
'një',
'njëri',
'nuk',
'në',
'nëntë',
'organin',
'pa',
'pak',
'pandehur',
'parisë',
'partiak',
'parë',
'pas',
'pashë',
'pedagogji',
'pedagogjike',
'periudhë',
'po',
'politike',
'popullor',
'por',
'porsaçliruar',
'pranë',
'preference',
'prejardhje',
'profesion',
'provimet',
'punime',
'punoi',
'punë',
'për',
'përkohshmes',
'përkthime',
'përkthye',
'përmbledhje',
'përsëri',
'qe',
'që',
're',
'realizmit',
'revistat',
'rinie',
'romane',
'romani',
'romanin',
'romanit',
'shekullit',
'shkak',
'shkollore',
'shkollën',
'shkrimtar',
'shkroi',
'shkruante',
'shkurt',
'shumëllojshme',
'si',
'sidomos',
'socialist',
'së',
'tekste',
'teksteve',
'tetë',
'tij',
'tregime',
'tregimesh',
'tregimit',
'tridhjetë',
'të',
'u',
'vdekje',
'vepra',
'veprash',
'veprën',
'veta',
'vetëm',
'vitet',
'vitit',
'vonë',
'vëllime',
'zë',
'është']
text[10]
Out[17]: ','
text[20]
Out[18]: 'Sterjo'
text[2]
Out[19]: 'me'
text[5:9]
Out[20]: [',', 'i', 'lindur', 'në']
fdist2 = FreqDist(text)
print(fdist2)
<FreqDist with 273 samples and 525 outcomes>
fdist2.most_common(50)
Out[25]:
[('"', 42),
('e', 22),
(',', 21),
('të', 21),
('në', 18),
('(', 13),
('.', 12),
('),', 10),
('dhe', 8),
('me', 7),
('i', 5),
('që', 5),
('një', 5),
('Më', 4),
('pas', 4),
('si', 4),
('letrare', 4),
('më', 4),
('1944', 4),
('[', 4),
('].', 4),
(':', 4),
('",', 4),
('Spasse', 3),
('nga', 3),
('Sterjo', 3),
('nisi', 3),
('për', 3),
('nuk', 3),
('Tiranë', 3),
('2', 3),
('tij', 3),
('-', 3),
('ishte', 2),
('liqenit', 2),
('shkollën', 2),
('ndërsa', 2),
('shkurt', 2),
('Pse', 2),
('fundit', 2),
('Në', 2),
('botuar', 2),
('shkollore', 2),
('Dhimitër', 2),
('pedagogjike', 2),
('etj', 2),
('Veprimtaria', 2),
('u', 2),
('shkroi', 2),
('romane', 2)]