0% found this document useful (0 votes)
148 views11 pages

Data Mining Seminarski

This document is a student seminar paper on data mining and Scrum methodology. It discusses data mining algorithms and techniques used to extract patterns from large datasets, including decision trees, association rules, naive Bayes, clustering, and text mining. It also provides an overview of the Scrum framework for agile software development, describing sprint cycles, roles, and documentation. The goal of the paper is to describe how data mining can be used to gain insights from data and how Scrum supports iterative and collaborative development.

Uploaded by

Davor
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
148 views11 pages

Data Mining Seminarski

This document is a student seminar paper on data mining and Scrum methodology. It discusses data mining algorithms and techniques used to extract patterns from large datasets, including decision trees, association rules, naive Bayes, clustering, and text mining. It also provides an overview of the Scrum framework for agile software development, describing sprint cycles, roles, and documentation. The goal of the paper is to describe how data mining can be used to gain insights from data and how Scrum supports iterative and collaborative development.

Uploaded by

Davor
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
You are on page 1/ 11

VISOKA TEHNIKA KOLA

STRUKOVNIH STUDIJA

KRAGUJEVAC

Studijski program: Informacione tehnologije i sistemi

Predmet: Poslovna inteligencija

Data Mining

Seminarski rad

Autor: Nenad Mili

Predmetni nastavnik:

Mr.Dr. Miroljub Bankovi

Maj, 2017.Godine
Sadraj

Uvod...............................................................................................Error! Bookmark not defined.

1. Agilne metode ..........................................................................Error! Bookmark not defined.

2.Scrum ..........................................................................................Error! Bookmark not defined.

3.Sprintovi......................................................................................Error! Bookmark not defined.

3.1 Komponente Sprinta: ..........................................................Error! Bookmark not defined.

3.1.1 Sastanak Planiranja Sprinta...........................................Error! Bookmark not defined.

3.1.2 Dnevni Scrum ...............................................................Error! Bookmark not defined.

3.1.3 Pregled Sprinta ..............................................................Error! Bookmark not defined.

3.1.4 Retrospektiva Sprinta ....................................................Error! Bookmark not defined.

3.2 Cilj Sprinta ...........................................................................Error! Bookmark not defined.

3.3 Otkazivanje Sprinta ..............................................................Error! Bookmark not defined.

4. Faze razvoja softvera ................................................................Error! Bookmark not defined.

5. Uloge i odgovornosti..................................................................Error! Bookmark not defined.

5.1 Scrum Master ......................................................................Error! Bookmark not defined.

5.2 Vlasnik projekta ..................................................................Error! Bookmark not defined.

5.3 Scrum tim ............................................................................Error! Bookmark not defined.

5.4 Klijent .................................................................................Error! Bookmark not defined.

5.5 Uprava .................................................................................Error! Bookmark not defined.

6.Dokumentacija Scrum tima.........................................................Error! Bookmark not defined.

Zakljuak........................................................................................Error! Bookmark not defined.

Literatura ........................................................................................Error! Bookmark not defined.


Uvod

U ovom radu smo opisali tehnike data mininga koje slue za pretraivanje velikog skupa
podataka, kao i iskoritavanje tih rezultata za formiranje znanja o tom skupu. Ljudska bia se u
svom radu slue prethodnim iskustvima i predrasudama pa na osnovu te subjektivnosti nije
mogue da to pretraivanje i pronalaenje znanja obave precizno kao to to moe raunar.

3
Data mining Iskopavanje podataka

Data mining je nova tehnologija koja se koristi u istraivanju trita i otkrivanju potencijalnih
klijenata. To je metoda pretraivanja podataka koja se naglo razvila zahvaljujui razvoju
raunarske tehnologije jer je tek razvitkom brzih raunarskih sistema postalo mogue efikasno
pretraivati velike koliine nagomilanih informacija. Zahvaljujui iskopavanju podataka,
skupovi podataka se pretvaraju u strukturirane informacije i znanje i na taj nain su korisniji i
vredniji za istraivanje. Koliina podataka koje kompanije pohranjuju u svoje baze podataka
poslednjih godina je drastino porasla. Dnevni unos informacija u baze podataka velikih firmi
meri se u terabajtima. Kako bi ova koliina podataka dobila opipljivu veliinu, rei emo samo
da u jedan terabajt stane dovoljno teksta za oko dva miliona knjiga. Izvori tih informacija
mogu biti razliiti. To mogu biti podaci skupljeni s rauna iz prodavnica, iz telefonskih anketa,
sa popunjenih priznanica, narudbenica, pretplatnih listia... Oni mogu da obuhvataju ime i
prezime osobe, pol, starost, rasu, a mogu biti i potpuno bezlini, kao to je sluaj s raunima iz
prodavnice. Svi ti podaci se svakodnevno slivaju u jednu veliku bazu podataka. Jasno je da bi
runo pretraivanje jedne takve gungule za bilo kakvom smislenom informacijom predstavljalo
nonu moru. Zbog toga svi ti sirovi podaci koji nisu adekvatno strukturirani i nemaju neku
preteranu upotrebnu vrednost, ve ih je neophodno pretvoriti u upotrebljive smernice za dalje
uspeno poslovanje firme.

ta je data mining?

Data mining je proces pronalaenja zanimljivih informacija u velikim kolekcijama (neadekvatno


strukturiranih) podataka. Zanimljive informacije predstavljaju netrivijalne, neskrivene, prethodno
nepoznate i potencijalno korisne informacije. Zahvaljujui data miningu, mogue je predvideti
trend trita ili ponaanje konzumenata i na taj nain obezbediti uspeh firme ili proizvoda. To se
postie analizom podataka iz raznih perspektiva i pronalaenjem veza i odnosa izmeu naizgled
nepovezanih informacija. Zbog svega toga je proces data mininga neraskidivo vezan za raunare.
Uz pomo posebnog softvera, veliki kompjuterski sistemi analiziraju podatke iz razliitih uglova,
pronalaze hipoteze, isprobavaju ih i ue na prethodnim iskustvima. Treba uvek imati u vidu da je
softver samo alatka i da je i dalje neophodno prisustvo ljudskih eksperata koji e dati poslednju
re. Ali u prvoj fazi obrade kompjuterski sistemi su nezamenjivi zbog svoje brzine i nedostatka

4
predrasuda. Za razliku od oveka, kome bi neka oigledna veza izmeu dva podatka promakla
jer se nalazi van okvira njegovog oekivanja, kompjuteru takva greka ne moe da se dogodi.
Takoe, ovek moe da bude rtva uslovljenosti prethodnim iskustvom, to moe da bude i
pozitivno i negativno, ali je to u svakom sluaju nemogue izbei. Jedan krajnje zanimljiv primer
e ilustrovati prethodnu tvrdnju. Lanac supermarketa u Americi je, koristei Oracleov softver za
analizu podataka, otkrio da su mukarci koji su 3 kupovali pelene etvrtkom najee kupovali i
paket piva. etvrtak je dan kojim su najradije ili u kupovinu jer bi tako izbegavali guve u
supermarketima koje donosi vikend. Dublja analiza otkrila je da je veina kupaca sedminu
kupovinu obavljali subotom. etvrtkom su kupovali samo nekoliko proizvoda, a pivo su
kupovali kako bi popunili kune zalihe za dolazei vikend, koji donosi slobodne dane i druenje
uz utakmice i pivo. Zahvaljujui ovoj informaciji, lanac supermarketa je poveao prihode tako
to je vitrinu sa pivom pomerio blie polici sa pelenama. Takoe, etvrtkom su pivo i pelene
prodavani po punoj ceni, bez posebnih popusta. Jasno je da bi svakom ljudskom ekspertu veza
izmeu mukaraca, pelena, piva i odreenih dana u nedelji promakla, ali ne i nepristrasnoj logici
kompjutera.

5
Data Mining algoritmi

Nekoliko tehnika data mining-a omoguava identifikovanje obrazaca u ogromnom broju


podataka.

Neki modeli su:

- Drvo odluivanja
- Pravila asocijacije
- Naivni bajes (Naive Bayes)
- Klastering
- Vremenske serije
- Neuronske mree
- Tekst Mining
- Linearne regresije

Text mining

Text mining je varijacija na mnogo ire polje data mining, koji pokuava da pronae zanimljive
uzorke iz velike tekstualne baze podataka. Razlika izmeu data mininga i text mininga je ta da u
text mining-u se uzorci izvlae iz teksta napisanog prirodnim jezikom u odnosu na data mining
kod kojeg se injenice vade iz nestrukturiranih baza podataka. Baze podataka su dizajnirane za
programe koji ih automatski obrauju, a tekst je pisan za ljude da ga prilikom itanja razumeju.
Ne postoje programi koji znaju shvatiti tekst i verovatno nee ni postojati u bliskoj budunosti.
Jedna tehnika, koja slui za reprezentaciju dokumenta, je Bag of Words, koja funkcionie tako
to se na osnovu skupa svih dokumenata formira renik sa bar nekoliko hiljada rei. Dokumenti
se predstave kao vektori sastavljeni od koeficijenata koji se odnose na rei. Zatim se na osnovu
statistike formiraju termovi (rei sa atributima) iji broj se zatim smanjuje. Tehnike za smanjenje
broja termova su: eliminisanje cifara i specijalnih znakova, eliminisanje estih rei (stopwords),
pronalaenje korena rei i odabir termova. Posle primene ovih tehnika dobija se saet dokument
koji je predstavljen samo kljunim reima. Takoer zadaci text mining-a su i kategorizacija
teksta, klastering, rastavljanje na podatke, model podataka, izbor kljunih rei itd...

6
Kako funkcionie data mining?

Pre same pretrage ili obrade podataka iz baze potrebno ih je pripremiti, tanije bazu podataka
nije mogue odmah koristiti takvu kakva je. Kako bi se dobili validni rezultati, bazu je esto
neophodno osveiti od duplih ili nepotpunih podataka. Ponekad je neophodno transformisati
podatke, izabrati podgrupe podataka ili suziti ukupan broj promenljivih na veliinu s kojom je
mogue raditi. Prilikom pravljenja modela, vei deo posla svodi se na pripremanje baze podataka
Prilikom pretrage podataka data mining softver reava neki od sledeih zadataka: Predvianje
(Numeric prediction) proces pronalaenja pravilnosti iz primera, na osnovu koje se odreuju
oekivane numerike vrednosti traene promenljive. 4 Klasifikacija (Classification) proces
pronalaenja funkcije na osnovu koje se vri razvrstavanje podataka u jednu od nekoliko klasa.
Association learning uoptenje klasifikacije izvoenje veza meu proizvoljnim atributima.
Grupisanje (Klastering) proces odreivanja grupa podataka koji su meusobno slini, ali
razliiti od ostalih podataka. U ovom procesu se esto identifikuju i promenljive po kojima se
vri najbolje grupisanje. Po zavrenoj analizi informacija, svi rezultati se prikazuju na pregledan
nain, najee u vidu tabela ili dijagrama koji mogu biti dvodimenzionalni ili trodimenzionalni.
Programi ak omoguavaju korisniku da menja neku od promenljivih, a da se efekat njene
promene prikazuje u realnom vremenu na dijagramu.

7
Tehnike data mining

Analitike tehnike koje se koriste u data miningu u najveem broju sluajeva su odavno poznate
matematike tehnike i algoritmi. Iako je data mining mlada tehnologija, u samom procesu
analize podataka koriste se ranija saznanja ali ima i novih proirenja. Ono to je povezalo te
tehnike i velike baze podataka jeste pojeftinjenje prostora za skladitenje podataka i procesorske
snage. Nabrojaemo neke od tehnika data mininga. Vetake neuralne mree su analitike
tehnike koje su formirane na osnovu pretpostavljenog procesa uenja u ljudskom mozgu. Kao to
je ljudski mozak sposoban da posle procesa uenja izvlai pretpostavke na osnovu ranijih
opaanja, tako su i neuralne mree sposobne da nakon procesa uenja predvide promene i
deavanja u sistemu. Proces uenja se obavlja tako to se mrea balansira na osnovu odnosa koji
postoje izmeu elemenata u primerima. Na osnovu vanosti uzroka i posledica izmeu odreenih
podataka formiraju se jae ili slabije veze izmeu neurona. Tako formirana mrea spremna je
za rad na nepoznatim podacima i reagovae na osnovu prethodno nauenog. Vetake neuralne
mree su idealne za multiprocesorske sisteme, gde se veliki broj operacija obavlja paralelno.
Izvoenje pravila iz baze podataka izvlai if-then pravila koja se oslanjaju na statistiku vrednost
dobijenih rezultata pretrage. Uslovno stablo je grafiki prikaz odnosa koji postoji izmeu
podataka u bazi. Koristi se za klasifikaciju podataka. Rezultat se prikazuje u vidu stabla, pa otuda
i ime ove tehnike. vorovi koji razdvajaju razliite klase se granaju na osnovu if-then uslova.
Prikaz u vidu stabla je pregledan i lako ga je razumeti, a algoritmi uslovnog stabla su znaajno
bri od neuralnih mrea i njihovo poduavanje krae traje. Genetski algoritmi se baziraju na
principu genetske modifikacije, mutacije i prirodne selekcije. Genetski algoritam kreira odreen
broj nasuminih reenja problema. Sva ta reenja ne moraju biti dobra, neka grupa reenja moe
da bude sasvim preskoena, a moe da doe i do preklapanja reenja. Loa reenja se odbacuju, a
dobra zadravaju. Dobra reenja se zatim nadograuju i ceo proces se ponavlja. Na kraju, slino
procesu prirodne selekcije, ostaju samo 5 najbolja reenja. Nedostatak ove metode je to to
zahteva ogromnu koliinu procesorske snage i to je prespora za trivijalne probleme. Metoda
najblieg suseda je tehnika koja se takoe koristi za klasifikaciju podataka. Za razliku od ostalih
tehnika, ne postoji proces uenja kako bi se kreirao model. Podaci koji se koriste za uenje u
stvari jesu model. Kada se pojavi novi podatak, algoritam analizira sve podatke u bazi kako bi

8
naao podgrupu sluajeva koji najbolje odgovaraju tom sluaju i na osnovu toga je u stanju da
predvidi ishod.

Neophodna infrastruktura

Softver za data mining je pristupaan kako za velike sisteme tako i za samostalne raunare. Cena
sistema varira od nekoliko hiljada dolara pa do nekoliko miliona dolara za najvee sisteme. Dva
osnovna uslova za izbor odgovarajue platforme jesu veliina baze podataka i kompleksnost
upita. Velika baza podataka sa sobom povlai veliki broj podataka koji treba skladititi i
odravati i samim tim zahteva moniji sistem. Kompleksnost upita i njihov veliki broj takoe
poveavaju potrebu za procesorskom moi. Ubrzavanje reavanja upita moe se postii
indeksiranjem podataka. Takoe, paralelno procesiranje znaajno ubrzava rad s velikim bazama
podataka. Stotine paralelno vezanih (obinih) kompjutera mogu da postignu performanse jednog
superkompjutera.

9
Poloaj Data Mining-a

Slika 1. Poloaj DATA mininig-a

Primena

Primena data mininga je mogua u mnogim sferama ljudskog delovanja. Pomenuli smo primenu
u trgovini radi poboljanja prodaje nekih proizvoda. Takoe, mogue je predvideti reakciju
trita na novi proizvod i odrediti kada je najbolji trenutak za njegovu promociju. Ova
tehnologija nalazi primenu i u bankarstvu, gde je, recimo, mogue na osnovu ranijih sluajeva
odrediti da li pojedinac spada u rizinu grupu kada je u pitanju davanje kredita. U medicini moe
da se odredi koju terapiju treba prepisati pacijentu. Elektrane ili telefonske kompanije mogu da
predvide kada e i koliki biti vrhunac optereenja, kako bi ga izbegle. Geografski informacioni
sistemi koriste tehniku data mininga za pronalaenje relevantnih informacija, itd U poslednje
vreme javlja se i pojam data warehousing, koji podrazumeva centralizaciju svih podataka u jedno
veliko skladite. Centralizacija podataka dramatino ubrzava pristup podacima i njihovu
analizu. Podaci koji se nalaze u ovim skladitima mogu biti dostupni svima.

10
Slika 2. Primena DATA mining-a

11

You might also like