0% menganggap dokumen ini bermanfaat (0 suara)
130 tayangan5 halaman

TP1 Data Mining

Diunggah oleh

Antara Tech
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
130 tayangan5 halaman

TP1 Data Mining

Diunggah oleh

Antara Tech
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 5

Tugas Personal ke-1

(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?

Data mining adalah proses mencari dari banyak data yang disimpan
untuk menemukan pola dan trend. Biasanya data mining digunakan
untuk menganalisa data untuk kebutuhan bisnis.

2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk
data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21,
22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52,
70. Berdasarkan data tersebut:
(a) Apa yang dimaksud dengan data? Apa mediannya?
In computing, data is information that has been translated into
a form that is efficient for movement or processing. Relative to
today's computers and transmission media, data is information
converted into binary digital form. It is acceptable for data to
be used as a singular subject or a plural subject.
13 70
15 52
16 46
16 45
19 40
20 36
21 35
22 35
22 35
22 35
25 33
25 33
25 30
25
Median = 25
(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal,
trimodal, dll.).
Mode data/modus data adalah nilai yang paling sering muncul.
Bimodal adalah mode data yang jumlahnya dua.
Trimodal adalah mode data yang jumlahnya tiga.
Pada soal ini bimodalnya adalah 25 dan 35.

(c) Apa itu midrange data?

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
ISYS6281 – Data Mining
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Midrange value merupakan rata-rata nilai aritmatika dari nilai
terbesar dan nilai terkecil dalam sample group.
Pada soal ini, midrange = (70+13)/2 = 41.5
(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan
kuartil ketiga (Q3) dari data?
Q1 = (21+22)/2 = 21.5
Q3 = 35
(e) Berikan ringkasan lima angka dari data.
Minimum value = 13
Lower quartile = 21.5
Upper quartile = 35
Median = 25
Maximum value = 70
(f) Tunjukkan plot kotak data.

(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?


Quantile plot: setiap nilai xi dipasangkan dengan fi yang
menunjukkan bahwa sekitar 100 fi% data adalah <= xi
Quantile-quantile (q-q) plot: grafik kuantil dari satu distribusi
univarian terhadap kuantil yang sesuai dari yang lain

3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk
beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode
untuk menangani masalah ini.

o Abaikan tuple

o Mengisi nilai yang kosong secara manual

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 2|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Mengisi nilai dengan global constant

4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat


menggunakan contoh untuk menjelaskan poin.

(a) Skema snowflake, konstelasi fakta, model kueri starnet.


Snowflake schema: A refinement of star schema where some
dimensional hierarchy is normalized into a set of smaller
dimension tables, forming a shape similar to snowflake
Examples

• Fact constellations: Multiple fact tables share dimension


tables, viewed as a collection of stars, therefore called
galaxy schema or fact constellation

Star net query model


A starnet query model for the AllElectronics data warehouse is
shown in below Figure . This starnet consists of four radial lines,
representing concept hierarchies for the dimensions location,
customer, item, and time, respectively. Each line consists of
footprints representing abstraction levels of the dimension.

(b) Data cleaning, transformasi data, refresh

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 3|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
o Data cleaning
detect errors in the data and rectify them when
possible
o Data transformation

convert data from legacy or host format to


warehouse format
o Refresh

propagate the updates from the data sources to the


warehouse

(c) Discovery-driven cube, multifeatured cube, virtual data


warehouse.
Discovery-driven (Sarawagi, et al.’98)

 Effective navigation of large OLAP data cubes


 pre-compute measures indicating exceptions, guide user in
the data analysis, at all levels of aggregation
 Exception: significantly different from the value anticipated,
based on a statistical model
 Visual cues such as background color are used to reflect the
degree of exception of each cell

Multifeature cube
A Multi-Feature Cube (MF-Cube) query is a complex-data-
mining query based on data cubes, which computes the
dependent complex aggregates at multiple granularities. Existing
computations designed for simple data cube queries can be used
to compute distributive and algebraic MF-Cubes queries.
Virtual Data Warehouse
Virtual data warehouse refers to a layer that sits on top of
existing data bases and enables the user to query all of them as if
they were one entity (although they are logically and physically
separated). Distributed data warehouse on the other hand, refers
to the physical architecture of a single database.
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base:
(1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3)
.d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D
d3. Ukuran cube adalah count().

(a) Berapa banyak nonempty cube yang akan diisi data penuh?
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang
akan diisi penuh?
(c) Berapa banyak sel agregat nonempty akan mengandung
iceberg jika kondisi Iceberg cube "count ≥2"?
(a)A data cube contain 2n data cubes where n is dimension
2n=210 = 1024
(b)There will be 3*210-6*27-3=2301
The number of overlapped cell thrice is 3 (base cuboid)

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 4|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
The number of overlapped cell twice is 27 while the number of
overlapped cell once is 4(27)
(c)5*27=640 nonempty aggregate cell in the iceberg cube
To calculate the result: fix the first three dimensions as (***), (a1**),
(*c1*), (**b3) or (*c1b3), andvary the rest seven ones

6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering
pada set data D, juga sebagai jumlah dukungan untuk setiap set item
yang sering ditutup. Jelaskan algoritma untuk menentukan apakah
itemset X yang diberikan sering atau tidak, dan dukungan X, jika itu
sering terjadi.

1. Partition set of dimension (A1,…,An) into a set of k fragments (P1,


…,Pk).

2. Scan base table once and do the following

3. insert <tid, measure> into ID_measure table.

4. for each attribute value ai of each dimension Ai

a. build inverted index entry <ai, tidlist>

5. For each fragment partition Pi

6. build local fragment cube Si by intersecting tid-lists in bottom-


up fashion.

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 5|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Powered by TCPDF (www.tcpdf.org)

Anda mungkin juga menyukai