TP1 Data Mining
TP1 Data Mining
(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?
Data mining adalah proses mencari dari banyak data yang disimpan
untuk menemukan pola dan trend. Biasanya data mining digunakan
untuk menganalisa data untuk kebutuhan bisnis.
2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk
data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21,
22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52,
70. Berdasarkan data tersebut:
(a) Apa yang dimaksud dengan data? Apa mediannya?
In computing, data is information that has been translated into
a form that is efficient for movement or processing. Relative to
today's computers and transmission media, data is information
converted into binary digital form. It is acceptable for data to
be used as a singular subject or a plural subject.
13 70
15 52
16 46
16 45
19 40
20 36
21 35
22 35
22 35
22 35
25 33
25 33
25 30
25
Median = 25
(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal,
trimodal, dll.).
Mode data/modus data adalah nilai yang paling sering muncul.
Bimodal adalah mode data yang jumlahnya dua.
Trimodal adalah mode data yang jumlahnya tiga.
Pada soal ini bimodalnya adalah 25 dan 35.
This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
ISYS6281 – Data Mining
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Midrange value merupakan rata-rata nilai aritmatika dari nilai
terbesar dan nilai terkecil dalam sample group.
Pada soal ini, midrange = (70+13)/2 = 41.5
(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan
kuartil ketiga (Q3) dari data?
Q1 = (21+22)/2 = 21.5
Q3 = 35
(e) Berikan ringkasan lima angka dari data.
Minimum value = 13
Lower quartile = 21.5
Upper quartile = 35
Median = 25
Maximum value = 70
(f) Tunjukkan plot kotak data.
3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk
beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode
untuk menangani masalah ini.
o Abaikan tuple
This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 2|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Mengisi nilai dengan global constant
This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 3|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
o Data cleaning
detect errors in the data and rectify them when
possible
o Data transformation
Multifeature cube
A Multi-Feature Cube (MF-Cube) query is a complex-data-
mining query based on data cubes, which computes the
dependent complex aggregates at multiple granularities. Existing
computations designed for simple data cube queries can be used
to compute distributive and algebraic MF-Cubes queries.
Virtual Data Warehouse
Virtual data warehouse refers to a layer that sits on top of
existing data bases and enables the user to query all of them as if
they were one entity (although they are logically and physically
separated). Distributed data warehouse on the other hand, refers
to the physical architecture of a single database.
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base:
(1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3)
.d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D
d3. Ukuran cube adalah count().
(a) Berapa banyak nonempty cube yang akan diisi data penuh?
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang
akan diisi penuh?
(c) Berapa banyak sel agregat nonempty akan mengandung
iceberg jika kondisi Iceberg cube "count ≥2"?
(a)A data cube contain 2n data cubes where n is dimension
2n=210 = 1024
(b)There will be 3*210-6*27-3=2301
The number of overlapped cell thrice is 3 (base cuboid)
This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 4|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
The number of overlapped cell twice is 27 while the number of
overlapped cell once is 4(27)
(c)5*27=640 nonempty aggregate cell in the iceberg cube
To calculate the result: fix the first three dimensions as (***), (a1**),
(*c1*), (**b3) or (*c1b3), andvary the rest seven ones
6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering
pada set data D, juga sebagai jumlah dukungan untuk setiap set item
yang sering ditutup. Jelaskan algoritma untuk menentukan apakah
itemset X yang diberikan sering atau tidak, dan dukungan X, jika itu
sering terjadi.
This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 5|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Powered by TCPDF (www.tcpdf.org)