0% menganggap dokumen ini bermanfaat (0 suara)

130 tayangan5 halaman

TP1 Data Mining

Diunggah oleh

Antara Tech

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

130 tayangan5 halaman

TP1 Data Mining

Diunggah oleh

Antara Tech

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 5

Tugas Personal ke-1

(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?

Data mining adalah proses mencari dari banyak data yang disimpan
untuk menemukan pola dan trend. Biasanya data mining digunakan
untuk menganalisa data untuk kebutuhan bisnis.

2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk
data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21,
22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52,
70. Berdasarkan data tersebut:
(a) Apa yang dimaksud dengan data? Apa mediannya?
In computing, data is information that has been translated into
a form that is efficient for movement or processing. Relative to
today's computers and transmission media, data is information
converted into binary digital form. It is acceptable for data to
be used as a singular subject or a plural subject.
13 70
15 52
16 46
16 45
19 40
20 36
21 35
22 35
22 35
22 35
25 33
25 33
25 30
25
Median = 25
(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal,
trimodal, dll.).
Mode data/modus data adalah nilai yang paling sering muncul.
Bimodal adalah mode data yang jumlahnya dua.
Trimodal adalah mode data yang jumlahnya tiga.
Pada soal ini bimodalnya adalah 25 dan 35.

(c) Apa itu midrange data?

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
ISYS6281 – Data Mining
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Midrange value merupakan rata-rata nilai aritmatika dari nilai
terbesar dan nilai terkecil dalam sample group.
Pada soal ini, midrange = (70+13)/2 = 41.5
(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan
kuartil ketiga (Q3) dari data?
Q1 = (21+22)/2 = 21.5
Q3 = 35
(e) Berikan ringkasan lima angka dari data.
Minimum value = 13
Lower quartile = 21.5
Upper quartile = 35
Median = 25
Maximum value = 70
(f) Tunjukkan plot kotak data.

(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?

Quantile plot: setiap nilai xi dipasangkan dengan fi yang
menunjukkan bahwa sekitar 100 fi% data adalah <= xi
Quantile-quantile (q-q) plot: grafik kuantil dari satu distribusi
univarian terhadap kuantil yang sesuai dari yang lain

3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk
beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode
untuk menangani masalah ini.

o Abaikan tuple

o Mengisi nilai yang kosong secara manual

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 2|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Mengisi nilai dengan global constant

4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat

menggunakan contoh untuk menjelaskan poin.

(a) Skema snowflake, konstelasi fakta, model kueri starnet.

Snowflake schema: A refinement of star schema where some
dimensional hierarchy is normalized into a set of smaller
dimension tables, forming a shape similar to snowflake
Examples

• Fact constellations: Multiple fact tables share dimension

tables, viewed as a collection of stars, therefore called
galaxy schema or fact constellation

Star net query model

A starnet query model for the AllElectronics data warehouse is
shown in below Figure . This starnet consists of four radial lines,
representing concept hierarchies for the dimensions location,
customer, item, and time, respectively. Each line consists of
footprints representing abstraction levels of the dimension.

(b) Data cleaning, transformasi data, refresh

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 3|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
o Data cleaning
detect errors in the data and rectify them when
possible
o Data transformation

convert data from legacy or host format to

warehouse format
o Refresh

propagate the updates from the data sources to the

warehouse

(c) Discovery-driven cube, multifeatured cube, virtual data

warehouse.
Discovery-driven (Sarawagi, et al.’98)

 Effective navigation of large OLAP data cubes

 pre-compute measures indicating exceptions, guide user in
the data analysis, at all levels of aggregation
 Exception: significantly different from the value anticipated,
based on a statistical model
 Visual cues such as background color are used to reflect the
degree of exception of each cell

Multifeature cube
A Multi-Feature Cube (MF-Cube) query is a complex-data-
mining query based on data cubes, which computes the
dependent complex aggregates at multiple granularities. Existing
computations designed for simple data cube queries can be used
to compute distributive and algebraic MF-Cubes queries.
Virtual Data Warehouse
Virtual data warehouse refers to a layer that sits on top of
existing data bases and enables the user to query all of them as if
they were one entity (although they are logically and physically
separated). Distributed data warehouse on the other hand, refers
to the physical architecture of a single database.
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base:
(1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3)
.d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D
d3. Ukuran cube adalah count().

(a) Berapa banyak nonempty cube yang akan diisi data penuh?
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang
akan diisi penuh?
(c) Berapa banyak sel agregat nonempty akan mengandung
iceberg jika kondisi Iceberg cube "count ≥2"?
(a)A data cube contain 2n data cubes where n is dimension
2n=210 = 1024
(b)There will be 3*210-6*27-3=2301
The number of overlapped cell thrice is 3 (base cuboid)

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 4|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
The number of overlapped cell twice is 27 while the number of
overlapped cell once is 4(27)
(c)5*27=640 nonempty aggregate cell in the iceberg cube
To calculate the result: fix the first three dimensions as (***), (a1**),
(*c1*), (**b3) or (*c1b3), andvary the rest seven ones

6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering
pada set data D, juga sebagai jumlah dukungan untuk setiap set item
yang sering ditutup. Jelaskan algoritma untuk menentukan apakah
itemset X yang diberikan sering atau tidak, dan dukungan X, jika itu
sering terjadi.

1. Partition set of dimension (A1,…,An) into a set of k fragments (P1,

…,Pk).

2. Scan base table once and do the following

3. insert <tid, measure> into ID_measure table.

4. for each attribute value ai of each dimension Ai

a. build inverted index entry <ai, tidlist>

5. For each fragment partition Pi

6. build local fragment cube Si by intersecting tid-lists in bottom-

up fashion.

This study source was downloaded by 100000854832301 from CourseHero.com on 12-02-2022 07:39:21 GMT -06:00
Error! No text of specified style in document. ©Arif 5|5
https://www.coursehero.com/file/64501398/TP1-Data-Miningdocx/
Powered by TCPDF (www.tcpdf.org)

Anda mungkin juga menyukai

Tugas Personal Ke-2 (Minggu 8 / Sesi 13) : Gambar 1. Contoh
Belum ada peringkat
Tugas Personal Ke-2 (Minggu 8 / Sesi 13) : Gambar 1. Contoh
8 halaman
2112 Isys6523036 Thca TK1-W3-S4-R0 Team4
Belum ada peringkat
2112 Isys6523036 Thca TK1-W3-S4-R0 Team4
2 halaman
Tp1 w3 Data Mining
Belum ada peringkat
Tp1 w3 Data Mining
5 halaman
STATISTIKA DistribusiDiskret
Belum ada peringkat
STATISTIKA DistribusiDiskret
37 halaman
Peluang Dan Statistika
Belum ada peringkat
Peluang Dan Statistika
20 halaman
Metode Data Mining
Belum ada peringkat
Metode Data Mining
17 halaman
Regresi Linier Berganda Bertahap & PCA
100% (1)
Regresi Linier Berganda Bertahap & PCA
10 halaman
Tugas Pertemuan 1 Statistika 2
Belum ada peringkat
Tugas Pertemuan 1 Statistika 2
3 halaman
Data Reduction
100% (1)
Data Reduction
39 halaman
Laporan Penelitian Algoritma K-Means
100% (1)
Laporan Penelitian Algoritma K-Means
20 halaman
Komputasi Modern
Belum ada peringkat
Komputasi Modern
12 halaman
Latihan Normalisasi Data
Belum ada peringkat
Latihan Normalisasi Data
32 halaman
Fdam
Belum ada peringkat
Fdam
60 halaman
Laporan Graph
Belum ada peringkat
Laporan Graph
12 halaman
Tugas 10
100% (1)
Tugas 10
6 halaman
ProbstatA NIQ W1
Belum ada peringkat
ProbstatA NIQ W1
29 halaman
MAKALAH Analisis Diskriminan
100% (3)
MAKALAH Analisis Diskriminan
5 halaman
Materi DBSCAN
Belum ada peringkat
Materi DBSCAN
36 halaman
Ukuran Gejala Pusat
Belum ada peringkat
Ukuran Gejala Pusat
17 halaman
Uji Paling Kuasa
Belum ada peringkat
Uji Paling Kuasa
6 halaman
Distrubusi Frekuensi
Belum ada peringkat
Distrubusi Frekuensi
34 halaman
Part 7 - EDA Dan Visualisasi Data
Belum ada peringkat
Part 7 - EDA Dan Visualisasi Data
37 halaman
Metode Pemilihan Model Terbaik
Belum ada peringkat
Metode Pemilihan Model Terbaik
2 halaman
Laporan Praktikum Sistem Basis Data Modul 8
Belum ada peringkat
Laporan Praktikum Sistem Basis Data Modul 8
38 halaman
Pertemuan 7 - Column Chart
Belum ada peringkat
Pertemuan 7 - Column Chart
4 halaman
Support Vector Machines - P5
Belum ada peringkat
Support Vector Machines - P5
27 halaman
Metstat 8.3 8.4.en - Id
Belum ada peringkat
Metstat 8.3 8.4.en - Id
17 halaman
Analisis Perbandingan
Belum ada peringkat
Analisis Perbandingan
8 halaman
New DSS
Belum ada peringkat
New DSS
257 halaman
Soal Uts Statistika Dan Probabilitas
Belum ada peringkat
Soal Uts Statistika Dan Probabilitas
1 halaman
Pertemuan Ke-10 Bab 6-2 SPSS Statistik-Deskriptif
Belum ada peringkat
Pertemuan Ke-10 Bab 6-2 SPSS Statistik-Deskriptif
16 halaman
UJI Chi Square
Belum ada peringkat
UJI Chi Square
16 halaman
Manajemen Data Dengan R
Belum ada peringkat
Manajemen Data Dengan R
1 halaman
TA Soalpengstat
Belum ada peringkat
TA Soalpengstat
9 halaman
Laporan Metode Klasifikasi
Belum ada peringkat
Laporan Metode Klasifikasi
12 halaman
Modul Se
Belum ada peringkat
Modul Se
242 halaman
6 - Uncertainty Factor
Belum ada peringkat
6 - Uncertainty Factor
40 halaman
M11 - Distribusi Normal Multivariat Dan Normal Bivariat
Belum ada peringkat
M11 - Distribusi Normal Multivariat Dan Normal Bivariat
14 halaman
Ukuran Pemusatan Data Mean Median Dan Modus
Belum ada peringkat
Ukuran Pemusatan Data Mean Median Dan Modus
27 halaman
MAKALAH ANALISIS DATA STATISTIK BERBASIS IT Hari Ini
Belum ada peringkat
MAKALAH ANALISIS DATA STATISTIK BERBASIS IT Hari Ini
26 halaman
Machine Learning: Materi Minggu 1:neural Network
Belum ada peringkat
Machine Learning: Materi Minggu 1:neural Network
13 halaman
Analisis Cluster
Belum ada peringkat
Analisis Cluster
21 halaman
Bab - Vii - Analisis Jalur Dengan Amos - 2022 - Revisi
Belum ada peringkat
Bab - Vii - Analisis Jalur Dengan Amos - 2022 - Revisi
63 halaman
Data Science
Belum ada peringkat
Data Science
79 halaman
Klasifikasi Potensi Stunting Berdasarkan Data Kependudukan Kabupaten Langkat Menggunakan Data Mining Decision Tree
Belum ada peringkat
Klasifikasi Potensi Stunting Berdasarkan Data Kependudukan Kabupaten Langkat Menggunakan Data Mining Decision Tree
13 halaman
HDBSCAN Dengan R Studio
Belum ada peringkat
HDBSCAN Dengan R Studio
13 halaman
Tugas Akhir Data Mining
Belum ada peringkat
Tugas Akhir Data Mining
63 halaman
Penerapan Fuzzy Mamdani Untuk Pengambilan Keputusan Dalam Memilih Tempat All U Can Eat Di Hotel Yogyakarta
Belum ada peringkat
Penerapan Fuzzy Mamdani Untuk Pengambilan Keputusan Dalam Memilih Tempat All U Can Eat Di Hotel Yogyakarta
11 halaman
Materi 7-Analisis Faktor
Belum ada peringkat
Materi 7-Analisis Faktor
35 halaman
Hitung Metode Vikor
Belum ada peringkat
Hitung Metode Vikor
11 halaman
Sistem Perpustakaan Berbasis Web
Belum ada peringkat
Sistem Perpustakaan Berbasis Web
17 halaman
UJIAN AKHIR SEMESTER - Statistika Komputasi
Belum ada peringkat
UJIAN AKHIR SEMESTER - Statistika Komputasi
2 halaman
Hari Purwanto. S.Kom MMSI 23062023200032 ADSI Pertemuan VI 2019-2020 DFD
Belum ada peringkat
Hari Purwanto. S.Kom MMSI 23062023200032 ADSI Pertemuan VI 2019-2020 DFD
39 halaman
Outlier Ghozali
100% (1)
Outlier Ghozali
12 halaman
Program Linear Dengan Metode Simplex
100% (1)
Program Linear Dengan Metode Simplex
11 halaman
4 Metode Smart
Belum ada peringkat
4 Metode Smart
22 halaman
K Nearest Neighbor Summary
Belum ada peringkat
K Nearest Neighbor Summary
4 halaman
UTS Dataming Jawaban
Belum ada peringkat
UTS Dataming Jawaban
11 halaman
Data Mining
Belum ada peringkat
Data Mining
21 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman