KDD, SEMMA and CRISP-DM

Process

Masih penasaran kan sebenarnya data mining itu sub proses dari bagian apa? hehe

Ya, data mining sendiri sebenarnya meruapakan sub proses dari KDD (Knowledge Discovery in Databases atau istilah moderennya saat ini adalah Knowledfe Discovery in Data).

Nah, dikarenakan beberapa tahun kebelakang terjadi perkembangan yang cukup signifikan di bidang data mining, beberapa perkembangan tersebut menghasilkan SEMMA (Sample, Explore, Modify, Model and Assess) dan CRISP-DM (Cross Industry Standard Process).

“Singkatnya, pada saat ini ketiga proses (KDD, SEMMA dan CRISP-DM) tersebut sering digunakan sebagai analisis berfikir agar data mining dapat digunakan dengan baik dari hulu hingga hilir.”

Apakah ada proses lain selain ketiga proses tersebut?

“Ya, jawabannya ada, mengingat data mining sedang dalam tahapan perkembangan.”

Salah satu alasan mengapa ketiga metode tersebut sering dipakai adalah karena prosedurnya yang cukup ilmiah dalam how to utilize data mining from the start to the end in order to earn remarkable result.

Sebelum teman-teman lanjut kebawah, percayalah penjelasan dibawah akan lebih panjang dan mungkin ada istilah-istilah yang tidak familiar, jadi harap bersabar membacanya dan silahkan di cross cek apakah ada pemahaman yang salah saya sampaikan. Apa yang akan saya sampaikan hanya kulitnya saja tujuan utamanya agar teman-teman paham alur berpikirnya seperti apa hehe πŸ™‚

1. KDD (by Fayyad et. al., 1996)

Fayyad96kdd-process

Terdapat lima tahap dalam proses ini, yaitu:

  1. Selection: Membuat sebuah target data, fokus dalam bagian dari variabel atau sampel data yang mana discovery akan dilakukan.
  2. Preprocessing: Cleaning target data dengan tujuan mendapatkan data yang konsisten
  3. Transformation: Transformasi data menggunakan reduksi dimensional atau metode transformasi
  4. Data Mining: Mencari pola menarik di dalam sebuah bentuk tertentu, begantung dari tujuan data mining (biasanya prediksi)
  5. Interpretation/Evaluation: Interpretasi dan evaluasi dari pola yang sudah dimining.

2. SEMMA (by SAS Institute)

metodo-semma

Terdapat lima tahap juga dalam proses ini, yaitu:

  1. Sample: Mengambil sampel data. Tahap ini merupakan opsional
  2. Explore: Mengeksplorasi data untuk pola dan keanehan yang tidak diharapkan dengan tujuan untuk mendapatkan pengertian dan ide
  3. Modify: Memodifikasi data dengan membuat, menyeleksi dan mentransformasi variabel-variabel untuk fokus pada proses pemilihan model
  4. Model: Memodelkan data dengan menyediakan software untuk mencari kombinasi data yang memprediksi hasil terpercaya yang diinginkan secara otomatis
  5. Assess: Menilai data dengan mengevaluasi kegunaan dan keandalan penemuan dari proses data mining dan mengevaluasi sebaik mana itu bekerja

3. CRISP-DM (by DaimlerChiyrler, SPSS and NCR)

CRISP-DM_Process_Diagram

Terdapat enam tahap dalam proses ini, yaitu:

  1. Business Understanding: Memahami tujuan proyek dan kebutuhan tujuan bisnis
  2. Data Understanding: Tahap awal pengumpulan data dan menemukan insight pertama
  3. Data Preparation: Meliputi semua aktivitas untuk membuat dataset final
  4. Modelling: Teknik modelling yang bervariasi dipilih dan diaplikasikan
  5. Evaluation: Model sepenuhnya dievaluasi dan diteliti untuk meyakinkan kalau model tersebut memenuhi tujuan bisnis
  6. Deployment: Pembuatan model bukanlah akhir dari proyek. Walaupun tujuan model adalah untuk meningkatkan pengetahuan dari data, pengetahuan yang didapat butuh untuk diorganisasikan dan dipresentasikan dengan cara dimana customer mudah memahaminya.

 

Ketiga proses tersebut mempunyai dua kesamaan, yaitu

Secara alur berpikir. Alur cycle untuk antar sub proses ataupun dari first dan last proses. Umumnya alur disini membuat kita berfikir jika ada hal yang dirasa salah ketika berada dalam satu sub proses, maka kita harus mundur untuk memperbaikinya. Jikapun tidak menemukan akar permasalahannya, maka selesaikan hingga proses terakhir dan evaluasi secara keseluruhan untuk memperbaiki analisis selanjutnya.

Walaupun sekilas mereka mempunyai nama yang berbeda dalam sub prosesnya, secara umum mereka mempunyai mindmap yang sama. Berikut adalah perbandingan dari ketiga proses tersebut:

Comparative

Can you see that from these cycle and mind map, these processes are remarkable πŸ™‚

“Overall, ketiga proses tersebut dapat membantu masyarakat dalam mengapliaksikan data mining dalam sistem sesungguhnya.”

Dalam beberapa tahun kedepan akan dilakukan analisis terhadap aspek-aspek yang berhubungan dengan standar DM(Data Mining), seperti SQL-based language for DM dan juga XML-based languages for DM.

Para peneliti dalam bidang data mining pun sudah mulai membentuk sebuah disiplin ilmu baru yang merupakan perkembangan dari bidang data mining itu sendiri.

Seperti apakah ilmu baru yang dimaksud?

Stay tune untuk postingan selanjutnya ya πŸ™‚

 

Source: KDD, SEMMA and CRISP-DM: A Parallel Overview

3 pemikiran pada “KDD, SEMMA and CRISP-DM

Tinggalkan komentar