Mempelajari Modeling Cross-Industry Standard Process for Data Mining atau CRISP-DM
Oleh Ruth Edri
Proses modelling CRISP-DM merupakan modelling yang sering digunakan pada siklus proyek data mining. Khususnya di bidang data science. Dimulai dengan proses business understanding, proses data understanding, proses data preparation, modelling, evaluation dan deployment.
Business understanding
Pada proses business understanding, ada proses transfer knowledge untuk mengetahui tujuan dan sasaran dalam pengolahan data yang akan kita kerjakan. The what dan the why of the business understanding dari pengolahan data, pada proses the what, ada proses pemahaman terhadap proses bisnis organisasi, atau perusahaan. Pada proses the why, ada proses pemahaman tujuan dan sasaran, problem solving pada sebuah data, kolaborasi bisnis, dan mengestimasi dampak yang akan dihasilkan.
Pada proses Business understanding tahap awal project pengolahan data, seperti
· Memahami konteks bisnis suatu perusahaan/ organisasi
· Mendefinisikan permasalahan bisnis yang akan diselesaikan (insight yang dicari)
· Menentukan yang ingin dicapai
Data understanding
Pada proses data understanding, ada proses mendiskusikan data-data yang perlu dipersiapkan dan dibutuhkan, untuk diolah. Terdapat proses analytic approach of data, identify data requirement, dan data collection dalam data understanding. The what, mendefinisikan data-data yang diperlukan dalam menyelesaikan pekerjaan. The why, Ketika kita sudah mengumpulkan data data yang akan menyelesaikan masalah, maka perlu data yang tepat untuk dianalisa.
Pada proses Data understanding tahap project data understanding, proses yang dilakukan seperti,
· Mendokumentasikan kebutuhan data, mulai data input, data analisis
· Menuliskan fitur-fitur yang dinilai pengaruh signifikan
· Menentukan metode analisis yang dinilai sesuai dengan kebutuhan dan penyelesaian masalah
Data Preparation
Pada proses Data Preparation, ada proses data cleaning, data training dan data testing, ketiga tersebut merupakan transformasi sebuah pengolahan data. The what dan the why of data preparation.
The what, pengolahan data menjadi format yang lebih mudah diolah dan lebih bermanfaat menjadi input mode. The why, mentransformasi data yang lebih bernilai. Pada proses data preparation terdapat proses menyamakan range data angka (scaling), lalu feature extraction, dan mentransformasikan data bentuk data encode.
Modeling
Pada proses modelling setelah melalui transformasi data dan data dianggap sudah ready untuk di buat perrmodelan statistika atau machine learning sesuai dengan metode analysis yang di butuhkan untuk mendapatkan insight dari suatu data.
Proses modeling ini memanfaatkan kemampuan komputasi pada machine learning. Pada proses membuat script atau algoritma machine learning yang dapat menghasilkan keluaran (output) yang sesuai, Menerapkan model yang telah dibuat menggunakan data yang telah disiapkan. Dalam bentuk permodelan suatu data, ada model supervised learning, ada model unsupervised learning.
Pada supervised learning terdapat beberapa jenis metode seperti classification dan regression.
Pada metode Classification seperti identify fraud detection, image classification, customer retention, diagnostics. Pada metode Regression seperti population Growth Prediction, Estimating life expentancy, market forecasting, weather forecasting, advertising popularity prediction.
Pada unsupervised learning terdapat clustering, dan dimensionality reduction.
Pada metode Clustering seperti recommender system, targeted marketing, customer segmentation. Dimensionality reduction, seperti big data visualization, meaningful compression, structure discovery, feature elication.
Evaluation
Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang diterapkan pada tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai dengan tujuan yang ingin dicapai dalam tahap pertama.
Deployment
Tahap deployment atau rencana penggunaan model adalah tahap yang paling dihargai dari proses CRISP-DM. Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional.
Pada akhirnya, rencana sistem Deployment mengakui bahwa tidak ada model yang statis. Model tersebut dibangun dari data yang diwakili data pada waktu tertentu, sehingga perubahan waktu dapat menyebabkan berubahnya karakteristik data. Modelpun harus dipantau dan mungkin diganti dengan model yang sudah diperbaiki.
Referensi
Chapman, Pete et al. 2000. Crisp-Dm 1.0 : Step-by-Step Data Mining Guide. www.spss.com/worldwide. www.spss.com/worldwide.