XNA, VB.NET, business intelligence, data mining, excel, sql server July 2010 - Posts - Luki Ishwara's journal

July 2010 - Posts

Mitos-mitos pada data mining

Mitos 1

Ada tools data mining yang kita dapat kita aplikasikan langsung ke penyimpanan data dan secara otomatis menjawab problem kita.

Kenyataan

Tidak ada tools data mining yang dapat berjalan otomatis menyelesaikan problem anda. Sebaliknya, data mining adalah sebuah proses, seperti yang kita lihat pada studi kasus analisa garansi mobil pada blog sebelumnya. CRISP-DM adalah salah satu metoda untuk mencocokkan proses data mining kepada rencana kerja bisnis atau penelitian yang ada.

Mitos 2

Proses bekerjanya data mining adalah otomatis, tidak memerlukan pengawasan manusia.

Kenyataan:

Proses data mining memerlukan interaksi manusia pada setiap tahapannya. Bahkan setelah modelnya di gunakan pada dunia nyata, data awal yang digunakan seringkali membutuhkan pembaharuan model, pemantauan kualitas data secara terus menerus dan langkah-langkah evaluatif lainnya harus dinilai oleh analis manusia.

Mitos 3

Investasi yang dikeluarkan untuk membangun sebuah system data mining akan kembali dengan cepat.

Kenyataan:

Cepat atau lambatnya balik modal sangat relatif, tergantung pada biaya awal yang dikeluarkan, biaya analisa personil, persiapan datawarehouse, dan sebagainya.

Mitos 4

Software data mining sangat mudah digunakan.

Kenyataan:

Sekali lagi, mudah itu relatif, kemudahan penggunaan memang bervariasi. Namun, seorang data analis harus menggabungkan subyek pengetahuan dengan pikiran analitis dan pemahaman pada keseluruhan model bisnis atau model riset yang dihadapi.

Mitos 5

Data Mining akan mengidentifikasi penyebab masalah pada bisnis atau penyebab masalah pada penelitian.

Kenyataan:

Proses penggalian pengetahuan akan membantu anda menemukan pola perilaku yang ada pada data anda, sekali lagi, ini membutuhkan manusia untuk mengidentifikasi penyebab masalah.

Mitos 6

Data mining secara otomatis akan membersihkan database anda yang berantakan

Kenyataan:

Hmm… tidak secara otomatis sih, sebagai tahap awal dalam proses data mining, pengolahan data sering berkaitan dengan data yang belum diperiksa dalam sekian tahun. Oleh karena itu, organisasi yang memulai data mining akan dihadapkan dengan masalah data yang terletak terpisah-pisah selama sekian tahun, data ini bisa dikatakan data basi, dan perlu dilakukan update.

Posted by Luki Ishwara | with no comments
Filed under: ,

Studi Kasus CRISP-DM: ANALISA KLAIM GARANSI MOBIL

Jaminan Kualitas tetap menjadi prioritas bagi produsen mobil, termasuk Daimler Chrysler. Jochen Hipp dari University of Tubingen, Jerman, dan Lindner Guido dari DaimlerChrysler AG, Jerman, menyelidiki pola-pola di klaim jaminan untuk mobil DaimlerChrysler.

1. Business / Research Understanding Phase

Tujuannya adalah untuk mengurangi biaya yang berkaitan dengan klaim garansi dan meningkatkan kepuasan pelanggan. Melalui pembicaraan dengan insinyur pabrik, yang merupakan ahli teknis di bidang manufaktur kendaraan, para peneliti dapat merumuskan masalah bisnis yang spesifik, seperti berikut:

  • Apakah ada saling ketergantungan di antara klaim garansi?
  • Apakah klaim garansi masa lalu yang terkait dengan klaim serupa di masa mendatang?
  • Apakah ada hubungan antara tipe tertentu klaim dan garasi tertentu?

Rencananya adalah menerapkan teknik data mining untuk mengungkap beberapa hal diatas serta asosiasi lainnya yang mungkin ada.

2. Data Understanding Phase

Para peneliti menggunakan DaimlerChrysler Quality Information System (QUIS), yang berisi informasi tentang lebih dari 7 juta kendaraan dan berukuran sekitar 40 gigabytes.

QUIS berisi rincian produksi tentang bagaimana dan di mana kendaraan tertentu dibangun, termasuk kurang lebih 30 kode penjualan untuk setiap kendaraan.

QUIS juga mencakup informasi jaminan klaim, dimana persediaan garasi, dalam bentuk lebih dari 5000 kemungkinan penyebab potensial klaim garansi terjadi.

Para analyst tidak boleh meremehkan hal-hal yang penting, kesulitannya, dan biaya potensial yang terdapat pada fase awal proses data mining ini, apabila mereka malas dan mengambil jalan pintas (mencari fakta seadanya) hal ini bisa membawa kepada biaya reiteration yang sangat mahal.

3. Data Preparation Phase

Hambatan awal ditemukan pada fase ini, Para peneliti menemukan, bahwa walaupun database QUIS adalah database Relational, tapi database QUIS memiliki Structure Query Language yang terbatas.

Kemudian para peneliti tersebut memilih untuk memilah kasus dan variabel yang di inginkan secara manual, kemudian variabel baru yang didapat, digunakan untuk tahap permodelan. Misal: variabel jumlah hari dari tanggal penjualan klaim pertama harus berasal dari atribut tanggal yang tepat. – harap dipahami bahwa ini adalah proses manual yang tidak mudah dilakukan terhadap data berukuran besar

Para peneliti tersebut kemudian menggunakan perangkat lunak data mining berbayar yang digunakan di DaimlerChrysler pada proyek-proyek sebelumnya. Disini mereka bertemu dengan hambatan umum - bahwa persyaratan format data yang dibutuhkan sangat bervariasi antar satu algoritma ke algoritma lainnya. Hasilnya adalah effort yang dibutuhkan dalam pre-processing data jauh lebih melelahkan, karena mereka harus mengubah atribut kedalam bentuk yang dapat digunakan oleh model algoritma tersebut :). Para peneliti menyadari bahwa tahap penyiapan data membutuhkan waktu yang lebih lama daripada yang direncanakan di awal.

4. Modeling Phase

Karena problem bisnis secara keseluruhan pada fase 1 adalah untuk menyelidiki ketergantungan antara klaim garansi, para peneliti memilih untuk menerapkan teknik-teknik sebagai berikut:

  • Bayesian Network
  • Association Rules

Model Bayesian Network mewakili semua dependensi kondisional antara berbagai komponen yang tidak pasti, sehingga memberikan visualisasi grafis dari hubungan ketergantungan antar komonen-komponen. Dengan demikian, Bayesian Network merupakan pilihan yang tepat untuk permodelan ketergantungan pada klaim garansi. Association rule juga merupakan cara alami untuk menyelidiki ketergantungan pada klaim garansi, karena dengan Association Rule, kita dapat mendapatkan tingkat Confidence dari sebuah hasil "Jika X maka peluang terjadi Y adalah sekian persen"

Detil dari hasil penelitian bersifat rahasia, tapi kita bisa mendapatkan sebuah gambaran umum tentang dependensi yang ditemukan oleh sebuah model, Satu pencerahan yang didapat para peneliti, mereka menemukan bahwa kombinasi tertentu dari konstruksi yang spesifik, mengakibatkan permasalahan pada kabel listrik mobil.

5. Evaluation Phase

Para peneliti kurang puas dengan hasil yang diperoleh, menurut mereka dukungan untuk Association Rule bertipe Sequential relatif kecil, sehingga menghambat generalisasi hasil.

Para peneliti tersebut mengeluarkan pernyataaan: "pada kenyataannya, kami tidak menemukan sebuah rule yang dinilai oleh para domain expert menarik, setidaknya menarik untuk diteliti pada awal ditemukan."

Dari kriteria yang diiinginkan oleh para peneliti, kemudian disadari bahwa model yang ditemukan ternyata kurang efektif dan terlalu pendek untuk mencapai tujuan-tujuan yang tetapkan pada Business Understanding Phase. Untuk masalah ini, para peneliti menuding struktur lama dari database, dimana komponen dari mobil-mobil tersebut dikategorikan berdasarkan gudang penyimpanan / garasi dan pabrik demi kepentingan historic atau demi alasan teknis, dan tidak didesain untuk data mining. Para peneliti tersebut menyarankan untuk melakukan design ulang dari database demi membuat database tersebut dapat digunakan untuk knowledge discovery / data mining.

6. Deployment Phase

Para peneliti telah mengidentifikasi proyek tersebut di atas sebagai proyek pilot, dan oleh karena itu, tidak bermaksud untuk melakukan deploy model skala besar dari iterasi pertama. Setelah proyek percontohan, mereka telah menerapkan pelajaran dari proyek ini, dengan tujuan untuk mengintegrasikan metode mereka dengan lingkungan teknologi informasi yang ada di DaimlerChrysler. Untuk lebih mendukung tujuan asli menurunkan biaya-biaya klaim, mereka bermaksud untuk mendevelop sebuah system intranet yang mempunyai kemampuan data mining dari QUIS untuk semua karyawan perusahaan.

 

Pelajaran apa yang bisa kita tarik dari studi kasus ini?

Pertama, Satu menarik adalah bahwa mengungkap sesuatu yang tersembunyi dari database adalah sebuah jalan berbatu yang tidak mudah dilalui. Dalam hampir setiap fase, para peneliti berlari menuju kepada penghalang dan kesulitan-kesulitan yang tidak diduga. Ini memberitahu kita yang benar-benar menerapkan data mining untuk pertama kalinya dalam sebuah perusahaan, membutuhkan untuk meminta orang untuk melakukan sesuatu yang baru dan berbeda, yang tidak selalu diterima. Oleh karena itu, jika mereka mengharapkan hasil, manajemen perusahaan harus 100% mendukung inisiatif baru data mining.

Pelajaran lain untuk menarik adalah bahwa partisipasi manusia dan pengawasan yang intens diperlukan pada setiap tahap proses data mining. Sebagai contoh, algoritma memerlukan format data yang spesifik, yang mungkin membutuhkan preprocessing besar, terlepas dari vendor perangkat lunak dan beberapa iklan mungkin yang mengklaim produk mereka adalah yang terbaik.

Anda tidak dapat hanya membeli beberapa perangkat lunak data mining, menginstalnya, duduk kembali, dan perangkat lunak tersebut menyelesaikan semua masalah, jangan pernah berfikiran sepert ini. Data mining bukan sihir. Tanpa pengawasan manusia yang terampil, ketidaktahuan menggunakan perangkat lunak data mining hanya akan memberikan anda dengan jawaban yang salah.

Analisis yang salah adalah lebih buruk daripada tidak dilakukan analisis, karena mengarah pada rekomendasi kebijakan yang mungkin akan berubah menjadi kegagalan yang mahal.

Data mining bukanlah obat mujarab untuk memecahkan masalah bisnis. Tapi jika digunakan dengan benar, oleh orang-orang yang memahami model yang terlibat, persyaratan data yang dipenuhi, dan tujuan proyek secara keseluruhan, data mining memang dapat memberikan hasil sangat menguntungkan.

Posted by Luki Ishwara | with no comments

Tentang CRISP-DM

logosmall CRISP-DM (Cross-Industry Standard Process for Data Mining)  dikembangkan pada tahun 1996 oleh analyst yang mewakili DaimlerChrysler, SPSS, dan NCR.

CRISP menyediakan standar proses baku untuk data mining yang dapat diterapkan kedalam strategi pemecahan masalah umum pada bisnis atau pada unit penelitian. Standar baku ini merupakan standar nonproprietary, bebas digunakan siapapun tanpa harus membayar lisensi.

Menurut CRISP-DM, sebuah Project Data Mining memiliki Lifecycle  yang terdiri dari enam fase, anda bisa lihat pada gambar dibawah ini

image

Harap dicatat bahwa ini adalah urutan fase yang Adaptif, artinya fase berikutnya dalam urutan tersebut sering bergantung pada hasil yang berhubungan dengan tahap sebelumnya. Dependensi yang paling signifikan antara fase ditunjukkan dengan tanda panah.

Sebagai contoh, anggaplah bahwa kita berada dalam MODELING PHASE. Tergantung pada perilaku dan karakteristik dari model, kita mungkin harus kembali ke tahap DATA PREPARATION PHASE untuk perbaikan lebih lanjut sebelum bergerak ke tahap EVALUATION PHASE. Sifat iteratif dari CRISP dilambangkan dengan lingkaran luar.

Seringkali, solusi untuk sebuah bisnis tertentu atau masalah penelitian yang mengarah kepada pertanyaan yang berkaitan lebih dalam, dibalas dengan menggunakan proses umum yang sama dengan yang sebelumnya.

Pelajaran yang diperoleh dari proyek masa lalu harus selalu dibawa sebagai masukan dalam proyek baru.  Permasalahan yang ditemui selama EVALUATION PHASE dapat mengakibatkan seorang analyst kembali ke fase-fase sebelumnya untuk perbaikan.

Supaya mudah dipahami, saya hanya menampilkan proses pengulangan yang paling umum, Berikut ini adalah garis besar dari setiap tahap.

6 Fase CRISP-DM

1. BUSINESS / RESEARCH UNDERSTANDING PHASE.

  • Melafalkan tujuan dari proyek dan kebutuhan yang jelas dalam Bisnis atau unit penelitian secara keseluruhan.
  • Menterjemahkan tujuan-tujuan dan batasan-batasan kedalam formulasi definisi masalah data mining.
  • Menyiapkan strategi awal untuk mencapai tujuan ini.

2. DATA UNDERSTANDING PHASE

  • Kumpulkan data
  • Gunakan analisis data untuk membiasakan diri anda dengan data yang anda olah supaya anda dapat menemukan semacam initial insight.
  • Evaluasi kualitas data anda.
  • Jika di inginkan, pilih subset data yang paling menarik, mungkin saja disini berisi sebuah pola yang dapat ditindaklanjuti.

3. DATA PREPARATION PHASE

  • Siapkan raw data yang akan digunakan untuk seluruh tahap berikutnya. Fase ini cukup membuat sibuk :)
  • Pilih kasus dan variabel yang anda ingin analisa dan yang sesuai untuk analisa anda.
  • Jika diperlukan, Lakukan transformasi pada variabel-variabel tertentu.
  • Bersihkan raw data sehingga siap untuk digunakan pada modeling tools.

4. MODELING PHASE

  • Pilih dan terapkan permodelan yang sesuai
  • Kalibrasi setting pada model untuk hasil yang optimal
  • Sering-sering ingat bahwa ada beberapa teknik yang berbeda, dapat digunakan untuk memecahkan permasalahan data mining yang sama.
  • Jika perlu, ulangi kembali ke tahap PREPARATION PHASE untuk membentuk data ke jalur yang sesuai dengan kebutuhan teknik data mining tertentu.

5. EVALUATION PHASE

  • Evaluasi satu atau lebih model demi kualitas dan kefektifannya sebelum digunakan di lapangan
  • Menentukan apakah model dalam kenyataannya mencapai tujuan yang diterapkan pada fase awal (BUSINESS / RESEARCH UNDERSTANDING PHASE)
  • Menentukan apakah beberapa aspek penting dari permasalahan bisnis atau riset telah diperhitungkan secara memadai.
  • Buatlah sebuah keputusan mengenai penggunaan hasil data mining.

6. DEPLOYMENT PHASE

  • Gunakan model yang telah dibuat: penciptaan sebuah model bukan berarti proyek telah selesai
  • Contoh deployment sederhana:menghasilkan report
  • Contoh deployment yang kompleks: menerapkan proses data mining paralel pada departemen yang lain.

Bagaimana Contoh Penerapannya ? Postingan blog berikutnya akan membahas contoh kasus pada DaimlerChrysler

Posted by Luki Ishwara | with no comments