SISTEM BASIS DATA II
NAMA : YULISTIANI
NPM : 20311103
DATA MAINING DAN MACHINE LEARNING
Perangkat lunak yang digunakan untuk menemukan polapola tersembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di masa medatang.
‣ Data mining sering dikatakan berurusan dengan “penemuan pengetahuan” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 tahun”.
PRINSIP DATA MAINING
BIDANG ILMU YG BERKAITAN
‣ Statistik: Bagaimana cara terbaik menggunakan sample dari distribusi probabilitas yang tidak diketahui untuk mengetahui dari distibusi mana sampel baru diambil.‣ Brain Model: Unsur-unsur non-linear dengan input tertimbang (Artificial Neural Networks) telah diusulkan sebagai model sederhana neuron biologis
‣ Adaptive Control Theory: Bagaimana menangani pengendalian proses yang memiliki parameter yang tidak diketahui tetapi harus diestimasi selama operasi?
‣ Psychology: Bagaimana model kinerja manusia pada berbagai tugas learning?
‣ Arificial Intelligence: Bagaimana menulis algoritma yang mampu memperoleh pengetahuan manusia, setidaknya, seperti manusia?
‣ Evolutionary Models: Bagaimana memodelkan aspek-aspek tertentu dari evolusi biologi untuk meningkatkan kinerja program komputer.
CONTOH DESAIN LEARNING SYSTEM
1. Mendeskripsikan Problem
2. Memilih Training Experience
3. Memilih Target Function
4. Memilih Representasi Target Function
5. Memilih Function Approximation Algorithm
6. Design Akhir
C
ISSUE PADA MACHINE LEARNING
‣ Algoritma apa yang tersedia untuk belajar konsep?
‣ Seberapa baik mereka lakukan?
‣ Berapa banyak data pelatihan yang cukup untuk belajar konsep dengan keyakinan yang tinggi?
‣ Kapan hal itu berguna terhadap pengetahuan sebelumnya?
‣ Adalah beberapa pelatihan lebih berguna daripada yang lain?
‣ Apa saja tugas terbaik bagi sistem untuk belajar?
‣ Apa cara terbaik bagi sistem untuk mewakili pengetahuan?
KONSEP DATA MINING
LATAR BELAKANG
- Banyak data yang telah direkam dan disimpan
- Transaksi penjualan di Supermarket
- Transaksi perbankan dan Kartu Kredit
- Log kunjungan WEB
- Akuisisi data dalam penelitian (sosial, kesehatan,…)
- Sistem Komputer semakin cepat dan ekonomis (Moore’s Law)
- Kebutuhan berkompetisi dengan strategi yang tepat semakin meningkat
TRANSFORMASI DIGITAL DATA MINING
LEDAKAN PERTUMBUHAN DATA
MENGAPA HARUS DATA MINING?
- Data yang sangat besar terkadang memiliki informasi yang tersembunyi
- Kemampuan manusia terbatas untuk mengamati kumpulan data tersebut dalama proses analisis
DEFINISI DATA MINING
PENGERTIAN YANG SALAH
ILMU DATA MINING
- Gabungan dari beberapa bidang ilmu dalam Memantik dan Ilmu Komputer
- Diperlukan karena:
- Data yang sangat besat
- Dimensi data yang besar
- Data Heterogen
ARSITEKTUR DATA MINING
ARSITEKTUR DATA MINING
- Knowledge Base
- Domain Knowledge yang digunakan untuk memberi petunjuk pencarian atau mengevaluasi hasil pola
- Data Mining Engine
- Terdiri dari sekumpulan model fungsional seperti characterization, association, classification, cluster analysis, evaluation and deviation analysis
- Pattern Evaluation Module
- Komponen yang berinteraksi dengan modul data mining untuk pencarian pola
- GUI (Graphical User Interface)
- modul yang mempermudah user berinteraksi dengan sistem data mining
TUGAS DATA MINING
METODE DALAM DATA MINING
PREDICTIVE - CLASSIFICATION
- Menemukan fungsi atau model yang membedakan kelas data
- Fungsi atau model tsb dapat berbentuk aturan if-else, descision tree, formula matematika, atau neural network
- Tujuannya untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui
- Algoritma : Decision Tree (C4.5), Artificial Neural Network, Naïve Bayes, Genetic Algorithm, Fuzzy, Case-Based Reasoning, k-Nearest Neighbor
- Supervised Method
PREDICTIVE - CLASSIFICATION
CONTOH
- Pemakaian Kartu Kredit secara Ilegal
- Tujuan :
- Mendeteksi adanya penggunaan Kartu Kredit secara Ilegal
- Pendekatan:
- Mencari data transaksi sebelumnya (Lokasi & waktu transaksi, jenis barang yg dibeli, nilai transaksi)
- Labeli data-data tersebut dengan Label Curang atau Aman
- DM mencari model klasifikasi Curang & Aman berdasarkan atribut transaksi
- Menerapkan model tersebut jika ada transaksi baru untuk mempercepat/tepat tindakan preventif
CONTOH LAIN
- Deteksi SPAM
- tindakan preventif untuk mendeteksi email yang tidak diharapkan
- Direct Marketing
- Mencari pengelompokan profil pelanggan agar target market sesuai dengan produk yang akan dipasarkan
- Sky Survey Cataloging
- Mengelompokan benda langit hasil pemotretan teleskop kedalam class nya
METODE POHON KEPUTUSAN
PREDICTIVE – TIME SERIES ANALYSIS
- Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu.
- Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu.
- Metode : Neural Network (model Backpropagation, multi layer perceptron)
- Aplikasi : memprediksikan indeks harga saham
CONTOH : PREDIKSI DALAM PASAR SAHAM
PREDICTIVE - REGRESSION
- Regression vs Classification :
- Regression diterapkan untuk mengklasifikasikan target data numerik
- Classification untuk mengklasifikasikan target data kategorial
- Aplikasi : prediksi nilai penjualan yang akan datang berdasarkan trend data penjualan tahun sebelumnya.
- Algoritma : Support Vector Machine (SVM), Generalized Linear Model (GLM)
DESCRIPTIVE - CLUSTERING
- Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut : seringkali disebut juga Segmentation
- Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label)
- Algoritma : k-Means, k-Medoid, Fuzzy C-Means, Subtractive, Mountain, Hierarki
CONTOH : DATA PELANGGAN
- Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan).
- Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
- Cluster 1 : populasi berusia muda dengan pendapatan rendah
- Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi
- Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah.
SEGMENTASI PASAR
- Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing
- Pendekatan:
- mempersiapkan data transaksi beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya
- mencari gugus pelanggan yang mirip berdasarkan atribut atribut tersebut
- melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukan
- Hasil : Strategi marketing yang tepat sasaran
DESCRIPTIVE – ASSOCIATION RULE
- Disebut juga Market Basket Analysis.
- Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer
- Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling
- Untuk mencari produk apa yang biasanya terjual bersamaan
- Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut
CONTOH
- Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
LATAR BELAKANG
- Banyak data yang telah direkam dan disimpan
- Transaksi penjualan di Supermarket
- Transaksi perbankan dan Kartu Kredit
- Log kunjungan WEB
- Akuisisi data dalam penelitian (sosial, kesehatan,…)
- Sistem Komputer semakin cepat dan ekonomis (Moore’s Law)
- Kebutuhan berkompetisi dengan strategi yang tepat semakin meningkat
TRANSFORMASI DIGITAL DATA MINING
LEDAKAN PERTUMBUHAN DATA
MENGAPA HARUS DATA MINING?
- Data yang sangat besar terkadang memiliki informasi yang tersembunyi
- Kemampuan manusia terbatas untuk mengamati kumpulan data tersebut dalama proses analisis
DEFINISI DATA MINING
PENGERTIAN YANG SALAH

ILMU DATA MINING
- Gabungan dari beberapa bidang ilmu dalam Memantik dan Ilmu Komputer
- Diperlukan karena:
- Data yang sangat besat
- Dimensi data yang besar
- Data Heterogen
ARSITEKTUR DATA MINING
ARSITEKTUR DATA MINING
- Knowledge Base
- Domain Knowledge yang digunakan untuk memberi petunjuk pencarian atau mengevaluasi hasil pola
- Data Mining Engine
- Terdiri dari sekumpulan model fungsional seperti characterization, association, classification, cluster analysis, evaluation and deviation analysis
- Pattern Evaluation Module
- Komponen yang berinteraksi dengan modul data mining untuk pencarian pola
- GUI (Graphical User Interface)
- modul yang mempermudah user berinteraksi dengan sistem data mining
TUGAS DATA MINING
METODE DALAM DATA MINING
PREDICTIVE - CLASSIFICATION
- Menemukan fungsi atau model yang membedakan kelas data
- Fungsi atau model tsb dapat berbentuk aturan if-else, descision tree, formula matematika, atau neural network
- Tujuannya untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui
- Algoritma : Decision Tree (C4.5), Artificial Neural Network, Naïve Bayes, Genetic Algorithm, Fuzzy, Case-Based Reasoning, k-Nearest Neighbor
- Supervised Method
PREDICTIVE - CLASSIFICATION
CONTOH
- Pemakaian Kartu Kredit secara Ilegal
- Tujuan :
- Mendeteksi adanya penggunaan Kartu Kredit secara Ilegal
- Pendekatan:
- Mencari data transaksi sebelumnya (Lokasi & waktu transaksi, jenis barang yg dibeli, nilai transaksi)
- Labeli data-data tersebut dengan Label Curang atau Aman
- DM mencari model klasifikasi Curang & Aman berdasarkan atribut transaksi
- Menerapkan model tersebut jika ada transaksi baru untuk mempercepat/tepat tindakan preventif
CONTOH LAIN
- Deteksi SPAM
- tindakan preventif untuk mendeteksi email yang tidak diharapkan
- Direct Marketing
- Mencari pengelompokan profil pelanggan agar target market sesuai dengan produk yang akan dipasarkan
- Sky Survey Cataloging
- Mengelompokan benda langit hasil pemotretan teleskop kedalam class nya
METODE POHON KEPUTUSAN

PREDICTIVE – TIME SERIES ANALYSIS
- Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu.
- Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu.
- Metode : Neural Network (model Backpropagation, multi layer perceptron)
- Aplikasi : memprediksikan indeks harga saham
CONTOH : PREDIKSI DALAM PASAR SAHAM
garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa laluPREDICTIVE - REGRESSION
- Regression vs Classification :
- Regression diterapkan untuk mengklasifikasikan target data numerik
- Classification untuk mengklasifikasikan target data kategorial
- Aplikasi : prediksi nilai penjualan yang akan datang berdasarkan trend data penjualan tahun sebelumnya.
- Algoritma : Support Vector Machine (SVM), Generalized Linear Model (GLM)
DESCRIPTIVE - CLUSTERING
- Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut : seringkali disebut juga Segmentation
- Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label)
- Algoritma : k-Means, k-Medoid, Fuzzy C-Means, Subtractive, Mountain, Hierarki
CONTOH : DATA PELANGGAN
- Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan).
- Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
- Cluster 1 : populasi berusia muda dengan pendapatan rendah
- Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi
- Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah.
SEGMENTASI PASAR
- Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing
- Pendekatan:
- mempersiapkan data transaksi beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya
- mencari gugus pelanggan yang mirip berdasarkan atribut atribut tersebut
- melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukan
- Hasil : Strategi marketing yang tepat sasaran
DESCRIPTIVE – ASSOCIATION RULE
- Disebut juga Market Basket Analysis.
- Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer
- Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling
- Untuk mencari produk apa yang biasanya terjual bersamaan
- Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut
CONTOH
- Ketika orang membeli susu, dia biasanya membeli keju
- Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
CONTOH LAIN
MARKETING & SALES PROMOTION
- Contoh pola yang ditemukan
- {Susu Kental Manis,…} —> {Kwaci}
- Kwaci sebagai konsekuen: bagaimana caranya menaikan penjualan kwaci
- Susu Ketal Manis sebagai anteseden: jika tidak lagi menjual susu kental manis, memprediksi produk lain yang ikut jatuh penjualannya
- Dua duanya: membuat paket promo Susu Kental Manis, Kwaci, dll…
DESCRIPTIVE – SEQUENCE ANALYSIS
- Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence.
- Contoh rangkaian klik pada sebuah website berisi rentetan URL.
- Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data :
- Pertama-tama seorang pelanggan membeli komputer
- kemudian membeli speaker
- dan akhirnya membeli sebuah webcam.
CONTOH : RANGKAIAN KLIK PADA SEBUAH WEBSITE BERITA
- Setiap node adalah sebuah kategori URL.
- Garis melambangkan transisi antar kategori URL tersebut.
- Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain
CONTOH LAIN
MARKETING & SALES PROMOTION
- Contoh pola yang ditemukan
- {Susu Kental Manis,…} —> {Kwaci}
- Kwaci sebagai konsekuen: bagaimana caranya menaikan penjualan kwaci
- Susu Ketal Manis sebagai anteseden: jika tidak lagi menjual susu kental manis, memprediksi produk lain yang ikut jatuh penjualannya
- Dua duanya: membuat paket promo Susu Kental Manis, Kwaci, dll…
DESCRIPTIVE – SEQUENCE ANALYSIS
- Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence.
- Contoh rangkaian klik pada sebuah website berisi rentetan URL.
- Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data :
- Pertama-tama seorang pelanggan membeli komputer
- kemudian membeli speaker
- dan akhirnya membeli sebuah webcam.
CONTOH : RANGKAIAN KLIK PADA SEBUAH WEBSITE BERITA
- Setiap node adalah sebuah kategori URL.
- Garis melambangkan transisi antar kategori URL tersebut.
- Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain

















Komentar
Posting Komentar