SISTEM BASIS DATA II

NAMA : YULISTIANI

NPM : 20311103


DATA MAINING DAN MACHINE LEARNING

     Perangkat lunak yang digunakan untuk menemukan polapola tersembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di masa medatang.

 ‣ Data mining sering dikatakan berurusan dengan “penemuan pengetahuan” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 tahun”.

PRINSIP DATA MAINING




APLIKASI DATA MAINING





TEKNOLOGI UNTUK DATA MAINING

‣ Statistik ‣ Neural network ‣ Fuzzy logic ‣ Algoritma genetika ‣ dan berbagai teknologi kecerdasan buatan yang lain.


DATA MAINING DAN VISUALISASI DATA

 ‣  Pendekatan data mining juga ada yang melalui visualisasi data
 ‣ Pada sistem seperti ini, pemakai akan dibantu untuk menemukan sendiri pola dari sejumlah data berukuran besar dengan didasarkan visualisasi oleh data mining.



MACHINE LEARNING

‣ Kerusakan gearboxes telah menyebabkan Helikopter AS CH-46 jatuh.

‣Meskipun kerusakan gearbox tersebut dapat didiagnosa oleh mekanik sebelum helicopter itu tinggal landas, bagaimana jika kerusakan terjadi pada saat terbang hal itu tidak mungkin dideteksi oleh manusia. 

‣ Machine Learning digunakan untuk domain tersebut dan digunakan untuk menyelamatkan kehidupan manusia.



CARA KERJA NYA :

Jika ita sedang mengemudikan mobil, tiba tiba terdengar suara aneh dari mobil kita. 

‣ Untuk menghindari kecelakaan, kita akan memperlambat mobil kita, kemudian berhenti ditempat yang aman atau bengkel terdekat.

 ‣ Dalam penerbangan helicopter sistem monitoring kerusakan gearbox didisain dengan ide yang sama. Perbedaannya adalah, kerusakan gearbox tidak dapat didengar oleh manusia, tetapi harus dimonitor oleh mesin.



YANG KOMPUTER PELAJARI :

‣Komputer tidak dapat mendengar dan pastinya tidak akan dapat membedakan suar normal dan suara tidak normal. 

‣ Suara, dapat direpresentasikan sebagai pola gelombang seperti gambar dibawah ini, yang sebenarnya merupakan sederetan bilangan real yang diproyeksikan kedalam bentuk grafik.

‣ Komputer akan sangat memahami deretan angka tersebut!

‣ Sebagai contoh, sebuah komputer dapat dengan mudah diprogram untuk dapat mencari pada sederetan string apakah mengandung angka “3” didalamnya atau tidak.






‣Pada permasalahan monitoring gearbox helicopter, diasumsikan bahwa berfungsi atau tidaknya gearboxes akan menghasilkan suara yg berbeda. Maka, deretan nilai yang merepresentasikan suara tersebut akan mempunyai karakteristik yang berbeda. 

‣ Pada kenyataanya nernagai karakteristik mempunyai kategori yg berbeda, dan akan terlalu sulit untuk digambarkan. 

‣ Oleh karena itu, hal tersebut tidak dapat diprogram, tapi perlu dipelajari oleh komputer.

‣ Banyak cara komputer dapat mempelajari bagaimana mereka menemukan perbedaa dari dua pola ( decision trees, neural networks, bayesian networks, dll.) inilah yang dipelajari dalam Machine Learning!

APA SAJA YANG MACHINE LEARNING LAKUKAN?

‣ Diagnosa Medis (breast cancer detection) 
‣ Deteksi kecurangan Credit Card 
‣ Deteksi Sonar (kapal selam dibandingkan ikan ) 
‣ Speech Recognition ( Telephone automated systems)
 ‣ Mobil Otomatis (kendaraan yg dapat melaju tanpa awak pada 70 mph sejauh 90 kilometer di jalan tol. Berguna untuk misi berbahaya) 
‣ Personalized Web Assistants (bantuan otomatis yg dapat menyusun berita yg dierlukan sesuai kebutuhan pembacanya)


 DEFINISI MACHINE LEARNING

        Sebuah program komputer dikatakan belajar dari pengalaman/experience [E] sehubungan dengan beberapa tugas/task [T] dan mengukur kinerja/ performance [P], jika kinerjanya pada tugas-tugas [T], yang diukur dengan [P,] meningkatkan dengan pengalaman [E]. 


CONTOH APLIKASI MACHINE LEARNING

 Pembelajaran mengenali kata-kata yang diucapkan (Lee, 1989; Waibel, 1989).
 • Pembelajaran mengemudikan mobil otomatis (Pomerleau, 1989).
 • Pembelajaran klasifikasi struktur astronomi baru (Fayyad et al., 1995).
 • Pembelajaran bermain world-class backgammon (Tesauro 1992, 1995).


MENGAPA MACHINE LEARNING DI PERLUKAN?

 Beberapa tasks tidak dapat didefinisikan dengan baik, kecuali dengan contoh (mengenali orang).
 ‣ Relasi dan korelasi dapat tersembunyi dalam data dalam jumlah besar. Machine Learning/Data Mining dapat menemukan relasi tersebut.

 ‣ Seorang designers seringkali menghasilkan mesin yang tidak dapat bekerja seperti yang diharapkan untuk bekerja pada lingkungannya dimana mereka digunakan.

‣ Jumlah pengetahuan yang tersedia tentang tugas-tugas tertentu mungkin terlalu besar untuk pengkodean eksplisit oleh manusia (misalnya, diagnostik medis).

 ‣  Lingkungan berubah seiring waktu.

‣ Pengetahuan baru tentang tugas terus-menerus ditemukan oleh manusia. Mungkin sulit untuk terus sistem re-desain “secara manual


BIDANG ILMU YG BERKAITAN

‣ Statistik: Bagaimana cara terbaik menggunakan sample dari distribusi probabilitas yang tidak diketahui untuk mengetahui dari distibusi mana sampel baru diambil. 

‣ Brain Model: Unsur-unsur non-linear dengan input tertimbang (Artificial Neural Networks) telah diusulkan sebagai model sederhana neuron biologis

 ‣ Adaptive Control Theory: Bagaimana menangani pengendalian proses yang memiliki parameter yang tidak diketahui tetapi harus diestimasi selama operasi?

 ‣ Psychology: Bagaimana model kinerja manusia pada berbagai tugas learning? 

‣ Arificial Intelligence: Bagaimana menulis algoritma yang mampu memperoleh pengetahuan manusia, setidaknya, seperti manusia?

 ‣ Evolutionary Models: Bagaimana memodelkan aspek-aspek tertentu dari evolusi biologi untuk meningkatkan kinerja program komputer.


CONTOH DESAIN LEARNING SYSTEM

1. Mendeskripsikan Problem

2. Memilih Training Experience

3. Memilih Target Function 

4. Memilih Representasi Target Function 

5. Memilih Function Approximation Algorithm 

6. Design Akhir C


ISSUE PADA MACHINE LEARNING

 ‣ Algoritma apa yang tersedia untuk belajar konsep? 

‣ Seberapa baik mereka lakukan? 

‣ Berapa banyak data pelatihan yang cukup untuk belajar konsep dengan keyakinan yang tinggi?

 ‣ Kapan hal itu berguna terhadap pengetahuan sebelumnya? 

‣ Adalah beberapa pelatihan lebih berguna daripada yang lain?

 ‣ Apa saja tugas terbaik bagi sistem untuk belajar? 

‣ Apa cara terbaik bagi sistem untuk mewakili pengetahuan?



KONSEP DATA MINING

 LATAR BELAKANG 

  • Banyak data yang telah direkam dan disimpan
  • Transaksi penjualan di Supermarket 
    • Transaksi perbankan dan Kartu Kredit
    • Log kunjungan WEB
    • Akuisisi data dalam penelitian (sosial, kesehatan,…) 
  • Sistem Komputer semakin cepat dan ekonomis (Moore’s Law)
  • Kebutuhan berkompetisi dengan strategi yang tepat semakin meningkat 

TRANSFORMASI DIGITAL DATA MINING


LEDAKAN PERTUMBUHAN DATA


MENGAPA HARUS DATA MINING?

  • Data yang sangat besar terkadang memiliki informasi yang tersembunyi
  • Kemampuan manusia terbatas untuk mengamati kumpulan data tersebut dalama proses analisis 







DEFINISI DATA MINING


PENGERTIAN YANG SALAH


ILMU DATA MINING

  • Gabungan dari beberapa bidang ilmu dalam Memantik dan Ilmu Komputer
  • Diperlukan karena: 
    • Data yang sangat besat
    • Dimensi data yang besar
    • Data Heterogen


















ARSITEKTUR DATA MINING


ARSITEKTUR DATA MINING

  • Knowledge Base
    • Domain Knowledge yang digunakan untuk memberi petunjuk pencarian atau mengevaluasi hasil pola
  • Data Mining Engine
    • Terdiri dari sekumpulan model fungsional seperti characterization, association, classification, cluster analysis, evaluation and deviation analysis
  • Pattern Evaluation Module
    • Komponen yang berinteraksi dengan modul data mining untuk pencarian pola
  • GUI (Graphical User Interface)
    • modul yang mempermudah user berinteraksi dengan sistem data mining

TUGAS DATA MINING


METODE DALAM DATA MINING



PREDICTIVE - CLASSIFICATION

  • Menemukan fungsi atau model yang membedakan kelas data
  • Fungsi atau model tsb dapat berbentuk aturan if-else, descision tree, formula matematika, atau neural network
  • Tujuannya untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui
  • Algoritma : Decision Tree (C4.5), Artificial Neural Network, Naïve Bayes, Genetic Algorithm, Fuzzy, Case-Based Reasoning, k-Nearest Neighbor
  • Supervised Method

PREDICTIVE - CLASSIFICATION


CONTOH  

  • Pemakaian Kartu Kredit secara Ilegal
  • Tujuan : 
    • Mendeteksi adanya penggunaan Kartu Kredit secara Ilegal
  • Pendekatan:
    • Mencari data transaksi sebelumnya (Lokasi & waktu transaksi, jenis barang yg dibeli, nilai transaksi)
    • Labeli data-data tersebut dengan Label Curang atau Aman
    • DM mencari model klasifikasi Curang & Aman berdasarkan atribut transaksi
    • Menerapkan model tersebut jika ada transaksi baru untuk mempercepat/tepat tindakan preventif

CONTOH LAIN

  • Deteksi SPAM  
    • tindakan preventif untuk mendeteksi email yang tidak diharapkan 
  • Direct Marketing 
    • Mencari pengelompokan profil pelanggan agar target market sesuai dengan produk yang akan dipasarkan 
  • Sky Survey Cataloging 
    • Mengelompokan benda langit hasil pemotretan teleskop kedalam class nya

METODE POHON KEPUTUSAN















PREDICTIVE – TIME SERIES ANALYSIS

  • Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu.
  • Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu. 
  • Metode : Neural Network (model Backpropagation, multi layer perceptron)
  • Aplikasi : memprediksikan indeks harga saham 

CONTOH : PREDIKSI DALAM PASAR SAHAM

garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu


PREDICTIVE - REGRESSION

  • Regression vs Classification : 
    • Regression diterapkan untuk mengklasifikasikan target data numerik
    • Classification untuk mengklasifikasikan target data kategorial
  • Aplikasi : prediksi nilai penjualan yang akan datang berdasarkan trend data penjualan tahun sebelumnya. 
  • Algoritma : Support Vector Machine (SVM), Generalized Linear Model (GLM) 

DESCRIPTIVE - CLUSTERING 

  • Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut : seringkali disebut juga Segmentation
  • Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label)
  • Algoritma : k-Means, k-Medoid, Fuzzy C-Means, Subtractive, Mountain, Hierarki

CONTOH : DATA PELANGGAN

  • Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan).
  • Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
    • Cluster 1 : populasi berusia muda dengan pendapatan rendah 
    • Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi
    • Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah. 

SEGMENTASI PASAR

  • Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing 
  • Pendekatan: 
    • mempersiapkan data transaksi beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya 
    • mencari gugus pelanggan yang mirip berdasarkan atribut atribut tersebut 
    • melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukan 
  • Hasil : Strategi marketing yang tepat sasaran

DESCRIPTIVE – ASSOCIATION RULE

  • Disebut juga Market Basket Analysis.
  • Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer 
    • Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling
    • Untuk mencari produk apa yang biasanya terjual bersamaan
    • Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut

CONTOH



















Ketika orang membeli susu, dia biasanya membeli keju 

KONSEP DATA MINING
  •  

    LATAR BELAKANG 

    • Banyak data yang telah direkam dan disimpan
    • Transaksi penjualan di Supermarket 
      • Transaksi perbankan dan Kartu Kredit
      • Log kunjungan WEB
      • Akuisisi data dalam penelitian (sosial, kesehatan,…) 
    • Sistem Komputer semakin cepat dan ekonomis (Moore’s Law)
    • Kebutuhan berkompetisi dengan strategi yang tepat semakin meningkat 

    TRANSFORMASI DIGITAL DATA MINING


    LEDAKAN PERTUMBUHAN DATA


    MENGAPA HARUS DATA MINING?

    • Data yang sangat besar terkadang memiliki informasi yang tersembunyi
    • Kemampuan manusia terbatas untuk mengamati kumpulan data tersebut dalama proses analisis 







    DEFINISI DATA MINING


    PENGERTIAN YANG SALAH


    ILMU DATA MINING

    • Gabungan dari beberapa bidang ilmu dalam Memantik dan Ilmu Komputer
    • Diperlukan karena: 
      • Data yang sangat besat
      • Dimensi data yang besar
      • Data Heterogen














    ARSITEKTUR DATA MINING


    ARSITEKTUR DATA MINING

    • Knowledge Base
      • Domain Knowledge yang digunakan untuk memberi petunjuk pencarian atau mengevaluasi hasil pola
    • Data Mining Engine
      • Terdiri dari sekumpulan model fungsional seperti characterization, association, classification, cluster analysis, evaluation and deviation analysis
    • Pattern Evaluation Module
      • Komponen yang berinteraksi dengan modul data mining untuk pencarian pola
    • GUI (Graphical User Interface)
      • modul yang mempermudah user berinteraksi dengan sistem data mining

    TUGAS DATA MINING


    METODE DALAM DATA MINING



    PREDICTIVE - CLASSIFICATION

    • Menemukan fungsi atau model yang membedakan kelas data
    • Fungsi atau model tsb dapat berbentuk aturan if-else, descision tree, formula matematika, atau neural network
    • Tujuannya untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui
    • Algoritma : Decision Tree (C4.5), Artificial Neural Network, Naïve Bayes, Genetic Algorithm, Fuzzy, Case-Based Reasoning, k-Nearest Neighbor
    • Supervised Method

    PREDICTIVE - CLASSIFICATION


    CONTOH  

    • Pemakaian Kartu Kredit secara Ilegal
    • Tujuan : 
      • Mendeteksi adanya penggunaan Kartu Kredit secara Ilegal
    • Pendekatan:
      • Mencari data transaksi sebelumnya (Lokasi & waktu transaksi, jenis barang yg dibeli, nilai transaksi)
      • Labeli data-data tersebut dengan Label Curang atau Aman
      • DM mencari model klasifikasi Curang & Aman berdasarkan atribut transaksi
      • Menerapkan model tersebut jika ada transaksi baru untuk mempercepat/tepat tindakan preventif

    CONTOH LAIN

    • Deteksi SPAM  
      • tindakan preventif untuk mendeteksi email yang tidak diharapkan 
    • Direct Marketing 
      • Mencari pengelompokan profil pelanggan agar target market sesuai dengan produk yang akan dipasarkan 
    • Sky Survey Cataloging 
      • Mengelompokan benda langit hasil pemotretan teleskop kedalam class nya

    METODE POHON KEPUTUSAN















    PREDICTIVE – TIME SERIES ANALYSIS

    • Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu.
    • Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu. 
    • Metode : Neural Network (model Backpropagation, multi layer perceptron)
    • Aplikasi : memprediksikan indeks harga saham 

    CONTOH : PREDIKSI DALAM PASAR SAHAM

    garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu


    PREDICTIVE - REGRESSION

    • Regression vs Classification : 
      • Regression diterapkan untuk mengklasifikasikan target data numerik
      • Classification untuk mengklasifikasikan target data kategorial
    • Aplikasi : prediksi nilai penjualan yang akan datang berdasarkan trend data penjualan tahun sebelumnya. 
    • Algoritma : Support Vector Machine (SVM), Generalized Linear Model (GLM) 

    DESCRIPTIVE - CLUSTERING 

    • Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut : seringkali disebut juga Segmentation
    • Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label)
    • Algoritma : k-Means, k-Medoid, Fuzzy C-Means, Subtractive, Mountain, Hierarki

    CONTOH : DATA PELANGGAN

    • Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan).
    • Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
      • Cluster 1 : populasi berusia muda dengan pendapatan rendah 
      • Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi
      • Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah. 

    SEGMENTASI PASAR

    • Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing 
    • Pendekatan: 
      • mempersiapkan data transaksi beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya 
      • mencari gugus pelanggan yang mirip berdasarkan atribut atribut tersebut 
      • melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukan 
    • Hasil : Strategi marketing yang tepat sasaran

    DESCRIPTIVE – ASSOCIATION RULE

    • Disebut juga Market Basket Analysis.
    • Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer 
      • Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling
      • Untuk mencari produk apa yang biasanya terjual bersamaan
      • Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut

    CONTOH
















    • Ketika orang membeli susu, dia biasanya membeli keju 
    • Ketika orang membeli pepsi atau coke, biasanya dia membeli juice 

    CONTOH LAIN


    MARKETING & SALES PROMOTION

    • Contoh pola yang ditemukan
      • {Susu Kental Manis,…} —> {Kwaci}
    • Kwaci sebagai konsekuen: bagaimana caranya menaikan penjualan kwaci
    • Susu Ketal Manis sebagai anteseden: jika tidak lagi menjual susu kental manis, memprediksi produk lain yang ikut jatuh penjualannya
    • Dua duanya: membuat paket promo Susu Kental Manis, Kwaci, dll…

    DESCRIPTIVE – SEQUENCE ANALYSIS

    • Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence.
    • Contoh rangkaian klik pada sebuah website berisi rentetan URL. 
    • Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data : 
      • Pertama-tama seorang pelanggan membeli komputer 
      • kemudian membeli speaker 
      • dan akhirnya membeli sebuah webcam.

    CONTOH : RANGKAIAN KLIK PADA SEBUAH WEBSITE BERITA














    • Setiap node adalah sebuah kategori URL. 
    • Garis melambangkan transisi antar kategori URL tersebut. 
    • Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain
    Ketika orang membeli pepsi atau coke, biasanya dia membeli juice 

CONTOH LAIN


MARKETING & SALES PROMOTION

  • Contoh pola yang ditemukan
    • {Susu Kental Manis,…} —> {Kwaci}
  • Kwaci sebagai konsekuen: bagaimana caranya menaikan penjualan kwaci
  • Susu Ketal Manis sebagai anteseden: jika tidak lagi menjual susu kental manis, memprediksi produk lain yang ikut jatuh penjualannya
  • Dua duanya: membuat paket promo Susu Kental Manis, Kwaci, dll…

DESCRIPTIVE – SEQUENCE ANALYSIS

  • Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence.
  • Contoh rangkaian klik pada sebuah website berisi rentetan URL. 
  • Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data : 
    • Pertama-tama seorang pelanggan membeli komputer 
    • kemudian membeli speaker 
    • dan akhirnya membeli sebuah webcam.

CONTOH : RANGKAIAN KLIK PADA SEBUAH WEBSITE BERITA

















  • Setiap node adalah sebuah kategori URL. 
  • Garis melambangkan transisi antar kategori URL tersebut. 
  • Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain

Komentar

Postingan populer dari blog ini

RAGAM DIALOG PADA REVIEW PAPER PERTEMUAN 5

METODOLOGI PENELITIAN ILMU KOMPUTER