Data Mining
Definisi Data Mining
•Data mining adalah proses yang memperkerjakan satu atau lebih
teknik-teknik pembelajaran komputer (machine learning) untuk
menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
•Data mining merupakan proses iteratif dan interaktif untuk menemukan
pola atau model yang baru, bermanfaat, dan dimengerti dalam suatu
database yang sangat besar (massive databases).
•Data mining merupakan serangkaian proses untuk menggali nilai tambah
dari suatu kumpulan data berupa pengetahuan yang selama ini tidak
diketahui secara manual dari suatu kumpulan data
•Data mining menggunakan berbagai perangkat lunak analisis data untuk
menemukan pola dan relasi data agar dapat digunakan untuk membuat
prediksi dengan tepat
Kebutuhan akan Data Mining Disebabkan karena :
•Ketersediaan data yang melimpah, kebutuhan akan informasi
(pengetahuan) sebagai pendukung pengambilan keputusan untuk membuat
solusi bisnis
•Ketersediaan data transaksi dalam volume yang besar
•Informasi yang penting melahirkan gudang data yang mengintegrasikan
informasi dari sistem yang tersebar untuk mendukung pengambilan
keputusan
•Ketersediaan teknologi informasi yang terjangkau dan dapat diadopsi secara luas.
Ilmu-ilmu yang berkaitan dengan Data Mining
•Database
•Information science
•High performance computing
•Visualization
•Machine learning
•Statistics
•Artificial Neural networks
•Mathematical modeling
Information retrieval
•Pattern recognition
Penerapan Data Mining
Analisa Pasar dan Manajemen
- Menebak target pasar
- Melihat pola beli pemakai dari waktu ke waktu
- Cross Market Analysis
- Profil Customer
- Identifikasi Kebutuhan Customer
- Menilai loyalitas customer
- Informasi summary
Analisa Perusahaan dan Manajemen Resiko
- Merencanakan Keuangan dan Evaluasi Aset
- Merencanakan Sumber Daya (Resource Planning)
- Memonitor Persaingan (Competition)
Telekomunikasi
- Melihat jutaan transaksi yang masuk dengan
- tujuan menambah layanan otomatis
Keuangan
- Mendeteksi transaksi-transaksi keuangan yang mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar.
Asuransi
-Digunakan Australian Health Insurance Commision untuk mengidentifikasi
layanan kesehatan dan berhasil menghemat satu juta dollar pertahun
Olah raga
- Digunakan IBM Advanced Scout untuk menganalisis statistik permainan
NBA dalam rangka competitive advantage untuk tim New York Knicks
Internet Web Surf-Aid
-Digunakan IBM Surf-Aid untuk mendata akses halaman Web khususnya berkaitan dengan pemasaran melalui web.
Knowledge Discovery in Databases (KDD)
Definisi Knowledge Discovery in Database (KDD)
- Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk
mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola
yang ditemukan dapat bermanfaat dan dapat dimengerti.
- KDD berhubungan dengan teknik integrasi,interpretasi dan visualisasi dari pola pola sejumlah kumpulan data.
Tahapan Proses KDD
1. Data Selection
- Menciptakan himpunan data target,pemilihan himpunan data, atau
memfokuskan pada subset variabel atau sampel data, dimana penemuan
(discovery) akan dilakukan.
- Hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / Cleaning
- Pre-processing dan cleaning data merupakan operasi dasar yang dilakukan seperti penghapusan noise.
- Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data,
seperti kesalahan cetak
- Data bisa diperkaya dengan data atau informasi ekternal yang relevan
3. Transformation
- Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining.
-Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
4. Data mining
- Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD
misalnya karakterisasi, klasifikasi, regresi,clustering, asosiasi, dll.
- Proses Data Mining yaitu proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik, metode atau algoritma
tertentu yang bervariasi
- Pemilihan teknik, metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
- Yaitu penerjemahan pola-pola yang dihasilkan dari data mining.
- Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti
- Tahap ini melakukan pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Data Pre-processing
Beberapa alat dan metode yang digunakan seperti :
- Sampling : menyeleksi subset representatif dari populasi data yang besar.
- Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.
- Denoising : menghilangkan noise dari data
- Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik
- Feature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu.
Data Reduction
- Data reduction merupakan teknik yang digunakan untuk mentransformasi
dari data mentah ke bentuk format data yang lebih berguna. Sebagai
contoh groupping, counting, summing dan averaging data.
- Data reduction dilakukan untuk mengatasi ukuran data yang terlalu
besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan
biaya pemrosesan.
OLAP (On-Line Analytical Processing)
- OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung
proses analisis kompleks dalam rangka mengungkapkan kecenderungan pasar
dan faktor-faktor penting dalam bisnis
- Kemampuan OLAP yaitu bisa menaikkan atau menurunkan dimensi data
sehingga kita dapat menggali data sampai detail dan memperoleh pandangan
yang luas mengenai objek yang sedang dianalisis.
OLAP (On-Line Analytical Processing)
- OLAP dapat digunakan membuat rangkuman baru dari multidimensi data
yang berbeda, dan dapat merespon secara online, dan memberikan view dua
dimensi pada data cube multidimensi secara interaktif.
ARSITEKTUR & MODEL DATA MINING
Data Warehouse
Definisi :
Data Warehouse adalah Pusat repositori informasi yang mampu memberikan
database berorientasi subyek untuk informasi yang bersifat historis yang
mendukung DSS (Decision Suport System) dan EIS (Executive Information
System). Salinan dari transaksi data yang terstruktur secara spesifik
pada query dan analisa. Salinan dari transaksi data yang terstruktur
spesifik untuk query dan laporan
Tujuan :
Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan
informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses
dengan mudah.
Ciri-ciri Data Warehouse
Terdapat 4 karateristik data warehouse
1. Subject oriented
- Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemprosesan decision support.
- Database yang semua informasi yang tersimpan di kelompokkan
berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb.
- Semua Informasi tersebut disimpan dalam suatu sistem data warehouse.
- Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya :
periode waktu, produk, wilayah, dsb, sehingga dapatmemberikan nilai
sejarah untuk bahan analisa.
2. Integrated
- Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu
lingkungan operasional, encoding data sering tidak seragam sehinggga
bila data dipindahkan ke data warehouse maka coding akan diasumsikan
sama seperti lazimnya.
3. Time-variant
- Data warehouse adalah tempat untuk storing data selama 5 sampai 10
tahun atau lebih, data digunakan untuk perbandingan atau perkiraan dan
data ini tidak dapat diperbaharui.
4. Non volatile
- Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat.
Masalah-masalah dalam menerapkan Data warehouse :
- Dokumentasi dan pengelolaan metadata dari data warehouse.
- Penentuan aturan dalam proses transformasi untuk memetakan berbagai
sumber legacy data yang akan dimasukkan ke dalam data warehouse.
- Pencapaian proses pengembangan yang handal, baik dalam membangun, mempimplementasikan, maupun memelihara data warehouse.
Data Mart Definisi Data Mart
- Data Mart adalah subset dari data warehouse yang mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu.
- Data Mart adalah struktur data yang cakupannya lebih kecil dari data
warehouse dimana data dibagi berdasarkan kebutuhan informasi setiap
departemen
Data Warehouse / Data Mart VS OLAP
OLAP adalah teknologi yang memproses data di dalam Data Warehouse / Data
Mart dalam struktur multidimensi, menyediakan jawaban yang cepat untuk
query analisis yang kompleks
Keterangan :
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Semua tahap bersifat interaktif di mana user terlibat langsung atau dengan perantaraan knowledge base
Model Data Mining
Prediction Methods
- Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.
Description Methods
- Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan data.
Klasifikasi
- Proses untuk menemukan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data dengan tujuan untuk dapat memprediksi
kelas dari suatu objek yang labelnya tidak diketahui
- Contoh : Mendeteksi Penipuan
- Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit.
Pendekatan :
- Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut account holder
- Kapan cutomer melakukan pembelian, Dengan cara apa customer membayar,
sebarapa sering customer membayar secara tepat waktu, dll
- Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi
yang curang atau yang baik. Ini sebagai atribut klass ( the class
attribute.)
- Pelajari model untuk class transaksi
- Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi kartu kredit pada account.
Classification Techniques
- Decision Tree based Methods
- Neural Networks
- Rule-based Methods
- Memory based reasoning
- Naïve Bayes and Bayesian Belief Networks
- Support Vector Machines
Regression
- Digunakan untuk memetakan data dengan prediksi atribut bernilai real
Contoh:
- Memprediksi jumlah penjualan produk baru pada advertising expenditure.
- Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll
Examples of Regression Task
- Memprediksi jumlah penjualan produk baru pada advertising expenditure (belanja iklan).
- Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll
- Memperkirakan metode distribusi dan kapasitas distribusi
Regression Techniques
- Linear Regression
- Logistic Regression
- SQL Server Data Mining mendukung teknik :
Regression Trees (bagian Microsoft Decission Trees)
- Neural Network
- Oracle Data Mining mendukung teknik :
Generalized Linear Models (GLM)
Support Vector Machines (SVM
Decision tree (Pohon keputusan)
- Salah satu model klasifikasi yang mudah di interpretasikan
- Contoh : identifikasi pembeli komputer ( dari decision tree di bawah
ini ternyata salah satu kelompok yang potensial adalah orang yang
berusia < 30 dan pelajar
Deviation Detection / Deviation Analysis
- Digunakan untuk mencari kasus yang bertindak sangat berbeda dari normalnya
- Mengidentifikasi kasus yang tidak normal diantara jutaan transaksi
Examples of Deviation Analysis Task
- Pendeteksian penyalah gunaan Kartu kredit.
- Pendeteksian gangguan jaringan komputer
- Analisa kesalahan produksi, dll
Deviation Analysis Techniques
- Decision trees
- Neural networ
Neural Network (Jaringan syaraf tiruan)
- Jaringan syaraf buatan di mulai dengan layer input, dimana tiap simpul berkorespondensi dengan variabel prediktor.
- Simpul- simpul input ini terhubung kebeberapa simpul dalam hidden layer.
- Dan simpul dalam hidden layer dapat terhubung ke simpul lain dalam hidden layer atau ke output layer.
- Output layer terdiri dari satu atau beberapa variable respon
Clustering
- Disebut juga sebagai Segmentation
- Clustering adalah suatu alat untuk analisa data, yang memecahkan permasalahan penggolongan
- Clustering mendistribusikan obyek ke dalam kelompok, sehingga :
- derajat tingkat keterhubungan antar anggota cluster yang sama adalah kuat dan
- derajat tingkat keterhubungan antar anggota cluster yang berbeda adalah lemah
- Sehingga, kita lihat bahwa clustering bermakna menggolongkan data atau
membagi satuan data yang besar ke dalam satuan data yang lebih kecil
yang memiliki kesamaan. Algoritma clustering tercakup dalam aplikasi
BI2M. Lihat contoh dari penggunaan clustering dalam BI2M.
Gambar dibawah ini menunjukkan kelompok data pelanggan yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan).
Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
- Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
- Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
- Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Outline
Teknik-teknik data mining terdiri dari :
• Analisis cluster
• Induksi (pohon keputusan dan aturan induksi)
• Jaringan syaraf buatan (Neural Network)
• Online Analytical Processing (OLAP)
• Visualisasi data
Analisis Cluster
• Dalam lingkungan ‘unsupervised learning’, sistem harus mendapatkan
klas2nya sendiri dan ini dilakukan dengan mengcluster data dalam
database seperti tergambar pada gambar 1.
• Langkah pertama adalah dengan mendapatkan subset2 dari objek2 yang
terhubung, kemudian mencari deskripsinya cth, D1, D2, D3,dst., yang
menggambarkan masing2 subset.
• Clustering dan segmentasi sebenarnya mempartisi database, karena itu
setiap partisi atau group adalah sama menurut kriteria atau metrik
tertentu. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah
teknik untuk membentuk cluster.
• Kebanyakan aplikasi2 data mining menggunakan clusteing menurut similarity (kesamaan), contohnya segmentasi basis klien.
Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada
analisis data, misalnya ketika mensetting tarif asuransi klien dapat
disegmentasi menurut sejumlah parameter.
• Contoh aplikasi :
– Perangkat ‘stand-alone’ : explore data distribution
– Langkah preprocessing untuk algoritma lain
– Pengenalan pola, analisis data spasial, pengenalan citra, market
research, WWW, …
• clustering dokumen2
• clustering data log web untuk mendapatkan group dengan pola akses yang sama
Apa itu Clustering ?
• Penggelompokkan data ke cluster2
– Data yang sama satu sama lain berada pada cluster yang sama
– Yang tidak sama berada pada cluster lain
– ‘Unsupervised learning’: klas2 yang belum ditentukan
Clustering Yang Baik
• Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah
– Bergantung pada pengukuran kesamaan
• Kemampuan untuk memdapatkan beberapa atau semua pola yang tersembunyi
Kebutuhan Clustering
• Scalability
• Kemampuan mengerjakan atribut2 dari berbagai tipe
• Penemuan clusters dengan bentuk yang tidak tentu
• Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input
• Dapat menerima noise dan outlier
• Tidak mengindahkan susunan record dari input
• Dimensi yang tinggi
• Menyatu dengan batasan yang dispesifikasikan oleh user
• Interpretability and usability
Tipe-tipe Data pada Clustering
• Variabel2 berskala interval
• Variabel biner
• Variabel nominal, ordinal dan rasio
• Variable2 dari berbagai tipe variabel
Kategori Pendekatan Clustering
• Algoritma Partisi
– Mempartisi objek2 ke dalam k cluster
– Realokasi objek2 secara iteratif untuk memperbaiki clustering
• Algoritma Hirarkis
– Agglomerative: setiap objek merupakan cluster, gabungan dari cluster2 membentuk cluster yang besar
– Divisive: semua objek berada dalam suatu cluster, pembagian cluster tsb membentuk cluster2 yang kecil
• Metode berbasis densitas
– Berbasis koneksitas dan fungsi densitas
– Noise disaring, kemudian temukan cluster2 dalam bentuk sembarang
• Metode berbasis grid
– Kuantisasi ruang objek ke dalam struktur grid
• Berbasis Model
– Gunakan model untuk menemukan keadaan data yang baik
Algoritma Partisi : Konsep Dasar
• Partisi n objek ke dalam k cluster
– Optimasi kriteria partisi yang dipilih
• Global optimal: dicoba semua partisi
– (kn-(k-1),,,-1) partisi yang mungkin
• Metode heuristik : k-means dan k-medoids
– K-means: cluster direpresentasikan oleh pusat
– K-medoids or PAM (partition around medoids): setiap cluster direpresentasikan oleh salah satu objek pada cluster
K-means
• Pilih k objek sembarang sebagai inisial pusat cluster
• Sampai tidak ada perubahan, kerjakan
– Tunjukkan setiap objek pada cluster dimana objeknya hampir sama, berdasarkan nilai tengah dari objek2 pada cluster
– Update the cluster means, i.e., calculate the mean value of the objects for each cluster
Induksi
• Induksi merupakan salah satu teknik inferensi informasi pada database.
• Ada dua teknik inferensi yakni
– Induksi merupakan teknik inferensi informasi yang digeneralisasi dari database, contohnya setiap pegawai mempunyai manajer.
– Deduksi merupakan teknik inferensi informasi dari konsekuensi logis
informasi pada database, contohnya operasi join pada dua tabel; dimana
yang pertama mengenai pegawai dan departemen sedangkan yang kedua
mengenai departemen dan manajer, menghasilkan relasi Antara pegawai dan
manajer.
Pohon Keputusan
• Pohon keputusan merupakan representasi pengetahuan yang simpel. Pohon
keputusan ini mengklasifikasikan contoh2 pada klas2 dengan angka finit,
node diberi nama atribut, edge di beri nilai atribut sedangkan leave
diberi nama klas. Objek2 diklasifikasikan dengan struktur pohon, dengan
menggunakan dahan2nya sebagai nilai atribut dari objek.
• Gambar berikut mengenai keadaan cuaca. Objek2 berisikan informasi
mengenai suasana cuaca, kelembaban dll. Beberapa objek merupakan contoh
positif dinotasikan dengan P sedangkan yang lain negatif atau N.
Induksi Aturan
• Sistem data
mining harus dapat menyimpulkan suatu model dari database dimana model
ini mendefinisikan klas2 seperti halnya database yang terdiri atas satu
atau lebih atribut yang menunjukkan klas dari tupel. Klas dapat
didefinisikan oleh kondisi atribut.
• Aturan produksi dipergunakan untuk merepresentasikan pengetahuan
sistem pakar dan keuntungannya mudah diinterpretasikan oleh kepakaran
manusia dikarenakan modularitas yakni aturan yang tunggal dapat dipahami
dengan sendirinya dan tidak perlu referensi aturan lain.
Jaringan Syaraf Buatan
• Merupakan pendekatan perhitungan yang melibatkan pengembangan struktur secara matematis dengan kemampuan untuk ‘belajar’.
• Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas
dan dapat digunakan pula untuk mengekstrakpola dan mendeteksi tren2
yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik
komputer lainnya.
• Jaringan syaraf buatan yang terlatih dapat dianggap sebagai ‘pakar’
dalam kategori informasi yang akan dianalisis. Pakar ini dapat
digunakan untuk memproyeksi situasi baru dari ketertarikan dan
jawaban dari pertanyaan ‘what if’
• Dikarenakan jaringan syaraf buatan adalah terbaik dalam
mengidentifikasikan pola atau tren dalam data, maka cocok pula digunakan
untuk kebutuhan memprediksi antara lain:
– Prediksi penjualan
– Pengontrolan proses industri
– Riset Pelanggan
– Validasi data
– Manajemen resiko
– Pemasaran target
• Jaringan ini menggunakan sekumpulan elemen2 pemrosesan (node) analog
pada syaraf otak manusia. Elemen2 pemrosesan ini terhubung dalam
jaringan dimana dapat mengidentifikasikan pola2 dalam data sewaktu
dipertunjukkan pada data, artinya jaringan belajar dari pengalaman
seperti halnya manusia.
• Pada gambar 5, layer bawah adalah lapisan input dengan x1 – x5. Layer
tengah disebut juga layer tersembunyi dengan sejumlah variabel node.
Layer atas merupakan layer output dengan node z1 – z2 yang diperoleh
dari input yang dicobakan.
• Contoh, prediksi penjualan (output) berdasarkan penjualan lama, harga dan cuaca (input).
• Setiap node yang ada pada layer tersembunyi, secara keseluruhan
terhubung dengan input, berarti setiap yg dipelajari didasarkan pada
semua input yg diambil bersamaan.
Hal ini terlihat pada gambar 6.
• Pada gambar 7. dijelaskan mengenai jaringan syaraf buatan The
Clementine User Guide untuk mengidentifikasikan resiko kanker dari
berbagai faktor input.
OLAP (On-line Analytical Processing)
Definisi Menurut E.F. Codd
• OLAP atau On line Analytical Processing merupakan salah satu aplikasi
database untuk memproses database yang sangat besar dengan data yang
kompleks.
• OLAP didefinisikan oleh E.F. Codd (1993) sebagai sintesis dinamik,
analisis dan konsolidasi dari data multidimensional yang sangat besar.
• Aturan atau kebutuhan dari sistem OLAP :
- View konseptual multidimensional
- Transparansi
- Aksesibilitas
- Kinerja reporting yang konsisten
- Arsitektur client/server
- Dimensionalitas generik
- Penanganan dynamic sparse matrix
- Pendukung multi-user
- Operasi unrestricted cross dimensional
- Manipulasi data intuitif
- Reporting yang fleksibel
- Level agregasi dan dimensi yang tidak terbatas
Definisi OLAP Menurut Nigel Pendse
• OLAP didefinisikan oleh Nigel Pendse sebagai Fast Analysis of Shared Multidimensional Information, artinya
- Fast dimana pemakai memperoleh respon dalam detik sehingga tidak terputus rantai pemikirannya
- Analysis dimana sistem menyediakan fungsi2 analisis dan lingkup
intuitif dan fungsi2 ini dapat mensuplai logika bisnis dan analisis
statistikal yang relevan dengan aplikasi user
- Shared dimana sistem mendukung user yang banyak secara konkurensi
- Multidimensional merupakan kebutuhan utama sehingga sistem mensuplai
view konseptual multidimensional dari data termasuk pendukung untuk
hirarki multiple
- Information merupakan data dan informasi yang diwariskan, dimana dibutuhkan oleh aplikasi user
Komponen OLAP Menurut Kirk Cruikshank
• Kirk Cruikshank dari Arbor Software mengidentifikasikan ada 3 komponen OLAP :
- Database multidimensional harus dapat mengekspresikankalkulasi
bisnis yang kompleks dengan mudah. Data harus bereferensi dan
didefinisikan matematis
- Navigasi intuitatif dalam penyusunan data ‘roam around’ yang mana membutuhkan hirarki mining
- Respons instan, yang artinya kebutuhan untuk memberi user informasi secepat mungkin
Contoh OLAP
• Contoh database OLAP misalnya data penjualan yang dikumpulkan dari region, tipe produk dan cabang penjualan.
• Queri OLAP harus mengakses database penjualan yang lebih dari satu tahun dan multi-gigabyte untuk menemukan penjualan
produk di setiap region per-tipe produk.
• Queri OLAP dapat dikarakterisasikan sebagai transaksi online yang
- Mengakses data dalam jumlah besar, mis: data penjualan beberapa tahun
- Menganalisis relationship antara tipe elemen bisnis mis: penjualan, wilayah, produk dan cabang
- Melibatkan data yang terkumpul mis: volume penjualan, dollar yang dianggarkan dan dollar yang dihabiskan
- Menyajikan data dalam berbagai perspektif, mis: penjualan
berdasarkan wilayah vs penjualan berdasarkan cabang dari produk dalam
setiap wilayah
- Membandingkan data yang terkumpul dalam periode waktu secara
hirarki, mis: bulanan, tahunan
- Melibatkan kalkulasi kompleks antara elemen data , mis: keuntungan
yang diharapkan sebagai fungsi dari pendapatan penjualan untuk setiap
tipe dari cabang penjualan dalam suatu wilayah tertentu.
- Dapat merespon permohonan user secara cepat sehingga user dapat
mengikuti proses pemikiran yang analitik tanpa masuk pada sistem
Visualisasi Data
• Visualisasi data memungkinkan si analis menperoleh pemahaman yang
dalam dan lebih intuitif mengenai data dan dapat bekerja sebaik mungkin
pada data mining.
• Data mining memperbolehkan si analis memfokuskan pola2 dan trend2 tertentu dan menjelajahi ke dalam menggunakan visualisasi.