Senin, 06 September 2021

DATA WAREHOUSE

 DATA WAREHOUSING & ON-LINE ANALYTICAL PROCESSING

“Data warehouse adalah sebuah subject-oriented, yang terpadu, taime-varian, dan merupakan kumpulan data non volatile dalam mendukung proses pengambilan keputusan bagi manajemen.”

-W. H. Inmon-

Data warehouse merupakan metode dalam perancangan database, yang menunjang DSS (KEPUTUSAN Sistem Support) dan EIS (Executive Information System). Secara fisik, data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam desain database tradisional menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara terbaik.


DATA WAREHOUSE - SUBJECT ORIENTED

 ▸ Diorganisir disekitar subyek utama, seperti pelanggan, produk, penjualan 

 ▸ Fokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada operasional sehari-hari atau pengolahan transaksi 

 ▸ Memberikan pandangan sederhana dan ringkas sekitar isu-isu topik tertentu dengan mengecualikan data yang tidak berguna dalam proses pendukung keputusan

DATA WAREHOUSE - INTEGRATED

▸ Dibangun dengan mengintegrasikan beberapa sumber data yang heterogen

▸ Menerapkan teknik Data cleaning dan data integration.

DATA WAREHOUSE - TIME VARIANT 

▸ Horison waktu untuk data warehouse secara signifikan lebih lama dibandingkan dengan sistem operasional 

     ▸ Operational database: nilai data saat ini 

     ▸ Data warehouse data: memberikan informasi dari perspektif historis (misalnya, 5-10 tahun) 

 ▸ Point penting dalam data warehouse 

     ▸ Mengandung unsur waktu, secara eksplisit maupun implisit 

     ▸ Tetapi key dari data operasional dapat memiliki “elemen waktu” atau tidak 

DATA WAREHOUSE - NON VOLATILE

▸ Data yg sudah diubah isimpan terpisah secara fisik dari lingkundan operasional

 ▸ Update data operasional tidak terjadi dalam lingkungan data warehouse 

     ▸ Tidak memerlukan proses transaksi, recovery, dan mekanisme kontrol concurrency 

     ▸ Hanya membutuhkan dua operasi dalam akses data: 

         ▸ loading data awal dan akses data


OLTP VS. OLAP


MENGAPA DATA WAREHOUSE TERPISAH?

    1. High performance for both systems
  • DBMS-disetel untuk OLTP: metode akses, pengindeksan, kontrol konkurensi, recovery
  • Warehouse-disetel untuk OLAP: OLAP query yang kompleks, View multidimensi, konsolidas
    2. Perbedaan Fungsi dan Perbedaan Data:

  • missing data : pendukung keputusan memerlukan data historis yang operasional DBs tidak biasanya mempertahankan
  •  data consolidation: DS membutuhkan konsolidasi (agregasi, summarization) data dari sumber yang heterogen
  •  data quality: sumber yang berbeda biasanya menggunakan representasi konsisten data, kode dan format yang harus direkonsiliasi
    3.  Catatan: Saat ini banyak sistem yang dapat melakukan analisis OLAP langsung pada database                 relasional 

DATA WAREHOUSE: ARSITEKTUR MULTI-TIERED



MODEL DATA WAREHOUSE

 ▸ Enterprise warehouse 

     ▸ mengumpulkan semua informasi tentang subjek yang mencakup seluruh organisasi

 ▸ Data Mart 

     ▸ subset dari data coorporate-wide yang bernilai untuk grup pengguna tertentu. Jangkauannya dibatasi pada hal yang spesifik, kelompok yang dipilih, seperti pemasaran Data mart 

         ▸ Independent vs. dependent (directly from warehouse) data mart 

 ▸ Virtual warehouse 

     ▸ Sekumpulan tampilan/view atas database operasional 

     ▸ Hanya beberapa tampilan ringkasan yang mungkin dapat terwujud

EXTRACTION, TRANSFORMATION, LOADING

 ▸ Data extraction : mendapatkan data dari berbagai sumber, heterogen, maupun eksternal

 ▸ Data cleaning : mendeteksi kesalahan dalam data dan mengoreksikannya apabila memungkinkan 

 ▸ Data transformation : mengkonversi dari data legacy atau format awal ke format Warehouse

 ▸ Load : menyortir, meringkas, konsolidasi, compute views, memeriksa integritas, dan membangun indeks dan partisi

 ▸ Refresh : menyebarkan update dari sumber data ke warehouse 

METADATA REPOSITORY

▸ Meta data merupakan data yang mendefinisikan obyek Warehouse. 

▸ Deskripsi struktur data warehouse

▸ Operasional meta-data

▸ Algoritma yang digunakan untuk summarization 

▸ Pemetaan dari lingkungan operasional ke data warehouse 

▸ Data yang terkait dengan kinerja sistem

▸ Bisnis data

TABEL & SPREADSHEETS KE DATA CUBES 

▸ Data warehouse didasarkan pada model data multidimensi yang memandang data dalam bentuk data cube

 ▸ Data Cube, seperti penjualan, memungkinkan data yang akan dimodelkan dan dilihat dalam berbagai dimensi

     ▸ Tabel Dimensi, sepert item (nama_item, merek, type), atau waktu(hari, minggu, bulan, kuartal, tahun)

     ▸ Tabel fakta berisi pengukuran (seperti dolar dijual) dan kunci untuk masing-masing tabel dimensi yang terkait

 ▸ Dalam literatur data warehousing, nD base cube disebut kubus dasar. Paling atas 0-D cuboid, yang memegang ringkasan tingkat tertinggi, disebut apex cuboid. Kisi-kisi dari cuboid membentuk data cube


CUBE 

    CUBE : KISI KISI DARI CUBOIDS


PEMODELAN KONSEPTUAL DATA WAREHOUSE
Dimensi & Ukuran 
 ▸ Star schema: Sebuah tabel fakta di bagian tengah terhubung dengan sekumpulan tabel dimensi 
 ▸ Snowflake schema: Sebuah penyempurnaan skema bintang di mana beberapa hirarki dimensi dinormalkan menjadi serangkaian tabel dimensi yang lebih kecil, membentuk bentuk yang mirip dengan kepingan salju 
▸ Fact constellations: Beberapa Tabel fakta berbagi dengan (share) tabel dimensi, dipandang sebagai kumpulan bintang, karena itu disebut Galaxy schema atau fact constellation  

        CONTOH STAR SCHEMA


        CONTOH SKEMA SNOWFLAKE
 
  

        CONTOH FACT CONSTELLATIONS
  


KONSEP HIRARKI: DIMENSI (LOKASI)

Tidak ada komentar:

Posting Komentar

Apa itu BIOS ? Berikut Pengertian dan Fungsinya

  Pengertian BIOS Apa itu Bios? Berikut Pengertian dan Fungsinya. BIOS (  Basic Input Output System )  adalah sebuah sistem dasar pada sebua...