Sepuluh Karakteristik Arsitektur Data Modern


Sepuluh Karakteristik Arsitektur Data Modern – Setiap organisasi yang memproduksi data untuk pengambilan keputusan memikirkan kembali arsitektur datanya. Dan tidak heran. Dibandingkan dengan lima tahun lalu, ada harta karun berupa teknologi dan teknik baru yang menjanjikan untuk mengubah cara organisasi bersaing dan melayani pelanggan.

Sepuluh Karakteristik Arsitektur Data Modern

architetturaorganica – Daripada bereaksi terhadap peristiwa setelah fakta, organisasi modern berbasis data mengantisipasi kebutuhan bisnis dan pergeseran pasar dan bekerja secara proaktif untuk mengoptimalkan hasil. Perusahaan yang tidak merenovasi atau menemukan kembali arsitektur data mereka kehilangan pelanggan, uang, dan pangsa pasar.

Baca Juga : Dari Texas hingga Tel Aviv, Arsitektur Terbaik Dunia Kini Tersedia untuk Tur Digital

Eckerson Group telah menulis dan berkonsultasi secara ekstensif tentang arsitektur data modern. Artikel ini merangkum karakteristik utama arsitektur data modern dan berfungsi sebagai panduan bagi organisasi yang sedang mengembangkan strategi data baru untuk era modern. (Untuk perspektif yang sedikit berbeda, baca apa yang mendorong perusahaan untuk mengadopsi arsitektur data modern dan fitur apa yang paling sering mereka minta.)

Apa itu Arsitektur Data?

Seperti arsitek konvensional yang mendesain rumah atau bangunan, arsitek data membuat cetak biru lingkungan data yang selaras dengan tujuan jangka pendek dan jangka panjang organisasi serta persyaratan budaya dan kontekstualnya yang unik.

Bagi kebanyakan orang, arsitektur data mendefinisikan seperangkat produk dan alat standar yang digunakan organisasi untuk mengelola data. Tapi itu jauh lebih dari itu. Arsitektur data mendefinisikan proses untuk menangkap, mengubah, dan mengirimkan data yang dapat digunakan ke pengguna bisnis.

Yang paling penting, ini mengidentifikasi orang-orang yang akan menggunakan data itu dan persyaratan unik mereka. Arsitektur data yang baik mengalir dari kanan ke kiri: dari konsumen data ke sumber data bukan sebaliknya.

Dari Lama ke Baru. Di masa lalu, organisasi membangun arsitektur data berbasis TI yang cukup statis. Kami menyebutnya gudang data. Karena teknologi dan pola desain yang mendasarinya, sebagian besar gudang data membutuhkan banyak orang untuk membangun dan mengubahnya, memberikan pengembalian investasi yang minimal. Sebagian besar adalah dump data perusahaan yang dimuliakan, meskipun beberapa bernyanyi dengan indah, memberikan harmoni yang kaya dari data dimensi terintegrasi untuk pelaporan dan analisis.

Arsitektur data modern mungkin masih menghadirkan gudang data—idealnya, yang fleksibel, mudah beradaptasi, dan gesit. Tetapi gudang data hanyalah salah satu komponen dari arsitektur data modern atau ekosistem analitik modern , seperti yang beberapa orang menyebutnya. Lingkungan data baru adalah organisme hidup yang bernapas yang mendeteksi dan merespons perubahan, terus belajar dan beradaptasi, dan menyediakan akses yang diatur dan disesuaikan untuk setiap individu.

Versus Platform Data. Selain itu, arsitektur data bukanlah platform data. Yang terakhir mengacu pada mesin dan alat yang melakukan pekerjaan berat untuk memindahkan, membentuk, dan memvalidasi data. Sebuah platform data terdiri dari mesin database yang mendasari (misalnya, relasional, Hadoop, OLAP) yang memproses data serta kerangka perakitan data yang memungkinkan insinyur data dari TI dan bisnis untuk membuat kumpulan data untuk konsumsi bisnis.

“Perakitan data” adalah istilah baru yang saya gunakan yang menggantikan istilah “integrasi data” yang memiliki konotasi IT-centric. Perakitan data memperkuat gagasan bahwa arsitektur data modern adalah usaha kolaboratif antara bisnis dan TI.

Sepuluh Karakteristik

Arsitektur data modern menunjukkan sepuluh karakteristik berikut:

Terpusat pada pelanggan. Alih-alih fokus pada data atau teknologi yang diperlukan untuk mengekstrak, mencerna, mengubah, dan menyajikan informasi, arsitektur data modern dimulai dengan pengguna bisnis dan kebutuhan mereka dan mengalir mundur, seperti yang disebutkan di atas.

Pelanggan dapat berasal dari internal atau eksternal organisasi dan kebutuhan mereka bervariasi menurut peran, departemen, dan dari waktu ke waktu. Arsitektur data yang baik terus berkembang untuk memenuhi kebutuhan informasi pelanggan yang baru dan berubah.

Dapat beradaptasi. Dalam arsitektur data modern, data mengalir seperti air dari sistem sumber ke pengguna bisnis. Tujuan dari arsitektur ini adalah untuk mengelola aliran tersebut dengan membuat serangkaian jalur pipa data yang saling berhubungan dan dua arah yang melayani berbagai kebutuhan bisnis.

Pipeline dibangun menggunakan objek data dasar snapshot data, penambahan data, tampilan data, data referensi, data master, dan tabel berorientasi subjek datar. Objek data berfungsi sebagai blok bangunan yang terus digunakan kembali, digunakan kembali, dan diisi ulang untuk memastikan aliran data berkualitas tinggi dan relevan yang stabil untuk bisnis.

Untuk membuat arsitektur yang dapat beradaptasi di mana data mengalir terus menerus, desainer harus mengotomatisasi semuanya. Mereka harus membuat profil dan memberi tag pada data saat diserap dan memetakannya ke set data dan atribut yang ada—proses yang disebut injeksi metadata—fungsi utama katalog data. Dengan cara yang sama, ia juga harus mendeteksi perubahan dalam skema sumber dan mengidentifikasi dampak perubahan pada objek dan aplikasi hilir. Dalam lingkungan waktu nyata, ia harus mendeteksi anomali dan memberi tahu individu yang sesuai atau memicu peringatan di dasbor operasional.

Arsitektur data yang ideal lebih dari sekadar otomatis; ia menggunakan pembelajaran mesin dan kecerdasan buatan untuk membangun objek data, tabel, tampilan, dan model yang membuat data terus mengalir. Ini menggunakan kecerdasan daripada kekuatan kasar untuk mengidentifikasi tipe data, kunci umum dan jalur gabungan, mengidentifikasi dan memperbaiki kesalahan kualitas data, tabel peta, mengidentifikasi hubungan, merekomendasikan kumpulan data dan analitik terkait, dan sebagainya.

Arsitektur data modern menggunakan kecerdasan untuk mempelajari, menyesuaikan, mengingatkan, dan merekomendasikan, membuat orang yang mengelola dan menggunakan lingkungan menjadi lebih efisien dan efektif.

Arsitektur data modern harus cukup fleksibel untuk mendukung beragam kebutuhan bisnis. Perlu mendukung beberapa jenis pengguna bisnis, operasi beban dan kecepatan refresh (misalnya batch, mini-batch, streaming), operasi query (misalnya, membuat, membaca, memperbarui, menghapus), penyebaran (misalnya, di tempat, cloud publik, private cloud, hybrid), mesin pemrosesan data (misalnya, relasional, OLAP, MapReduce, SQL, grafik, pemetaan, program) dan saluran pipa (misalnya, gudang data, data mart, OLAP cubes, penemuan visual, aplikasi operasional waktu nyata.) Arsitektur data modern harus menjadi segalanya bagi semua orang.

Tidak seperti masa lalu di mana departemen TI membangun segalanya, arsitektur data modern membagi tanggung jawab untuk memperoleh dan mengubah data antara TI dan bisnis. Departemen TI masih melakukan pekerjaan berat dalam menyerap data dari sistem operasional inti dan membuat blok bangunan umum yang dapat digunakan kembali.

Tapi dari sana, unit bisnis mengambil alih (jika mereka memiliki keterampilan, keinginan, dan kebutuhan). Insinyur dan analis data di unit bisnis menggunakan alat penyiapan data dan katalog data untuk membuat kumpulan data khusus yang terdiri dari data perusahaan dan lokal dan menggunakannya untuk membuat dan menjalankan aplikasi unit bisnis. Kolaborasi ini membebaskan TI dari keharusan mengetahui konteks bisnis, yang tidak pernah menjadi kekuatannya.

Ironisnya, tata kelola adalah kunci swalayan. Arsitektur data modern mendefinisikan titik akses untuk setiap jenis pengguna untuk memenuhi kebutuhan informasi mereka. Ini adalah dasar dari laporan 2016 saya Arsitektur Referensi untuk Analisis Layanan Mandiri yang mendefinisikan titik akses untuk empat kelas pengguna bisnis: konsumen data, penjelajah data, analis data, dan ilmuwan data. Misalnya, ilmuwan data perlu diberi akses ke data mentah di area pendaratan atau, lebih baik lagi, kotak pasir yang dibuat khusus di mana mereka dapat mencampur data mentah perusahaan dengan data mereka sendiri.

Seperti pisau cukur Occam, arsitektur paling sederhana adalah arsitektur terbaik. Ini adalah tugas yang berat mengingat keragaman persyaratan dan kompleksitas komponen dalam arsitektur data saat ini.

Untuk menerapkan aturan ini, organisasi dengan data kecil mungkin lebih baik dilayani oleh alat BI dengan lingkungan manajemen data bawaan daripada alat pemrosesan paralel masif (MPP) atau sistem Hadoop. Untuk mengurangi kompleksitas, organisasi harus berusaha untuk membatasi pergerakan data dan duplikasi data dan mengadvokasi platform database yang seragam, kerangka kerja perakitan data, dan platform analitik, terlepas dari lolongan para pendukung terbaik.

Di era data besar dan beban kerja variabel, organisasi memerlukan arsitektur elastis dan skalabel yang beradaptasi dengan perubahan persyaratan pemrosesan data sesuai permintaan. Banyak perusahaan sekarang berbondong-bondong ke platform cloud (baik publik maupun swasta) untuk mendapatkan skalabilitas sesuai permintaan dengan harga terjangkau.

Arsitektur elastis membebaskan administrator dari keharusan mengkalibrasi kapasitas dengan tepat, membatasi penggunaan jika perlu, dan membeli perangkat keras tanpa henti. Elastisitas juga memunculkan banyak jenis aplikasi dan kasus penggunaan, seperti lingkungan pengembangan dan pengujian sesuai permintaan, kotak pasir analitik, dan taman bermain prototipe.

Arsitektur data modern adalah benteng kebebasan—yaitu, memberikan akses siap pakai kepada pengguna yang sah ke data sambil menjaga peretas dan penyusup. Itu juga mematuhi peraturan privasi, termasuk Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA) dan Peraturan Perlindungan Data Umum yang berasal dari Uni Eropa.

Ini dilakukan dengan mengenkripsi data saat menelan, menutupi informasi pengenal pribadi (PII), dan melacak semua elemen data dalam katalog data, termasuk garis keturunan, penggunaan, dan jejak auditnya. Manajemen siklus hidup memastikan setiap objek data memiliki pemilik, lokasi, dan rencana usang.