Apa yang dimaksud dengan Data Cleansing (Data Scrubbing) ?

Pembersihan data atau Data Cleansing adalah proses mendeteksi dan memperbaiki (atau menghapus) data yang rusak atau tidak akurat dengan cara mengatur kembali data-data yang ada pada catatan, tabel, atau basis data.

Apa yang dimaksud dengan Data Cleansing (Data Scrubbing) ?

Data cleansing adalah proses analisa kualitas dari suatu data dengan cara mengubah, mengoreksi, atau menghapus data-data yang salah, tidak lengkap, tidak akurat, atau memiliki format yang salah dalam basis data guna menghasilkan data berkualitas tinggi. Data cleansing juga biasa disebut data cleaning atau data scrubbing.

Data cleansing biasa digunakan dalam sebuah organisasi yang memerlukan data-data intensif seperti perbankan, asuransi, ritel, telekomunikasi, atau transportasi. Dalam organisasi, data cleansing digunakan untuk mengoreksi data-data secara sistematis melalui algoritma sehingga dapat menghemat waktu dan biaya. Proses data cleansing terkadang dilakukan dengan perpaduan antara proses otomatisasi dan proses manual.

Kriteria Kualitas Data


Guna mencapai tujuan utama dilakukannya data cleansing, terdapat beberapa kriteria yang harus dicapai untuk menghasilkan data berkualitas tinggi seperti:

  • Validitas
    Tingkat ketepatan langkah-langkah validasi data yang disesuaikan dengan standar yang telah ditentukan. Suatu basis data yang valid harus dapat memenuhi kriteria seperti tipe data yang jelas, memiliki jangkauan atau kisaran nilai, tidak ada data yang kosong, keunikan setiap data, dan memiliki pola pengekspresian tertentu.

  • Decleansing
    Merupakan proses pendeteksian dan pengoreksian kesalahan dalam data. Dalam praktiknya, decleansing memiliki beberapa langkah dalam penindaklanjutannya seperti mendeteksi kesalahan sintaks (parsing), pengubahan format (data transformation), penghapusan data yang terduplikat (duplicate elimination) dan menganalisa data menggunakan hukum-hukum statistika (statistical method).

  • Akurasi
    Tingkat kesesuaian data dengan kondisi sebenarnya dan tingkat validitas data. Keakurasian data sulit dicapai melalui data cleansing karena perlu akses ke sumber eksternal.

  • Kelengkapan
    Merupakan tingkatan kelengkapan elemen-elemen data. Kelengkapan data juga digunakan untuk mencapai tingkat akurasi data yang tinggi.

  • Konsistensi
    Merupakan tingkat konsistensi data-data yang sama meski dilakukan lebih dari satu perekaman data secara bersamaan.

  • Keseragaman
    Serangkaian data harus memiliki keseragaman dalam basis data, misal satuan ukuran yang digunakan.
    Selain data, terdapat juga kriteria yang harus dicapai dalam proses data cleansing seperti efektivitas dan efisiensi biaya proyek, waktu, keamanan data, dan kontingensi pemrosesan data.

Proses Data Cleansing


Terdapat beberapa langkah dalam mempraktikan data cleansing, antara lain:

  • Audit data
    Data diaudit dengan menggunakan metode statistika dan metode basis data agar anomali dan kontradiksi dalam basis data terdeteksi. Proses ini menentukan penggunaan paket perangkat lunak dan bahasa pemrograman yang akan digunakan untuk membangun basis data yang tepat.

  • Spesifikasi alur kerja
    Penghapusan anomali dan kontradiksi dalam basis data dilakukan pada proses ini. Spesifikasi alur kerja ditentukan setelah proses audit data dilakukan dan proses ini sangat penting dalam menentukan hasil akhir berkualitas tinggi.

  • Eksekusi alur kerja
    Merupakan proses yang dilakukan setelah spesifikasi alur kerja telah lengkap dan kebenarannya diverifikasi. Pelaksanaan eksekusi alur kerja harus efektif dan efisien.

  • Pengendalian dan proses pasca-eksekusi alur kerja
    Proses pengendalian dan pasca-eksekusi alur kerja dilakukan untuk menilai dan mengevaluasi rangkaian proses yang telah dilakukan. Data yang tidak dapat diperbaiki selama pengeksekusian alur kerja dikoreksi secara manual jika memungkinkan. Hasilnya adalah siklus baru dalam proses data cleansing sehingga data tersebut masuk kembali ke proses awal data cleansing.

Referensi

https://en.wikipedia.org/wiki/Data_cleansing
http://searchdatamanagement.techtarget.com/definition/data-scrubbing
https://msdn.microsoft.com/en-us/library/gg524800.aspx