Apa yang dimaksud dengan Data Hilang (Missing Data) pada Statistik?

Missing Data

Data hilang (Missing data) adalah suatu kondisi dimana data tidak ada atau data hilang. Dalam pengambilan data penelitian, missing data menjadi hal yang umum terjadi. Apa yang dimaksud dengan data hilang atau missing data pada statistik ?

Data hilang atau Missing Data atau Missing value dapat diartikan sebagai data atau informasi yang “hilang” atau tidak tersedia mengenai subjek penelitian pada variabel tertentu akibat faktor non sampling error.

Faktor non sampling error yang dimaksud adalah interviewer recording error, respondent inability error, dan respondent unwillingness error.

  • Interviewer recording error terjadi akibat kealpaan petugas pengumpul data (pewawancara), misalnya ada sejumlah pertanyaan yang terlewatkan.

  • Respondent inability error terjadi akibat ketidakmampuan responden dalam memberikan jawaban akurat, misalnya karena tidak memahami pertanyaan, bosan atau kelelahan (respondent fatigue) akhirnya responden mengosongkan sejumlah pertanyaan atau berhenti mengisi kuesioner di tengah jalan.

  • Unwillingness respondent error tejadi karena responden tidak berkenan memberikan jawaban yang akurat, misalnya pertanyaan soal penghasilan, usia, berat badan, pengalaman melakukan pelanggaran hukum, dll. Seperti halnya pada respondent inability error, responden bisa mengosongkan jawaban atau menghentikan proses pengisian kuesioner.

Tipe Missing Data


Dalam prosedur statistika modern, untuk data hilang, ketidaklengkapan suatu data di asumsikan mengikuti suatu mekanisme tertentu, Menurut Rubin(1976) tipe data hilang terbagi kedalam tiga tipe, yaitu :

  • Missing at Random (MAR) jika mekanisme data hilang terdistribusi secara acak untuk sebagian unit observasi. Dengan kata lain, Missing at Random (MAR), berarti terjadinya missing data hanya berkaitan dengan variabel respon/pengamatan. Contohnya seseorang yang memiliki rasa waswas yang tinggi cenderung tidak akan melaporkan pendapatan mereka, rasa waswas akan berhubungan pada pelaporan pendapatan. Namun, peluang penderita rasa waswas sendiri untuk melaporkan pendapatan tidak berhubungan dengan tingkat pendapatan, maka data dapat digolongkan dengan MAR. Jika data adalah MCAR atau MAR, dapat dikatakan missingness diabaikan.

  • Missing completely at random (MCAR) jika mekanisme data hilang yang terdistribusi secara acak untuk seluruh unit observasi. Dengak kata lain, Missing Completely at Random (MCAR) yang berarti bahwa terjadinya missing data tidak berkaitan dengan nilai semua variabel, apakah itu variabel dengan missing values atau dengan variabel pengamatan. Hal ini berarti missing data terjadi secara acak.

  • Missing Not at Random (MNAR) mekanisme data hilang yang tidak terdistribusi secara random. Dengan kata lain, Missingness Is Non-Ignorable bahwa terjadinya missing data pada suatu variabel berkaitan dengan variabel itu sendiri, sehingga ini tidak bisa diprediksi dari variabel lain pada suatu dataset.

Sebagai catatan, Missing data pada dasarnya tidak bermasalah bagi keseluruhan data, apalagi jika jumlahnya hanya sedikit, misalnya hanya 1 % dari seluruh data. Namun jika persentase data yang hilang tersebut cukup besar, maka perlu dilakukan pengujian apakah data yang mengandung banyak missing tersebut masih layak diproses lebih lanjut ataukah tidak.

Metode Penanganan Missing Data


Metode dalam menangani misssing data secara umum dapat dilakukan dengan cara berikut ini,

  1. Mengabaikan dan membuang missing data
    Contoh metode yang sering digunakan pada kategori ini adalah metode Listwise deletion dan Pairwaise deletion (Gary dkk, 2000);

  2. Estimasi parameter
    Contohnya algoritma Expectation-Maximization ( EM Algorithm) yang digunakan untuk mengestimasi parameter dari missing data (Dempster dkk, 1976);

  3. Imputasi
    Proses pengisian atau penggantian nilai-nilai yang hilang (missing values) pada sekumpulan data (dataset ) dengan nilai-nilai yang mungkin (plausible values) berdasarkan informasi yang didapatkan pada dataset tersebut (Myrtveit, Stensrud dan Olsson, 2001).

Terdapat berbagai teknik dan cara untuk menduga data tidak lengkap, seperti yang dinyatakan oleh Little & Rubin (1987), penanganan data hilang dapat dilakukan berdasarkan prosedur : amatan lengkap, imputasi, pembobotan dan model.

  1. Prosedur berbasis unit yang lengkap (Case Completely Analysis)

    Pada prosedur ini analisis hanya dilakukan terhadap unit/kasus dimana untuk seluruh variabel nilainya tercatat atau memiliki data yang lengkap. Sedangkan sebanyak n2 cases yang terdapat missing data pada variabel-variabelnya diabaikan, atau dikeluarkan dari analisis. Metode ini cukup memuaskan jika jumlah missing data tidak terlalu besar, tapi prosedur ini menjadi tidak efisien jika persentase missing data (n2/n).100 meningkat atau jika missing data tersebut mengelompok . Hal tersebut akan menyebabkan hasil yang sangat bias. (Ketika pengamatan yang hilang bukan pilihan sepenuhnya acak data (MRAC), analisis CC dapat memberikan estimasi bias dan kesimpulan tidak valid)

  2. Prosedur berbasis Imputasi.

    Imputasi merupakan suatu alternatif yang umum dan fleksibel. Dalam prosedur ini, missing value diisi baik dengan menduga langsung atau menggunakan penduga berbasis korelasi. Namun bagaimanapun metode ini tetap menghasilkan bias, dimana nilai yang diimput berbeda dengan nilai sebenarnya dari missing data. Terdapat beberapa macam pendekatan untuk imputasi ini, antara lain:

    • Hot deck imputation, dimana dari unit-unit yang tercatat disubstitusikan terhadap missing data.

    • Cold deck imputation, dimana missing value diganti oleh suatu nilai yang konstan.

    • Mean imputation, yaitu dimana nilai yang hilang diganti oleh rata-rata (mean) dari kelompok sampel unit terkait.

    • Regression (correlation) imputation, yaitu dimana missing value dari suatu variabel diestimasi menggunakan nilai penduga dari regresi atau korelasi variabel tersebut pada variabel lainnya yang diketahui.

  3. Prosedur Weighting (Pembobotan)

    Pada prosedur ini estimasi biasanya didasarkan pada design weight, yaitu proporsional secara terbalik terhadap peluang pemilihan sampelnya.

  4. Prosedur berbasis Model

    Suatu prosedur yang dibentuk dengan menentukan suatu model sebagian data yang hilang (missing data) tersebut dan selanjutnya melakukan inferensi berbasis pada likelihood dibawah model tersebut. Parameter diestimasi dengan suatu prosedur iteratif maximum likelihood dimulai dengan unit atau cases yang lengkap.

untuk prosedur point 2 berbasis imputasi seperti apa ya? membedakan antar prosedurnya seperti apa ya?