Cleaning data ditujukan
untuk membersihkan data dari data yang tidak lengkap, tidak jelas dan tidak
konsisten. Hal ini dilakukan untuk menghindari GIGI (garbage In Garbage Out).
Data perlu dibersihkan karna ada kotoran
Kotoran data (garbage) adalah data yang :
- 1. Tidak Lengkap : harusnya terisi tapi tidak terisi , atau isian tidak sempurna .
- 2. Tidak jelas : kode yang diberikan tidak terdapat pada kode yang sah
- 3. Tidak konsisten : Pertanyaan bersarat yang terlanggar , misalnya belum nikah tapi sudah punya anak
- 4. Out of range : lebih besar atau lebih kecil dari batasan normal misalnya , tekanan darah sistolik sampai 900 mmHg , umur ibu 9 tahun sudah hamil
Tujuan cleaning data untuk menghindari GIGO
(Garbage in garbage out )
Cleaning data terbagi 3 tahap :
1.
Cleaning data kategorik
2.
Cleaning data numerik
3.
Cleaning data logikal
contoh
Data yang tidak konsisten
bisa terjadi pada data bersyarat yang terkait antar 1 variabel dengan variabel
lainnya. Misalnya antara keikut sertaan ker-KB dengan pemakaian kontrasepsi.
Responden yang akseptor harus merespon alat kontrasepsi yang dipakainya.
Demikian juga apabila dia tidak akseptor maka harus memberikan alasan kenapa
tidak ber KB. Responden yang ber KB tapi tidak menyebutkan cara ber KB yang ia
lakukan dikatakan tidak konsisten, atau sebaliknya responden yang tidak ber KB
tapi menggunakan salah satu kontrasepsi yang ada juga tidak konsisten.
Pada kasus ini akan
dilakukan cleaning pada 2 kasus :
1. Pada Pemeriksaan kehamilan [pernah] dengan frekuensi
pemeriksaan kehamilan [kali] dan layanan yang didapat pada pemeriksaan pertama
kali [fundus, tensi, ukurtb, tfe dan itt]
2. Keikut sertaan ber KB [akseptor], kontrasepsi yang
dipakai [ksepsi], dan alasan kenapa tidak ber KB [alasan].
Langkah-langkah
mengerjakannya adalah sebagai berikut
KASUS
1 : pernah, kali dan ([fundus,
tensi, ukurtb, tfe dan itt])
1. Buat distribusi frekuensi 7 variabel di atas sekaligus
2. Periksa apakah jumlah yang pernah memeriksakan sudah sama
dengan yang merespon berapa kali pemeriksaan kehamilan dan 5 variabel layanan
pertama kali.
3. Jika terdapat perbedaan angka berarti data tidak
konsisten.
Pemeriksakan
Kehamilan
|
|||||
|
Frequency
|
Percent
|
Valid
Percent
|
Cumulative
Percent
|
|
Valid
|
Pernah
|
3156
|
94.0
|
94.0
|
94.0
|
Tidak
|
200
|
6.0
|
6.0
|
100.0
|
|
Total
|
3356
|
100.0
|
100.0
|
|
Pada output di atas terdapat 3.156
sampel yang menjawab perneah memeriksakan kehamilan, sedangkan pada output
frekuensi pemeriksaan kehamilan ada 3.160 yang memberikan jawaban frekuensi.
Berarti terdapat perbedaan angka sebanyak 4 orang.
Angka yang 4 berarti ada responden
yang tidak pernah memeriksakan kehamilan tapi memberikan jawab berapa kali
diperiksa. Hal ini mustahil ditemukan pada alam nyata. Pada saat mendisain check jika responden yang
tidak pernah memeriksakan kehamilan maka kursor akan jumping ke pertanyaan
berikutnya tanpa melewati frekuensi pemeriksaan kehamilan. Seharusnya responden
yang tidak pernah diperiksa maka frekuensinya akan missing (tidak ada isian).
Frekuensi
Pemeriksakan Kehamilan
|
|||||
|
Frequency
|
Percent
|
Valid
Percent
|
Cumulative
Percent
|
|
Valid
|
1
|
158
|
4.7
|
5.0
|
5.0
|
2
|
350
|
10.4
|
11.1
|
16.1
|
|
3
|
540
|
16.1
|
17.1
|
33.2
|
|
4
|
735
|
21.9
|
23.3
|
56.4
|
|
5
|
394
|
11.7
|
12.5
|
68.9
|
|
6
|
336
|
10.0
|
10.6
|
79.5
|
|
7
|
151
|
4.5
|
4.8
|
84.3
|
|
8
|
114
|
3.4
|
3.6
|
87.9
|
|
9
|
68
|
2.0
|
2.2
|
90.1
|
|
10
|
104
|
3.1
|
3.3
|
93.4
|
|
11
|
62
|
1.8
|
2.0
|
95.3
|
|
12
|
41
|
1.2
|
1.3
|
96.6
|
|
13
|
26
|
.8
|
.8
|
97.4
|
|
14
|
15
|
.4
|
.5
|
97.9
|
|
15
|
15
|
.4
|
.5
|
98.4
|
|
16
|
8
|
.2
|
.3
|
98.6
|
|
17
|
5
|
.1
|
.2
|
98.8
|
|
19
|
1
|
.0
|
.0
|
98.8
|
|
20
|
3
|
.1
|
.1
|
98.9
|
|
21
|
5
|
.1
|
.2
|
99.1
|
|
22
|
2
|
.1
|
.1
|
99.1
|
|
23
|
3
|
.1
|
.1
|
99.2
|
|
31
|
5
|
.1
|
.2
|
99.4
|
|
41
|
10
|
.3
|
.3
|
99.7
|
|
51
|
5
|
.1
|
.2
|
99.9
|
|
61
|
2
|
.1
|
.1
|
99.9
|
|
67
|
1
|
.0
|
.0
|
100.0
|
|
91
|
1
|
.0
|
.0
|
100.0
|
|
Total
|
3160
|
94.2
|
100.0
|
|
|
Missing
|
System
|
196
|
5.8
|
|
|
Total
|
3356
|
100.0
|
|
|
Pertanyaan berikutnya
adalah bagaimana menemukan 4 record yang tidak konsisten tersebut ?
4. Temukan record yang missing (tidak konsisten) tersebut.
Untuk menemukan record yang inkonsisten pada
kasus ini harus dimengerti lebih dahulu kode variabel. Kode untuk variabel
pernah adalah 1=pernah, 2=tidak. Oleh karena ketentuan yang benar semua
responden yang tidak pernah maka frekuensi pemeriksaannya harus missing, maka
tugas kita adalah mencari responden yang tidak pernah tapi frekuensinya terisi.
Perintah SPSS yang dapat digunakan untuk
menemukan record adalah sort (mengurutkan data). Pengurutan data dilakukan
untuk 2 variabel sekaligus (pernah dan kali).
Urutkan variabel pernah dengan sort order descending (agara kode 2, tidak,
terletak di atas) dan variabel kali dengan sort order descending juga agar dari semua yang tidak pernah memeriksakan
kehamilan tapi frekuensinya ada akan terletak paling atas dari urutan data.
Seharusnya responden yang tidak pernah
memeriksakan kehamilan frekuensinya missing, maka pada gambar di atas setelah
disort terlihat 4 record terisi frekuensinya. Inilah data yang dilaporkan tidak
konsisten pada perintah frequencies pada langkah 1 di atas.
5. Lakukan pengecekan pada kuesioner fisik tentang ketidak
konsistenan ini. Jika diperlukan perlu melakukan pegukuran kembali ke objek
ukur.