CSE :)

Loading

Rabu, 25 Desember 2013

Cleaning data


Cleaning data ditujukan untuk membersihkan data dari data yang tidak lengkap, tidak jelas dan tidak konsisten. Hal ini dilakukan untuk menghindari GIGI (garbage In Garbage Out).

Data perlu dibersihkan karna ada kotoran
Kotoran data (garbage) adalah data yang :
  1. 1.       Tidak Lengkap : harusnya terisi tapi tidak terisi , atau isian tidak sempurna .
  2. 2.       Tidak jelas : kode yang diberikan tidak terdapat pada kode yang sah
  3. 3.       Tidak konsisten : Pertanyaan bersarat yang terlanggar , misalnya belum nikah tapi sudah punya anak
  4. 4.       Out of range : lebih besar atau lebih kecil dari batasan normal misalnya , tekanan darah sistolik sampai 900 mmHg , umur ibu 9 tahun sudah hamil


Tujuan cleaning data untuk menghindari GIGO (Garbage in garbage out )
Cleaning data terbagi 3 tahap :
1.       Cleaning data kategorik
2.       Cleaning data numerik
3.       Cleaning data logikal

contoh

Data yang tidak konsisten bisa terjadi pada data bersyarat yang terkait antar 1 variabel dengan variabel lainnya. Misalnya antara keikut sertaan ker-KB dengan pemakaian kontrasepsi. Responden yang akseptor harus merespon alat kontrasepsi yang dipakainya. Demikian juga apabila dia tidak akseptor maka harus memberikan alasan kenapa tidak ber KB. Responden yang ber KB tapi tidak menyebutkan cara ber KB yang ia lakukan dikatakan tidak konsisten, atau sebaliknya responden yang tidak ber KB tapi menggunakan salah satu kontrasepsi yang ada juga tidak konsisten.
Pada kasus ini akan dilakukan cleaning pada 2 kasus :
1. Pada Pemeriksaan kehamilan [pernah] dengan frekuensi pemeriksaan kehamilan [kali] dan layanan yang didapat pada pemeriksaan pertama kali [fundus, tensi, ukurtb, tfe dan itt]
2. Keikut sertaan ber KB [akseptor], kontrasepsi yang dipakai [ksepsi], dan alasan kenapa tidak ber KB [alasan].
Langkah-langkah mengerjakannya adalah sebagai berikut
KASUS 1 : pernah, kali dan ([fundus, tensi, ukurtb, tfe dan itt])
1. Buat distribusi frekuensi 7 variabel di atas sekaligus
2. Periksa apakah jumlah yang pernah memeriksakan sudah sama dengan yang merespon berapa kali pemeriksaan kehamilan dan 5 variabel layanan pertama kali.
3. Jika terdapat perbedaan angka berarti data tidak konsisten.

Pemeriksakan Kehamilan

Frequency
Percent
Valid Percent
Cumulative Percent
Valid
Pernah
3156
94.0
94.0
94.0
Tidak
200
6.0
6.0
100.0
Total
3356
100.0
100.0


Pada output di atas terdapat 3.156 sampel yang menjawab perneah memeriksakan kehamilan, sedangkan pada output frekuensi pemeriksaan kehamilan ada 3.160 yang memberikan jawaban frekuensi. Berarti terdapat perbedaan angka sebanyak 4 orang.
Angka yang 4 berarti ada responden yang tidak pernah memeriksakan kehamilan tapi memberikan jawab berapa kali diperiksa. Hal ini mustahil ditemukan pada alam nyata.  Pada saat mendisain check jika responden yang tidak pernah memeriksakan kehamilan maka kursor akan jumping ke pertanyaan berikutnya tanpa melewati frekuensi pemeriksaan kehamilan. Seharusnya responden yang tidak pernah diperiksa maka frekuensinya akan missing (tidak ada isian).


Frekuensi Pemeriksakan Kehamilan

Frequency
Percent
Valid Percent
Cumulative Percent
Valid
1
158
4.7
5.0
5.0
2
350
10.4
11.1
16.1
3
540
16.1
17.1
33.2
4
735
21.9
23.3
56.4
5
394
11.7
12.5
68.9
6
336
10.0
10.6
79.5
7
151
4.5
4.8
84.3
8
114
3.4
3.6
87.9
9
68
2.0
2.2
90.1
10
104
3.1
3.3
93.4
11
62
1.8
2.0
95.3
12
41
1.2
1.3
96.6
13
26
.8
.8
97.4
14
15
.4
.5
97.9
15
15
.4
.5
98.4
16
8
.2
.3
98.6
17
5
.1
.2
98.8
19
1
.0
.0
98.8
20
3
.1
.1
98.9
21
5
.1
.2
99.1
22
2
.1
.1
99.1
23
3
.1
.1
99.2
31
5
.1
.2
99.4
41
10
.3
.3
99.7
51
5
.1
.2
99.9
61
2
.1
.1
99.9
67
1
.0
.0
100.0
91
1
.0
.0
100.0
Total
3160
94.2
100.0

Missing
System
196
5.8


Total
3356
100.0



Pertanyaan berikutnya adalah bagaimana menemukan 4 record yang tidak konsisten tersebut ?
4. Temukan record yang missing (tidak konsisten) tersebut.
Untuk menemukan record yang inkonsisten pada kasus ini harus dimengerti lebih dahulu kode variabel. Kode untuk variabel pernah adalah 1=pernah, 2=tidak. Oleh karena ketentuan yang benar semua responden yang tidak pernah maka frekuensi pemeriksaannya harus missing, maka tugas kita adalah mencari responden yang tidak pernah tapi frekuensinya terisi.
Perintah SPSS yang dapat digunakan untuk menemukan record adalah sort (mengurutkan data). Pengurutan data dilakukan untuk 2 variabel sekaligus (pernah dan kali).
Urutkan variabel pernah dengan sort order descending (agara kode 2, tidak, terletak di atas) dan variabel kali dengan sort order descending juga agar dari semua yang tidak pernah memeriksakan kehamilan tapi frekuensinya ada akan terletak paling atas dari urutan data.

Seharusnya responden yang tidak pernah memeriksakan kehamilan frekuensinya missing, maka pada gambar di atas setelah disort terlihat 4 record terisi frekuensinya. Inilah data yang dilaporkan tidak konsisten pada perintah frequencies pada langkah 1 di atas.
5. Lakukan pengecekan pada kuesioner fisik tentang ketidak konsistenan ini. Jika diperlukan perlu melakukan pegukuran kembali ke objek ukur.