Normalisasi Distribusi Data

Sebagai tugas akhir mata kuliah Komputasi Paralel, kelompok saya (terdiri atas 3 orang) berencana membuat program paralel untuk penghitungan yang ada kaitannya dengan normalisasi data. Ide ini lahir dari kawan ketika tadi malam ngumpul bareng di kosan dia. Nah, sebelum beranjak lebih lanjut, ada baiknya saya corat-coret dulu mengenai normalisasi data.

Apa itu normalisasi data?

Normalisasi merupakan cara transformasi data agar distribusinya menjadi normal. Jadi, data yang perlu dilakukan normalisasi harus dipastikan bahwa memang datanya belum berdistribusi normal. Distribusi normal itu secara sederhana digambarkan dalam kurva distribusi bentuknya cenderung seperti lonceng simetris. Tidak skew alias melenceng atau miring ke kiri atau ke kanan. Demikian pula kurtosisnya, kurva gambar lonceng yang terlalu gemuk atau kurus juga mengindikasikan ditribusinya tidak normal. Jadi, dikatakan distribusi normal jika skewness = 0 dan kurtosis = 0. Tentang skewness dan kurtosis, sebagai ilustrasi saya tampilkan gambar berikut dari sumber lain:


Gambar: courtesy of http://www.advisor.ca

 

Manfaatnya apa?

Manfaat normalisasi terkait dengan uji analisis statistik parametrik. Pada umumnya, analisis statistik parametrik seperti ANOVA dan regresi linear mensyaratkan distribusi datanya normal. Kalau datanya tidak normal, jelas tidak bisa dilakukan analisis-analisis tersebut.

Bagaimana melakukan normalisasi?

Normalisasi bisa dilakukan dengan dua langkah. Pertama, lakukan pembersihan data. Periksalah, apakah ada data yang outlier (di luar kewajaran, ekstrim kiri atau kanan). Misalnya data tinggi anak usia sekolah dasar di Kota Bandung, ada data satu siswa yang tingginya 175 cm.. Jelas outlier itu, walau kemungkinan kejadian di dunia nyata benar-benar ada. Tapi mungkin satu per sekian juta kasus…

Kedua, bila langkah pertama tidak juga menghasilkan distribusi yang normal, bolehlah kita melakukan transformasi data. Transformasi di sini berarti kita mengubah semua data, tidak terkecuali untuk menjaga perbedaan antar data relatif tetap. Ada empat jenis transformasi yang dikenal, yaitu:

  1. Transformasi log
    Digunakan untuk menormalisasi distribusi data yang memiliki Positive Skew (banyak data yang nilainya di bawah nilai median sehingga tail atau ekor alias kaki kurva lonceng lebih panjang ke sebelah kanan)
  2. Transformasi square root (akar kuadrat)
    Untuk menormalisasi distribusi data dengan Positive Skew
  3. Transformasi resiprokal
    Cocok dipakai pada distribusi data dengan  Positive Skew
  4. Tranformasi reverse score
    Untuk data yang distribusinya Negative Skew

InsyaAllah untuk tugas kelompok, akan kami ambil salah satunya saja… Semoga rampung Sabtu nanti. Amiiin..

Referensi:

Pos ini dipublikasikan di Akademik dan tag , , . Tandai permalink.

Satu Balasan ke Normalisasi Distribusi Data

  1. Ellen mariana berkata:

    kalau tujuan dari distribusi normalisasi apa ?

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s