Normalisasi Distribusi Data

Sebagai tugas akhir mata kuliah Komputasi Paralel, kelompok saya (terdiri atas 3 orang) berencana membuat program paralel untuk penghitungan yang ada kaitannya dengan normalisasi data. Ide ini lahir dari kawan ketika tadi malam ngumpul bareng di kosan dia. Nah, sebelum beranjak lebih lanjut, ada baiknya saya corat-coret dulu mengenai normalisasi data.

Apa itu normalisasi data?

Normalisasi merupakan cara transformasi data agar distribusinya menjadi normal. Jadi, data yang perlu dilakukan normalisasi harus dipastikan bahwa memang datanya belum berdistribusi normal. Distribusi normal itu secara sederhana digambarkan dalam kurva distribusi bentuknya cenderung seperti lonceng simetris. Tidak skew alias melenceng atau miring ke kiri atau ke kanan. Demikian pula kurtosisnya, kurva gambar lonceng yang terlalu gemuk atau kurus juga mengindikasikan ditribusinya tidak normal. Jadi, dikatakan distribusi normal jika skewness = 0 dan kurtosis = 0. Tentang skewness dan kurtosis, sebagai ilustrasi saya tampilkan gambar berikut dari sumber lain:


Gambar: courtesy of http://www.advisor.ca

 

Manfaatnya apa?

Manfaat normalisasi terkait dengan uji analisis statistik parametrik. Pada umumnya, analisis statistik parametrik seperti ANOVA dan regresi linear mensyaratkan distribusi datanya normal. Kalau datanya tidak normal, jelas tidak bisa dilakukan analisis-analisis tersebut.

Bagaimana melakukan normalisasi?

Normalisasi bisa dilakukan dengan dua langkah. Pertama, lakukan pembersihan data. Periksalah, apakah ada data yang outlier (di luar kewajaran, ekstrim kiri atau kanan). Misalnya data tinggi anak usia sekolah dasar di Kota Bandung, ada data satu siswa yang tingginya 175 cm.. Jelas outlier itu, walau kemungkinan kejadian di dunia nyata benar-benar ada. Tapi mungkin satu per sekian juta kasus…

Kedua, bila langkah pertama tidak juga menghasilkan distribusi yang normal, bolehlah kita melakukan transformasi data. Transformasi di sini berarti kita mengubah semua data, tidak terkecuali untuk menjaga perbedaan antar data relatif tetap. Ada empat jenis transformasi yang dikenal, yaitu:

  1. Transformasi log
    Digunakan untuk menormalisasi distribusi data yang memiliki Positive Skew (banyak data yang nilainya di bawah nilai median sehingga tail atau ekor alias kaki kurva lonceng lebih panjang ke sebelah kanan)
  2. Transformasi square root (akar kuadrat)
    Untuk menormalisasi distribusi data dengan Positive Skew
  3. Transformasi resiprokal
    Cocok dipakai pada distribusi data dengan  Positive Skew
  4. Tranformasi reverse score
    Untuk data yang distribusinya Negative Skew

InsyaAllah untuk tugas kelompok, akan kami ambil salah satunya saja… Semoga rampung Sabtu nanti. Amiiin..

Referensi:

Iklan
Pos ini dipublikasikan di Akademik dan tag , , . Tandai permalink.

4 Balasan ke Normalisasi Distribusi Data

  1. Ellen mariana berkata:

    kalau tujuan dari distribusi normalisasi apa ?

    • wisnu berkata:

      Tujuan kita melakukan normalisasi pada sekelompok data ya itu, agar distribusinya normal sehingga dapat dilakukan analisis-analisis lebih lanjut. Bukan begitu?
      Mohon koreksinya…

  2. christina Louisa berkata:

    dapatkah kita melakukan outlier, setelah itu kita melakukan transformasi?? terima kasih

    • wisnu berkata:

      Jika ada data outlier dan dengan pembersihan data sudah cukup (distribusi sudah menjadi normal), tidaklah perlu kita melakukan transformasi segala. Hemat tenaga, pikiran, dan waktu Anda untuk kebaikan-kebaikan yang lain… Hehe…

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google+

You are commenting using your Google+ account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.