Showing posts with label visualisasi data. Show all posts
Showing posts with label visualisasi data. Show all posts
Monday, May 25, 2020
Konsep Berkomunikasi dengan Data

Konsep Berkomunikasi dengan Data

Pada Preattentive Attributes yang kita pelajari sebelumnya kita telah belajar bagaimana memusatkan perhatian audiens terhadap informasi yang kita berikan. Namun, untuk membuat visualisasi kita lebih menarik maka kita memerlukan beberapa fundamental desain. Oleh karena itu setidaknya mari kita berpikir sebagai desainer.
Pada bagian ini kita akan belajar bagaimana cara berpikir sebagai seorang desainer dan bagaimana konsep desain tradisional dapat diterapkan untuk berkomunikasi dengan data. Terdapat 4 poin utama dalam desain yang akan kita bahas yaitu affordancesaccessibilityaesthetics, dan acceptance. Seorang desainer dapat membedakan mana desain yang baik dan tidak dengan membiasakan diri dengan beberapa aspek umum dan contoh-contoh desain yang ada. Kita akan belajar dan menanamkan kepercayaan diri pada insting visual dengan mempelajari beberapa tips untuk diikuti dan disesuaikan ketika hal-hal dirasa kurang tepat pada sebuah visual.

Affordances

Dalam istilah desain, semua benda memiliki fungsinya masing-masing. Seperti halnya ketika kita melihat tombol, kita tahu bahwa guna mengaktifkan tombol, kita perlu menekannya. Karakteristik ini menunjukkan bagaimana objek harus berinteraksi. Nah bagaimana kita menerapkan konsep affordances ke dalam visualisasi data?

Highlight hal yang penting

Pada pembelajaran sebelumnya kita mengetahui bagaimana menggunakan preattentive attributes untuk menarik perhatian audiens. Ada beberapa hal cara highlighting yaitu:
  • Bold/italic/underline : Biasanya digunakan untuk judul, caption, ataupun kata pendek yang membedakan elemen. Bold umumnya lebih disukai daripada huruf miring dan garis bawah karena menambah sedikit kebisingan pada desain sambil secara jelas menyoroti elemen yang dipilih.
  • CASE : Kita bisa menggunakan huruf kapital untuk menarik perhatian dari audiens karena huruf kapital mudah untuk dipindai oleh mata.
  • Color : efektif bila digunakan bersamaan dengan teknik highlighting lainnya. Karena menambahkan nilai estetika dan menarik perhatian audiens.
  • Inversing Element : Cara ini sangat menarik perhatian mata, namun beberapa orang tidak nyaman ketika melihat inversing.
  • Size : Hal ini paling biasa kita lakukan untuk membedakan mana judul, sub-judul, atau lainnya yang juga merupakan sinyal untuk memberitahu hal yang harus difokuskan audiens.
Ketika kita memiliki hal yang sangat penting dan ingin kita tampilkan maka kita bisa memberikan bold, memperbesar ukuran font, atau bahkan mewarnainya.
20200417185342b4fccb1a1a7ce380ef55c6d5133beaf7.jpeg
2020041718535817bfd388a5649c83356ab84328259a20.jpeg
Perhatikan gambar di atas dan bagaimana ia membawa fokus audiens terhadap hal yang ingin ia sampaikan. Tentu kita fokus melihat Bachelor’s degree or more karena warna mencolok. Sementara bagian kirinya tidak mencolok dengan warna standar abu-abu. Sampai di sini, paham? Highlighting memberikan sinyal yang jelas ke mana kita harus memusatkan perhatian kita.

Eliminasi distraksi

Ketika kita melihat tulisan di kertas yang bernoda maka kita akan ikut melihat noda di kertas tersebut. Tapi apakah noda tersebut merupakan hal yang harusnya kita lihat? Bandingkan dengan kita melihat tulisan di atas kertas putih bersih. Maka kita akan langsung fokus pada tulisan tersebut. Dalam sebuah bukunya Antoine de Saint‐Exupery berkata “Anda tahu Anda telah mencapai kesempurnaan, bukan ketika Anda tidak memiliki apa-apa lagi untuk ditambahkan, tetapi ketika Anda tidak memiliki apa pun untuk diambil”. Oleh karena itu kita butuh untuk mengeliminasi distraksi dari grafik kita. Beberapa hal yang bisa membantu kita dalam mengeliminasi distraksi.
  • Tidak semua data setara informasinya. Seperti clutter yang kita pelajari pada modul sebelumnya maka informasi tersebut bisa dihilangkan.
  • Ketika detail tidak dibutuhkan maka rangkumlah. Mungkin menurut kita detail itu penting, tapi apakah audiens perlu dan akan membaca semua detail tersebut?
  • Tanya diri sendiri, apabila kita hapus sesuatu apakah merubah informasinya? Apabila jawabannya tidak, maka Anda dapat menghapusnya. Jangan biarkan rasa estetika ataupun rasa “sebaiknya harus ada” menghalangi kita untuk menghapus data tersebut.
  • Ketika tidak terlalu penting namun dibutuhkan, samarkan dengan warna latar. Gunakan ilmu preattentive attributes mu dan gunakan warna abu-abu untuk menyamarkannya.
20200417185534d129e00b7fe58953d1ed1aafba98910a.jpeg
Banyak hal yang kita ubah pada grafik tersebut. Seperti yang kita tahu bahwa grafik garis lebih mudah memperlihatkan tren waktu. Kita juga mengurangi informasi dengan merubah 25 bar menjadi 4 garis. Kita juga dapat melihat perbedaan secara lebih jelas karena hanya perlu melihat dalam satu garis vertikal. Karena yang kita ingin tunjukan adalah perbandingan dan perbandingannya sudah jelas terlihat, kita tidak memerlukan bentuk desimal.

Accessibility

Konsep ini membicarakan bahwa desain seharusnya bisa digunakan oleh orang dari berbagai latar belakang atau kemampuan. Apakah termasuk penyandang disabilitas? Ya, disabilitas juga termasuk. Namun hal yang dimaksud lebih luas. Apabila kita seorang sarjana ekonomi, maka hasil analisis dan visual yang kita buat harus dapat dimengerti orang yang bukan sarjana ekonomi. Ada beberapa hal yang dapat membantu Anda mendapatkan Accessibility.

Jangan mempersulit sesuatu

Ketika kita membuat sebuah visual terkadang kita ingin menampilkan sesuatu yang unik dan beda dari yang lain. Contohnya kita membuat presentasi dengan font huruf sambung atau untuk alasan estetika kamu memperkecil teks agar terlihat rapi. Hal tersebut akan menyulitkan audiens dalam menyerap informasi dari visualisasi yang Anda buat. Beberapa hal yang perlu Anda ingat yaitu:
  • Gunakan font yang tegas dan mudah dibaca oleh orang lain;
  • Bersihkan dari setiap clutter dan buat visualisasi data kita sesuai dengan visual affordances;
  • Gunakan bahasa yang umum dan to the point;
  • Simplicity is the best.

Teks adalah temanmu

Teks membantu kita dalam mengkomunikasikan visualisasi sehingga dapat dimengerti audiens. Anda selalu bisa menggunakan teks sebagai penjelasan suatu visual. Mulai dari judul, deskripsi, atau bahkan memanfaatkan teknik highlighting pada sebuah teks.
20200417185829e54e242e4dfd9bd7d85f265cc37e565d.jpeg
2020041718584437c5ab3b8b3612de24900a8510325dd0.jpeg
Seperti gambar di atas kita dapat menunjukan pemahaman dari grafik dengan menambahkan teks. Gambar pertama merupakan grafik yang bagus, tapi apa maksud dari grafik tersebut? Ketika sebuah grafik belum dapat menyampaikan maksud kita, maka tambahkanlah teks pada grafik kita seperti halnya gambar kedua.

Aesthetics

Estetika mungkin terlihat berlawanan dengan apa yang disampaikan pada pembelajaran sebelumnya. Namun, yang dimaksud dengan estetika di sini bukanlah menambahkan sesuatu sehingga membuat visual lebih menarik. Tapi bagaimana kita membuat pilihan warnaspacingalignment, dan layout menjadi satu kesatuan yang menarik. Apakah estetika itu penting? Ya tentu saja, seperti kebiasaan kita apabila melihat sesuatu yang kurang menarik atau tidak indah maka kita cenderung memberikan kesan negatif walaupun belum mengerti secara lebih detail.
20200417190015a46cf00d0ba5ecf4ddf763ea8faec5bd.jpeg
20200417190029407ceeb0cfd5d11870cadbbf30af8e18.jpeg
Lihat kedua gambar di atas. Pada gambar pertama kita melihat penggunaan banyak warna yang sangat mencolok sehingga mengurangi nilai estetika. Bahkan alignment yang tidak rata, kotak merah yang menunjukan persentase, dan memiliki warna yang sama dengan salah satu elemen lainnya. Pada gambar kedua kita merapikan beberapa hal mulai dari pemilihan warna, menghilangkan garis-garis, dan perbaikan alignment. Dengan adanya sedikit perubahan sedemikian rupa, tampilan visual jadi jauh lebih baik.

Acceptance

Agar suatu desain menjadi efektif, ia harus diterima oleh audiens yang dituju. Pepatah desain ini juga berguna dalam visualisasi data. Seperti contohnya jika kita memilih visual yang kompleks maka tidak dapat diterima oleh audiens karena sulit dipahami maksud visualisasinya. Beberapa hal yang dapat kita gunakan untuk meningkatkan penerimaan visual oleh audiens. 
  1. Mengartikulasikan manfaat dari pendekatan baru atau berbeda. Kadang-kadang jika kita transparan pada audiens tentang kenapa hal-hal terlihat berbeda, akan membantu audiens mereka merasa lebih nyaman. Apakah ada pengamatan baru dan lebih baik dengan melihat data dengan cara yang berbeda? Atau apa manfaat lain yang dapat Anda artikulasikan untuk membantu meyakinkan audiens Anda terbuka terhadap perubahan?
  2. Tes A/B. Pasangan pendekatan awal dan pendekatan baru dengan menunjukkan sebelum dan sesudah serta menjelaskan mengapa kita ingin mengubah cara kita melihat sesuatu.
  3. Siapkan beberapa opsi desain untuk Anda bandingkan.

Cara Menghilangkan Elemen yang Rumit pada Visualisasi Data


Bayangkan halaman kosong atau layar kosong. Kemudian, tiap elemen yang Anda tambahkan ke halaman atau layar tersebut pasti memerlukan waktu untuk kita pahami. Dengan kata lain, penambahan elemen membutuhkan kekuatan otak untuk memproses. Oleh karena itu, kita perlu membuat elemen visual terlihat rapi. Secara umum, identifikasilah dan hapuslah elemen yang kurang efektif.


Cognitive Lead (Beban Kognitif)

Apa itu beban kognitif? Sederhananya, usaha kognitif kita dalam mempelajari informasi baru. Ketika kita meminta komputer untuk melakukan pekerjaan, kita mengandalkan kekuatan pemrosesan komputer. Ketika kita meminta audiens untuk menyerap informasi, kita mengoptimalkan pola berpikir mereka untuk memproses hal tersebut. Ini disebut dengan beban kognitif. Otak manusia memiliki kekuatan untuk pemrosesan yang terbatas. Sebagai desainer informasi, kita harus membuat audiens mudah memahami data yang kita sampaikan. Jika audiens membutuhkan waktu lama untuk memahami data yang kita sampaikan, maka kita harus memperbaiki persepsi visual data yang kita buat.
Hal yang sangat penting ketika menyangkut komunikasi visual adalah usaha audiens untuk mencerna informasi. Seberapa sulit bagi mereka untuk percaya bahwa informasi dapat diserap dari apa yang kita sampaikan.

Kerumitan

Salah satu penyebab utama yang menimbulkan cognitive lead yang berlebihan adalah sebuah kerumitan atau disebut juga dengan clutterClutter merupakan elemen visual yang tidak menambah pemahaman. Terdapat alasan sederhana mengapa kita berusaha untuk mereduksinya. Mungkin tanpa kita sadari sebuah clutter dalam komunikasi visual dapat menyebabkan informasi kurang ideal sehingga berdampak pada  pengalaman tidak nyaman bagi audiens saat membacanya. Ketika visual terlihat rumit, kita membuat audiens membuang banyak waktu untuk memahami tampilan data. Sehingga kita dapat kehilangan kesempatan menyampaikan informasi pada audiens dengan efektif

Prinsip Gestalt dalam Persepsi Visual


Ketika mengidentifikasi elemen informasi yang mungkin masih terlihat berantakan dalam visualisasi, pertimbangkan prinsip gestalt dalam persepsi visual. 

Gestalt merupakan sebuah teori yang menyatakan bahwa seseorang cenderung mengelompokkan sesuatu yang dilihat menjadi satu kesatuan utuh berdasarkan pola, hubungan, dan kemiripan. Berikut enam prinsip gestalt dalam persepsi visual yang akan kita pelajari: proximity, similarity, enclosure, closure, continuity, and connection.

Proximity (Kedekatan)

Kita cenderung berpikir bahwa objek yang berdekatan secara fisik termasuk pada golongan yang sama. Kita akan melihat titik-titik sebagai tiga kelompok terpisah akibat kedekatan relatif satu sama lain, contohnya seperti di bawah ini:20200417183146fa9f17fa8d93369f949771dc7259964d.png

Similarity (Kesamaan)

Objek yang memiliki warna, bentuk, ukuran, dan arah yang sama dianggap terkait atau termasuk bagian dari suatu kelompok. Kesamaan ini dapat membantu menarik perhatian audiens ke arah yang ingin kita fokuskan.
20200417183116ea873dc1580efe959608487925f540af.jpeg

Enclosure (Pembeda)

Kita berpikir objek-objek yang memiliki batas secara fisik termasuk dalam sebuah kelompok. Salah satu cara untuk mengoptimalkan prinsip enclosure adalah menggambar visual pembeda dalam data kita. Seperti menambahkan area berbayang untuk memisahkan prediksi dengan data yang aktual di bawah ini:
2020041718321942df8e0e5d35eb7cc03e409e6a9bbe2f.jpeg


Closure (Bentuk Tertutup)

Konsep closure berkata bahwa orang-orang menyukai hal sederhana dan sesuai dengan konstruksi yang ada di pikiran mereka. Karena hal ini orang-orang cenderung melihat elemen individu sebagai elemen-elemen tunggal atau sesuatu yang dapat dikenali. Sehingga elemen tersebut terlihat solid dan terlihat seimbang. Misalnya penggambaran grafik masih terbaca dengan baik sehingga tidak perlu ditambahkan garis tepi atau bayangan.
2020041718324583a36f13696bb6b9e328dabbaa8071f9.jpeg

Continuity (Kesinambungan Pola)

Prinsip continuity mirip dengan closure. Ketika melihat objek, mata kita mencari garis tepi dan secara alami membuat kelanjutan dari apa yang kita lihat meskipun kelanjutannya tidak terlihat secara eksplisit. Contohnya dapat dilihat pada gambar di bawah ini. Penerapan prinsip ini menghilangkan garis sumbu-y vertikal. Maka kita tetap melihat gambar batang yang berbaris di titik yang sama karena konsistensi jarak antara label di kiri dan data di kanan. Seperti apa yang kita lihat di prinsip closure dalam aplikasi, membuang elemen yang tidak dibutuhkan dapat membuat data kita lebih menonjol.
202004171833190ba3e826a146d2af06dd06177fe3ad9f.jpeg

Connection (Koneksi)

Prinsip terakhir yang akan kita bahas adalah connection. Kita cenderung memikirkan objek yang secara fisik terhubung sebagai bagian dari grup. Koneksi biasanya memiliki nilai asosiatif yang lebih kuat daripada warna, ukuran, atau bentuk yang serupa. Properti connection tidak sekuat enclosure tetapi dapat mempengaruhi hubungan ini melalui ketebalan dan pewarnaan untuk menciptakan hirarki visual yang diinginkan.
Salah satu cara yang bisa kita manfaatkan untuk prinsip koneksi adalah grafik garis yang bertujuan untuk membantu mata kita melihat susunan data seperti pada gambar di bawah ini.
2020041718340535fb8175f0b9728572848378beed04e9.jpeg
Berdasarkan penjelasan di atas kita dapat mengetahui bahwa prinsip gestalt membantu kita memahami bagaimana orang melihat dan mengidentifikasi elemen yang tidak diperlukan untuk mempermudah proses komunikasi visual

Cara Bercerita dengan Data


Pada modul sebelumnya kita telah mempelajari tentang jenis data, diagram, dan lain-lain. Sekarang saatnya kita mulai menyatukan hal-hal yang telah kita pelajari dari awal sampai akhir. 

Semua hasil analisa pasti memiliki tujuan, baik itu untuk memberikan insight maupun meyakinkan orang lain untuk mengambil sebuah keputusan dengan diperkuat oleh hasil analisis kita. Tujuan utama dari modul ini adalah membantu Anda menyampaikan hasil visualisasi yang mendukung hipotesa Anda pada orang lain. Sehingga, kita pun dapat mencapai tujuan penyampaian data tersebut.

Exploratory vs Explanatory

Masih ingatkan poin penting yang telah kita pelajari pada modul sebelumnya, bahwa sebelum memulai analisis, kita harus tahu konteks dari data yang ingin kita olah?  Exploratory Data Analysis adalah hal yang akan kita lakukan untuk memahami data apa yang ingin diketahui dan menarik bagi audiens. Kita dapat memulai dengan hipotesis/pertanyaan atau dengan menggali data guna menentukan apa yang mungkin menarik atau bahkan berdampak besar pada proses penyampaian data.
Setelah mengetahui hal yang ingin kita sampaikan, kita akan mulai berbicara tentang explanatory. Explanatory merupakan cara kita untuk menceritakan sebuah hasil analisis secara terstruktur dan mudah dimengerti oleh audiens kita.
Saat memulai explanatory analysis, ada beberapa hal yang harus diperhatikan. Sebelum menganalisis data atau membuat suatu konten, jawab 3 pertanyaan ini dulu:

Kepada siapa kita berkomunikasi?

Hal ini sangat penting agar kita paham bagaimana mengomunikasikan hasil yang didapatkan. Dengan tahu audiens, kita bisa memilih bagaimana berbicara dan bertindak saat menyampaikan informasi, tergantung siapa lawan bicara. Contohnya, bicara kepada teman ataupun orang tua, beda kan?
  • Audiens
    Semakin spesifik kita tahu siapa audiens kita, semakin besar potensi komunikasi kita sukses. Sehingga kita harus menghindari penyampaian data yang terlalu general. Kita juga perlu mengetahui kebutuhan informasi seperti apa yang ingin diketahui audiens. Berkomunikasi dengan terlalu banyak orang dengan kebutuhan berbeda sekaligus, cenderung tak tetap sasaran. Ini justru membuat kita kurang efektif dalam usaha untuk penyampaian informasi. Persempit target audiens, maka hasilnya akan lebih efektif.    
  • Diri sendiri
    Penting kita mengetahui hubungan kita dengan audiens, apakah mereka sudah mengenal kita? Apakah mereka menganggap kita sebagai ahli dan setiap hal yang kita sampaikan bisa dipercaya? Ini merupakan sebuah acuan untuk menyusun cara komunikasi kita, hal yang disampaikan, dan kapan harus menggunakan data. Hal ini dapat memengaruhi alur keseluruhan cerita yang ingin kita sampaikan.

Hal apa yang ingin diketahui audiens?

Kita harus mengetahui dengan jelas apa yang ingin diketahui oleh audiens sehingga kita dapat menentukan cara kita berkomunikasi untuk menyampaikan data secara efektif.
  • Action
    Bagaimana membuat informasi yang kita sampaikan bisa relevan untuk audiens? Ini penting agar audiens dapat memahami dengan jelas dan menyimak serius hal yang kita sampaikan.
    Pernahkah kita berpikir bahwa audiens bisa lebih tahu daripada kita? Terkadang asumsi tersebut muncul. Tapi sebaiknya hapus pemikiran seperti itu. Jika kita adalah orang yang menganalisis dan mengkomunikasikan data, maka kita harus percaya bahwa kita yang ahli dalam bidang ini. Bahkan kita dapat melakukan interaksi dengan audiens untuk meningkatkan engagement rate atau mengurangi rasa gugup kita saat menyampaikan data tersebut.
  • Mechanism
    Metode yang kita gunakan untuk berkomunikasi dengan audiens memiliki peran penting dalam sejumlah faktor, termasuk jumlah kontrol yang kita miliki atas bagaimana audiens memperoleh informasi dan tingkat detail yang perlu lebih dijelaskan.

    Pada proses presentasi langsung, kita dapat menanggapi audiens jika terdapat hal yang kurang jelas. Tidak semua yang kita sampaikan harus ditulis secara detail pada slide presentasi karena kita ada di sana untuk menjelaskan dan menjawab setiap pertanyaan yang muncul selama presentasi.

    Lain halnya ketika hanya menuliskan hasil analisis dalam bentuk dokumen. Jika pada presentasi langsung kita dapat mengendalikan audiens yang kurang paham, maka hal tersebut tidak efektif jika bentuk informasinya berupa dokumen. Tingkat detail yang diperlukan pada penulisan dokumen biasanya lebih tinggi. Hal tersebut diakibatkan karena kita tidak ada di sana untuk menanggapi atau melihat ekspresi kebingungan audiens saat menemui bagian yang kurang jelas. Maka dari itu kita harus menentukan terlebih dahulu: apakah data disajikan secara langsung atau dalam bentuk tulisan dokumen.
  • Tone
    Pertimbangan penting lainnya adalah nada penyampaian pada  audiens. Apakah kita ingin menyampaikannya dengan ceria, memotivasi, atau serius? Nada yang kita inginkan untuk komunikasi akan memiliki pengaruh pada pilihan desain yang akan digunakan untuk membuat proses visualisasi data.

Bagaimana kita bisa menggunakan data untuk membantu menegaskan maksud kita?

Setelah kita menjawab pertanyaan di atas, barulah kita membahas data apa yang akan membantu membuat menjadi poin penting sehingga mendukung penyampaian kita. Dari sini kita akan mengeksplorasi data yang kita miliki dan memilih data yang dapat membantu menegaskan informasi penting yang ingin kita sampaikan.
Contohnya:
  • Siapa : Ketua panitia dapat menyetujui pendanaan untuk kelanjutan acara musik tahunan.
  • Apa : Ketua panitia menyetujui untuk melakukan acara musik tahunan.
  • How : Menggambarkan pendapat dan dampak yang dihasilkan oleh acara musik tersebut dan membandingkannya dengan acara-acara lainnya

Pentingnya Dokumentasi Data


Definisi di atas memperjelas bahwa kepercayaan, kredibilitas, dan reproduksibilitas terhadap sebuah data yang ada, dapat didasari oleh dokumentasi sumber data yang sesuai. 


Dalam sebuah penelitian, pengguna data tidak serta merta dapat menjadi pembuat data. Orang yang membuat data dapat; 1) mengonfigurasikan instrumen atau simulasi dari mengumpulkan data primer, atau 2) menerapkan metodologi dan proses tertentu guna mengekstraksi, mengubah, dan menganalisis data masukan demi menghasilkan sebuah produk data keluaran.
Metadata merupakan bagian penting dari data yang dipublikasi untuk menentukan kualitas, kredibilitas, reprodusibilitas hasil (terukur), serta menentukan apakah data dapat digunakan kembali atau tidak (reusable).

Mengelola Sumber Data

Provenance dapat dicatat dalam jenis metadata tentang sebuah data. Banyak bidang metadata yang dapat dikumpulkan dalam kategori informasi asalnya, misalnya tanggal pembuatan, pemilik, perangkat lunak atau tools lain yang digunakan, metode pemrosesan data, dan lain sebagainya. Dengan demikian, pengelolaan dan manajemen data yang baik menjadi dasar dari dokumentasi data yang akurat.
Salah satu usaha dan pendekatan yang mungkin Anda familiar adalah blockchain dalam supply-chain management, mari simak video berikut:
Bayangkan bahwa metadata adalah lokasi ikan ditangkap, nelayan yang menangkapnya, kapan ikan tersebut ditangkap, dan sebagainya. Sementara data adalah ikan itu sendiri.
Pendekatan yang dapat dilakukan dalam mendapatkan sebuah dokumentasi data sebagai berikut:
  • Dicatat dalam bentuk teks, bisa menggunakan skema penulisan umum atau bisa juga dengan skema khusus dalam data provenance.
  • Dicatat dan disimpan secara internal menggunakan program perangkat lunak atau dalam sistem eksternal lainnya.
  • Dituliskan dalam bentuk yang dapat dibaca oleh mesin atau yang bisa dibaca oleh manusia.
Bentuk sederhananya, sebuah sumber dicatat dan disimpan dalam sebuah berkas  berjudul README yang di dalamnya menjelaskan tentang pengumpulan data dan metode pemrosesan. Data sumber juga dapat dicatat dengan lebih terstruktur menggunakan elemen-elemen spesifik dalam standar metadata seperti Dublin Core, hingga standar disiplin metadata khusus seperti ISO 19115-2 . Untuk lebih memperjelas contoh bentuk penulisan dokumentasi data, simak uraian berikut ini:
  • Berkas README
    Pernah menemui berkas readme? Berkas readme biasanya berupa text (.txt) dan sering kita temui dalam paket instalasi perangkat lunak, kode pemrograman, kumpulan data, dan bisa juga ditemui dalam proyek penelitian. Tentunya dalam proyek penelitian sebuah berkas readme harus memuat daftar berkas yang digunakan dalam dataset, rujukan informasi yang relevan, serta berkas lain yang menunjang penelitian seperti artikel, karya ilmiah, atau slide presentasi. Untuk template penulisan readme, cek tautan Guide to writing readme ini.
  • Data Dictionaries
    20200415112541876b1569d40937be47752584930c0a89.jpeg 
    Data dictionaries atau kamus data berisi informasi kunci tentang data yang Anda kumpulkan. Ia digunakan untuk menjelaskan suatu bagian tertentu dalam dataset, misal menjelaskan arti dari nama sebuah variabel, kegunaan, deskripsi, dan lain sebagainya. Kamus data biasanya digunakan pada data tabular atau sebuah database. Contoh dari data dictionaries dapat di simak di tautan example data dictionaries.
  • Data Paper
    20200415112559d8d78708deb91e5bcafbb8c06f048e27.jpeg
    Berbeda dengan paper penelitian biasa, dalam data paper cenderung menyajikan dataset yang lebih besar disertai dengan metadata yang menggambarkan isi, konteks, kualitas, hingga struktur dari data tersebut. Contoh data paper dapat Anda lihat di tautan Scientific Data.

Tools Dokumentasi Data

Dalam proses dokumentasi data pastinya kita memerlukan sebuah tools supaya lebih mudah dan efisien. Berikut beberapa hal yang dapat Anda lakukan.

Pergunakan Buku Catatan

Cara tradisional yang dapat diterapkan adalah dengan buku catatan. Kita dapat menggunakan catatan sebagai alat untuk mencatat sumber data yang kita peroleh. Namun, jika berbicara tentang data pasti tidak jauh dengan angka dan terkadang terdiri dari banyak digit. Sehingga jika data yang dicatat dalam jumlah yang besar maka rentan salah. Kita dapat menggunakan buku catatan untuk mencatat poin-poin pentingnya untuk meminimalisir kesalahan.

Gunakan Alur Ilmiah yang Terstruktur

Nah di sini lah kita dapat memanfaatkan alur terstruktur yang terdiri dari pencatatan, eksekusi, pemrosesan, dan urutan secara ilmiah. Hal tersebut penting supaya pembaca paham sumber asal dan teori yang mendukung dokumentasi data buatan kita. Data provenance adalah konsep yang penting dalam sebuah alur ilmiah. Selain itu data provenance juga memungkinkan para peneliti untuk memahami asal data, mengembangkan eksperimen, dan melakukan validasi terhadap proses untuk memperoleh suatu data.
Alur tersebut dapat dirancang dalam bentuk grafis secara berurutan berdasarkan tugas yang diberikan. Sehingga tugas baru yang dimasukkan dapat mengambil masukan dari tugas sebelumnya dan data yang didapatkan dari luar. Supaya alur kerja dapat digunakan kembali di masa mendatang maka informasi yang dicatat dapat menunjukkan dari mana data berasal, bagaimana proses data tersebut diubah, dan komponen apa saja yang mendukung di dalamnya. Hal tersebut dapat memungkinkan peneliti lainnya untuk melakukan eksperimen lebih lanjut dan merevisi apabila terdapat hal yang kurang tepat dari data tersebut.

Log dan Blockchain

Jika bekerja sendiri, Anda dapat melakukan logging, atau menggunakan tools bantuan (docs, spreadsheet) yang memiliki kemampuan untuk memperlihatkan histori. Anda yang bekerja dengan tools modern mungkin mengenal istilah logging atau auditing. Anda dapat memanfaatkan log aplikasi untuk mencatat perubahan pada Data.
Pada pasar perdagangan dunia, pencatatan ini dapat dilakukan melalui shared ledger yang diterapkan pada blockchain. Setiap stakeholder akan memiliki salinan dari setiap kejadian yang tercatat, termasuk perubahan-perubahan yang terjadi pada data tersebut. 

Tips Dokumentasi Data

  1. Tautan ke data sumber asli harus  jelas. Sebutkan dari mana Anda mendapatkannya. Ini sangat penting untuk menunjukkan sumber supaya dataset terlihat kuat dan dapat dipercaya.
  2. Penjelasan setiap perubahan data yang Anda lakukan harus dituliskan dengan terperinci. Ini krusial bagi  Anda sendiri atau orang lain yang ingin memeriksa data Anda

Apa itu Dokumentasi Data?


Pernahkah mendengar istilah dokumentasi data? Dokumentasi data atau yang sering disebut dengan data provenance adalah sebuah langkah untuk melihat sumber data yang kita peroleh. Kata provenance sendiri berasal dari bahasa perancis provenir yang berarti “berasal” atau dalam istilah juga disebut silsilah. 

Dalam konsep sejarah seni, kata provenance sering digunakan dalam dokumentasi sebuah karya seni sehingga setiap detailnya tetap tercatat. Misalnya kapan pertama kali sebuah karya seni diciptakan dari sisi ide, eksekusi, hingga akhirnya menjadi yang dapat kita nikmati saat ini. 
Contoh lainnya, coba bayangkan Anda berperan sebagai seorang Data Scientist. Anda mendapatkan sebuah dataset yang siap untuk dianalisis. Anda tidak tahu data ini berasal dari mana, bagaimana validitasnya, apakah ia akan berubah selama proses pengerjaan Anda, dan sebagainya. Gawat kan? Padahal dokumentasi data ini penting untuk mengetahui keabsahan data dan memungkinkan kita menggunakannya kembali di waktu yang lain.
W3C Provenance Incubator Group menjelaskan tentang dokumentasi data sebagai berikut:
“a record that describes entities and processes involved in producing and delivering or otherwise influencing that resource. Provenance provides a critical foundation for assessing authenticity, enabling trust, and allowing reproducibility. Provenance assertions are a form of contextual metadata and can themselves become important records with their own provenance.”
Terdengar rumit? Baiklah. Berikut ini contoh sebuah penggambaran dokumentasi data yang ditunjukkan dalam sebuah metadata.
20200415111156eccc5b94c1893e6cab12243818924ff4.jpeg
Contoh data provenance di atas didapat dari website kaggle. Pada gambar di atas terlihat dokumentasi yang menyertakan sumber data, metodologi pembuatan data, dan juga pemilik dari dataset. Berikut contoh lain dari dokumentasi data yang familiar bagi Anda.
20200415111156602278bd47814103a7a8325a83f3a005.jpeg
Tampilan di atas merupakan version history dari berkas Google Spreadsheet. Semua perubahan data tercatat mulai dari tanggal hingga nama orang yang melakukan perubahan. Version history ini dapat Anda temukan saat klik bagian berikut:
20200415111419130a0dfa1c32687dbdba7f6d95f5f2df.jpeg 
Untuk dapat kembali ke penulisan sebelumnya kita dapat melakukan restore version dengan memilih dari riwayat penulisan dan klik Restore this version.
20200415111452c24cd60a851b1bc7293d2243a6964010.jpeg

Menggambarkan Kuantitatif Data ke Bentuk Diagram


Untuk penggunaan grafik secara lebih rinci akan kita bahas pada pembelajaran selanjutnya. Diharapkan pada pembelajaran kali ini setidaknya Anda bisa mengetahui struktur data yang dapat digunakan untuk membuat grafik-grafik tersebut. Nah kini, setelah teori, tak lengkap rasanya tanpa latihan. Pada bagian kali ini kita akan belajar untuk membuat data ke dalam sebuah grafik menggunakan Google Sheet. Jenis grafik dalam Google Sheet bisa dikombinasikan dengan jenis model lainnya. Misalnya, diagram batang dapat dikombinasikan dengan diagram garis. Namun, penerapannya juga harus sesuai dan tidak dipaksakan supaya data dapat mudah dipahami.

Oke, dalam latihan ini kita akan menggunakan data kamar Airbnb yang disewakan di New York yang bisa diunduh melalui Kaggle.
Dataset: New York City Airbnb
Deskripsi: Sejak 2008, para tamu dan tuan rumah telah menggunakan Airbnb untuk memperluas kesempatan travelling dan menghadirkan cara yang lebih unik dan personal untuk mengalami dunia. Dataset ini menjelaskan aktivitas cantuman dan metrik di NYC, New York untuk 2019.
Tools: Google Sheet
Untuk mengunduh data dari Kaggle harus memiliki akun Kaggle terlebih dahulu.
Untuk menggunakan Google Sheet harus memiliki akun Gmail terlebih dahulu.

Langkah 1: Persiapan

Pastikan semua tools dan data sudah dipersiapkan. Setelah semua siap, maka buat Google Sheet baru.
202004141645398b04d5dbad1506c0b6be48b835eda3e0.jpeg
Data yang kita unduh sebelumnya memiliki ekstensi .zip, oleh karena itu kita perlu untuk unzipped file tersebut. Untuk memasukkan data dari komputer ke Google Sheet, klik File → Import dan pilih/taruh berkas yang ingin dimasukkan.
20200414164612f1bb0a5737cccc199cd98bbe0209c40c.jpeg
Unggah berkas AB_NYC_2019.csv dari data yang telah kita ekstrak dan masukkan konfigurasi seperti gambar di bawah. Setelah itu klik Import data. Sheet akan terisi dengan data dari berkas yang kita unggah.
20200414164758e961294a5f2bad1ead1867979d2242e7.jpeg
Sheet akan terisi dengan data dari berkas yang kita unggah seperti berikut:
2020041416484720c7f5179040346d62ffb9ada84873bd.jpeg

Langkah 2: Visualisasi

Preparasi data dan semua data sudah berhasil ditampilkan, bukan? Sekarang saatnya kita mulai membuat visualisasi data-data tersebut. Caranya sangat mudah, kita tinggal memilih kolom dan baris mana yang ingin kita visualisasikan. Nah sebelum kita memilih kolom dan baris untuk divisualisasikan, kita perlu memahami maksud dari data tersebut. Mulailah dari deskripsi secara global data sampai dengan arti kolom dan isinya. Pertama kita mengetahui bahwa data ini merupakan data kamar Airbnb yang disewakan. Namun apa sajakah arti tiap kolom pada data tersebut?
  • Id : Identifier unik untuk tiap tempat sewa
  • Name : Nama tempat
  • Host_id : Identifier penyedia kamar/tempat
  • Host_name : Nama penyedia kamar/tempat
  • Neighbourhood_group : Kelompok lingkungan dari tempat tinggal yang disediakan host, merupakan pengelompokan dari neighbourhood
  • Neighbourhood : Nama dari lingkungan tempat tinggal yang disediakan host
  • Latitude & longitude : Garis lintang dan garis bujur dari tempat tinggal yang disediakan
  • Room_type : Tipe kamar yang disediakan
  • Price : Harga sewa per malam
  • Minimum_nights : Minimal sewa per malam
  • Number_of_reviews : Jumlah ulasan oleh pelanggan
  • Last_review : Tanggal review terakhir
  • Reviews_per_month : Rasio banyaknya ulasan perbulan
  • Calculated_host_listings_count : Jumlah daftar per host
  • Availability_365 : Beberapa hari ketika daftar tersedia untuk pemesanan
Atau untuk lebih mengetahui deskripsi data, lihatlah di sini. Setelah kita mengetahui maksud dari kolom dan isian data tersebut kita mulai dapat membuat pertanyaan pada diri sendiri, sebagai contohnya “Saya ingin melihat perbandingan rata-rata harga tiap tipe kamar.”
Dari sana kita tahu bahwa kolom yang kita gunakan adalah room_type dan price dengan menggunakan semua baris. Untuk mulai membuat visualisasi klik kolom I (room_type) dan J (price) dengan menekan shift, maka akan tampil seperti gambar di bawah ini
20200414170832dfeafdd9af31068367a3b84255007383.jpeg
Pemilihan data bisa digunakan dengan membuat pivot table, dari tabel tersebut kita dapat memilih baris dan kolom yang diinginkan untuk membuat visualisasi.
Setelah data yang dibutuhkan telah dipilih, kita dapat memvisualisasikan dengan klik Insert → Chart.
20200414170952ab42d01a0847ede76eebbb6fd2ab2fe4.jpeg 
Secara standar grafik yang pertama terbentuk adalah Grafik kolom dengan X Axis adalah room_type dan Y Axis adalah sum (penjumlahan) dari price.
20200414171015048d3ec2a10ce5392ab3b7d269f2c307.jpeg
Nah bisa kita lihat bahwa grafik yang terbentuk tidak rapi. Terlalu banyak data poin pada X Axis. Hal tersebut dikarenakan kita tidak melakukan grouping atau pengelompokan. Oleh karena itu silakan a ceklis tombol Aggregate untuk melakukan agregasi terhadap room_type yang sama. Maka visualisasi akan berubah seperti gambar di bawah ini.
20200414171037eab5e86e5e2a9a8729b6584c741106d4.jpeg 
Untuk merubah jenis grafik yang diinginkan dan sesuai dengan jenis data yang kita pilih, klik Chart type pada Chart editor. Misalnya jika kita ingin merubah tampilan grafik menjadi bentuk Grafik Pie, cukup klik bentuk Grafik Pie yang kita inginkan.
2020041417113955f9a7fa24eda0ccee29f9aa98695116.jpeg 
Lalu grafik sebelumnya akan berubah seperti di bawah ini.
20200414171201fc6b2346af831733553ab32e14504636.jpeg
Perlu diingat bahwa nilai Y Axis di sini masih menggunakan nilai awal yaitu sum. Untuk merubah menjadi rata-rata kita dapat dengan mengklik seperti gambar di bawah dan menggantinya menjadi average.
20200414172047d94b56af4d927fa297b85315a50395c0.jpeg
Sehingga hasil grafiknya seperti berikut.
202004141721418c0417ab54655274566d0496723b7a88.jpeg
Nah hal yang perlu diperhatikan adalah setiap tipe grafik masing-masing memiliki kebutuhan data yang berbeda-beda. Seperti halnya pada grafik kolom sebelumnya, data yang dibutuhkan ada X Axis dan Y Axis. Sementara itu pada bentuk grafik kolom kombo area, Y Axis dapat dimasukkan oleh beberapa data lainnya sebagai perbandingan seperti gambar di bawah ini.
20200414172817a27634052afa33fc4eace66297f7fbfc.jpeg
20200414172834c969d4c0a6970c99070ee24940082ba3.jpeg
Untuk melakukan styling pada font, legend, warna, dan lainnya, lakukan konfigurasi sesuai jenis grafik yang kita pilih pada bagian Customize. Setelah mengetahui itu semua ini saatnya Anda mencoba sendiri dan pelajari terus potensi-potensi yang ada untuk membuat grafik yang lebih kompleks dan lebih mudah dipahami.
20200414172900babb7b197f2737a3b69172d64d74bbe0.jpeg

Kesalahan Umum dalam Visualisasi Data


Sudahkah Anda menerapkan visualisasi data dalam menyajikan data? Kita telah sepakat bahwa visualisasi data memudahkan audiens dalam memahami data yang kita presentasikan. Namun, apakah metode visualisasi data dapat selalu menyampaikan informasinya dengan efektif?

Visualisasi akan efektif jika dibuat dengan mematuhi kaidah yang ditentukan. Namun, terkadang penerapan visualisasi data dilakukan dengan cara yang sebaliknya: tak tepat dan tak patuh pedoman. Sehingga penerapan visualisasi data kadang berujung pada output data yang membingungkan, ambigu. Alhasil, alih-alih membuat paham, audiens jadi meragukan kebenaran data. 
Karena itulah, Anda perlu tahu dan hindari beberapa kesalahan umum yang sering dilakukan dalam membuat visualisasi data. Berikut ini penjelasannya:

Nilai Persentase Tidak Sesuai

20200415090714238572920fedd514d2167888c12e75b1.jpeg
Menurut Anda, adakah yang salah dari diagram lingkaran di atas? Jika Anda mengatakan “Ya, ada yang salah” itu sudah tepat. Alasannya, total nilai persentase yang ditunjukkan dari diagram sebesar 98% atau kurang dari 100%. Selain itu ada juga kesalahan lainnya yaitu besar / porsi irisan lingkaran Small Companies (42%) lebih besar daripada Large Companies (56%). Karena 42 itu lebih kecil dari 56, maka besar porsi potongan lingkarannya pun seharusnya lebih kecil, bukan sebaliknya. 
Perhatikan bahwa penulisan persentase dan besar porsi irisan yang merepresentasikan data, harus tepat. Jika menggunakan satuan persen maka total data yang disajikan totalnya harus 100%. Apabila menggunakan satuan derajat maka data yang disajikan totalnya harus 360 derajat. Sehingga dari diagram di atas jika datanya sudah tepat maka bisa menjadi seperti berikut:
20200415090846744fe3411589d67618be86d8eae7087f.jpeg
Besar porsi irisan juga harus sesuai dengan nilai datanya. Jangan pula menampilkan terlalu banyak irisan yang bisa berujung bias, contohnya di bawah ini:
20200415101235892dbb5eb3aaccc50697b06effd14d91.jpeg 
Pasti Anda akan sulit untuk membaca informasi dari diagram lingkaran di atas. Sulit untuk membedakan data mana yang lebih besar dibandingkan lainnya. Memang idealnya irisan diagram lingkaran tak lebih dari empat irisan supaya perpotongan irisannya terlihat jelas. Sehingga kita tahu data mana yang lebih besar atau lebih kecil. 
Lalu bagaimana kalau data yang ingin ditulis berjumlah enam? Sebagai contoh Anda dapat menggambarkannya seperti di bawah ini:
202004151013133057983af5b1a294d8baccc4bcc15e96.jpeg
“Lainnya” merupakan data hobi yang dihimpun selain sepak bola, bulu tangkis, dan basket. Bisa jadi ada menulis, membaca, dan lain sebagainya.  
Namun, menulis “lainnya” saja tidak cukup. Anda perlu tambahkan keterangan: kategori lainnya itu berisi hobi apa saja? Jika data yang dibutuhkan sangat banyak misal lebih dari 100 data, maka kita perlu menuliskan data hobi ini dalam bentuk tabel saja, bukan diagram lingkaran.

Terlalu Banyak Data

Kita telah mengetahui tujuan visualisasi data adalah membuat sebuah data yang kompleks menjadi lebih mudah dipahami dengan bentuk visual. Namun, bagaimana jika sebaliknya?
Ini dapat terjadi jika kita “maksa” untuk memasukkan semua data yang berjumlah besar. Hasilnya  tidak efektif dan tentu membingungkan pembaca. Contohnya perhatikan gambar di bawah ini:
20200415101723980923be5e333ad3316bb93c37760868.jpeg
Begitu banyak data yang dimasukkan dalam diagram lingkaran di atas, bukan? 
Sebagai pembaca, kita sulit bahkan tak bisa menangkap informasi apa yang ingin disampaikan oleh diagram tersebut. Seperti diulas pada poin sebelumnya bahwa apabila menggunakan diagram lingkaran, paling efektif gunakan 4 irisan data saja. Apabila banyak sekali data seperti gambar di atas, maka sebaiknya tuliskan data Anda dalam bentuk tabel saja. Hal tersebut berlaku juga untuk semua jenis diagram.

Tidak Mengikuti Standar Penulisan

2020041510173683b3a6d083498595b254100e07571ed5.jpeg
Apabila Anda melihat grafik di atas, bagaimana tren data yang menunjukkan angka pembunuhan menggunakan senjata api di Florida? Sekilas tidak ada yang salah tetapi coba perhatikan kembali sumbu Y. Nilai yang ditunjukkan, terbalik. Angka 0 berada di atas sebagai nilai minimum dan angka 1000 sebagai nilai minimum berada di bawah. Hal tersebut sudah tidak sesuai dengan standar umum penulisan karena umumnya sumbu Y dimulai dari nilai minimum berada di bawah dan semakin ke atas semakin naik nilainya.
Tentu saja ini berpengaruh bagi pembaca informasi karena bisa menimbulkan salah persepsi. Mereka akan mengira bahwa trennya turun padahal dari 2005 hingga 2007 menunjukkan kenaikan apabila sumbu Y tidak terbalik. Jadi, usahakan dalam pembuatan sumbu X maupun Y gunakanlah standar penulisan umum yang berlaku.

Terdapat Sumbu yang Terpotong

Nilai pada suatu sumbu sangat penting kaitannya dengan data yang ditampilkan dalam sebuah diagram. Jika penerapannya kurang tepat maka memicu bias bagi pembacanya. Sebagai contoh, lihatlah gambar di bawah ini:
20200415110130421046001b074951aa7f661eb1306e5b.jpeg
Ada “diskon” alias potongan pada sumbu Y sehingga langsung dimulai dari 34, bukan 0. Akibatnya, pembaca dapat menyimpulkan terdapat  kesenjangan potongan pajak yang tinggi antara 1 Januari 2013 dan saat berita tersebut rilis. Padahal nilainya hanya 35% versus 39% sehingga seharusnya tampilan kedua diagram batang tak begitu berbeda tingginya. Di sini kita jadi paham bahwa setiap data pada sumbu Y mutlak harus dimulai dari 0 agar menghindari bias dan salah interpretasi data.

Penggunaan Grafik 3D yang Kurang Sesuai

Pasti kita ingin visualisasi data kita terlihat keren kan? Saat terselip di benak kita untuk menggunakan skema 3 dimensi dalam visualisasi, segeralah cari alternatif lain. Tahukah Anda mengapa penggunaan jenis diagram 3 dimensi kurang disarankan dalam visualisasi data? Dapat memudahkan pembaca dalam memahami data dan tidak terjadi bias supaya tidak menimbulkan perbedaan persepsi tentang data yang disajikan. Contohnya dapat Anda lihat di bawah ini:
2020041511042333a3d46735644233f2509eceea7d02f0.jpeg
Selain penggunaan 3D yang menyebabkan bias, diagram batang di atas juga tidak menuliskan nilai dari sumbu Y dan sumbu X. Pembaca akan kebingungan dan sulit memahami maksud dari informasi yang tersaji.

Susah Dibandingkan

EWVWGIcWBLfyXgC9aCIOJAffSX04SJUITJKzrhgxlIOEr3XN4DXCpdlIxX71EJEuEkiw36O6fhFUNFY2EanWESwf6fkljeNdfgpB80Xm6AQgysQsxRP24gH6kFx0s2G7X-I3KBBf
Visualisasi data bertujuan untuk memudahkan kita membandingkan data yang ada. Namun, contoh di atas menunjukkan sebaliknya. Perbandingan dari setiap data, sulit dipahami. Selain karena menggunakan jenis diagram 3D, tiap diagram lingkaran yang dibuat juga mengandung terlalu banyak data. Seharusnya kita dapat menggunakan jenis diagram lainnya untuk membandingkan atau melihat tren dari beberapa kategori misalnya diagram batang atau diagram garis.
Untuk memahami contoh lainnya mengenai kesalahan dalam visualisasi data, cek di  https://viz.wtf/