Data Visualisation Basics: วิธีการเลือกใช้กราฟอย่างง่าย พร้อมประเภทกราฟ กรณีการใช้งาน และตัวอย่าง

ในบทความนี้ เราจะมาทำความรู้จักกับการใช้ data visualisation หรือเรียกสั้น ๆ ว่า data viz เบื้องต้นกัน:

  • Data viz คืออะไร?
  • วิธีเลือกและประเภท data viz

ถ้าพร้อมแล้วไปเริ่มกันเลย


  1. Data Viz & Its Values
    1. Anscombe’s Quartet
  2. วิธีเลือกใช้ Data Viz
  3. Data Viz สำหรับ 1 ตัวแปร
    1. (1) Histogram
    2. (2) Box Plot
  4. Data Viz สำหรับ 2 ตัวแปร
    1. (1) Scatter Plot
    2. (2) Line Plot
    3. (3) Bar Plot
    4. (4) Dot Plot
  5. Data Viz สำหรับมากกว่า 2 ตัวแปร
    1. (1) Pair Plot
    2. (2) Heatmap
    3. (3) Parallel Coordinates Plot
  6. Caution: Pie Chart
  7. สรุป
  8. Bonus: เพิ่มตัวแปรใน Data Viz อย่างง่าย ๆ

Data Viz & Its Values

Data viz เป็นการนำเสนอข้อมูล (data หรือ information) ในรูปแบบของ …

  • กราฟ/ชาร์ต (graph/chart)
  • แผนภาพ (diagram)
  • รูปภาพ (picture)

การแปลข้อมูลมาอยู่ในรูปของ data viz มีประโยชน์หลัก ๆ คือ

  1. ช่วยให้เห็น pattern ที่อยู่ในข้อมูลได้ง่ายขึ้น
  2. (ในกรณีที่ใช้ในการนำเสนอข้อมูล) ช่วยให้คนอื่นเข้าใจและจดจำข้อมูลของเราได้ดีขึ้น

Anscombe’s Quartet

ประโยชน์ของ data viz เห็นได้ชัดที่สุด ในตัวอย่างของ Anscombe’s Quartet

ชุดข้อมูล Anscombe’s Quartet

Anscombe’s Quartet เป็นข้อมูล 4 ชุด (แต่ละชุดประกอบด้วยคะแนน x และ y) ที่แตกต่างกัน แต่มีค่าสถิติที่เกือบจะเหมือนกัน เช่น

  • ค่าเฉลี่ย (mean) ของ x และ y
  • ค่าความแปรปวน (variance) ของ x และ y
  • correlation ระหว่าง x และ y

แต่ถ้าเรานำ Anscombe’s Quartet มาทำเป็น data viz ก็จะเห็นว่า ข้อมูลทั้งสี่ชุดแตกต่างกันอย่างชัดเจน

Data viz ของ Anscombe’s Quartet

Anscombe’s Quartet เป็นตัวอย่างที่แสดงให้เห็นว่า data viz สามารถช่วยให้เราทำความเข้าใจข้อมูลได้อย่างง่ายและรวดเร็ว

(ใครที่สนใจข้อมูลชุดนี้ สามารถเข้าดูเพิ่มได้ที่ Google Sheets)


วิธีเลือกใช้ Data Viz

เพื่อใช้งาน data viz ให้เกิดประสิทธิภาพสูงสุด เราควรเลือกใช้งาน data viz ให้ถูกประเภท

โดยปัจจัยที่เราใช้เพื่อเลือก data viz มีอยู่ 2 อย่าง คือ

  1. จำนวนตัวแปร (variable) ที่เราใช้สร้าง data viz
  2. ประเภทของตัวแปร ซึ่งแยกได้เป็น 2 ประเภท ได้แก่
    1. Categorical variable หรือตัวแปรเชิงคุณภาพ เช่น เพศ จังหวัด สกุลเงิน
    2. Continuous variable หรือตัวแปรเชิงปริมาณ เช่น ความสูง น้ำหนัก จำนวนเงิน

เมื่อเราใช้ 2 ปัจจัยนี้ เราจะจัดกลุ่ม data viz ได้ต่อไปดังนี้


Data Viz สำหรับ 1 ตัวแปร

.

(1) Histogram

ประเภทตัวแปร:

Categorical variable

กรณีการใช้งาน:

สำรวจการกระจายตัว (distribution) ของตัวแปร

ตัวอย่าง:

การกระจายตัวของอายุประชาชน

.

(2) Box Plot

ประเภทตัวแปร:

Categorical variable

กรณีการใช้งาน:

  • สำรวจ distribution ของตัวแปร
  • เปรียบเทียบ distribution กับตัวแปรอื่น ๆ

ตัวอย่าง:

ค่าใช้จ่ายรายเดือนของ 5 เมืองใหญ่ในอเมริกา


Data Viz สำหรับ 2 ตัวแปร

.

(1) Scatter Plot

ประเภทตัวแปร:

1 continuous x 1 continuous variable

กรณีการใช้งาน:

สำรวจความสัมพันธ์ระหว่าง 2 ตัวแปร

ตัวอย่าง:

ความสัมพันธ์ระหว่างชั่วโมงเรียนและคะแนนสอบ

.

(2) Line Plot

ประเภทตัวแปร:

1 continuous x 1 continuous variable

กรณีการใช้งาน:

  • สำรวจความสัมพันธ์ระหว่าง 2 ตัวแปร
  • ดู trend การเปลี่ยนแปลงตามเวลา

ตัวอย่าง:

ระดับอุณหภูมิในช่วงเวลา 1 ปี

.

(3) Bar Plot

ประเภทตัวแปร:

1 categorical x 1 continuous variable

กรณีการใช้งาน:

  • นับจำนวนครั้งของ categorical variable
  • ดู percent ของ continuous variable เมื่อแบ่งตาม categorical variable

ตัวอย่าง:

จำนวนกาแฟที่ขายได้ในแต่ละวันของสัปดาห์

.

(4) Dot Plot

ประเภทตัวแปร:

1 categorical x 1 continuous variable

กรณีการใช้งาน:

ดูจำนวน continuous variable เมื่อแบ่งตาม categorical variable

ตัวอย่าง:

จำนวนพนักงานในแต่ละแผนก


Data Viz สำหรับมากกว่า 2 ตัวแปร

.

(1) Pair Plot

จำนวนตัวแปร:

สูงสุด 10 ตัวแปร

ประเภทตัวแปร:

Categorical, continuous variables, หรือผสมก็ได้

กรณีการใช้งาน:

  • ดู distribution ของตัวแปร
  • หาความสัมพันธ์ระหว่างตัวแปร

ตัวอย่าง:

ดูความสัมพันธ์ระหว่างลักษณะต่าง ๆ ของรถยนต์ เช่น แรงม้า น้ำหนัก การกินน้ำมัน

.

(2) Heatmap

ประเภทตัวแปร:

Continuous variables

กรณีการใช้งาน:

หาความสัมพันธ์ระหว่างตัวแปร

ตัวอย่าง:

อุณหภูมิของแต่ละเมืองในแต่ละเดือน

.

(3) Parallel Coordinates Plot

ประเภทตัวแปร:

Continuous variables เท่านั้น

กรณีการใช้งาน:

  • หา pattern ในข้อมูล
  • จับกลุ่ม pattern ในข้อมูล

ตัวอย่าง:

คะแนนสอบนักเรียนในแต่ละวิชา


Caution: Pie Chart

Pie chart เป็น data viz ที่ควรหลีกเลี่ยง เพราะเป็นกราฟที่ตีความได้ยาก

ตัวอย่างเช่น pie chart ที่แสดงสัดส่วนเวลาที่ programmer ใช้ในแต่ละวัน เราจะรู้ได้ยังไงว่า programmer ใช้เวลาไปกับอะไรมากกว่ากัน ระหว่าง Research และ Documentation

จากตัวอย่าง ถ้าเราใช้ bar plot แทน จะเห็นได้ว่า เราทำความเข้าใจข้อมูลได้เร็วกว่า และตอบได้ทันทีว่า programmer ใช้เวลาไปกับ Research และ Documentation เท่า ๆ กัน:

กรณีหลัก ๆ ที่เราจะใช้ pie chart คือ สำรวจสัดส่วนของข้อมูล เช่น ตัวอย่างด้านบน หรือจากยอดขายทั้งหมด สินค้าแต่ละตัวขายได้เป็นกี่เปอร์เซ็นต์

นอกจากนี้ เราไม่ควรใช้ pie chart กับข้อมูลที่มี category มากกว่า 7 เพราะจะทำให้ pie chart อ่านยาก


สรุป

Data viz เป็นเครื่องมือช่วยในการทำความเข้าใจและสื่อสารข้อมูล

โดยการเลือกใช้ data viz ขึ้นอยู่กับ 2 ปัจจัย คือ

  1. จำนวนตัวแปร
  2. ประเภทตัวแปร

เราสามารถใช้ 2 ปัจจัยนี้ สรุปการเลือกใช้ data viz 10 ประเภทได้ดังนี้:

No.Data Vizจำนวนประเภท
1Histogram1Categorical
2Box plot1Categorical
3Scatter plot2All continuous
4Line plot2All continuous
5Bar plot2Categorical x Continuous
6Dot plot2Categorical x Continuous
7Pair plot>2Any
8Heatmap>2Continuous
9Parallel coordinates>2Continuous
10Pie chart1Categorical

Bonus: เพิ่มตัวแปรใน Data Viz อย่างง่าย ๆ

เราสามารถใช้ 4 สิ่งเหล่านี้ เพื่อเพิ่มตัวแปรที่ 3 เข้าไปใน data viz สำหรับ 2 ตัวแปรได้:

  1. สี (colour)
  2. ขนาด (size)
  3. ความโปร่งใส (transparency)
  4. รูปทรง (shape)

มาดูตัวอย่างกัน:

ความสัมพันธ์ระหว่างความพึงพอใจและประสิทธิภาพในการทำงาน โดยแบ่งตามแผนก

1. แบ่งแผนกด้วยสี

2. แบ่งแผนกด้วยขนาด

3. แบ่งแผนกด้วยความโปร่งใส

4. แบ่งแผนกด้วยรูปทรง

Note: จากตัวอย่างเราจะเห็นว่า การใช้สีเป็นวิธีนำเสนอตัวแปรที่สามได้ดีที่สุด ในขณะที่ขนาด ความโปร่งใส และรูปทรง

Comments

Leave a comment