สรุป 10 คอนเซ็ปต์ทางสถิติที่คนทำงานสาย data ควรรู้ จาก 3 คอร์สเรียน stats แนะนำของ Google, DataCamp, และ DataRockie

Statistics เป็น 1 ใน 3 ทักษะที่สำคัญในการทำงานกับ data

(อีก 2 ทักษะ คือ programming และ domain expertise)

โดย statistics ช่วยให้เรา …

  • ค้นพบรูปแบบและความสัมพันธ์ในข้อมูล
  • วิเคราะห์และรับมือกับความไม่แน่นอน (uncertainty)
  • Get insights จาก data
  • ช่วยตัดสินใจเกี่ยวกับอนาคต
  • แก้ปัญหาที่ซับซ้อน

ในบทความนี้ เราจะมาดู 10 statistical concepts ที่คนทำงานสาย data ควรรู้กัน โดยสรุปเนื้อหาจาก 3 คอร์ส data analytics:

ถ้าพร้อมแล้ว มาเริ่มกันเลย


  1. 1️⃣ What Is Statistics?
  2. 2️⃣ Central Tendency
  3. 3️⃣ Spread
  4. 4️⃣ Position
  5. 5️⃣ Probability
  6. 6️⃣ Sampling
  7. 7️⃣ Distributions & Central Limit Theorem (CLT)
  8. 8️⃣ Confidence Interval
  9. 9️⃣ Hypothesis Testing
  10. 🔟 Experimental Designs
  11. 📄 References

1️⃣ What Is Statistics?

👉 Statistics เป็นศาสตร์ของการเก็บรวบรวม (collect) และวิเคราะห์ (analyse) ข้อมูล

เมื่อเราต้องการศึกษา population หรือกลุ่มที่เราสนใจ (เช่น คนไทย) เราต้องเก็บข้อมูลและนำมาวิเคราะห์ เพื่อหาข้อสรุป

แต่เพราะเราไม่สามารถเก็บข้อมูลของ population ได้ทั้งหมด (เช่น เก็บข้อมูลจากคนไทยทั้งประเทศ) ทำให้เราต้องเลือกเก็บข้อมูลจาก sample หรือกลุ่มตัวอย่างที่เป็นตัวแทนของ population แทน

การที่เรามี population และ sample ทำให้เราแบ่ง statistics ได้เป็น 2 สาขา:

No.TypeDescription
1Descriptive statisticsสรุปลักษณะของชุดข้อมูล (sample และ popilation)
2Inferential statisticsอนุมานลักษณะของ population จากลักษณะของ sample

ตัวอย่างหัวข้อของ descriptive statistics:

  • Central tendency
  • Spread
  • Position

ตัวอย่างหัวข้อของ inferential statistics:

  • Confidence level
  • Significance level
  • Hypothesis testing

2️⃣ Central Tendency

👉 Central tendency คือ ค่ากลางของชุดข้อมูล และมี 3 ค่า ได้แก่:

No.MeasureDefinition
1Meanค่าเฉลี่ย (average)
2Medianข้อมูลที่อยู่กลางชุดข้อมูล (middle value)
3Modeข้อมูลที่เกิดขึ้นบ่อยที่สุดในชุดข้อมูล (most frequent value)

Note:

  • Central tendency ที่เรานิยมใช้ คือ mean
  • เราควรใช้ median ในกรณีที่ชุดข้อมูลมี outlier เพราะ mean มีความอ่อนไหวต่อ outlier
  • Mean และ median มีได้ 1 ค่า แต่ mode มีได้มากกว่า 1 ค่า

อ่านเพิ่มเติมเกี่ยวกับ central tendency: บทความจาก Australian Bureau of Statistics


3️⃣ Spread

👉 Spread คือ การวัดความหลากหลายของข้อมูล และมี 4 ค่า ได้แก่:

No.MeasureDefinition
1Rangeค่าความต่างระหว่าง ค่าที่น้อยที่สุด (min) และค่าที่มากที่สุด (max)
2Standard deviation (SD)ค่าความห่างโดยเฉลี่ยระหว่างข้อมูลและ mean ของชุดข้อมูล
3VarianceSD กำลังสอง
4Interquartile rangeค่าความต่างระหว่าง quartile ที่ 1 (Q1) และ quartile ที่ 3 (Q3)

อ่านเพิ่มเติมเกี่ยวกับ spread: บทความจาก Australian Bureau of Statistics


4️⃣ Position

👉 Position หมายถึง ตำแหน่งของข้อมูลในชุดข้อมูล และมี 2 ค่าหลัก ได้แก่:

No.MeasureDefinition
1Percentileระบุตำแหน่งจาก % ข้อมูลที่มีค่าน้อยกว่าข้อมูลนั้น (เช่น ข้อมูลที่ P70 หมายถึง มีข้อมูลที่อยู่ต่ำกว่าข้อมูลนี้ 70%)
2Quartileระบุตำแหน่งโดยแบ่งข้อมูลเป็น 4 ส่วนเท่า ๆ กัน (quartile)

5️⃣ Probability

👉 Probability (ความน่าจะเป็น) คือ การศึกษาความไม่แน่นอน (uncertainty) และแบ่งได้เป็น 2 ประเภทหลัก ตามลักษณะ event (เหตุการณ์) ที่เราสนใจ:

  1. Independent probability
  2. Conditional probability

.

ประเภทที่ 1. Independent probability

👉 Probability ของเหตุการณ์ที่ไม่ขึ้นอยู่กับเหตุการณ์อื่น (independent events) เช่น:

  • การฟังเพลงรัก กับ พระอาทิตย์ขึ้น
  • การดื่มกาแฟ กับ ฝนตก
  • การใส่เสื้อสีฟ้า กับ ราคาหุ้นขึ้น

🧮 วิธีคำนวณ:

P(A) = Outcome A / Total outcomes

  • P(A) คือ probability ของ event A
  • Outcome A คือ จำนวนครั้งที่เกิด event A
  • Total outcomes คือ จำนวนครั้งที่เกิด events ทั้งหมด

.

ประเภทที่ 2. Conditional probability

👉 Probability ของเหตุการณ์ที่ขึ้นอยู่กับเหตุการณ์อื่น (dependent events) เช่น:

  • การสอบเข้ามหาวิทยาลัย กับ การเรียนจบ ป.ตรี (จะเรียนไม่จบ ถ้าไม่ได้สอบ)
  • การซื้อหวย กับ การถูกหวย (จะถูกหวยไม่ได้ ถ้าไม่ได้ซื้อ)
  • การออมเงิน และ การมีเงินหลังเกษียณ (อาจไม่มีเงินใช้ ถ้าไม่ออมเงิน)

🧮 วิธีคำนวณ:

P(A | B) = P(A ∩ B) / P(B)

  • P(A | B) คือ probability ของ event A ถ้าเกิด event B
  • P(A ∩ B) คือ probability ของ event A และ B
  • P(B) คือ probability ของ event B

6️⃣ Sampling

👉 Sampling คือ การสร้าง sample จาก population และมี 2 ประเภท ได้แก่

  1. Non-probability sampling: การสร้าง sample ที่สมาชิกของ population มีโอกาสถูกเลือกไม่เท่ากัน
  2. Probability sampling: การสร้าง sample ที่สมาชิกของ population มีโอกาสถูกเลือกเท่า ๆ กัน

โดยแต่ละประเภทมีประเภทย่อยดังนี้:

.

🍀 Non-probability sampling มี 4 ประเภทย่อย:

No.TypeMeaning
1Voluntary responseกลุ่มตัวอย่างสมัครใจเข้าร่วมเอง
2Convenience samplingกลุ่มตัวอย่างมาจากคนที่เข้าถึงได้ง่าย (เช่น เพื่อน คนในครอบครัว)
3Purposive samplingสร้างกลุ่มตัวอย่างตามเกณฑ์ที่กำหนด (เช่น เลือกคนอายุ 20 ปีเท่านั้น)
4Snowball samplingกลุ่มตัวอย่างที่ได้จากการให้ผู้เข้าร่วมชวนกันต่อเป็นลูกโซ่

.

🍀 Probability sampling มี 4 ประเภทย่อย:

No.TypeMeaning
1Simple random samplingสุ่มกลุ่มตัวอย่างจากประชากรโดยตรง
2Stratified random samplingแบ่งประชากรออกเป็นกลุ่ม ๆ แล้วสุ่มตัวอย่างจากแต่ละกลุ่มตามสัดส่วน
3Cluster random samplingแบ่งประชากรเป็นกลุ่ม ๆ แล้วเลือกสุ่มกลุ่มมาเป็นตัวอย่าง
4Systematic random samplingจัดลำดับสมาชิกแล้วสุ่มเลือกทุก ๆ nth คน เช่น คนที่ 5, 10, 15, …

7️⃣ Distributions & Central Limit Theorem (CLT)

👉 Distribution คือ การกระจายตัวของข้อมูล

แม้ว่า distribution จะมีหลายประเภท แต่มี 2 ประเภท ที่เรามักพบบ่อย ได้แก่:

  1. Normal distribution
  2. Sampling distribution

.

ประเภทที่ 1. Normal distribution

👉 Normal distribution คือ การกระจายตัวแบบระฆังคว่ำ (bell shape) เพราะมีข้อมูลส่วนใหญ่กระจุกตัวอย่างตรงกลาง และกระจายตัวออกด้านข้าง

นอกจากทรงระฆังคว่ำที่เป็นจุดเด่น normal distribution ยังมีลักษณะอื่น ๆ อีก คือ:

  1. สมมาตร (symmetrical)
  2. พื้นที่ใต้กราฟ = 1
  3. หางทั้งสองข้างจะเข้าใกล้ 0 แต่ไม่แตะ 0
  4. เรารู้ว่า ในแต่ละส่วนของ normal distribution มีข้อมูลอยู่กี่เปอร์เซ็นต์:
Zone%
-/+1 SD68
-/+2 SD95
-/+3 SD99

Normal distribution เป็น distribution ที่มีความสำคัญ เพราะ:

  1. เป็น distribution ที่พบได้ทั่วไปในธรรมชาติ เช่น ส่วนสูง ความดันเลือด IQ
  2. เป็นพื้นฐานของการวิเคราะห์ทางสถิติอื่น ๆ เช่น hypothesis testing

.

ประเภทที่ 2. Sampling distribution

👉 Sampling distribution เป็น distribution ที่เกิดจากการเอา mean ของหลาย ๆ samples มาสร้างกราฟ

ยกตัวอย่างเช่น sampling distribution จาก 10 samples, 100 samples, และ 1,000 samples (แต่ละ sample มีขนาด 30 คน):

.

📊 Central limit theorem (CLT)

CLT ระบุว่า ยิ่งเรามี sample มากขึ้นเท่าไร sampling distribution ก็จะยิ่งเหมือน normal distribution เข้าไปเท่านั้น

เราสามารถสังเกตเห็นได้จากตัวอย่างกราฟด้านบน ในขณะที่เราเพิ่ม samples จาก 10 เป็น 100 เป็น 1,000 การกระจายตัวก็ดูเหมือน normal distribution เข้าไปเรื่อย ๆ

ทั้งนี้ CLT จะเป็นจริงได้ ถ้าเงื่อนไข 3 ข้อนี้เป็นจริง:

No.AssumptionDescription
1Randomisationsamples ได้มาจากการสุ่ม
2Independenceการสุ่มแต่ละครั้งไม่ขึ้นกับการสุ่มครั้งก่อน
3Sample sizeกลุ่มตัวอย่างมีขนาดใหญ่พอ (อย่างน้อย 30 ตัวอย่าง ตาม rule of thumb)

8️⃣ Confidence Interval

👉 Confidence interval คือ การประมาณการ (estimate) โดยใช้ช่วง (interval) แทนค่าเดี่ยว ๆ (point)

ยกตัวอย่างเช่น แทนที่เราจะเดาว่า คนคนหนึ่งมีอายุ 20 ปี (point) เราสามารถเดาเป็นช่วงได้ เช่น อายุ 18-22 ปี (interval)

ทั้งนี้ confidence interval ประกอบด้วย 3 ส่วน:

No.ComponentExample
1Sample statisticเรารู้ว่า คนคนนี้อยู่ในกลุ่มคนที่มีค่าเฉลี่ยอายุ 20 ปี
2Margin of errorเราเชื่อว่า อายุจริงของคนคนนี้จะต่างจากค่าเฉลี่ย -/+ 2 ปี
3Confidence levelเราเชื่อว่า การเดาของเรามีโอกาสถูก 95%

Note:

  • 95% เป็น confidence level ที่นิยมใช้มากที่สุด
  • ยิ่ง confidence level สูง, confidence interval ก็ยิ่งกว้าง เพราะต้องมีความครอบคลุมเพิ่ม

9️⃣ Hypothesis Testing

👉 Hypothesis testing คือ การทดสอบว่า สิ่งที่เราเชื่อเกี่ยวกับ population เป็นจริงไหม

ตัวอย่างเช่น:

  • คนไทยมีความสูงเฉลี่ย 170 cm
  • ผู้หญิงทำข้อสอบเลขได้ดีกว่าผู้ชาย
  • กาแฟช่วยให้ทำงานได้ดีขึ้น

.

👉 4 ขั้นตอนในการทำ hypothesis testing:

  1. ตั้ง null hypothesis (H0) และ alternate hypothesis (H1)
  2. เลือก significance level
  3. หา p-value
  4. ตัดสินใจว่า จะ reject หรือ fail to reject H0

.

🤔 H0 vs H1

HypothesisDescriptionExample
H0สมมุติฐานที่ถือว่าเป็นจริง จนกว่าจะมีหลักฐานมาหักล้างความสูงเฉลี่ยของคนไทย เท่ากับ 170 cm
H1สมมุติฐานที่ถือว่าเป็นจริง ต่อเมื่อมีหลักฐานสนับสนุนความสูงเฉลี่ยของคนไทย ไม่เท่ากับ 170 cm

ตัวอย่างเช่น:

ExampleH0H1
คนไทยมีความสูงเฉลี่ย 170 cmความสูงเฉลี่ยของคนไทย เท่ากับ 170 cmความสูงเฉลี่ยของคนไทย ไม่เท่ากับ 170 cm
ผู้หญิงทำข้อสอบเลขได้ดีกว่าผู้ชายคะแนนสอบเลขของผู้หญิงและผู้ชายเท่ากันคะแนนสอบเลขของผู้หญิงและผู้ชายไม่เท่าเท่ากัน
กาแฟช่วยให้ทำงานได้ดีขึ้นดื่มกาแฟแล้ว จะทำงานได้แค่ 8 ชม.ดื่มกาแฟแล้ว จะทำงานได้นานกว่า 8 ชม.

.

🤔 Significance level vs p-value

TermDescription
Significance levelความเป็นไปได้ที่จะ reject H0 เมื่อ H0 เป็นจริง
P-valueความเป็นไปได้ที่จะเห็นผลลัพธ์ที่แตกต่างจาก H0 เมื่อ H0 เป็นจริง

.

🤔 Reject H0 vs fail to reject H0

เราจะ reject H0 (ยอมรับ H1) เมื่อ significance level และ p-value มีค่าดังนี้:

ActionWhen
Reject H0p-value < significance level
Fail to reject H0p-value > significance level

🔟 Experimental Designs

การเก็บข้อมูลทางสถิติทำได้ 3 แบบหลัก ๆ ได้แก่:

  1. Observational study
  2. A/B testing
  3. Randomised controlled trial (RCT)

.

👉 Observational study เป็นการเก็บข้อมูล ผ่านการสังเกตการณ์ เช่น:

  • สังเกตพฤติกรรมการซื้อของในร้านค้า
  • สังเกตพฤติกรรมการเล่นของเด็ก
  • สังเกตพฤติกรรมการหาคู่ของนก

ใน observational study เราไม่ได้เปลี่ยนแปลงตัวแปรต้น (independent variable) ทำให้:

  • เราสามารถบอกได้ว่า อะไรเกิดขึ้นกับอะไร (correlation)
  • แต่ไม่สามารถบอกได้ว่า อะไรทำให้เกิดอะไร (causation) เท่านั้น

.

👉 A/B testing เป็นการทดสอบที่นิยมใช้ใน business เพื่อทดสอบผลิตภัณฑ์/บริการ

ใน A/B testing เรามีของ 2 versions (A vs B) และกลุ่มตัวอย่างจะถูกสุ่มให้เห็น version ที่ไม่เหมือนกัน

เช่น เรามีเว็บไซต์แบบเก่า (A) และแบบใหม่ (B) และเราอยากรู้ว่า แบบไหนกระตุ้นยอดขายดีที่สุด

เราเปิดใช้งานเว็บไซต์ 2 versions โดยลูกค้าแต่ละคนจะเห็นเว็บไซต์ไม่เหมือนกัน (บางคนเห็นแบบเก่า และบางคนเห็นแบบใหม่)

หลังจากเวลาผ่านไปสักพัก เราเอาข้อมูลการขายมาดูว่า ลูกค้าที่เห็นเว็บไซต์แบบไหนที่มียอดซื้อมากที่สุด

ดูตัวอย่าง A/B testing ในโลกจริง: 10 real-world examples of A/B testing that made an impact

.

👉 RCT เป็น “gold standard” ของ experimental design เพราะ:

  1. มีการควบคุมตัวแปรต้น ทำให้เราอนุมานถึง cause และ effect ได้
  2. ลดความลำเอียง (bias) และอิทธิพลของตัวแปรที่สาม (confounding variables)

RCT มีลักษณะเด่น 2 อย่าง:

No.CharacteristicDescription
1Randomisationกลุ่มตัวอย่างถูกสุ่มเข้าเงื่อนไข
2Control groupมีกลุ่มที่เป็น baseline เพื่อเปรียบเทียบกับกลุ่มที่ได้รับเงื่อนไขบางอย่าง

ตัวอย่างการทำ RCT เช่น การทดสอบผลของยาลดความดัน:

  • เราใช้การสุ่มผู้เข้าร่วมให้เป็น 2 กลุ่ม
  • กลุ่มแรกให้รับยาปลอมที่ไม่ส่งผลต่อร่างกาย (control group)
  • กลุ่มที่สองได้รับยาจริงที่เราต้องการทดสอบผล (treatment)
  • หลังรับยา เราวัดความดันของทั้งสองกลุ่ม

📄 References

Comments

Leave a comment