Tag: Data analytics

4 วิธีการใช้ getSymbols() เพื่อโหลดข้อมูลการเงินในภาษา R — ตัวอย่างการโหลดข้อมูลหุ้น Apple

ในบทความนี้ เราจะมาทำความรู้จักกับ getSymbols() จาก quantmod package ซึ่งใช้โหลดข้อมูลทางการเงิน เช่น ข้อมูลหุ้น และข้อมูลทางเศรษฐกิจ กัน

โดยเราจะไปดู 4 วิธีการใช้งาน ได้แก่:

Basics: การใช้งาน getSymbols() เบื้องต้น
Advanced: การใช้งานขั้นสูง
View columns: การดู column ข้อมูล
Visualise data: การสร้างกราฟข้อมูล

ถ้าพร้อมแล้ว ไปเริ่มกันเลย

💻 Install & Import

ในการใช้งาน getSymbols() เราจะต้องเริ่มจากการติดตั้งและโหลด quantmod package ก่อน แบบนี้:

# Install the packages
install.packages("quantmod")

# Load the packages
library(quantmod)

1️⃣ Basics: 5 Parametres to Know

ในการใช้งานพื้นฐาน getSymbols() มี 5 parametres หลักที่เราควรรู้ ได้แก่:

Symbols: ตัวย่อชื่อข้อมูล
src: แหล่งข้อมูล
auto.assign: ให้โหลด (TRUE) หรือแสดงข้อมูล (FALSE)
env: environment สำหรับโหลดข้อมูล
from และ to: ช่วงเวลาของข้อมูล

เราไปดูวิธีใช้งานแต่ละ parametre กัน

💲 Symbols

ในขั้นแรกของการโหลดข้อมูลการเงินด้วย getSymbols() ให้เราระบุชื่อข้อมูลที่เราต้องการ เช่น:

ข้อมูล	ชื่อข้อมูล
Apple	AAPL
Google	GOOG
Microsoft	MSFT
NVIDIA	NVDA

ในบทความนี้ เราจะลองโหลดข้อมูลหุ้น Apple กัน ซึ่งเราสามารถกำหนด Symbols ได้แบบนี้:

# Import Apple data
getSymbols("AAPL")

เมื่อรันแล้ว เราจะได้ตัวแปรประเภท xts (time series object) ชื่อ AAPL มา ซึ่งเราดูข้อมูลในตัวแปรนี้ได้ด้วย head():

# Print result
head(AAPL)

ผลลัพธ์:

           AAPL.Open AAPL.High AAPL.Low AAPL.Close AAPL.Volume AAPL.Adjusted
2007-01-03  3.081786  3.092143 2.925000   2.992857  1238319600      2.518541
2007-01-04  3.001786  3.069643 2.993571   3.059286   847260400      2.574443
2007-01-05  3.063214  3.078571 3.014286   3.037500   834741600      2.556108
2007-01-08  3.070000  3.090357 3.045714   3.052500   797106800      2.568732
2007-01-09  3.087500  3.320714 3.041071   3.306071  3349298400      2.782115
2007-01-10  3.383929  3.492857 3.337500   3.464286  2952880000      2.915257

จะเห็นได้ว่า นอกจากวันที่แล้ว ข้อมูลเรายังประกอบไปด้วย 6 columns ดังนี้:

Open: ราคาเปิด
High: ราคาสูงสุด
Low: ราคาต่ำสุด
Close: ราคาปิด
Volume: ปริมาณการซื้อขาย
Adjusted: ราคาปรับปรุง

ในกรณีที่เราต้องการโหลดข้อมูลหุ้นหลายตัวพร้อมกัน เราสามารถใช้ character vector ช่วยได้แบบนี้:

# Load multiple instruments
getSymbols(c("AAPL", "GOOGL", "MSFT", "NVDA"))

🏦 src

src ใช้กำหนดแหล่งข้อมูลที่ getSymbols() จะไปดึงข้อมูลมา

โดย default, src ถูกตั้งไว้ให้ดึงข้อมูลจาก Yahoo! Finance ("yahoo")

แสดงว่า เราสามารถเขียน code เพื่อดึงข้อมูล Apple จาก Yahoo! Finance ได้ทั้งแบบนี้:

# Import Apple data
getSymbols("AAPL")

และแบบนี้:

# Import Apple data
getSymbols("AAPL", src = "yahoo")

ทั้งนี้ getSymbols() มีแหล่งข้อมูลอื่น ๆ ให้เราเลือกใช้งานได้ เช่น:

Federal Reserve Economic Data ("FRED")
Oanda ("oanda")

นอกจากแหล่งข้อมูลออนไลน์แล้ว เรายังสามารถโหลดข้อมูลแบบออฟไลน์ได้ เช่น:

CSV ("csv")
RData ("RData")

ยกตัวอย่างเช่น โหลดข้อมูล Apple จาก CSV:

# Load csv data
getSymbols("AAPL", src = "csv")

Note: การโหลดข้อมูล CSV ด้วย getSymbols() มีเงื่อนไข 4 อย่าง ได้แก่:

มีชื่อไฟล์เป็นชื่อหุ้น (เช่น AAPL.csv)
มี header
Column แรกจะต้องเป็น datetime (เช่น 2025-05-25)
Column ที่เหลือควรมีชื่อและข้อมูลดังนี้:
1. Open: ข้อมูลราคาเปิด
2. High: ข้อมูลราคาสูงสุด
3. Low: ข้อมูลราคาต่ำสุด
4. Close: ข้อมูลราคาปิด
5. Volume: ข้อมูลปริมาณการซื้อขาย
6. Adjusted: ข้อมูลราคาปรับปรุง

🏧 auto.assign

auto.assign ใช้กำหนดว่า getSymbols() จะโหลดข้อมูลมาไว้ใน global environment หรือแสดงข้อมูลที่โหลดมาได้

โดย default, auto.assign เป็น TRUE ซึ่งทำให้เราได้ตัวแปรที่เก็บข้อมูลการเงินมาไว้ใน global environment ของเรา โดยไม่ต้องกำหนดตัวแปรเอง

ทั้งนี้ ในกรณีที่เราต้องการกำหนดตัวแปรเอง ให้เราเปลี่ยน auto.assign เป็น FALSE แบบนี้:

# Set auto.assign to FALSE to assign to custom variable
apple_data <- getSymbols("AAPL", auto.assign = FALSE)

ถ้าเรากำหนดให้ auto.assign = FALSE โดยไม่จัดเก็บไว้ในตัวแปร getSymbols() จะแสดงข้อมูลใน console ของเรา:

# Set auto.assign to FALSE without variable assignment
getSymbols("AAPL", auto.assign = FALSE)

ผลลัพธ์:

            AAPL.Open  AAPL.High   AAPL.Low AAPL.Close AAPL.Volume AAPL.Adjusted
2007-01-03   3.081786   3.092143   2.925000   2.992857  1238319600      2.518541
2007-01-04   3.001786   3.069643   2.993571   3.059286   847260400      2.574442
2007-01-05   3.063214   3.078571   3.014286   3.037500   834741600      2.556108
2007-01-08   3.070000   3.090357   3.045714   3.052500   797106800      2.568732
2007-01-09   3.087500   3.320714   3.041071   3.306071  3349298400      2.782115
2007-01-10   3.383929   3.492857   3.337500   3.464286  2952880000      2.915257
2007-01-11   3.426429   3.456429   3.396429   3.421429  1440252800      2.879192
2007-01-12   3.378214   3.395000   3.329643   3.379286  1312690400      2.843727
2007-01-16   3.417143   3.473214   3.408929   3.467857  1244076400      2.918262
2007-01-17   3.484286   3.485714   3.386429   3.391071  1646260000      2.853645
       ...                                                                      
2025-06-05 203.500000 204.750000 200.149994 200.630005    55126100    200.630005
2025-06-06 203.000000 205.699997 202.050003 203.919998    46607700    203.919998
2025-06-09 204.389999 206.000000 200.020004 201.449997    72862600    201.449997
2025-06-10 200.600006 204.350006 200.570007 202.669998    54672600    202.669998
2025-06-11 203.500000 204.500000 198.410004 198.779999    60989900    198.779999
2025-06-12 199.080002 199.679993 197.360001 199.199997    43904600    199.199997
2025-06-13 199.729996 200.369995 195.699997 196.449997    51447300    196.449997
2025-06-16 197.300003 198.690002 196.559998 198.419998    43020700    198.419998
2025-06-17 197.199997 198.389999 195.210007 195.639999    38856200    195.639999
2025-06-18 195.940002 197.570007 195.070007 196.580002    45350400    196.580002

🌲 env

env ใช้กำหนด environment ที่ใช้เก็บข้อมูล ซึ่งโดย default, getSymbols() จะโหลดข้อมูลไว้ใน global environment

ในการใช้ env กำหนด environment ที่ต้องการ เราจะต้องเริ่มจากสร้าง environment ขึ้นมาก่อนด้วย new.env():

# Create a new environment
my_env <- new.env()

จากนั้น โหลดข้อมูลเข้าไปใน environment ใหม่:

# Load data into the environment
getSymbols("AAPL", env = my_env)

เราสามารถดูตัวแปรที่เก็บไว้ใน environment ได้ด้วย ls():

# List all variables in environment
ls(envir = my_env)

และดูข้อมูลได้ด้วย $ เช่น:

# Show Apple data
head(my_env$AAPL)

ผลลัพธ์:

           AAPL.Open AAPL.High AAPL.Low AAPL.Close AAPL.Volume AAPL.Adjusted
2007-01-03  3.081786  3.092143 2.925000   2.992857  1238319600      2.518541
2007-01-04  3.001786  3.069643 2.993571   3.059286   847260400      2.574442
2007-01-05  3.063214  3.078571 3.014286   3.037500   834741600      2.556109
2007-01-08  3.070000  3.090357 3.045714   3.052500   797106800      2.568732
2007-01-09  3.087500  3.320714 3.041071   3.306071  3349298400      2.782115
2007-01-10  3.383929  3.492857 3.337500   3.464286  2952880000      2.915256

📆 from, to

from ใช้กำหนดวันแรกของข้อมูล และ to กำหนดวันสุดท้ายของข้อมูล

ยกตัวอย่างเช่น เราต้องการโหลดข้อมูล Apple ในเดือนพฤษภาคม 2025:

# Load data for May 2025
apple_data_2025_05 = getSymbols("AAPL",
                                auto.assign = FALSE,
                                from = "2025-05-01",
                                to = "2025-05-31")

# Print results
print("First three records:")
head(apple_data_2025_05, n = 3)
print("------------------------------------------------------------------------------")
print("Last three records:")
tail(apple_data_2025_05, n = 3)

ผลลัพธ์:

First three records:
           AAPL.Open AAPL.High AAPL.Low AAPL.Close AAPL.Volume AAPL.Adjusted
2025-05-01    209.08    214.56   208.90     213.32    57365700      213.0406
2025-05-02    206.09    206.99   202.16     205.35   101010600      205.0811
2025-05-05    203.10    204.10   198.21     198.89    69018500      198.6295
------------------------------------------------------------------------------
Last three records:
           AAPL.Open AAPL.High AAPL.Low AAPL.Close AAPL.Volume AAPL.Adjusted
2025-05-28    200.59    202.73   199.90     200.42    45339700        200.42
2025-05-29    203.58    203.81   198.51     199.95    51396800        199.95
2025-05-30    199.37    201.96   196.78     200.85    70819900        200.85

Note: ตลาดหุ้นวันสุดท้ายของเดือนพฤษภาคม 2025 คือ 30 พฤษภาคม ทำให้ข้อมูลสิ้นสุด ณ วันที่ 30

2️⃣ Advanced: Set Defaults

จะเห็นว่า getSymbols() การตั้งค่าที่หลากหลาย

ทั้งนี้ quantmod มี 6 functions ที่ใช้ร่วมกับ getSymbols() เพื่อช่วยลดขั้นตอนในการตั้งค่าต่าง ๆ ได้แก่:

getDefaults() และ setDefaults()
getSymbolLookup() และ setSymbolLookup()
saveSymbolLookup() และ loadSymbolLookup()

เราไปดูวิธีการใช้งานทั้ง 6 functions กัน

🌍 getDefaults(), setDefaults()

getDefaults() ใช้สำหรับดูค่า default ของ getSymbols()

ส่วน setDefaults() ใช้สำหรับกำหนดค่า default

ยกตัวอย่างเช่น เราต้องการกำหนด:

src จาก "yahoo" เป็น "FRED"
auto.assign จาก TRUE เป็น FALSE

เราสามารถทำได้แบบนี้:

# Get defaults before changing
print("Defaults (before):")
getDefaults(getSymbols)

# Set defaults
setDefaults(getSymbols,
            src = "FRED",
            auto.assign = FALSE)
 
# Get defaults after changing
print("Defaults (after):")
getDefaults(getSymbols)

ผลลัพธ์:

Defaults (before):
NULL

Defaults (after):
$src
[1] "'FRED'"

$auto.assign
[1] FALSE

ตอนนี้ ถ้าเราเรียกใช้ getSymbols() โดยไม่กำหนด src และ auto.assign ทั้งสอง arguments นี้จะเป็น "FRED" และ FALSE ตามลำดับ

ถ้าเราต้องการ reset ค่า default ให้เราใส่ NULL ใน setDefaults():

# Reset defaults
setDefaults(getSymbols,
            src = NULL,
            auto.assign = NULL)

# Check defaults after resetting
print("Defaults (reset):")
getDefaults(getSymbols)

ผลลัพธ์:

Defaults (reset):
NULL

💹 setSymbolLookup(), getSymbolLookup()

getSymbolLookup() และ setSymbolLookup() ทำงานเหมือนกับ getDefaults() และ setDefaults() แต่เป็นการตั้งค่า default สำหรับข้อมูลแต่ละตัว (แทนระดับ global) ภายใน session เท่านั้น

ยกตัวอย่างเช่น เราต้องการกำหนดให้ดึงข้อมูลหุ้น Google มาจาก Google Finance:

# Set default for Google
setSymbolLookup(GOOG = list(src = "google"))

# Get new defaults
getSymbolLookup()

ผลลัพธ์:

$GOOG
$GOOG$src
[1] "google"

Note: Google Finance หยุดให้ข้อมูลกับ quantmod เมื่อปี 2018 ทำให้ตอนนี้ เราไม่สามารถใช้ src = "google" ได้อีก

เราสามารถ reset ค่า default ได้โดยใส่ NULL เหมือนเดิม:

# Reset defaults
setSymbolLookup(NULL)

# Get defaults after resetting
getSymbolLookup()

ผลลัพธ์:

named list()

💾 saveSymbolLookup(), loadSymbolLookup()

ค่าที่เราใช้ setSymbolLookup() กำหนดจะถูก reset ทุกครั้งที่เราปิด session ไป

ถ้าเราต้องการเก็บค่าเพื่อไปใช้ใน session อื่น เราสามารถใช้ saveSymbolLookup() และ loadSymbolLookup() ช่วยได้:

saveSymbolLookup() บันทึกค่าเก็บไว้ในไฟล์ RDS
loadSymbolLookup() โหลดค่าที่เก็บไว้ใน RDS

ตัวอย่าง code:

# Save defaults
saveSymbolLookup(file = "symbols.rds")

# Load defaults
loadSymbolLookup(file = "symbols.rds")

3️⃣ View Columns

หลังจากเราโหลดข้อมูลมาแล้ว เราสามารถดูข้อมูลแต่ละ column ได้ด้วย 7 functions หลัก ดังนี้:

No.	Function	For
1	`Op()`	ราคาเปิด
2	`Hi()`	ราคาสูงสุด
3	`Lo()`	ราคาต่ำสุด
4	`Cl()`	ราคาปิด
5	`Ad()`	ราคาปรับปรุง
6	`Vo()`	ปริมาณการซื้อขาย
7	`OHLC()`	ราคาเปิด, สูงสุด, ต่ำสุด, และราคาปิด

ตัวอย่างเช่น ดูราคาเปิด:

# Get opening price
Op(AAPL)

ผลลัพธ์:

            AAPL.Open
2007-01-03   3.081786
2007-01-04   3.001786
2007-01-05   3.063214
2007-01-08   3.070000
2007-01-09   3.087500
2007-01-10   3.383929
2007-01-11   3.426429
2007-01-12   3.378214
2007-01-16   3.417143
2007-01-17   3.484286
       ...           
2025-06-05 203.500000
2025-06-06 203.000000
2025-06-09 204.389999
2025-06-10 200.600006
2025-06-11 203.500000
2025-06-12 199.080002
2025-06-13 199.729996
2025-06-16 197.300003
2025-06-17 197.199997
2025-06-18 195.940002

ดูราคาสูงสุด:

# Get highest price
Hi(AAPL)

ผลลัพธ์:

            AAPL.High
2007-01-03   3.092143
2007-01-04   3.069643
2007-01-05   3.078571
2007-01-08   3.090357
2007-01-09   3.320714
2007-01-10   3.492857
2007-01-11   3.456429
2007-01-12   3.395000
2007-01-16   3.473214
2007-01-17   3.485714
       ...           
2025-06-05 204.750000
2025-06-06 205.699997
2025-06-09 206.000000
2025-06-10 204.350006
2025-06-11 204.500000
2025-06-12 199.679993
2025-06-13 200.369995
2025-06-16 198.690002
2025-06-17 198.389999
2025-06-18 197.570007

ดูราคาต่ำสุด:

# Get lowest price
Lo(AAPL)

ผลลัพธ์:

             AAPL.Low
2007-01-03   2.925000
2007-01-04   2.993571
2007-01-05   3.014286
2007-01-08   3.045714
2007-01-09   3.041071
2007-01-10   3.337500
2007-01-11   3.396429
2007-01-12   3.329643
2007-01-16   3.408929
2007-01-17   3.386429
       ...           
2025-06-05 200.149994
2025-06-06 202.050003
2025-06-09 200.020004
2025-06-10 200.570007
2025-06-11 198.410004
2025-06-12 197.360001
2025-06-13 195.699997
2025-06-16 196.559998
2025-06-17 195.210007
2025-06-18 195.070007

ดูราคาปิด:

# Get closing price
Cl(AAPL)

ผลลัพธ์:

           AAPL.Close
2007-01-03   2.992857
2007-01-04   3.059286
2007-01-05   3.037500
2007-01-08   3.052500
2007-01-09   3.306071
2007-01-10   3.464286
2007-01-11   3.421429
2007-01-12   3.379286
2007-01-16   3.467857
2007-01-17   3.391071
       ...           
2025-06-05 200.630005
2025-06-06 203.919998
2025-06-09 201.449997
2025-06-10 202.669998
2025-06-11 198.779999
2025-06-12 199.199997
2025-06-13 196.449997
2025-06-16 198.419998
2025-06-17 195.639999
2025-06-18 196.580002

ดูราคาปรับปรุง:

# Get adjusted price
Ad(AAPL)

ผลลัพธ์:

           AAPL.Adjusted
2007-01-03      2.518541
2007-01-04      2.574442
2007-01-05      2.556109
2007-01-08      2.568732
2007-01-09      2.782116
2007-01-10      2.915256
2007-01-11      2.879192
2007-01-12      2.843727
2007-01-16      2.918261
2007-01-17      2.853645
       ...              
2025-06-05    200.630005
2025-06-06    203.919998
2025-06-09    201.449997
2025-06-10    202.669998
2025-06-11    198.779999
2025-06-12    199.199997
2025-06-13    196.449997
2025-06-16    198.419998
2025-06-17    195.639999
2025-06-18    196.580002

ดูปริมาณการซื้อขาย:

# Get volume
Vo(AAPL)

ผลลัพธ์:

           AAPL.Volume
2007-01-03  1238319600
2007-01-04   847260400
2007-01-05   834741600
2007-01-08   797106800
2007-01-09  3349298400
2007-01-10  2952880000
2007-01-11  1440252800
2007-01-12  1312690400
2007-01-16  1244076400
2007-01-17  1646260000
       ...            
2025-06-05    55126100
2025-06-06    46607700
2025-06-09    72862600
2025-06-10    54672600
2025-06-11    60989900
2025-06-12    43904600
2025-06-13    51447300
2025-06-16    43020700
2025-06-17    38856200
2025-06-18    45350400

ดูราคาเปิด, สูงสุด, ต่ำสุด, และราคาปิด:

# Get all price
OHLC(AAPL)

ผลลัพธ์:

            AAPL.Open  AAPL.High   AAPL.Low AAPL.Close
2007-01-03   3.081786   3.092143   2.925000   2.992857
2007-01-04   3.001786   3.069643   2.993571   3.059286
2007-01-05   3.063214   3.078571   3.014286   3.037500
2007-01-08   3.070000   3.090357   3.045714   3.052500
2007-01-09   3.087500   3.320714   3.041071   3.306071
2007-01-10   3.383929   3.492857   3.337500   3.464286
2007-01-11   3.426429   3.456429   3.396429   3.421429
2007-01-12   3.378214   3.395000   3.329643   3.379286
2007-01-16   3.417143   3.473214   3.408929   3.467857
2007-01-17   3.484286   3.485714   3.386429   3.391071
       ...                                            
2025-06-05 203.500000 204.750000 200.149994 200.630005
2025-06-06 203.000000 205.699997 202.050003 203.919998
2025-06-09 204.389999 206.000000 200.020004 201.449997
2025-06-10 200.600006 204.350006 200.570007 202.669998
2025-06-11 203.500000 204.500000 198.410004 198.779999
2025-06-12 199.080002 199.679993 197.360001 199.199997
2025-06-13 199.729996 200.369995 195.699997 196.449997
2025-06-16 197.300003 198.690002 196.559998 198.419998
2025-06-17 197.199997 198.389999 195.210007 195.639999
2025-06-18 195.940002 197.570007 195.070007 196.580002

4️⃣ Visualise Data

สุดท้าย เราสามารถสร้างกราฟเพื่อสำรวจข้อมูล โดยใช้ 2 functions ได้แก่:

autoplot() จาก ggplot2 package
chartSeries() จาก quantmod package

ยกตัวอย่างเช่น สำรวจราคาปิดของ Apple:

# Import ggplots
library(ggplot2)

# Visualise with autoplot()
autoplot(Cl(AAPL),
         ts.colour = "darkgreen") +

  # Add text
  labs(title = "AAPL Closing Price (Jan 2007 – Jun 2025)",
       x = "Time",
       y = "Price (USD)")

ผลลัพธ์:

# Visualise with chartSeries()
chartSeries(Cl(AAPL))

ผลลัพธ์:

💪 Summary

ในบทความนี้ เราได้ดูวิธีการทำงานกับ getSymbols() เพื่อโหลดข้อมูลจากการเงินจากแหล่งต่าง ๆ กัน

ตอนนี้ เรารู้จักกับ 5 parametres หลักของ getSymbols():

Symbols
src
auto.assign
env
from และ to

วิธีตั้งค่า default ด้วย 3 คู่ functions:

getDefaults() และ setDefaults()
getSymbolLookup() และ setSymbolLookup()
saveSymbolLookup() และ loadSymbolLookup()

วิธีดูข้อมูลด้วย 7 functions:

Op()
Hi()
Lo()
Cl()
Ad()
Vo()
OHLC()

และสุดท้าย วิธีสร้างกราฟด้วย 2 functions:

autoplot()
chartSeries()

😺 GitHub

ดู code ทั้งหมดในบทความนี้ได้ที่ GitHub

📃 References

✅ R Book for Psychologists: หนังสือภาษา R สำหรับนักจิตวิทยา

📕 ขอฝากหนังสือเล่มแรกในชีวิตด้วยนะครับ 😆

🙋 ใครที่กำลังเรียนจิตวิทยาหรือทำงานสายจิตวิทยา และเบื่อที่ต้องใช้ software ราคาแพงอย่าง SPSS และ Excel เพื่อทำข้อมูล

💪 ผมขอแนะนำ R Book for Psychologists หนังสือสอนใช้ภาษา R เพื่อการวิเคราะห์ข้อมูลทางจิตวิทยา ที่เขียนมาเพื่อนักจิตวิทยาที่ไม่เคยมีประสบการณ์เขียน code มาก่อน

ในหนังสือ เราจะปูพื้นฐานภาษา R และพาไปดูวิธีวิเคราะห์สถิติที่ใช้บ่อยกัน เช่น:

Correlation
t-tests
ANOVA
Reliability
Factor analysis

🚀 เมื่ออ่านและทำตามตัวอย่างใน R Book for Psychologists ทุกคนจะไม่ต้องพึง SPSS และ Excel ในการทำงานอีกต่อไป และสามารถวิเคราะห์ข้อมูลด้วยตัวเองได้ด้วยความมั่นใจ

แล้วทุกคนจะแปลกใจว่า ทำไมภาษา R ง่ายขนาดนี้ 🙂‍↕️

👉 สนใจดูรายละเอียดหนังสือได้ที่ meb:

ดูรายละเอียดหนังสือ R Book for Psychologists

2025-08-28

วิธีจัดกลุ่มข้อมูลด้วย k-means ผ่าน kmeans() function ในภาษา R — ตัวอย่างการจัดกลุ่มหินจาก rock dataset

ในบทความนี้ เราจะมาทำความรู้จักกับ k-means และวิธีใช้ kmeans() ในภาษา R กัน

👉 Introduction to k-Means

🤔 k-Means คืออะไร?

k-means เป็น machine learning algorithm ประเภท unsupervised learning และใช้จัดกลุ่ม data (clustering) ที่เราไม่รู้จำนวนกลุ่มล่วงหน้า

ตัวอย่างการใช้ k-means ในโลกจริง:

Customer segmentation: จัดกลุ่มลูกค้าที่เข้ามาซื้อสินค้า/บริการ
Anomaly detection: ตรวจจับความผิดปกติในคอมพิวเตอร์ (แบ่งกลุ่มกิจกรรมในคอมพิวเตอร์ เป็น “ปกติ” และ “ไม่ปกติ”)
Document clustering: จัดกลุ่มเอกสาร โดยอ้างอิงจากเนื้อหา

🪜 Steps การทำงานของ k-Means

k-means มีการทำงานอยู่ 5 ขั้นตอน ได้แก่:

กำหนดจำนวนกลุ่ม หรือ clusters (k)
สุ่มวาง centroid หรือจุดศูนย์กลางของ cluster ลงในข้อมูล
จัดกลุ่มข้อมูล โดยข้อมูลจะอยู่กลุ่มเดียวกับ centroid ที่ใกล้ที่สุด
คำนวณหา centroid ใหม่
ทำขั้นที่ 3 และ 4 ซ้ำ ตามจำนวนครั้งที่กำหนด หรือจนกว่าข้อมูลจะไม่เปลี่ยนกลุ่ม

ตัวอย่างเช่น เราต้องการจัดกลุ่มข้อมูล 100 ตัวอย่าง:

ขั้นที่ 1. เรากำหนด k เช่น ให้ k = 3

ขั้นที่ 2. สุ่มวาง centroid (ดอกจันสีแดง) ลงในข้อมูล:

ขั้นที่ 3. จัดข้อมูลให้อยู่กลุ่มเดียวกัน โดยอิงจาก centroid ที่อยู่ใกล้ที่สุด:

ขั้นที่ 4. คำนวณหา centroids ใหม่:

จะสังเกตเห็นว่า centroids ของเราเปลี่ยนไป

ขั้นที่ 5. ทำขั้นที่ 3 และ 4 ซ้ำ ๆ ไปเรื่อย ๆ เช่น ทำไป 10 ครั้ง:

เราก็จะได้การจัดกลุ่มข้อมูลมา

🏫 Learn More

เรียนรู้เพิ่มเติมเกี่ยวกับ k-means ได้จากคอร์ส The Nuts and Bolts of Machine Learning จาก Google Career Certificates (เริ่มต้นที่ 1:33:49)

💻 k-Means ในภาษา R: kmeans()

ในภาษา R เราสามารถใช้ k-means ได้ผ่าน kmeans() function ซึ่งต้องการ 3 arguments หลัก ดังนี้:

kmeans(x, centers, nstart)

x = dataset ที่ต้องการจัดกลุ่ม
centers = จำนวนกลุ่มข้อมูล หรือ k
nstart = จำนวนครั้งที่ k-means จะสุ่มวาง centroids ลงใน dataset เพื่อหาการจัดกลุ่มที่ดีที่สุด

(Note: ศึกษา arguments เพิ่มเติมของ kmeans() ได้ที่ kmeans: K-Means Clustering)

เราไปดูวิธีใช้งาน kmeans() กัน

🔢 Dataset

🪨 rock

ในบทความนี้ เราจะใช้ rock dataset ซึ่งเป็น built-in dataset ในภาษา R เป็นตัวอย่าง

rock มีข้อมูลหิน 48 ตัวอย่าง และมีข้อมูลลักษณะ 4 อย่าง:

ลำดับ	ลักษณะ	คำอธิบาย
1	`area`	พื้นที่ผิว
2	`peri`	เส้นผ่านศูนย์กลาง
3	`shape`	ขนาด (เส้นผ่านศูนย์กลาง หารด้วย พื้นที่ผิว)
4	`perm`	ระดับความสามารถที่ให้น้ำซึมผ่านได้

เป้าหมายของเรา คือ จัดกลุ่มหิน 48 ตัวอย่างตามลักษณะทั้งสี่

เราสามารถโหลด rock dataset ได้โดยใช้ data() function:

# Load
data(rock)

หลังจากโหลดแล้ว เราสามารถ preview ข้อมูลได้ด้วย head():

# Preview the dataset
head(rock)

ผลลัพธ์:

  area    peri     shape perm
1 4990 2791.90 0.0903296  6.3
2 7002 3892.60 0.1486220  6.3
3 7558 3930.66 0.1833120  6.3
4 7352 3869.32 0.1170630  6.3
5 7943 3948.54 0.1224170 17.1
6 7979 4010.15 0.1670450 17.1

📏 Data Normalisation

เนื่องจาก k-means ใช้ระยะห่างระหว่างข้อมูลในการจัดกลุ่ม ข้อมูลที่มีระยะห่างมาก (เช่น ระยะห่าง 500 เมตร กับ 1,000 เมตร) อาจมีผลต่อการจัดกลุ่มมากกว่าข้อมูลที่มีระยะห่างน้อย (เช่น ระยะห่าง 1 ซม. กับ 5 ซม.) และทำให้เกิด bias ในการจัดกลุ่มได้

เพื่อป้องกัน bias เราควร normalise ข้อมูล หรือการปรับให้ข้อมูลอยู่ใน scale เดียวกัน

สำหรับ k-means เรามักจะ normalise ข้อมูล ด้วย z-score standardisation ซึ่งมีสูตรการคำนวณดังนี้:

Z = (X - M(X)) / SD(X)

Z = ข้อมูลที่ scaled แล้ว
X = ข้อมูลดิบ
M(X) = mean ของ X
SD(X) = SD ของ X

ในภาษา R เราสามารถทำ z-score standardisation ได้ด้วย scale():

# Scale
rock_scaled <- scale(rock)

Note: เราใส่ rock ไปใน argument และเก็บผลลัพธ์ไว้ใน data frame ใหม่ ชื่อ rock_scaled

เราสามารถเช็กผลลัพธ์ได้ด้วย:

colMeans() เพื่อเช็ก mean
apply() และ sd() เพื่อเช็ก SD

# Check the results

## Check mean
round(colMeans(rock_scaled), 2)

# Check SD
apply(rock_scaled, 2, sd)

ผลลัพธ์:

> ### Check mean
> round(colMeans(rock_scaled), 2)
 area  peri shape  perm 
    0     0     0     0 
> 
> ### Check SD
> apply(rock_scaled, 2, sd)
 area  peri shape  perm 
    1     1     1     1

จากผลลัพธ์ เราจะเห็นได้ว่า ทุกลักษณะมี mean เท่ากับ 0 และ SD เท่ากับ 1 แสดงว่า เราทำ z-score standardisation ได้สำเร็จ และพร้อมไปขั้นตอนถัดไป

🔎 Finding the Optimal k

ในการจัดกลุ่มด้วย k-means เราต้องเริ่มด้วยการกำหนด k

แต่เราจะรู้ได้ยังไงว่า k ควรมีค่าเท่าไร?

เรามี 3 วิธีในการหาค่า k ที่ดีที่สุด (optimal k):

Elbow method
Silhouette analysis
Gap analysis

ในบทความนี้ เราจะมาใช้วิธีแรกกัน: elbow method

(Note: เรียนรู้เกี่ยวทั้งสามวิธีได้ที่ ML | Determine the optimal value of K in K-Means Clustering)

Elbow method หาค่า k ที่ดีที่สุด โดยสร้างกราฟระหว่างค่า k และ within-cluster sum of squares (WSS) หรือระยะห่างระหว่างข้อมูลในกลุ่ม ค่า k ที่ดีที่สุด คือ ค่า k ที่ WSS เริ่มไม่ลดลง

ในภาษา R เราสามารถเริ่มสร้างกราฟได้ โดยเริ่มจากใช้ for loop หา WSS สำหรับช่วงค่า k ที่เราต้องการ

ในตัวอย่าง rock dataset เราจะใช้ช่วงค่า k ระหว่าง 1 ถึง 15:

# Initialise a vector for within cluster sum of squares (wss)
wss <- numeric(15)

# For-loop through the wss
for (k in 1:15) {
  
  ## Try the k
  km <- kmeans(rock_scaled,
               centers = k,
               nstart = 20)
  
  ## Get WSS for the k
  wss[k] <- km$tot.withinss
}

จากนั้น ใช้ plot() สร้างกราฟความสัมพันธ์ระหว่างค่า k และ WSS:

# Plot the wss
plot(1:15,
     wss,
     type = "b",
     main = "The Number of Clusters vs WSS",
     xlab = "Number of Clusters",
     ylab = "WSS")

ผลลัพธ์:

จากกราฟ จะเห็นว่า WSS เริ่มชะลอตัว เมื่อค่า k อยู่ที่ 3 และ 4 ซึ่งเป็นจุดที่เป็นข้อศอก (elbow) ของกราฟ:

แสดงว่า optimal k มีค่า 3 หรือ 4

สำหรับบทความนี้ เราจะกำหนด optimal k = 4:

# Set optiomal k = 4
opt_k <- 4

⏹️ k-Means

🔥 Train the Model

หลังเตรียมข้อมูลและหา optimal k แล้ว เราก็พร้อมที่จะใช้ kmeans() ในการจัดกลุ่มข้อมูลแล้ว:

# Set see for reproducibility
set.seed(100)

# Train the model
km <- kmeans(rock_scaled,
             centers = opt_k,
             nstart = 20)

🤓 Get the Results

เราสามารถดูผลการจัดกลุ่มได้ 2 วิธี:

วิธีที่ 1. ดูค่าทางสถิติ:

# Print the model
print(km)

ผลลัพธ์:

K-means clustering with 4 clusters of sizes 10, 18, 6, 14

Cluster means:
        area       peri
1 -0.4406840 -0.9164442
2  0.3496197  0.8022501
3  1.5646450  1.3101981
4 -0.8052989 -0.9383748
       shape       perm
1  1.5369800  1.1775435
2 -0.7319607 -0.8017914
3  0.2358392 -0.7425075
4 -0.2578245  0.5079897

Clustering vector:
 [1] 2 2 2 2 2 2 2 2 2 2 2 2 3
[14] 2 2 2 3 3 3 2 2 3 3 2 1 4
[27] 4 4 4 1 1 1 4 1 4 1 4 1 4
[40] 4 1 4 1 1 4 4 4 4

Within cluster sum of squares by cluster:
[1] 18.917267  8.104718
[3]  1.471788 22.095636
 (between_SS / total_SS =  73.1 %)

Available components:

[1] "cluster"     
[2] "centers"     
[3] "totss"       
[4] "withinss"    
[5] "tot.withinss"
[6] "betweenss"   
[7] "size"        
[8] "iter"        
[9] "ifault"

จากผลลัพธ์ จะเห็นได้ว่า ข้อมูลถูกแบ่งเป็น 4 กลุ่ม และเราสามารถดูค่า mean และ WSS ของแต่ละกลุ่มได้

วิธีที่ 2. สร้างกราฟ:

# Create a plot
plot(rock_scaled[, c("shape", "perm")], 
     col = km$cluster,
     pch = 19,
     main = "K-Means Clustering (Rock Dataset)",
     xlab = "Shape",
     ylab = "Permeability")

# Add cluster centers
points(km$centers[, c("shape", "perm")], 
       col = 1:5,
       pch = 4,
       cex = 2,
       lwd = 2)

ผลลัพธ์:

ตอนนี้ เราก็ได้ข้อมูลที่จัดกลุ่มด้วย k-means เรียบร้อยแล้ว 👍

😺 GitHub

ดู code ทั้งหมดในบทความนี้ได้ที่ GitHub

📃 References

✅ R Book for Psychologists: หนังสือภาษา R สำหรับนักจิตวิทยา

📕 ขอฝากหนังสือเล่มแรกในชีวิตด้วยนะครับ 😆

Correlation
t-tests
ANOVA
Reliability
Factor analysis

แล้วทุกคนจะแปลกใจว่า ทำไมภาษา R ง่ายขนาดนี้ 🙂‍↕️

👉 สนใจดูรายละเอียดหนังสือได้ที่ meb:

ดูรายละเอียดหนังสือ R Book for Psychologists

2025-05-01

Tag: Data analytics

4 วิธีการใช้ getSymbols() เพื่อโหลดข้อมูลการเงินในภาษา R — ตัวอย่างการโหลดข้อมูลหุ้น Apple

💻 Install & Import

1️⃣ Basics: 5 Parametres to Know

💲 Symbols

🏦 src

🏧 auto.assign

🌲 env

📆 from, to

2️⃣ Advanced: Set Defaults

🌍 getDefaults(), setDefaults()

💹 setSymbolLookup(), getSymbolLookup()

💾 saveSymbolLookup(), loadSymbolLookup()

3️⃣ View Columns

4️⃣ Visualise Data

💪 Summary

😺 GitHub

📃 References

✅ R Book for Psychologists: หนังสือภาษา R สำหรับนักจิตวิทยา

Share this:

วิธีจัดกลุ่มข้อมูลด้วย k-means ผ่าน kmeans() function ในภาษา R — ตัวอย่างการจัดกลุ่มหินจาก rock dataset

👉 Introduction to k-Means

🤔 k-Means คืออะไร?

🪜 Steps การทำงานของ k-Means

🏫 Learn More

💻 k-Means ในภาษา R: kmeans()

🔢 Dataset

🪨 rock

📏 Data Normalisation

🔎 Finding the Optimal k

⏹️ k-Means

🔥 Train the Model

🤓 Get the Results

😺 GitHub

📃 References

✅ R Book for Psychologists: หนังสือภาษา R สำหรับนักจิตวิทยา

Share this: