04 ตุลาคม 2555

Regression คืออะไร

พอดีมีหลายคนสงสัย ผมเลยจะลองเล่าเรื่องเกี่ยวกับสถิติให้ฟังอย่างง่ายๆ นะครับ (ถ้าต้องการใน Technical Detail อาจต้องลองหาหนังสือ Biostat นะครับ)

หลักการของการทำ Regression Analysis ก็เหมือนกันกับสถิติที่เราเรียนมาในชั้นมัธยมนั่นละครับ นึกสภาพตอนที่เรามีข้อมูลบนกราฟเป็นแกน x, y แล้วอาจารย์ให้หาสมการเส้นตรง y = m x + c ได้ไหมครับ นั่นละครับคือ model ทางคณิตศาสตร์อย่างง่ายแบบหนึ่ง

แต่โลกเรามันไม่ได้ง่ายเป็นกราฟเส้นตรงที่มีตัวแปรเดียวเสมอไปใช่ไหมครับ เช่นในการทำนายความยาวลำตัวของเด็กแรกเกิด เราอาจจะต้องมานั่งคิดว่ามีปัจจัยอะไรบ้างในการบอกส่วนสูง ในกรณีนี้แล้วเราจะถือว่า ความยาว เป็นตัวแปรตาม (Dependent variable) และปัจจัยต่างๆ เป็นตัวแปรต้น หรือตัวแปรที่ใช้ทำนาย (Independent variable หรือ predictor)

สมมติว่าผมให้ "ความสูงของแม่" และ "อายุครรภ์ (สัปดาห์)" เป็นปัจจัยที่น่าจะส่งผลต่อความยาวของเด็ก เบื้องต้นผมก็อาจจะกำหนดโมเดลออกมาเป็น

ความสูงของเด็ก = b1*ความสูงของแม่ + b2*อายุครรภ์ + c

หลังจากนั้นเราก็พยายามไปเก็บข้อมูลของเด็กต่างๆ มา และด้วยโปรแกรมสถิติ เราก็สามารถที่จะหาได้ครับว่า b1, b2, c คืออะไรบ้าง อันนี้ละครับคือสิ่งที่เราเรียกว่า Regression Analysis และจากการคำนวณเราก็สามารถที่จะนำไปสู่การสร้างสมการเพื่อทำนายความสูงของเด็กได้

แต่ในความเป็นจริงไม่ใช่ว่าทุกตัวแปรจะเป็นตัวแปรแบบตัวเลขหมดใช่ไหมครับ หลายๆ ครั้งที่ตัวแปรที่เราสนใจคือ "ตาย" กับ "ไม่ตาย", "เป็นโรค" กับ "ไม่เป็นโรค" นั่นเลยเป็นที่มาของ Logistic Regression ครับ โดยแทนที่ด้านซ้ายจะเป็นตัวแปร เราก็เปลี่ยนเป็นตัวแปรที่จะบ่งบอกถึงความน่าจะเป็นของโรคนั้นแทนครับ

อันนี้เป็นตัวอย่างง่ายๆ คร่าวๆ นะครับ ถ้าต้องการรู้ในรายละเอียด ถึงวิธีทำผมว่าคงจะต้องไป take course แล้วครับ :D