25 กันยายน 2558

Imputation: การคาดคะเนข้อมูลที่หายไปจากงานวิจัยอย่างมีหลักการ

วันก่อน ที่คณะฯ มีจัดอบรมเรื่อง Imputation จึงขอมาย่อเล่าสู่กันฟังนะครับ

งานวิจัยที่ดี ควรมีการเก็บข้อมูลที่ถูกต้อง และใช้สถิติที่ถูกต้องใช่ไหมครับ แต่มันเป็นสิ่งที่หลีกเลี่ยงในงานวิจัยแทบไม่ค่อยได้ที่จะเจอกับข้อมูลที่สูญหายไป

ข้อมูลที่สูญหายไปนั้นมีจากหลายสาเหตุครับ ยกตัวอย่างเช่น เราทำงานวิจัยงานหนึ่งที่เกี่ยวกับยา ตั้งแต่คนไข้กรอกข้อมูลของตนเอง บางคนอาจจะลืมกรอกข้อมูลเพศ ข้อมูลอายุ หรือบางคนก็จำวันเกิดไม่ได้ บางครั้งคนไข้เองอาจจะไม่อยู่ให้ตอบคำถามบางอย่างที่ไม่ได้ตอบแล้ว หรือผู้วิจัยไม่สามารถตามข้อมูลได้จริงๆ นั่นก็อาจจะถึงเวลาที่เราต้อง "คาดคะเน" (ภาษาชาวบ้านคือ "เดา") ข้อมูลที่หายไปในงานวิจัยครับ

แน่นอนว่า การเดาข้อมูลเป็นเรื่องที่ไม่ควรทำ ถ้าเราสามารถหาข้อมูลจริงๆ มาได้ อย่างเช่นการโทรศัพท์ไปสอบถามคนไข้ (ซึ่งหลายๆ ครั้งคนไข้สามารถที่จะตอบคำถามให้เราได้) หรือเราอาจจะตามข้อมูลจากแหล่งอื่นเช่นเวชระเบียน ทำให้เราไม่ต้องเสี่ยงกับการเดาข้อมูลที่ผิดพลาดครับ นั่นหมายความว่า ก่อนจะเริ่มเดาข้อมูล (อย่างมีหลักการ) นี้ต้องพยายามตามข้อมูลที่หายไปให้ได้ก่อนครับ

เมื่อตามไม่ได้แล้วจริงๆ ก็ถึงเวลาที่เราต้องเดาข้อมูลครับ ภาษาทางสถิติเรียกการคาดคะเนข้อมูลที่น่าจะเป็นนี้ว่า Imputation ครับ


04 พฤษภาคม 2558

วิธีเตรียมข้อมูลใน Excel สำหรับวิเคราะห์ด้วยโปรแกรมทางสถิติ

ห่างหายกันไปนานครับ พอดีผมไม่ค่อยว่างเขียนเสียเท่าไหร่ (งานสอน งานวิจัยเยอะมาก) วันนี้ขอเขียนอะไรเบาๆ อย่าง วิธีการเตรียมข้อมูล เพื่อจะนำไปวิเคราะห์ทางสถิติละกันนะครับ สิ่งที่เขียนนี้เป็นเทคนิคจากประสบการณ์ส่วนตัวล้วนๆ ที่มักจะเจอจุดผิดพลาดของคนเตรียมข้อมูลที่ทำให้คนวิเคราะห์ต้องหนักใจครับ

โปรแกรมวิเคราะห์ทางสถิติส่วนใหญ่ มักจะต้องการข้อมูลที่ผ่านการเตรียมมาไว้ก่อนครับ จึงจะสามารถวิเคราะห์ค่าต่างๆ ทางสถิติออกมาได้ การเตรียมข้อมูลให้พร้อมตั้งแต่ตอนลงข้อมูล จะช่วยให้การวิเคราะห์ข้อมูลทำได้รวดเร็วขึ้น รวมถึงยังอำนวยความสะดวกให้สามารถตรวจสอบความถูกต้องของข้อมูลได้ง่าย อันจะส่งผลทำให้ผลลัพธ์ที่ได้ถูกต้องด้วย

ข้อมูลที่โปรแกรมส่วนใหญ่ต้องการ มักจะอยู่ในรูปแบบของตาราง ถึงแม้จะมีโปรแกรมฐานข้อมูลต่างๆ มากมายในการช่วยเตรียมข้อมูล เช่น Microsoft Access, EpiData แต่ผู้ใช้ส่วนใหญ่มักจะเลือกเตรียมใน Spreadsheet เพราะมีโปรแกรม Spreadsheet อยู่ในเครื่องคอมพิวเตอร์กันอยู่แล้ว และโปรแกรม Spreadsheet เหล่านี้ใช้งานได้ง่าย จึงจะขอพูดถึงการเตรียมข้อมูลจากโปรแกรม Spreadsheet ที่ได้รับความนิยมอย่าง Microsoft Excel ครับ

ข้อมูลที่เราเตรียมจากโปรแกรม Microsoft Excel ควรเตรียมในลักษณะที่พร้อมที่จะนำเข้าโปรแกรมสถิติเลย กล่าวคือ

1. ทำข้อมูลในลักษณะตาราง โดยให้แถวตามแนวนอน (Row) แถวแรก เป็นชื่อของตัวแปร และในแถวถัดๆ มาเป็นข้อมูลจริง และให้เป็น 1 แถวต่อ 1 คนเท่านั้น (โปรแกรมจะไม่อ่านหลายแถว)