04 พฤษภาคม 2558

วิธีเตรียมข้อมูลใน Excel สำหรับวิเคราะห์ด้วยโปรแกรมทางสถิติ

ห่างหายกันไปนานครับ พอดีผมไม่ค่อยว่างเขียนเสียเท่าไหร่ (งานสอน งานวิจัยเยอะมาก) วันนี้ขอเขียนอะไรเบาๆ อย่าง วิธีการเตรียมข้อมูล เพื่อจะนำไปวิเคราะห์ทางสถิติละกันนะครับ สิ่งที่เขียนนี้เป็นเทคนิคจากประสบการณ์ส่วนตัวล้วนๆ ที่มักจะเจอจุดผิดพลาดของคนเตรียมข้อมูลที่ทำให้คนวิเคราะห์ต้องหนักใจครับ

โปรแกรมวิเคราะห์ทางสถิติส่วนใหญ่ มักจะต้องการข้อมูลที่ผ่านการเตรียมมาไว้ก่อนครับ จึงจะสามารถวิเคราะห์ค่าต่างๆ ทางสถิติออกมาได้ การเตรียมข้อมูลให้พร้อมตั้งแต่ตอนลงข้อมูล จะช่วยให้การวิเคราะห์ข้อมูลทำได้รวดเร็วขึ้น รวมถึงยังอำนวยความสะดวกให้สามารถตรวจสอบความถูกต้องของข้อมูลได้ง่าย อันจะส่งผลทำให้ผลลัพธ์ที่ได้ถูกต้องด้วย

ข้อมูลที่โปรแกรมส่วนใหญ่ต้องการ มักจะอยู่ในรูปแบบของตาราง ถึงแม้จะมีโปรแกรมฐานข้อมูลต่างๆ มากมายในการช่วยเตรียมข้อมูล เช่น Microsoft Access, EpiData แต่ผู้ใช้ส่วนใหญ่มักจะเลือกเตรียมใน Spreadsheet เพราะมีโปรแกรม Spreadsheet อยู่ในเครื่องคอมพิวเตอร์กันอยู่แล้ว และโปรแกรม Spreadsheet เหล่านี้ใช้งานได้ง่าย จึงจะขอพูดถึงการเตรียมข้อมูลจากโปรแกรม Spreadsheet ที่ได้รับความนิยมอย่าง Microsoft Excel ครับ

ข้อมูลที่เราเตรียมจากโปรแกรม Microsoft Excel ควรเตรียมในลักษณะที่พร้อมที่จะนำเข้าโปรแกรมสถิติเลย กล่าวคือ

1. ทำข้อมูลในลักษณะตาราง โดยให้แถวตามแนวนอน (Row) แถวแรก เป็นชื่อของตัวแปร และในแถวถัดๆ มาเป็นข้อมูลจริง และให้เป็น 1 แถวต่อ 1 คนเท่านั้น (โปรแกรมจะไม่อ่านหลายแถว)






2. ชื่อของตัวแปร ควรใช้ตัวอักษรภาษาอังกฤษตัวเล็ก ไม่ควรยาวเกินไป และไม่ควรมีเครื่องหมายแปลกๆ เช่น เครื่องหมายวงเล็บ เว้นวรรค เครื่องหมาย % & + ! เนื่องจากเครื่องหมายเหล่านี้ มักจะมีความหมายในโปรแกรมวิเคราะห์ทางสถิติ ทำให้การนำข้อมูลเข้าโปรแกรม มีความผิดพลาดได้ หากจำเป็นต้องใช้เครื่องหมายแยก ให้ใช้เครื่องหมายขีดล่าง (Underscore _ )

ตัวอย่างที่ใช้บ่อย
เพศ sex, gender
อายุ age
น้ำหนัก weight
ส่วนสูง height
วันเกิด dateofbirth
วันผ่าตัด dateofoperation
คะแนนความเจ็บปวดที่หนึ่งชั่วโมง painscore_1hr

3. ไม่ควรนำสิ่งที่ไม่ใช่ข้อมูล เข้าไปไว้อยู่ในส่วนที่เป็นข้อมูล

ผู้ใช้ส่วนใหญ่เมื่อใช้โปรแกรม Spreadsheet ในการลงข้อมูล มักจะพยายามใส่ข้อมูล “เกิน” กว่าที่ตั้งใจเอาไว้ในการเก็บข้อมูล เสมือนเป็นการ “ทด” ลงในตารางข้อมูล เช่น ลงข้อมูลคะแนนความเจ็บปวด ที่เป็นตัวเลข ว่า “ผู้ป่วยไม่เจ็บ” หรือทดไว้ว่า “2 – จากการโทรสอบถาม” ซึ่งจะทำให้เกิดปัญหามากในการนำข้อมูลลงไปในโปรแกรมวิเคราะห์ทางสถิติ

คำแนะนำ หากต้องการทดข้อมูลอื่นใด ให้ใช้ฟังก์ชั่น Insert Comment ลงในช่องนั้นๆ ซึ่งจะไม่เป็นการรบกวนกับข้อมูลในเซลล์โดยตรง วิธีใช้คือ คลิ๊กขวาที่เซลล์ที่ต้องการจะทด แล้วเลือกเมนู Insert Comment หลังจากนั้นสามารถพิมพ์สิ่งที่อยากจะทดลงไปได้



 
4. ไม่พยายามทด หรือแยกความแตกต่างในแต่ละข้อมูล ด้วย “สี” ของเซลล์

โปรแกรมทางสถิตินั้นจะมองเฉพาะข้อมูลที่เป็นข้อมูลจริงๆ เท่านั้น จะไม่มองถึงรูปแบบของสี หรือฟอนต์ ในการวิเคราะห์ข้อมูล การพยายามแยกสี เช่น สีแดงสำหรับคนไข้ที่ไม่ได้รับยา สีเขียวสำหรับคนไข้ที่ได้รับยา ซึ่งเสมือนกับว่าเป็นข้อมูลของคนไข้ แต่เก็บไว้กับสีนี้จะไม่ถูกส่งต่อไปยังโปรแกรมวิเคราะห์ข้อมูล

คำแนะนำ ถ้าต้องการเก็บข้อมูล ให้เพิ่มตัวแปรใหม่ (แถวตามแนวตั้งแถวใหม่) ไปเลย

5. พยายามใส่ข้อมูลที่เป็น category ให้เป็นตัวเลข

โปรแกรมวิเคราะห์ทางสถิติส่วนใหญ่ จะไม่สามารถแยกความแตกต่างของตัวอักษร และสร้างออกมาเป็น category ได้ เช่น หากผู้ใช้บันทึกข้อมูลในตัวแปร sex ว่าเป็นข้อความ “male”, “female” โปรแกรมสถิติจะมองเห็นเป็นข้อความ ไม่ใช่ category ทำให้ต้องมานั่งจัด category กันใหม่ในโปรแกรมทางสถิติ รวมถึงบางทีก็พิมพ์ผิดเองจาก male เป็น mal หรือ MALE ทำให้โปรแกรมจัด category ไม่ถูกต้อง

คำแนะนำ พยายามทำ category ให้เป็นตัวเลข ซึ่งอาจทำให้สอดคล้องไปกันกับแบบเก็บข้อมูล

ตัวอย่างเช่น ในแบบเก็บข้อมูลทำการเก็บข้อมูล “ความรุนแรงของโรค”
ความรุนแรงของโรค: □ 1.Mild □ 2. Moderate □ 3. Severe
ควรเก็บเป็นดังนี้ 1, 2, 3 (อาจเพิ่ม 9 ในกรณีที่ไม่ทราบข้อมูล)

6. ในกรณีที่ไม่มีข้อมูล อาจเว้นว่าง หรือทำโค้ดตัวเลข (เช่นเลข 9) เอาไว้ ไม่ควรใส่เป็นข้อความว่า “N/A” หรือ “Unknown” เพราะตอนนำข้อมูลเข้า โปรแกรมจะมองเป็นตัวอักษรแทน

7. ข้อมูลในลักษณะวันที่ เป็นข้อมูลที่ค่อนข้างมีปัญหาในการลงมาก เพราะคนไทยถนัดพิมพ์วันที่เป็น พ.ศ. แต่โปรแกรมวิเคราะห์ข้อมูลนั้นจะมองวันที่เป็น ค.ศ. เสมอ บางคนอาจจะใช้วิธีพิมพ์ พ.ศ. เป็น ค.ศ. ไปเลย (เช่นพิมพ์ไปเลย 1/2/2550 เครื่องจะเข้าใจว่าเป็นวันในปี ค.ศ. 2550 แทน) แต่ข้อเสียของวิธีนี้คือวันที่มันไม่เท่ากันทุกปี เช่นมีวันที่ 29 ก.พ. ค.ศ. 2016 แต่ไม่มีวันที่ 29 ก.พ. พ.ศ. 2016 เป็นต้น ซึ่งมีโอกาสที่ข้อมูลจะผิดพลาดสูง

คำแนะนำ วิธีการแก้ไม่ยากครับใน Excel เราสามารถพิมพ์เป็น พ.ศ. ได้ด้วยการ เลือกแถวทั้งแถวที่เป็นวันที่ (เช่นรูปข้างล่างเป็นแถว A หลังจากนั้นเลือก Format Cell)
หลังจากนั้นเลือกให้ข้อมูลเป็นแบบวันที่ (Date) แล้วเลือก Locale เป็น Thai และ Calendar Type เป็น Thai Buddhist ครับ หลังจากนั้นจะมีช่องให้ติ๊กข้างล่างด้วยว่าเราจะใส่ข้อมูลเป็นพ.ศ. ก็ติ๊กด้วยครับ ทีนี้เราก็พิมพ์ พ.ศ. ใน Excel ได้อย่างสบายใจ

เมื่อเราเอาข้อมูลตรงนี้ใน Excel ไปลงโปรแกรมทางสถิติ ข้อมูลจะเป็น ค.ศ. ให้เองครับ

เท่านี้ เราก็พร้อมที่จะเอาข้อมูลที่เก็บจากงานวิจัย มาใช้ในโปรแกรมวิเคราะห์ข้อมูลแล้วครับ ตัวอย่างของไฟล์ที่เหมาะสมจะนำไปเข้าโปรแกรม หน้าตาจะประมาณนี้ครับ

16 ความคิดเห็น:

  1. ไม่ระบุชื่อ8/5/58 22:17

    ขอบคุณครับอาจารย์

    ตอบลบ
  2. ไม่ระบุชื่อ21/7/58 20:41

    เราจะกำหนดค่า (Value label) ตัวแปร ลงใน STATA ตรงไหน ยังงัยคะ

    ตอบลบ
  3. ลองดูวิดีโอสองอันนี้ครับ
    วิธีกำหนดแบบกราฟฟิคนะครับ https://www.youtube.com/watch?v=4uXTQWD84Sw
    วิธีกำหนดแบบพิมพ์คำสั่งครับ https://www.youtube.com/watch?v=KL3NRDilIOM
    (ได้ผลแบบเดียวกันทั้งสองวิธีนะครับ ขึ้นอยู่กับว่าชอบแบบคลิ๊กๆ หรือแบบพิมพ์ๆ)

    ตอบลบ
  4. ไม่ระบุชื่อ21/7/58 23:21

    save value label ไม่ได้ค่ะ กำหนด value label แล้ว ว่า 1, 2, 3 เป็นอะไร ปิด file แล้วเปิดเรียกใช้ใหม่ ไม่พบ value label ที่ได้กำหนด
    สังเกตว่า ที่ screen เขียนว่า . use "E:\RESEARCH\PROM\PROM.dta", clear

    ตอบลบ
  5. Stata จะทำการใส่ข้อมูลของ value label ใน dataset (ไฟล์.dta) ครับ เพราะฉะนั้นถ้าต้องการให้เก็บข้อมูล value label จะต้องเซฟไฟล์ข้อมูลใหม่ (.dta ใหม่) ที่คำสั่ง File -> Save as.. แล้วเปิดจากอันใหม่ครับจึงจะได้ ไม่อย่างนั้นก็ต้อง copy command ที่ใช้ไว้มาสั่งทุกครั้งที่ต้องการ label ครับ

    ตอบลบ
  6. reliable and complete information on their part.

    ตอบลบ
  7. ไม่ระบุชื่อ22/9/63 10:03

    ขอบคุณมากๆครับสำหรับบทความที่เป็นประโยชน์ยิ่ง

    ตอบลบ

ช่วยแสดงความคิดเห็นเกี่ยวกับบทความนี้ด้วยนะครับ
Please leave your comments about this topic.