23 มีนาคม 2560

ใช้ R Commander ในการวิเคราะห์ข้อมูล – ง่ายพอๆ กับ SPSS แต่ฟรี

สืบเนื่องมาจากผมได้รับคำปรึกษาในการวิเคราะห์ข้อมูลจากน้องนักศึกษาแพทย์ที่อยู่ต่างจังหวัดที่ต้องการวิเคราะห์ข้อมูลในการวิจัยเล็กๆ แต่น้องเขาไม่มีโปรแกรมอะไรอยู่กับตัวเลย ต้องพึ่งโปรแกรมที่ดาวน์โหลดได้จากอินเทอร์เน็ต ผมเลยต้องมามองหาว่ามีตัวเลือกโปรแกรมฟรีอะไรบ้างที่สามารถใช้งานได้ไม่ยากนักในการวิเคราะห์ข้อมูล จะให้เขาใช้ SPSS ก็เกรงว่าอาจจะยุ่งยากในการหา License ที่ถึงแม้มหาวิทยาลัยจะมีให้แต่ก็ต้องเข้ามาใช้ในระบบ พอดีนึกขึ้นได้ว่าโปรแกรม R เองก็มีคนเขียนโปรแกรมเสริมแบบให้คนวิเคราะห์คลิ๊กๆ อย่างเดียวที่ชื่อ R Commander อยู่ ปรากฎว่าลองให้น้องใช้แล้วได้ผลดีเลยจะมาบอกต่อกันครับ

หลายคนคงจะรู้จักกับ R อยู่แล้ว สำหรับคนที่ไม่รู้จัก โปรแกรมนี้เป็นโปรแกรมฟรีที่ไว้วิเคราะห์ข้อมูล ปัญหาหลักๆ ของการใช้ R คือคนใช้จะต้องมีความสามารถด้านการเขียนโปรแกรมเป็นพอสมควร คำสั่งต่างๆ จะต้องพิมพ์ลงไป แทบไม่มีอะไรให้คลิ๊ก และบางครั้งก็นึกไม่ออกว่าต้องพิมพ์คำสั่งยังไง และคำสั่งมีอะไรบ้าง (เปิดโปรแกรมมาจะเป็นหน้าว่างๆ ให้พิมพ์คำสั่งเลย) สำหรับผู้ใช้มือใหม่แล้วสิ่งนี้ถือว่าเป็นหายนะกันเลยทีเดียวครับ ทำให้โปรแกรม R ที่ถึงแม้จะฟรีแต่ก็สู้โปรแกรมวิเคราะห์ข้อมูลอื่นที่พัฒนาให้คนใช้งานง่ายอย่าง SPSS, STATA ไม่ได้ (เพราะใช้กันไม่เป็น) อย่างไรก็ดีสำหรับโปรเจคใหญ่ๆ ที่มีนักสถิติที่สามารถเขียนโปรแกรมเป็นและใช้งาน R ได้ก็มักจะนิยมการใช้ R กันเพราะมีคำสั่งที่ผู้ใช้เขียนส่งๆ กันไว้เยอะมาก (เพราะฟรี) และนักสถิตระดับอาจารย์ในมหาวิทยาลัยชั้นนำหลายแห่งในต่างประเทศก็นิยมใช้กันครับ

สำหรับตัว R Commander นี้หลักๆ เลยคือเราจะต้องลงโปรแกรม R ก่อน หลังจากนั้นค่อยลงโปรแกรมเสริม (ใน R จะเรียกว่า Package) R Commander ซ้ำลงไปอีกทีครับถึงจะใช้โปรแกรม R Commander ได้ ซึ่งวิธีลงโปรแกรมนี่คลิ๊กอย่างเดียว ไม่ต้องตกใจว่าต้องพิมพ์คำสั่งอะไรเลยนะครับ ผมเคยเขียนเรื่องการลงโปรแกรม R ไว้นานแล้ว แต่เพื่อให้ทันสมัยก็ขออนุญาตเขียนใหม่รวบยอดเลยแล้วกัน


ขั้นตอนในการลงโปรแกรม R

  1. ไปที่เว็บ https://cran.r-project.org/
  2. ที่หน้าเว็บจะมีเลือก Download R มีให้เลือกทั้ง Linux, Mac, Windows
  3. จะขึ้นหน้าจอย่อยให้เลือกว่า จะลง base/contrib/… ให้เลือกลิงค์ที่เขียนว่า base
  4. เลือก Download R (ขณะที่ผมเขียนคือรุ่น 3.3.3 for Windows)
  5. เซฟลงเครื่องแล้วเรียกโปรแกรมติดตั้ง
  6. โปรแกรมติดตั้งใช้ไม่ยากครับ ก็กด Next ตามไปเรื่อยๆ ก็ได้ครับ
  7. หลังจากนั้นจะมีไอคอน R บนหน้าจอวินโดวส์นะครับ มีทั้ง i386 (แบบ 32 บิต) และแบบ x64 (แบบ 64 บิต) ใช้อันไหนก็ได้ครับ ส่วนตัวผมใช้อัน 64 บิต




    ขั้นตอนในการลง R Commander ซึ่งเป็นโปรแกรมเสริมของ R

    1. เปิดโปรแกรม R ขึ้นมาก่อน จะพบหน้าจอแบบรูป ไม่ต้องตกใจนะครับ เราไม่ต้องพิมพ์คำสั่งอะไร
    2. เลือกเมนู Package >> Install packages..
    3. ถ้าเป็นครั้งแรกที่กดเมนูนี้ โปรแกรมจะให้เลือกว่าจะดาวน์โหลดโปรแกรมเสริม (Package) มาจากที่ไหน จริงๆ เลือกที่ไหนก็ได้นะครับ ผมเลือก Cloud (อันแรก)
    4. หลังจากนั้นโปรแกรมจะมีรายการยาวๆ ของ Package ทั้งหมดที่เราสามารถจะลงให้โปรแกรม R ได้ ให้เราเลือกมาที่ Rcmdr ครับ
    5. โปรแกรมจะถามว่าเราต้องการลงใน Personal Library หรือไม่ ให้ตอบ Yes
    6. ถ้าเป็นครั้งแรก โปรแกรมจะให้เราสร้าง Personal Library ให้ตอบ Yes เช่นกันครับ
    7. หลังจากนั้นโปรแกรมจะดาวน์โหลดไฟล์ทั้งหมดลงในเครื่องครับ ขั้นตอนนี้อาจจะเสียเวลาสักพักนะครับ
    8. ถ้าลงเสร็จแล้ว หน้าจอจะขึ้นว่า The downloaded binary package are in

วิธีการเปิด R Commander
  1. เนื่องจาก R Commander เป็น Package ของ R ดังนั้นทุกครั้งที่เราจะเรียกใช้ ต้องเปิด R ขึ้นมาก่อนนะครับ
  2. หลังจากเปิด R แล้วให้เลือกเมนู Package >> Load package
  3. โปรแกรมจะแสดง Package ทั้งหมดที่ลงไว้ในเครื่อง ให้เราเลือก Rcmdr
  4. ถ้าเป็นครั้งแรกในการเริ่ม R Commander จะมีคำเตือนขึ้นมาว่าให้เราลงบางแพคเกจเพิ่มเติม ให้กด Yes ครับ
  5. โปรแกรมจะถามว่าให้ลงจากไหน ให้เลือก CRAN แล้วกด OK
  6. โปรแกรมจะทำการลงแพคเกจเพิ่มเติมให้อีกนิดหน่อย
  7. เสร็จแล้วจะเรียก RCommander ขึ้นมาแล้วครับ

ในบล็อกตอนถัดไป ผมจะสอนวิธีการเรียกข้อมูลขึ้นมาง่ายๆ ใน R Commander และวิธีการทำ Descriptive Statistics ในโปรแกรม R Commander นะครับ

25 กันยายน 2558

Imputation: การคาดคะเนข้อมูลที่หายไปจากงานวิจัยอย่างมีหลักการ

วันก่อน ที่คณะฯ มีจัดอบรมเรื่อง Imputation จึงขอมาย่อเล่าสู่กันฟังนะครับ

งานวิจัยที่ดี ควรมีการเก็บข้อมูลที่ถูกต้อง และใช้สถิติที่ถูกต้องใช่ไหมครับ แต่มันเป็นสิ่งที่หลีกเลี่ยงในงานวิจัยแทบไม่ค่อยได้ที่จะเจอกับข้อมูลที่สูญหายไป

ข้อมูลที่สูญหายไปนั้นมีจากหลายสาเหตุครับ ยกตัวอย่างเช่น เราทำงานวิจัยงานหนึ่งที่เกี่ยวกับยา ตั้งแต่คนไข้กรอกข้อมูลของตนเอง บางคนอาจจะลืมกรอกข้อมูลเพศ ข้อมูลอายุ หรือบางคนก็จำวันเกิดไม่ได้ บางครั้งคนไข้เองอาจจะไม่อยู่ให้ตอบคำถามบางอย่างที่ไม่ได้ตอบแล้ว หรือผู้วิจัยไม่สามารถตามข้อมูลได้จริงๆ นั่นก็อาจจะถึงเวลาที่เราต้อง "คาดคะเน" (ภาษาชาวบ้านคือ "เดา") ข้อมูลที่หายไปในงานวิจัยครับ

แน่นอนว่า การเดาข้อมูลเป็นเรื่องที่ไม่ควรทำ ถ้าเราสามารถหาข้อมูลจริงๆ มาได้ อย่างเช่นการโทรศัพท์ไปสอบถามคนไข้ (ซึ่งหลายๆ ครั้งคนไข้สามารถที่จะตอบคำถามให้เราได้) หรือเราอาจจะตามข้อมูลจากแหล่งอื่นเช่นเวชระเบียน ทำให้เราไม่ต้องเสี่ยงกับการเดาข้อมูลที่ผิดพลาดครับ นั่นหมายความว่า ก่อนจะเริ่มเดาข้อมูล (อย่างมีหลักการ) นี้ต้องพยายามตามข้อมูลที่หายไปให้ได้ก่อนครับ

เมื่อตามไม่ได้แล้วจริงๆ ก็ถึงเวลาที่เราต้องเดาข้อมูลครับ ภาษาทางสถิติเรียกการคาดคะเนข้อมูลที่น่าจะเป็นนี้ว่า Imputation ครับ


04 พฤษภาคม 2558

วิธีเตรียมข้อมูลใน Excel สำหรับวิเคราะห์ด้วยโปรแกรมทางสถิติ

ห่างหายกันไปนานครับ พอดีผมไม่ค่อยว่างเขียนเสียเท่าไหร่ (งานสอน งานวิจัยเยอะมาก) วันนี้ขอเขียนอะไรเบาๆ อย่าง วิธีการเตรียมข้อมูล เพื่อจะนำไปวิเคราะห์ทางสถิติละกันนะครับ สิ่งที่เขียนนี้เป็นเทคนิคจากประสบการณ์ส่วนตัวล้วนๆ ที่มักจะเจอจุดผิดพลาดของคนเตรียมข้อมูลที่ทำให้คนวิเคราะห์ต้องหนักใจครับ

โปรแกรมวิเคราะห์ทางสถิติส่วนใหญ่ มักจะต้องการข้อมูลที่ผ่านการเตรียมมาไว้ก่อนครับ จึงจะสามารถวิเคราะห์ค่าต่างๆ ทางสถิติออกมาได้ การเตรียมข้อมูลให้พร้อมตั้งแต่ตอนลงข้อมูล จะช่วยให้การวิเคราะห์ข้อมูลทำได้รวดเร็วขึ้น รวมถึงยังอำนวยความสะดวกให้สามารถตรวจสอบความถูกต้องของข้อมูลได้ง่าย อันจะส่งผลทำให้ผลลัพธ์ที่ได้ถูกต้องด้วย

ข้อมูลที่โปรแกรมส่วนใหญ่ต้องการ มักจะอยู่ในรูปแบบของตาราง ถึงแม้จะมีโปรแกรมฐานข้อมูลต่างๆ มากมายในการช่วยเตรียมข้อมูล เช่น Microsoft Access, EpiData แต่ผู้ใช้ส่วนใหญ่มักจะเลือกเตรียมใน Spreadsheet เพราะมีโปรแกรม Spreadsheet อยู่ในเครื่องคอมพิวเตอร์กันอยู่แล้ว และโปรแกรม Spreadsheet เหล่านี้ใช้งานได้ง่าย จึงจะขอพูดถึงการเตรียมข้อมูลจากโปรแกรม Spreadsheet ที่ได้รับความนิยมอย่าง Microsoft Excel ครับ

ข้อมูลที่เราเตรียมจากโปรแกรม Microsoft Excel ควรเตรียมในลักษณะที่พร้อมที่จะนำเข้าโปรแกรมสถิติเลย กล่าวคือ

1. ทำข้อมูลในลักษณะตาราง โดยให้แถวตามแนวนอน (Row) แถวแรก เป็นชื่อของตัวแปร และในแถวถัดๆ มาเป็นข้อมูลจริง และให้เป็น 1 แถวต่อ 1 คนเท่านั้น (โปรแกรมจะไม่อ่านหลายแถว)