08 พฤษภาคม 2552

Systematic Review & Meta-analysis

จากที่ผมเคยสัญญาว่าจะเขียนเรื่องเกี่ยวกับการ Appraise Systematic Review นะครับ ก่อนอื่นเลยก็ต้องขอพูดเกริ่นนำเรื่อง Systematic Review และ Meta-analysis ก่อนครับ

Systematic Review โดยนิยามนั้นหมายถึงการรวบรวมคำตอบของคำถามที่จำเพาะเจาะจงครับ ลองนึกสภาพถึงคำถามที่เกิดขึ้นในทางคลินิกนะครับ คำถามในที่นี้ก็จะล้อกันไปกับ PICO นั่นละครับ ตัวอย่างเช่น

  • การให้ Aspirin ในผู้ป่วยเบาหวานช่วยลดการเกิด MI หรือไม่
  • การให้ แป๊ะก๊วย ช่วยลดอาการปวดขาเป็นพักๆ (intermittent claudication) หรือไม่
  • การผ่าตัดถุงน้ำดีแบบส่องกล้อง (laparoscopic cholecystectomy) ลดอัตรา complication หรือไม่เมื่อเทียบกับการผ่าแบบเปิด (open cholecystectomy)
  • ฯลฯ

เมื่อมีการตอบคำถามเหล่านี้มากขึ้นเรื่อยๆ ไม่ว่าจะเป็นจากทั้งการศึกษาแบบ observational (cohort/cross-sectional) หรือ experimental (RCT) มันก็คงไม่สะดวกเวลาตอบใช่ไหมครับ หากเราต้องมานั่งอ่านเป็นสิบเปเปอร์ มันจะดีกว่ามั้ยถ้าเรารวมคำตอบไว้ทีเดียวเลย นั่นคือที่มาของ “review” ครับ

แต่หลายๆ ท่านก็คงเคยอ่าน review โดยทั่วๆ ไปแล้วนะครับ เช่นจากพวก textbook หรือ article review ที่อ่านตามหนังสือทั่วไป ปัญหาของพวก review พวกนี้ที่เกิดขึ้นก็คือว่า มัน “ไม่เป็นระบบ” ครับ คนทำอาจจะเอนเอียงไปข้างใดข้างหนึ่งก็ได้ (เช่นคนเขียนนั่งอยู่ที่บริษัทเครื่องมือผ่าตัดส่องกล้อง เขียนเชียร์ตัวเองอยู่) ทำให้ผลที่ได้อาจจะไม่ได้พูดถึงในอีกแง่มุมหนึ่งเลย จุดนี้เอง เป็นที่มาของการทำ Systematic Review ครับ

ขั้นตอนของการทำ Systematic Review ขั้นแรกก็คือการตั้งปัญหาที่เราสนใจครับ ปัญหานั้นจะต้องค่อนข้างเจาะจง เพื่อที่เราจะได้ตอบได้ครับ หลังจากนั้นเราจะต้องหาคำตอบของปัญหานี้ด้วยวิธีที่เป็นระบบ โดยอาจจะมีการตั้งกฎเกณฑ์ที่เป็นระบบไว้ก่อน เช่น ตั้งว่าจะค้นหาด้วยวิธีใดบ้าง ค้นฐานข้อมูลใด ใครค้น คัดเลือกด้วยใคร ใครเป็นคนกรอกข้อมูล ข้อมูลที่ได้จะรวมกันแบบไหน อย่างใด เสมือนหนึ่งเดียวกับการทำวิจัยชนิดอื่นๆ เลยครับ (นั่นจึงเป็นที่มาของคำว่า “Systematic”)

ขั้นต่อมาก็คือการค้นคว้าครับ ในขั้นตอนการค้นคว้านี้ ฐานข้อมูลที่เป็นที่นิยมโดยส่วนมากก็คือ Medline ครับ ไม่ต้องงงนะครับ จริงๆ ก็คือฐานข้อมูลที่ PubMed มีอยู่นั่นละครับ (PubMed เป็นชื่อของ “ตัวค้น” – Search Engine ส่วน Medline เป็นชื่อของ “ฐานข้อมูล” – Database) ส่วนฐานข้อมูลอื่นๆ ที่นิยมก็เช่น EMBASE (ของฝั่งยุโรป), CINAHL, Cochrane Controlled Trial Register เป็นต้นครับ นอกจากนี้ยังอาจจะค้นจากสื่ออื่นๆ เช่น ค้นจากการติดต่อ Expert, ค้นจากรายงานของ Conference ต่างๆ ด้วยก็จะยิ่งดีครับ

หลังจากที่เราค้นหาหลักฐานต่างๆ จากฐานข้อมูลนี้มาได้แล้ว เราก็จะต้องมาดูว่าเปเปอร์ไหนบ้างที่เข้ากับคำถามของเราครับ (ตรงจุดนี้จะต้องมีกำหนดไว้ก่อนในช่วงแรกแล้วอย่างแน่ชัดเป็น inclusion/exclusion criteria มิเช่นนั้นจะกลายเป็นว่าเรา “เลือก” หลักฐานมา – เป็น selection bias นั่นเองครับ)

เมื่อได้เปเปอร์มาแล้ว ผู้วิจัยส่วนใหญ่ก็จะให้คะแนนความน่าเชื่อถือของเปเปอร์ครับ โดยคะแนนความน่าเชื่อถือนี้มีหลายแบบครับตามแต่ว่าเปเปอร์ที่เลือกมานั้นเป็นประเภทใด เช่นถ้าเป็นของ RCT ก็จะเป็น JADAD score เป็นต้นครับ

หลังจากนั้นผู้วิจัยก็อาจจะสรุปเลยก็ได้ครับว่าหลังจากที่ค้นมาแล้วเป็นอย่างไรบ้าง แต่ส่วนใหญ่มักจะไม่จบเพียงแค่นี้ครับ (เพราะเสียดายอุตส่าห์ค้นมาตั้งเยอะ) ส่วนใหญ่เขาก็จะดึงเอาข้อมูลออกมา เพื่อที่จะนำข้อมูลนั้นมารวมกันด้วยวิธีการทางสถิติ ที่เรียกกันว่า meta-analysis กันนั่นเองครับ (โดยอาจจะมี Forest Plot + Heterogeneity Test ตามที่เคยเขียนไปแล้วด้วยครับ) นอกจากนี้ยังอาจจะวิเคราะห์ย่อยๆ ด้วยเช่นว่า ถ้าแบ่งเปเปอร์เป็นกลุ่มๆ แล้วจะมีคำตอบแตกต่างกันไปหรือไม่ เช่นผมรวม RCT ที่เกี่ยวกับการให้ Aspirin ในคนไข้เบาหวาน แต่มันมีทั้งเบาหวานแบบที่มีความดันร่วมด้วย หรือไม่มีความดันร่วมด้วย ผมอาจจะแบ่งข้อมูลเป็นสองกลุ่ม แล้วดูว่ามันต่างกันหรือไม่ก็ได้ครับ ซึ่งเรียกว่าการทำ Subgroup analysis

นอกจากการนำข้อมูลของเปเปอร์อื่นมารวบรวมด้วยกันแล้ว เรายังอาจจะนำเอาข้อมูลของ “คนไข้” ในแต่ละเปเปอร์นี้มารวมกันได้ด้วยครับ นั่นก็คล้ายกับว่าผู้วิจัยเสมือนหนึ่งเป็นการรวม Trials ต่างๆ เข้าด้วยกัน ซึ่งทำให้จำนวน n มากขึ้นนั่นเองครับ การนำข้อมูลคนไข้มารวมกันนี้ บางทีก็จะเรียกว่าเป็น Individual Patient Data ครับ

และสุดท้ายที่ผู้วิจัยอาจจะนำเสนอก็คือการแสดง Publication Bias ครับ Publication Bias ก็คือการที่ Study ที่ไม่ได้ผลนั้นอาจจะไม่ได้ลงตีพิมพ์ในฐานข้อมูล ทำให้เราอาจจะ “หลุด”  Study ที่ไม่ได้ผลก็ได้ครับ เช่น RCT ที่ให้แป๊ะก๊วยแล้วไม่ได้ผล ก็อาจจะไม่มีสำนักพิมพ์ไหนอยากเอาไปพิมพ์ ทำให้ในฐานข้อมูลทั้งหมดกลายเป็นมีแต่แป๊ะก๊วยใช้ได้ผล ทั้งๆ ที่มันก็มี RCT ที่ให้แล้วไม่ได้ผลเหมือนกัน ตรงจุดนี้เราสามารถพล็อตกราฟเพื่อดูได้ครับว่า ผลมันไปทางเดียวกันหมดเลยหรือเปล่า (กราฟที่นิยมคือ Funnel Plot ครับ)

กล่าวโดยสรุปแล้ว ถ้ามีการวางแผนและทำเป็นระบบนั้น ก็จะยิ่งเพิ่มความน่าเชื่อถือของการทำ Systematic Review เข้าไปอีกครับ นั่นเองเป็นที่มาของว่า ทำไม Systematic Review นั้นถึงได้อยู่ในอันดับต้นๆ ของ Hierachy of evidence ครับ

01 พฤษภาคม 2552

ติดตั้งแพคเกจใน R ผ่าน Proxy/ติดตั้งด้วยมือ

เคยมีคนถามผมครับว่าโปรแกรม R นั้นจะลงแพคเกจเสริมได้อย่างไร หากว่าเราต้องต่ออินเทอร์เน็ตผ่าน Proxy หรือเราดาวน์โหลดแพคเกจนั้นมาลงเอง

วิธีการก็ไม่ได้ลำบากอะไรเท่าไหร่ครับ แทนที่เราจะเริ่มโปรแกรม R ขึ้นมาเอง ให้คลิ๊กขวาในไอคอนของโปรแกรมใน Start Menu แล้วเลือก Properties



หลังจากนั้นพิมพ์เพิ่มเติมในช่อง Target จากเดิมที่เป็น:
"C:\Program Files\R\R-2.9.0\bin\Rgui.exe"

ให้ต่อท้ายด้วยเว็บ proxy แบบนี้แทน:
"C:\Program Files\R\R-2.9.0\bin\Rgui.exe" http_proxy=<ชื่อ proxy> http_proxy_user=ask

เช่นอย่างของมหิดล proxy นั้นคือ proxy-phy1.mahidol:8080 ก็จะเป็นแบบนี้ครับ:
"C:\Program Files\R\R-2.9.0\bin\Rgui.exe" http_proxy=proxy-phy1.mahidol:8080 http_proxy_user=ask




คราวนี้เวลากดเลือก Install Package ก็จะมีหน้าขึ้นมาให้ใส่ชื่อผู้ใช้และรหัสผ่านเหมือนโปรแกรมอื่นๆ แล้วครับ



สำหรับท่านที่ดาวน์โหลดแพคเกจมาเองจาก CRAN ให้เลือกเป็น Windows binary แล้วเลือกเมนู Packages -> Install package(s) from local zip files ครับ



อ้อ ตอนนี้ R มีถึงเวอร์ชัน 2.9.0 แล้วนะครับใครยังไม่ได้อัพเดตก็อัพเดตได้แล้วครับ

26 เมษายน 2552

Forest Plots and Heterogeneity Tests in Meta-analysis

ครับ วันนี้ผมขอเขียนถึงเรื่อง Forest Plot และ Heterogeneity Test ใน Meta-analysis นะครับ เพราะมีคนถามถึงบ่อย

Forest Plot นั้นก็คือการเรียบเรียงรายละเอียดของแต่ละ Study ย่อยครับ ปกติแล้วเวลาเอา RCT มาสรุปด้วยวิธีการทางสถิตินั้นมันจะมีแต่ตัวเลขเต็มไปหมด เขาก็เลยอาศัยกราฟขึ้นมาเพื่อให้เราสามารถตีความผลลัพธ์ที่ได้ดีขึ้นครับ

ยกตัวอย่างนะครับ จาก Systematic Review เรื่องการรักษาหูหนวกแบบฉับพลันที่ลงใน Arch Otol Laryngol: Conlin AE, Parnes LS. Treatment of sudden sensorineural hearing loss: II. A Meta-analysis. Arch Otolaryngol Head Neck Surg. 2007 Jun ;133(6):582-6. เขาทำการศึกษารวบรวม RCT ที่ให้ Steroid ในคนไข้หูหนวกฉับพลัน เทียบกับคนที่ได้ Placebo และ Outcome เป็นการหายจากหูหนวก โดยพบว่ามี 2 Study ย่อยดังนี้ครับ (คลิ๊กเพื่อดูรูปใหญ่นะครับ):

สังเกตนะครับ ว่าเขาจะเอาแต่ละ Study มาเรียงกันเป็นบรรทัด แล้วก็พล็อตเป็นเส้นขีด รวมถึงมีจุดสี่เหลี่ยมอยู่ตรงกลาง หลังจากนั้นเขาจะแสดงบรรทัด Total (คือการรวมของทุก Study) แล้วแสดงด้วยสี่เหลี่ยมข้าวหลามตัดไว้ในกราฟครับ สังเกตว่าถ้าเราตะแคงหัว 90 องศาจะเห็นกราฟนี้เป็นคล้ายๆ ป่าของต้นไม้ (นั่นคือที่มาของชื่อ Forest Plot น่ะเอง)

วิธีอ่านก็ไม่ยากเย็นอะไรครับ เช่นของ Study แรกนั้นก็แสดง OR อยู่ที่จุด 3.22 (จุดสี่เหลี่ยมจะอยู่ที่ 3.22) และมี 95% CI อยู่ที่ 1.18-8.76 (เส้นขีดจะขีดตั้งแต่ 1.18 ถึง 8.76) วิธีแปลผลก็แปลแบบ OR ธรรมดา (ลองอ่านโพสต์เก่า) เช่นในที่นี้ก็คือ คนที่ได้สเตียรอยด์ มีโอกาสหายเป็น 3.22 เท่าเมื่อเทียบกับ Placebo โดยเรามีความมั่นใจว่า ถ้าทำการทดลอง 100 ครั้งนั้น 95 ครั้งค่านี้จะอยู่ระหว่าง 1.18 ถึง 8.76 เท่าครับ (หรืออีกอย่างคือ ค่านี้มันน่าจะอยู่ในระหว่าง 1.18-8.76)

ส่วน Study อันที่สองนั้นก็เหมือนกันครับ ลองแปลดูเองก่อนนะครับ

.

.

นั่นคือ คนที่ได้ Steroid มีโอกาสหายเป็น 0.89 เท่าเมื่อเทียบกับคนที่ได้ Placebo โดยเรามั่นใจว่ามันจะอยู่ระหว่าง 0.10-7.86 ถ้างงว่าควรแปลยังไง เอาอะไรเทียบอะไร ให้เหลือบไปมองใต้กราฟครับ ว่าของเรามันอยู่ในช่วงที่ Favor Steroid หรือ Favor Placebo

ทีนี้ก็มาถึงตรงสรุปแล้วครับ ก็แปลแบบเดียวกันเป๊ะเลย แต่กราฟเขาพล็อตไว้ให้รูปมันแตกต่างไว้นั่นเอง จากกราฟนี้เราจะสรุปว่า คนที่ได้ Steroid นั้นจะมีโอกาสหายเป็น 2.47 เท่าของคนที่ได้ Placebo โดยเรามั่นใจว่ามันจะอยู่ที่ 0.89 ถึง 6.84 เท่านั่นเองครับ

สำหรับว่าทำไมสี่เหลี่ยมของสอง Study มันถึงขนาดไม่เท่ากัน นั้นถ้าอธิบายง่ายๆ ก็คือมันมีจำนวนคนใน Study นั้นไม่เท่ากันครับ เพราะฉะนั้น Study ที่คนน้อยกว่า เขาก็จะให้น้ำหนักน้อยกว่า (จริงๆ แล้วมีหลายวิธีในการให้น้ำหนักใน Study แต่ที่ง่ายๆ ก็คือให้ตามปริมาณคนใน Study)

ทีนี้ก็มาถึงการแปลผลของ Heterogeneity แล้วครับ

Heterogeneity คืออะไร? Heterogeneity แปลว่า ความไม่เป็นเนื้อเดียวกันครับ ง่ายๆ เลยคือเหมือนเราเอา ส้มเขียวหวาน มารวมกับ มะนาว แล้วดูเรื่องความเปรี้ยว แล้วเราจะเอามาสรุปว่าส้มมันเปรี้ยวก็คงลำบาก เนื่องจากว่าก็รู้ๆ อยู่ว่ามะนาว มันไม่ใช่ส้ม นั่นคือมันไม่เป็นเนื้อเดียวกัน หรือเป็น Heterogeneity นั่นเองครับ

ทีนี้เราจะบอกได้ยังไงว่าสิ่งที่เราดูอยู่มันต่างกัน? เพราะมันไม่ได้ง่ายเหมือนส้มหรือมะนาว… วิธีการของนักสถิติคือ เขาจะดูว่าค่าที่ได้มันไปในอารมณ์เดียวกันหรือเปล่าครับ โดยวิธีดูด้วยตาเปล่าคือ กราฟ 95%CI มันคร่อมกันหรือเปล่านั่นเอง

แต่ทั้งนี้เนื่องจากว่าเป็นนักสถิติ จะอธิบายด้วยตาเปล่าคงยังไงๆ อยู่ เขาก็เลยใช้วิธีการทางตัวเลขมาเพื่อตอบปัญหาในกรณีนี้ นั่นคือ Heterogeneity Test นั่นเองครับ โดย Heterogeneity Test นั้นมีสมมติฐานหลักว่า แต่ละค่าของการศึกษานั้นเป็นไปในทางเดียวกัน แล้วพยายามหาค่าโอกาสของความที่ Study มันต่างกัน (ซึ่งเป็น p-Value ของ Test) มาหักล้างนั่นเอง

อย่างในตัวอย่างข้างต้นที่กล่าวไป นั่นคือเขาทำ Heterogeneity Test ได้ Chi2 = 1.11 เมื่อแปลงมาเป็นค่า p-Value แล้วได้ 0.29 นั่นหมายความว่า “ในทางสถิติแล้ว โอกาสที่จะมี Study ที่ต่างกันซ่อนอยู่ (โอกาสที่มีมะนาวแอบอยู่) นั้น = 29%”

แล้วเราจะเอาเท่าไหร่เป็น cut-point ว่ามันเหมือนหรือไม่เหมือนละ? อันนี้ไม่มีคำตอบครับ ส่วนใหญ่เนื่องจาก Test นี้มันโหดน้อยไปหน่อย ถ้าเอา 0.05 แบบการแปลผล p-Value ทั่วไปแล้ว ก็จะกลายเป็นว่าทุกอันแทบไม่มีอันไหนไม่ต่างกันเลย เขาจึงเอาที่ 0.10 เป็นเกณฑ์ครับ หมายความว่า Study ใดๆ ที่มันได้ p น้อยกว่า 0.10 นั้นมันอาจมีความแตกต่างกันของ Study ซ่อนอยู่ภายใน

หรือถ้าในกรณีนี้ p=0.29 ก็คือ Study มันน่าจะไปในทางเดียวกันนั่นเอง ซึ่งสอดคล้องกับการที่ 95%CI มันคร่อมกันอยู่

ต่อจากนี้แล้วช่วงหลังเขาจะนิยมใส่ค่า I2 เข้ามาด้วยครับ ค่านี้เป็นค่าที่ได้มาจากการคำนวณของ Heterogeneity อีกทีหนึ่ง ซึ่งจะดีกว่าตรงที่มันไม่ต้องมี Cutpoint มันจะบอกเป็น % ให้เลยว่าโอกาสที่ Study มันแตกต่างน่าจะซักเท่าไหร่

อย่างในกรณีนี้ I2 = 9.5% แสดงว่ามันค่อนข้างไม่แตกต่างเท่าไหร่ครับ.. เอ แล้วจะเอาเท่าไหร่มาบอกว่ามันแตกต่างกันเยอะมากน้อยละ? อันนี้ก็กลับมาเรื่อง cutpoint อีกเหมือนเดิม แต่มีคนแนะนำคร่าวๆ ไว้ถ้าเกิดว่ามัน <25% มันก็แตกต่างไม่เท่าไหร่ 25-50% แตกต่างมากหน่อย >50% ควรระวังได้แล้ว แต่ทั้งนี้อย่าลืมว่า cutpoint นั้นไม่ใช่จุดชี้ชะตานะครับ เป็นแค่คำแนะนำจากนักสถิติเท่านั้นเอง (เพราะงั้นหนังสือแต่ละเล่มย่อมไม่เหมือนกันแน่ๆ)

แล้วทีนี้ Study แต่ละอันจะแตกต่างกันได้ยังไงบ้าง Source ของ Heterogeneity มันจะมาจากไหน?

  • อาจแตกต่างกันในแง่ของการดำเนินงาน เช่น ทำในประชากรคนละที่, ให้ยาคนละ dose, เก็บข้อมูลกันคนละแบบ
  • หรือแตกต่างในแง่ของคุณภาพการศึกษา (methodology quality) เช่น Randomize ดี รัดกุม อีกอัน โยนหัวก้อย หรืออันหนึ่ง Blind อีกอันไม่ Blind เป็นต้น

ซึ่งบางครั้งใน Meta-analysis ก็อาจแบ่ง Study เป็นหลายๆ แบบเพื่อดูว่าถ้าแบ่งตามยา dose น้อยแล้วผลมันจะเป็นอย่างไร หรือถ้าเอาเฉพาะ Study ที่คุณภาพดีๆ นั้นจะไปทางเดียวกันหรือเปล่า (ซึ่งก็อาจใช้ค่า I2 มาดูนั่นแหละครับว่าแบ่งแล้วมันดีขึ้น หรือมันแย่ลง)

สำหรับ Test for Overall Effect นั้นเป็นเรื่องเกี่ยวกับ Random Effects และ Fixed Effect Model ซึ่งค่อนข้างจะอธิบายนานครับ ยังไงผมขอผ่านไปก่อน เดี๋ยววันหลังจะมาอธิบายในตอนการ Appraise Systematic Review อีกทีให้นะครับ :)