24 กันยายน 2551

Guideline for Appraisal of Therapy (Clinical Trials, RCTs)

Adapted from User's guide to the Medical Literature
Guyatt G, Rennie D, Meade M, Cook D. Users' Guides to the Medical Literature: Essentials of Evidence-Based Clinical Practice. 2nd ed. McGraw-Hill Professional; 2008.

วันนี้ผมจะพูดเรื่องของการอ่าน paper เกี่ยวกับ therapy ซึ่งเป็นสิ่งที่อ่านได้ไม่ยากนัก และพบได้บ่อยครับ จะพยายามเขียนให้เป็นภาษาที่เข้าใจง่ายมากที่สุดที่จะทำได้นะครับ

หลักการ Appraisal เบื้องต้นที่ผมคิดไว้นะครับ

  1. อ่านเฉพาะ Introduction, Material & Method, Result ก็เพียงพอ ระหว่างอ่านไป อาจเขียนเป็น diagram ง่ายๆที่เราเข้าใจเองก็ได้
  2. หลังจากนั้นพยายามสรุปผลเอาเองก่อน แล้วเทียบกับที่ผู้วิจัยสรุปไว้ตรง Discussion
  3. พยายามคิดเห็นขัดแย้งให้ได้มากที่สุด (จะได้ไม่หลงเชื่อที่เขา Discuss ไว้ก่อน) แต่บางครั้งก็อาจจะไม่รู้ว่าจะคิดแย้งอย่างไรเนื่องจากอาจจะดีอยู่แล้วหรือซ่อนความจริงได้เนียนมาก
  4. ถ้าเป็นไปได้ควรไปหาความเห็นของคนอื่นเพื่อมาคิดแย้งกับความเห็นของเรา เช่น
  • จาก Editorials ของ Journal ฉบับนั้นๆ
  • จากเพื่อนฝูง ในวงการเดียวกัน หรือจาก Expert ใน Field ที่เรารู้จัก
  • จาก Secondary Journal เช่น ACP Journal Club, Evidence-Based Medicine Journal ของ BMJ อันนี้อาจจะต้องรอนิดหน่อย และอาจมีเฉพาะ Paper ใหญ่ๆ และสำคัญ แต่คนที่เอามาสรุปพวกนี้มักติดต่อคนที่ทำวิจัยเมื่อมีข้อสงสัยที่ไม่ได้ตีพิมพ์ใน Journal จึงทำให้เราอาจทราบถึงความจริงอื่นที่ไม่ได้ตีพิมพ์ใน paper นั้นๆ ได้
  • บางวารสารจะมี Letters to the editor หรือ Rapid Responses จากคนอื่นๆ ที่อ่านแบบเดียวกับเรา

  
 

การ Appraisal นั้นมีหลักการอยู่สามข้อครับ คือ Validity, Result และ Application
 

Validity หรือความถูกต้อง คือข้อสรุปที่ได้จากการศึกษานั้นๆ ทำตามขั้นตอนที่ถูกต้อง จนได้มาซึ่งข้อสรุปที่ถูกต้องหรือไม่ ถ้าเป็นไปได้พยายามจำสิ่งที่ต้องพิจารณาต่อไปนี้ก่อนจะไปอ่าน จะได้อ่านแล้วจับได้ถูกว่าเป็นอย่างไร (คือจำ Guideline แต่ละข้อไว้ด้วยน่ะครับ)

1.     กลุ่ม Intervention กับกลุ่ม Control เริ่มด้วยความเสี่ยงที่จะเป็นหรือจะหายเท่าๆ กันหรือไม่ ดูได้จาก

1.1.
มีการ Randomize คนไข้หรือไม่ ซึ่งต้องระวังเล็กน้อย ไม่ใช่ดูแต่คำว่า Randomize เนื่องจากวิธีการ Randomize ที่ดี ควรทำให้ทุกๆ คนที่เข้ามาอยู่ในการศึกษามีโอกาสที่จะได้รับ Treatment เท่าๆ กัน ที่ต้องทำเช่นนี้เพื่อเป็นการ "เกลี่ย" ลักษณะที่ไม่เหมือนกันในสองกลุ่ม เช่น เพศ อายุ ลักษณะพื้นฐานต่างๆ วิธีการ Randomize จึงเป็นสิ่งที่สำคัญ หากเป็นการ Randomize แต่ตามใจผู้ศึกษา (เช่นคนไข้เลขคู่ เอาไปอยู่กลุ่ม Treatment คนไข้เลขคี่เอาไปอยู่กลุ่ม Control) จะทำให้ไม่เกิดการ "เกลี่ย" ที่แท้จริงนี้ได้

1.2.
การ Randomization ที่กระทำโดยปกปิด (conceal) หรือไม่ เนื่องจากหากไม่ปกปิด ก็อาจทำให้ไม่เกิดการ Randomization ที่แท้จริงได้ ตัวอย่างที่คลาสสิก ก็คือการเทียบระหว่าง Open & Laparoscopic appendectomy เมื่อมีคนไข้มาตอนกลางคืน ถ้าไม่ปกปิด ผู้ร่วมวิจัยที่ขี้เกียจทำ Laparoscopic appendectomy ก็อาจโยนสลากที่จับได้ทิ้ง แล้วจับใหม่จนกว่าจะได้ Open เป็นต้น

1.3.
คนสองกลุ่มนี้เหมือนกันในข้อมูลพื้นฐานหรือไม่ อันนี้มักอ่านได้จาก Table ของ Baseline Characteristic ซึ่งมักจะอยู่เป็น Table 1 เป็นการสะท้อนให้เห็นว่าการ Randomization นั้นเกิดการ "เกลี่ย" จริงหรือไม่ บางคนอาจติดใจกับการที่ต้องมีค่าทางสถิติเช่น p-value มาอยู่ในตาราง แต่แท้จริงแล้วการที่เราพอจะดูว่ามัน "เกลี่ย" ได้จริงหรือไม่อาจไม่จำเป็นต้องเป็นค่า p-value ที่มีนัยสำคัญเสมอไป เอาแค่ดูแล้วมันใกล้เคียงกันก็เพียงพอ (สังเกตได้จาก Journal เก่าๆ มักแสดง p-value แต่ Journal ใหม่ๆ จะเลิกแสดงไปแล้ว)

2.     นอกจาก Intervention ที่เราสนใจแล้ว ทั้งกลุ่ม Control และ Treatment ได้รับการรักษาแบบเดียวกันหรือไม่

อันนี้ดูได้จากว่ามีการ Blind มากแค่ไหน ถ้ายิ่ง Blind มากก็ยิ่งป้องกันความลำเอียง (Bias) ได้มากเท่านั้น คนที่ต้องพิจารณามีอยู่ 5 กลุ่มคือ Patient, Clinician, Data collector, Outcome adjudicator, Analyst

สิ่งที่น่าสนใจคือ paper ส่วนใหญ่มักเสนอตัวเองว่าเป็น double-blind ซึ่งคำนี้เป็นคำที่ลำบากในการแปลความหมายเนื่องจากไม่รู้ว่าที่ blind 2 คนนั้นเป็นใครบ้างใน 5 กลุ่มข้างต้น แนะนำให้อ่านแล้วทำความเข้าใจมากกว่าว่ากลุ่มใดบ้างที่ blind แต่โดยมากแล้วคำว่า double blind มักหมายถึง blind patient และ clinician โดยการ blind ส่วนใหญ่ที่เกี่ยวกับยามักใช้เป็นยาหลอก หรือ placebo

สิ่งที่น่าสนใจถัดมาคือการศึกษาที่ดูแล้วไม่สามารถ blind ได้แน่ๆ เช่นการศึกษาทางศัลยกรรม แบ่งกลุ่มผ่าตัด และไม่ผ่าตัด อันนี้อาจจะ blind ลำบาก ทางแก้คือดูว่าเขาพยายาม blind แค่ไหน เช่น พยายามเอาผ้ามาพันไม่ให้คนที่มาวัด outcome เห็นว่าผ่าหรือไม่ผ่า

นอกจากนี้แล้วเรายังสามารถดูผลของการ blind ได้จากการดูว่ามันเกิด co-intervention หรือสิ่งที่ให้ไปพร้อมๆ กับ intervention ที่แตกต่างกันระหว่างสองกลุ่มหรือไม่ เช่นกลุ่มที่ได้ยา A ได้รับคำแนะนำอย่างดี ส่วนกลุ่ม placebo ไม่ได้รับคำแนะนำอะไรเลย ในกรณีนี้หากผลที่ได้ออกมาแตกต่างกัน มันอาจจะเกิดจาก "คำแนะนำ" ไม่ใช่จาก "ยา A" ก็ได้

3.     เมื่อจบการศึกษาแล้ว ทั้งสองกลุ่ม (Treatment, Control) ยังเท่าเทียมกันในแง่ต่างๆ อีกหรือไม่

3.1.
Follow up ได้ครบหรือไม่ หากกลุ่มใดกลุ่มหนึ่ง Follow up ได้น้อยกว่าอีกกลุ่ม หรือได้น้อยทั้งสองกลุ่ม ก็อาจจะแปลผลได้ลำบาก เนื่องจากไม่รู้ว่าคนที่หายไปนั้นเกิดเหตุการณ์อะไรขึ้นกันแน่ การที่จะบอกว่า Follow up ได้เท่าไหร่ถึงจะเรียกว่าครบเพียงพอนั้นไม่มีกำหนดชัดเจน อาจลองคิดดูจากว่าถ้าคนที่หายไปตายหรือเกิดผลเสียทั้งหมด จะส่งผลกระทบต่อตัวเลขเสียเท่าใด อย่างไรก็ดี ถ้า Loss Follow up <5% ก็มักไม่เกิดปัญหา

3.2.
การศึกษานั้นหยุดก่อนที่ตั้งใจจะหยุดหรือไม่ เนื่องจากบางการศึกษาอาจมีความจำเป็นหลายด้านที่ต้องหยุดก่อนที่กำหนดเวลาการศึกษานั้นจะเป็นจริง อันนี้อาจมีปัญหาได้หากผลการศึกษานั้นเป็นแบบหนึ่งในตอนแรก และกลับข้างเป็นอีกแบบในตอนหลัง หากเราหยุดตรงกลางก็อาจให้ข้อสรุปที่ผิดไปจากความเป็นจริงได้

3.3.
การวิเคราะห์ข้อมุลเป็นแบบ Intention-To-Treat หรือไม่ บางการศึกษาใช้การวิเคราะห์อีกแบบที่เรียกว่า Per-Protocol คือเอาข้อมูลตามความเป็นจริงเช่น นาย ข. ได้รับยา A แต่ดันไม่กินเลย ก็จะวิเคราะห์โดยจัด นาย ข อยู่ในกลุ่มที่ไม่กินแทน อันนี้ส่งผลเป็นอย่างมากต่อการ Randomization ทำให้สิ่งที่เราอุตส่าห์เกลี่ยจากการ Randomization นั้นเปลี่ยนไปโดยสิ้นเชิง ดังนั้นการวิเคราะห์แบบนี้จึงไม่ดี อย่างไรก็ตามส่วนใหญ่ในช่วงหลังมักจะเป็น Intention-To-Treat (แต่หากไม่ได้เขียนต้องตั้งข้อสงสัยว่าอาจเป็นแบบ Per-Protocol)

บางคนอาจสงสัยเรื่องของ คำว่า Internal Validity/External Validity คำนี้เป็นคำที่นักวิจัยใช้ครับ กล่าวคือ Internal Validity หมายถึงว่า "ถูกต้อง"ในระดับของตัวอย่าง (sample) ที่นำมาศึกษานั้นๆครับ ส่วน External Validity หมายถึง "ถูกต้อง"ในระดับของกลุ่มประชากรเป้าหมายทั่วๆ ไปครับ (target population) สำหรับในการ appraisal นั้นคำนึงถึงเรื่องของ Internal Validity มากกว่าเนื่องจากจะเอาส่วนของ External Validity ไปอยู่ในหัวข้อของ Application ครับ

 บางคนพยายามจะ "ให้คะแนน" ความ Valid แต่ละข้อ และแต่ละวิธีก็มีการให้คะแนนแตกต่างกันไปแล้วแต่แต่ละคน เช่น บางคนอาจจะคิดว่าเรื่องของการ Randomization มันสำคัญมาก แต่อีกคนอาจคิดว่าเรื่องของ Blinding สำคัญกว่า เรื่องนี้ไม่มีข้อสรุปที่ชัดเจน ทำให้จริงๆ แล้วเราไม่สามารถบอกได้ว่า paper แต่ละอันมีค่าของความ "Validity" เท่าไหร่ นิยมให้ตามความรู้สึกของผู้ appraise มากกว่า (เช่น ถ้ารู้สึกว่าโอ้โห มันจับผิดไม่ได้เลย ก็อาจให้ 80-90% หรือถ้ามันห่วยจนไม่มีซักอย่างก็อาจให้ 30-40% ก็เป็นไปได้)

  
 


 

Result หรือผลที่ได้ จะต้องดูว่าผลที่ได้นั้น ใหญ่แค่ไหน (Large) และ แม่นยำแค่ไหน (Precise)

สูตรคำนวณที่อาจต้องใช้คือ Number Needed to Treat (NNT) = 100/Risk Reduction (เป็น %)

เช่น Risk ในการลดอาการของยา A = 10 คน ใน 200 คน = 10/200 = 5%

Risk ในการลดอาการของ Placebo = 5 คนใน 200 คน = 5/200 = 2.5%

ดังนั้น Risk Reduction = 5% - 2.5% = 2.5%

และ Number Needed to Treat (NNT) = 100/2.5 = 40

หมายความว่า เราต้องรักษาคนไข้จำนวน 40 คนจึงจะลดอาการได้ 1 คน

 ซึ่งขึ้นอยู่กับว่าการศึกษานั้นๆ เป็นการศึกษาแบบไหนครับ บางการศึกษาก็คำนวณได้ บางทีก็คำนวณไม่ได้

สำหรับเรื่องของ Precise นั้นให้ดูจากค่าของ 95% Confident Interval (95%CI) ซึ่งเป็นตัวบอกว่า "ค่าจริง" ที่เราทำได้ เรามั่นใจ 95% ว่ามันน่าจะอยู่ในช่วงนั้นๆ เช่น คำนวณ Odds Ratio (OR) ว่ายา A ดีกว่า placebo ในแง่หายจากอาการได้ 2.03 โดยที่ 95%CI อยู่ระหว่าง 1.0-3.5 แสดงว่า เรามั่นใจ 95% ว่าค่าจริงๆ ของ OR จะอยู่ในช่วง 1.0-3.5 วิธีที่จะดูว่ามันส่งผลอย่างไร ก็ให้ดูว่าในช่วงนั้นๆ เรารับได้แค่ไหน

เช่น การแปลผลของ OR ดังกล่าว หมายถึง คนที่ใช้ยา A มีโอกาสหายจากอาการเป็น 2.03 เท่าของคนที่ใช้ placebo ซึ่งอันนี้เป็นการแปลของจุดที่คำนวณได้ (Point Estimate) คือ 2.03 แต่เราก็ต้องแปลความหมายของ 95%CI ด้วยว่าจริงๆ แล้วโอกาสที่บอกว่า 2.03 เท่านั้นน่ะ ความเป็นจริงมันก็เป็นได้ตั้งแต่ 1.0 เท่า ถึง 3.5 เท่านะ (สังเกตว่าถ้าพูดว่า โอกาสเป็น 1 เท่าของคนที่ได้ placebo จะแปลว่า "เท่ากัน" แสดงว่ามันก็อาจจะไม่ได้ช่วยอะไรเลยก็ได้ บางคนอาจเรียกสถานการณ์นี้ว่า "คร่อม 1" อย่างไรก็ดีแนะนำให้ลองแปลผลดูจะดีกว่าจำตัวเลขว่า คร่อม 1 คร่อม 0)

สำหรับเรื่องของ 95%CI นั้นยังมีอีกเรื่องหนึ่งคือ การคำนวณ 95%CI มักจะสัมพันธ์ไปกับจำนวนของกลุ่มตัวอย่าง (sample size หรือสัญลักษณ์ n) กล่าวคือ ยิ่งกลุ่มตัวอย่างยิ่งใหญ่เท่าไหร่ ค่าที่เราได้ก็จะยิ่งมั่นใจมากขึ้นเท่านั้น (ตาม common sense ธรรมดาๆ)

บางการศึกษาจะรายงานผลออกมามีค่า p-value ด้วยซึ่งตรงจุดนี้จริงๆ แล้วไม่จำเป็นต้องให้ความสนใจมากนัก เนื่องจากจะสัมพันธ์ไปกับค่า 95%CI ที่ได้เสมอ

  
 

Application หรือการนำผลที่ได้ไปใช้ที่ต้องดูคือ

1.     คนไข้เราเหมือนคนไข้ในการศึกษาหรือเปล่า อันนี้อาจดูจากว่า จริงๆ แล้วคนไข้เราสามารถเข้าการศึกษานี้ได้ไหม อาจดูจาก inclusion/exclusion ของการศึกษา ปัญหาหลักคือก็มักจะมีคนแย้งว่าการศึกษานี้ทำในต่างประเทศอาจเอามาใช้กับคนไทยไม่ได้ อันนี้เป็นเรื่องที่เถียงกันยังไงก็ไม่จบ อย่างไรก็ตาม หากไม่อยากเถียงก็อาจหาเหตุผลมาแสดงในมุมย้อนกลับก็ได้ว่าเพราะเหตุอันใดคนไข้เราถึงจะไม่สามารถใช้ผลจากการศึกษานี้ได้

2.     มีการพิจารณาถึง outcome ที่คนไข้สนใจจริงๆ หรือไม่ (Patient-Oriented Outcome) บางการศึกษาสนใจแค่ระดับของฮอร์โมน ระดับของน้ำตาล ซึ่งอาจไม่เป็นสิ่งที่คนไข้สนใจจริงๆ เช่น ความตาย ความพิการ ก็ได้ (เรียก outcome ที่ไม่สนใจคนไข้นี้ว่า surrogate outcome) นอกจากนี้ยังต้องระวัง outcome ที่เป็นแบบรวมๆ (composite outcome) เช่น รวมระหว่างความตาย+พิการ+ระดับน้ำตาลลด อันนี้ต้องพิจารณาว่ามันควรจะไปด้วยกันหรือไม่ ตามตัวอย่างนี้ outcome บางอย่างอาจจะไป "ฉุด" ให้ outcome อื่นนั้น significant ก็ได้ เช่น จริงๆ แล้วมันทำให้ระดับน้ำตาลลดมากๆ แต่ไม่ได้เกี่ยวกับการตายเสียเท่าไหร่ แต่พอมารวมกันก็ฉุดให้ดูเหมือนลดการตายไปด้วยเป็นต้น

3.     ผลที่ได้นี้คุ้มกับผลเสียหรือไม่ อันนี้อาจจะต้องพิจารณาถึงเรื่องของ side effect ของการรักษา, เรื่องของค่าใช้จ่ายของการรักษา ซึ่งใน paper อาจไม่มีอาจต้องไปหาเพิ่มเติม อาจชั่งระหว่าง Number Needed to Treat กับผลเสียก็ได้หากมีข้อมูล


 

ไว้คราวหน้าผมจะลอง Appraise บางอันให้ดูเป็นตัวอย่างนะครับ