ปัญญาประดิษฐ์ (artificial intelligence; AI) ดีกว่ามนุษย์ในการวินิจฉัยภาวะตาเสื่อมตามวัยที่มีหนองหรือไม่

ใจความสำคัญ

• เมื่อเปรียบเทียบกับผู้เชี่ยวชาญแล้ว การทดสอบที่ใช้ปัญญาประดิษฐ์ (AI) อาจมีความแม่นยำพอๆ กันในการตรวจจับภาวะจอประสาทตาเสื่อมตามวัยแบบมีหนอง (หรือเปียก) (eAMD)

• ไม่มีความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพการทำงานโดยไม่คำนึงถึงสภาวะดวงตาอื่นในชุดข้อมูลภาพหรือประเภทของภาพที่ใช้

• จำเป็นต้องมีการวิจัยเพิ่มเติมและการรายงานที่สอดคล้องกันเพื่อกำหนดบทบาทของ AI ในการวินิจฉัย eAMD

จอประสาทตาเสื่อมตามอายุคืออะไร
จุดรับภาพคือบริเวณตรงกลางของจอประสาทตา ซึ่งอยู่บริเวณด้านหลังของดวงตา เมื่ออายุมากขึ้น เซลล์ในจอประสาทตาจะตายหรือได้รับความเสียหาย ส่งผลให้มองเห็นได้ไม่ชัดเจน โรคจอประสาทตาเสื่อมตามวัย (AMD) เป็นภาวะตาเสื่อมที่พบได้บ่อย ซึ่งอาจแย่ลงจนกลายเป็นโรค AMD ที่มีหนอง (หรือแบบเปียก) (eAMD) ซึ่งลดการมองเห็นบริเวณกึ่งกลางของตาจากการเจริญเติบโตของหลอดเลือดที่ผิดปกติ การวินิจฉัย eAMD ที่แม่นยำถือเป็นสิ่งสำคัญ เนื่องจากช่วยให้ผู้ป่วยได้รับการรักษาจากผู้เชี่ยวชาญด้านจอประสาทตาได้ วิธีการดั้งเดิมในการวินิจฉัย eAMD จะต้องอาศัยผู้เชี่ยวชาญด้านการดูแลดวงตาและเทคนิคการถ่ายภาพหลายวิธี ซึ่งอาจต้องใช้เวลาและทรัพยากรมาก การทดสอบที่ใช้ปัญญาประดิษฐ์ (AI) มีแนวโน้มที่จะตรวจพบ eAMD ได้โดยอัตโนมัติ สิ่งนี้สามารถช่วยให้ผู้ป่วยโรค AMD จำนวนมากสามารถตรวจตาและรับการวินิจฉัยและการรักษาได้อย่างทันท่วงที

AI สามารถช่วยได้อย่างไร
AI เป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ที่มุ่งหมายเพื่อบรรลุภารกิจที่โดยทั่วไปต้องใช้สติปัญญาของมนุษย์ มีการพัฒนาแอปพลิเคชัน AI เพื่อตรวจสอบภาพของดวงตาและได้รับการฝึกให้เลือกภาพที่อาจมีสัญญาณของ eAMD ผู้ป่วยสามารถได้รับการส่งตัวไปรับการรักษาอย่างทันท่วงที และผู้เชี่ยวชาญด้านสายตาจะไม่ต้องเสียเวลากับการทดสอบสายตาอีกต่อไป

เราต้องการค้นหาอะไร
เราต้องการค้นหาว่าการทดสอบ AI มีความแม่นยำเพียงใดเมื่อเปรียบเทียบกับผู้เชี่ยวชาญด้านมนุษย์ในการวินิจฉัย eAMD จากภาพดวงตา

เราทำอะไรไปแล้วบ้าง
เราค้นหาการศึกษาวิจัยจากทุกที่ในโลกที่เปรียบเทียบประสิทธิภาพการวินิจฉัยของการทดสอบ AI กับผู้เชี่ยวชาญในการอ่านภาพดวงตาเพื่อวินิจฉัย eAMD รูปภาพอาจมาจากผู้ป่วยที่มารับบริการดูแลดวงตาที่คลินิกชุมชนหรือศูนย์การแพทย์มหาวิทยาลัย หรือมาจากฐานข้อมูลรูปภาพ ผลการอ่านที่ใช้ AI จะถูกนำไปเปรียบเทียบกับผลการอ่านของผู้เชี่ยวชาญที่ตรวจสอบภาพก่อนการทดสอบ AI

เราค้นพบอะไร
เราพบการศึกษา 36 ฉบับ ที่มีผู้เข้าร่วมมากกว่า 16,000 คน และรูปภาพ 62,000 ภาพที่รายงานผลลัพธ์จากการทดสอบ AI แบบต่างๆ 41 แบบ การศึกษามากกว่าครึ่งหนึ่งดำเนินการในเอเชีย รองลงมาคือยุโรป สหรัฐอเมริกา และความร่วมมือหลายประเทศ โดยเฉลี่ยแล้ว 33% ของผู้เข้าร่วมการศึกษามี eAMD

สำหรับการทดสอบ AI ทั้งสามรายการที่ประเมินจากข้อมูลใหม่ที่นอกเหนือจากภาพฝึกอบรม เมื่อนำไปใช้เพื่อตรวจหา eAMD ในบุคคล 10,000 ราย (รวมถึง 100 รายที่เป็น eAMD จริง) การทดสอบ AI จะระบุบุคคลที่มี eAMD อย่างไม่ถูกต้องประมาณ 99 ราย (ผลบวกลวง) และพลาดประมาณ 6 ราย (ผลลบลวง)

สำหรับการทดสอบ AI จำนวน 28 รายการที่ประเมินโดยใช้ข้อมูลการฝึกอบรมเพียงอย่างเดียว โดยใช้สถานการณ์เดียวกัน การทดสอบจะระบุบุคคลที่มี eAMD อย่างไม่ถูกต้องประมาณ 396 ราย (ผลบวกลวง) และพลาดประมาณ 7 ราย (ผลลบลวง)

การทดสอบ AI แสดงให้เห็นประสิทธิภาพที่คล้ายคลึงกันกับผู้เชี่ยวชาญ ไม่ว่าจะได้รับการประเมินโดยใช้ภาพจากชุดฝึกอบรมหรือจากชุดข้อมูลใหม่ ประสิทธิภาพมีความคล้ายคลึงกันในชุดข้อมูลภาพของ eAMD และกลุ่มควบคุมหรือประเภทภาพต่างๆ

หลักฐานมีข้อจำกัดอะไรบ้าง
งานวิจัยที่รวมอยู่ส่วนใหญ่มีข้อบกพร่องในการคัดเลือก ฝึกอบรม หรือประเมินการทดสอบ AI ข้อบกพร่องในการศึกษาเหล่านี้อาจทำให้ผลการทดสอบดูดีขึ้นกว่าที่เป็นจริง ดังนั้นความเชื่อมั่นของเราต่อความแม่นยำของผลการทดสอบจึงต่ำ การศึกษาในอนาคตควรคัดเลือกผู้เข้าร่วมที่มีอายุและความรุนแรงของโรคที่สะท้อนถึงสภาวะในโลกแห่งความเป็นจริง

หลักฐานนี้เป็นปัจจุบันแค่ไหน
หลักฐานล่าสุด ณ เดือนเมษายน 2024

ข้อสรุปของผู้วิจัย: 

หลักฐานความเชื่อมั่นต่ำถึงต่ำมากชี้ให้เห็นว่าการทดสอบตาม algorithm อาจพบบุคคลส่วนใหญ่ที่มี eAMD ได้อย่างถูกต้องโดยไม่เพิ่มการส่งตัวที่ไม่จำเป็น (ผลบวกลวง) ไม่ว่าจะเป็นในการดูแลเบื้องต้นหรือการดูแลเฉพาะทาง มีข้อกังวลที่สำคัญเกี่ยวกับการใช้ผลการทบทวนวรรณกรรมเนื่องจากความแตกต่างในอัตราการเกิด eAMD ในการศึกษาที่รวมไว้ นอกจากนี้ ในบรรดาการทดสอบตาม algorithm ที่รวมอยู่ การประมาณความแม่นยำของการวินิจฉัยมีความเสี่ยงของการมีอคติ เนื่องจากผู้เข้าร่วมการศึกษาไม่ได้สะท้อนลักษณะในโลกแห่งความเป็นจริง การตรวจสอบความถูกต้องของแบบจำลองที่ไม่เพียงพอ และแนวโน้มของการเลือกรายงานผลลัพธ์ คุณภาพและปริมาณที่จำกัดของ algorithm ที่ผ่านการตรวจสอบจากภายนอกทำให้เห็นถึงความจำเป็นในการมีหลักฐานที่มีความเชื่อมั่นสูง หลักฐานนี้จะต้องมีคำจำกัดความมาตรฐานสำหรับ eAMD สำหรับรูปแบบการถ่ายภาพที่แตกต่างกัน และการตรวจสอบภายนอกของ algorithm เพื่อประเมินความสามารถในการขยายผล

อ่านบทคัดย่อฉบับเต็ม
บทนำ: 

โรคจอประสาทตาเสื่อมตามวัย (age-related macular degeneration; AMD) เป็นความผิดปกติของจอประสาทตาที่ทำให้จอประสาทตาส่วนกลาง (จุดรับภาพ) เสียหาย ประมาณ 10% ถึง 20% ของผู้ป่วย AMD ที่ไม่มีหนองจะพัฒนาไปสู่ภาวะที่มีของหนอง ซึ่งอาจส่งผลให้การมองเห็นส่วนกลางลดลงอย่างรวดเร็ว บุคคลที่เป็นโรค AMD ชนิดมีหนอง (eAMD) จำเป็นต้องปรึกษาผู้เชี่ยวชาญด้านจอประสาทตาโดยทันทีเพื่อลดความเสี่ยงและขอบเขตของการสูญเสียการมองเห็น วิธีการแบบดั้งเดิมในการวินิจฉัยโรคตาต้องอาศัยการประเมินทางคลินิกและเทคนิคการถ่ายภาพหลายวิธี ซึ่งอาจต้องใช้ทรัพยากรมาก การทดสอบที่ใช้ปัญญาประดิษฐ์ (AI) มีแนวโน้มที่จะพบและจัดหมวดหมู่ลักษณะทางพยาธิวิทยาได้โดยอัตโนมัติ ช่วยให้วินิจฉัยและรักษา eAMD ได้ทันท่วงที

วัตถุประสงค์: 

เพื่อประเมินความแม่นยำในการวินิจฉัยของปัญญาประดิษฐ์ (AI) ในฐานะเครื่องมือคัดกรองโรคจอประสาทตาเสื่อมที่เกี่ยวข้องกับอายุที่มีหนอง (eAMD)

วิธีการสืบค้น: 

เราค้นหาใน CENTRAL, MEDLINE, Embase, ทะเบียนการทดลองทางคลินิก 3 แห่ง และ Data Archiving and Networked Services (DANS) เพื่อค้นหา gray literature เราไม่ได้จำกัดการค้นหาตามภาษาหรือวันที่เผยแพร่ วันที่ค้นหาครั้งสุดท้ายคือเมษายน 2024

เกณฑ์การคัดเลือก: 

งานวิจัยที่รวบรวมมาได้เปรียบเทียบประสิทธิภาพการทดสอบของ algorithms กับผู้อ่านมนุษย์เพื่อตรวจหา eAMD ในภาพเรตินาที่รวบรวมจากผู้ป่วย AMD ที่ได้รับการประเมินที่คลินิกตาในศูนย์การแพทย์ชุมชนหรือมหาวิทยาลัย และผู้ที่ไม่ได้รับการรักษา eAMD เมื่อถ่ายภาพดังกล่าว เราได้รวม algorithms ที่ได้รับการตรวจสอบจากภายในหรือภายนอกหรือทั้งสองอย่าง

การรวบรวมและวิเคราะห์ข้อมูล: 

ผู้ประพันธ์การทบทวนวรรณกรรมทำงานเป็นคู่ ดึงข้อมูลและประเมินคุณภาพของการศึกษาโดยใช้ Quality Assessment of Diagnostic Accuracy Studies-2 (QUADAS-2) พร้อม revised signaling questions สำหรับการศึกษาที่รายงานผลลัพธ์มากกว่า 1 ชุด เราได้ดึงข้อมูล diagnostic accuracy เพียงชุดเดียวต่อ 1 การศึกษาโดยอิงตามขั้นตอนการพัฒนาล่าสุดหรือ algorithm ที่เหมาะสมที่สุดตามที่ผู้ประพันธ์การศึกษาระบุไว้ สำหรับ two-class algorithms เราได้รวบรวมข้อมูลจากตาราง 2x2 ทุกครั้งที่ทำได้ สำหรับ multi-class algorithms เราเริ่มต้นรวมข้อมูลจากคลาสทั้งหมดนอกเหนือจาก eAMD ก่อนที่จะสร้างตาราง 2x2 ที่สอดคล้องกัน โดยถือว่ามีเกณฑ์ความเป็นบวกทั่วไปที่ใช้ในการศึกษาที่รวมอยู่ เราเลือก random-effects, bivariate logistic models เพื่อประเมินความไวและความจำเพาะโดยสรุปเป็นตัวชี้วัดประสิทธิภาพหลัก

ผลการวิจัย: 

เราพบการศึกษา 36 ฉบับ ที่เข้าเกณฑ์ซึ่งรายงานข้อมูลประสิทธิภาพของ algorithm 40 ชุด ครอบคลุมผู้เข้าร่วมกว่า 16,000 รายและรูปภาพ 62,000 ภาพ เรารวบรวมการศึกษา 28 ฉบับ (78%) ที่รายงาน 31 algorithms พร้อมข้อมูลประสิทธิภาพใน meta-analysis การศึกษา 9 ฉบับที่เหลือ (25%) รายงาน 8 algorithms ที่ไม่มีข้อมูลประสิทธิภาพที่ใช้งานได้ เราได้รายงานไว้ในการสังเคราะห์เชิงคุณภาพ

ลักษณะของการศึกษาและความเสี่ยงของการมีอคติ

การศึกษาส่วนใหญ่ดำเนินการในเอเชีย รองลงมาคือยุโรป สหรัฐอเมริกา และความพยายามร่วมมือที่ครอบคลุมหลายประเทศ การศึกษาส่วนใหญ่หาผู้เข้าร่วมการศึกษาจากโรงพยาบาล ในขณะที่การศึกษาอื่นๆ ใช้ภาพเรตินาจากคลังข้อมูลสาธารณะ การศึกษาบางส่วนไม่ได้ระบุแหล่งที่มาของภาพ การศึกาา 4 ฉบับจากทั้งหมด 36 ฉบับที่รายงานข้อมูลประชากร พบว่าผู้เข้าร่วมการศึกษามีอายุระหว่าง 62 ถึง 82 ปี algorithms ที่รวมไว้ใช้ภาพเรตินาประเภทต่างๆ เป็นข้อมูลนำเข้าของแบบจำลอง เช่น ภาพตัดขวางด้วยแสงเลเซอร์ (optical coherence tomography; OCT) (N = 15), ภาพจอประสาทตา (N = 6) และการถ่ายภาพหลายรูปแบบ (N = 7) วิธีแกนหลักที่ใช้เป็นหลักคือ deep neural networks การศึกษาที่รายงาน algorithms ที่ได้รับการตรวจสอบจากภายนอกทั้งหมดมี ความเสี่ยงสูงของการมีอคติ เนื่องมาจาก selection bias ที่อาจเกิดขึ้นจาก two-gate design หรือการคัดออกโดยไม่เหมาะสมของภาพเรตินาที่อาจเข้าข่าย (หรือผู้เข้าร่วม)

ผลการศึกษา

จาก 40 algorithms ที่รวมอยู่ มีเพียง 3 algorithms เท่านั้นที่ได้รับการตรวจสอบจากภายนอก (7.5%, 3/40) ความไวและความจำเพาะโดยสรุปคือ 0.94 (ช่วงความเชื่อมั่น 95% (CI) 0.90 ถึง 0.97) และ 0.99 (CI 95% 0.76 ถึง 1.00) ตามลำดับ เมื่อเปรียบเทียบกับมนุษย์เป็นผู้ให้คะแนน (การศึกษา 3 ฉบับ; รูปภาพ 27,872 ภาพ; หลักฐานความเชื่อมั่นต่ำ) ความชุกของภาพที่มี eAMD มีตั้งแต่ 0.3% ถึง 49%

มีรายงานว่า 28 algorithms ได้รับการตรวจสอบภายใน (20%, 8/40) หรือทดสอบบนชุดพัฒนา (50%, 20/40) โดยค่าความไวและความจำเพาะที่รวมกันคือ 0.93 (95% CI 0.89 ถึง 0.96) และ 0.96 (95% CI 0.94 ถึง 0.98) ตามลำดับ เมื่อเปรียบเทียบกับผู้ให้คะแนนที่เป็นมนุษย์ (การศึกษา 28 ฉบับ; รูปภาพ 33,409 รูป; หลักฐานความเชื่อมั่นต่ำ) เราไม่พบแหล่งที่มาสำคัญของความแตกต่างกันระหว่าง algorithms ทั้ง 28 รายการนี้ แม้ว่า algorithms ที่ใช้ภาพ OCT จะดูเป็นเนื้อเดียวกันมากกว่าและมีผลสรุปความจำเพาะสูงสุด (0.97, 95% CI 0.93 ถึง 0.98) แต่ก็ไม่ได้เหนือกว่า algorithms ที่ใช้ภาพจอประสาทตาเพียงอย่างเดียว (0.94, 95% CI 0.89 ถึง 0.97) หรือการถ่ายภาพหลายโหมด (0.96, 95% CI 0.88 ถึง 0.99; P สำหรับ meta-regression = 0.239) ค่ามัธยฐานความชุกของการเกิดภาพที่มี eAMD อยู่ที่ 30% (interquartile range [IQR] 22% ถึง 39%)

เราไม่ได้นำเข้าการศึกษา 8 ฉบับ ที่อธิบาย 9 algorithms (การศึกษา 1 ฉบับรายงานผลลัพธ์ของ algorithms 2 ชุด) เพื่อแยกแยะ eAMD จากภาพปกติ ภาพของ AMD อื่นๆ หรือรอยโรคในจอประสาทตาอื่นที่ไม่ใช่ AMD ในการวิเคราะห์เมตต้า โดยทั่วไปแล้ว 5 algorithms นี้จะอิงจากชุดข้อมูลที่เล็กกว่า (ผู้เข้าร่วมต่อการศึกษาอยู่ในช่วง 21 ถึง 218 คน) แต่มีความชุกของภาพ eAMD ที่สูงกว่า (ช่วง 33% ถึง 66%) เมื่อเทียบกับผู้ให้คะแนนเป็นมนุษย์แล้ว ความไวที่รายงานในการศึกษาเหล่านี้มีตั้งแต่ 0.95 ถึง 0.97 ในขณะที่ความจำเพาะมีตั้งแต่ 0.94 ถึง 0.99 ในทำนองเดียวกัน การใช้ชุดข้อมูลขนาดเล็ก (ช่วง 46 ถึง 106) การเพิ่ม 4 algorithms ในการตรวจหา eAMD จากรอยโรคในจอประสาทตาอื่นๆ แสดงให้เห็นถึงความไวสูง (ช่วง 0.96 ถึง 1.00) และความจำเพาะ (ช่วง 0.77 ถึง 1.00)

บันทึกการแปล: 

แปลโดย ศ.นพ. ภิเศก ลุมพิกานนท์ ภาควิชาสูติศาสตร์และนรีเวชวิทยา คณะแพทยศาสตร์ มหาวิทยาลัยขอนแก่น 22 พฤศจิกายน 2024

Tools
Information