آیا هوش مصنوعی (AI) برای تشخیص بیماری «دژنراسیون ماکولا وابسته به سن اگزوداتیو» بهتر از انسان است؟

پیام‌های کلیدی

• تست‌های مبتنی بر هوش مصنوعی (AI) در مقایسه با متخصصان انسانی، ممکن است در تشخیص شکل اگزوداتیو (یا مرطوب) دژنراسیون ماکولا وابسته به سن (exudative age-related macular degeneration; eAMD) دقیق باشند.

• فارغ از وجود دیگر بیماری‌های چشم در مجموعه داده‌های تصویر یا انواع تصاویر استفاده شده، تفاوت قابل توجهی در عملکرد تست وجود نداشت.

• برای تعریف نقش هوش مصنوعی در تشخیص eAMD، به تحقیقات بیشتر و گزارش‌های منسجم‌تر نیاز است.

دژنراسیون ماکولا وابسته به سن چیست؟
ماکولا قسمت مرکزی شبکیه است که در پشت چشم قرار دارد. با بالا رفتن سن افراد، سلول‌های لکه زرد از بین رفته یا آسیب می‌بینند، و دید واضح را برایشان دشوار می‌کند. دژنراسیون ماکولا وابسته به سن (AMD) یک بیماری شایع چشمی است که می‌تواند به سمت AMD اگزوداتیو (یا مرطوب) (eAMD) پیشرفت کرده و بدتر شود، که در اثر رشد رگ‌های خونی غیرطبیعی، بینایی را در مرکز چشم کاهش می‌دهد. تشخیص دقیق eAMD مهم است زیرا به بیماران اجازه می‌دهد تا درمان را از یک متخصص شبکیه دریافت کنند. روش‌های مرسوم تشخیص eAMD بر یک متخصص چشم‌پزشک و تکنیک‌های تصویربرداری متعدد تکیه می‌کنند که می‌توانند زمان‌بر و زمان‌بر باشند. تست‌هایی که از هوش مصنوعی (AI) استفاده می‌کنند، نوید شناسایی خودکار eAMD را می‌دهند. این امر می‌تواند به افراد بیشتری که مبتلا به AMD هستند، کمک کند تا چشم‌های خود را بررسی کرده و تشخیص و درمان به‌موقع را دریافت کنند.

AI چگونه می‌تواند کمک کند؟
AI شاخه‌ای از علوم کامپیوتر است که هدف آن، انجام وظایفی است که مرسوم سنتی به هوش انسانی نیاز دارند. برنامه‌های کاربردی AI برای بررسی تصاویر چشم توسعه یافته‌اند و برای انتخاب مواردی که ممکن است علائم eAMD را نشان دهند، آموزش دیده‌اند. با این روش، بیماران را می‌توان برای درمان به‌موقع ارجاع داد و متخصصان چشم از انجام تست‌های چشمی وقت‌گیر رها می‌شوند.

ما به دنبال چه یافته‌ای بودیم؟
ما ‌خواستیم بدانیم که تست‌های AI در مقایسه با متخصصان انسانی در تشخیص eAMD از روی تصاویر چشم‌ها چقدر دقیق هستند.

ما چه کاری را انجام دادیم؟
ما به دنبال مطالعاتی در هر نقطه از جهان بودیم که عملکرد تشخیصی تست‌های AI را با تست‌های متخصصان انسانی در خواندن تصاویر چشم برای تشخیص eAMD مقایسه ‌کردند. این تصاویر می‌توانستند از بیمارانی باشند که برای دریافت مراقبت به یک کلینیک در سطح اجتماع یا مرکز پزشکی دانشگاهی مراجعه کرده یا از بانک اطلاعاتی تصاویر استفاده کردند. نتایج به دست آمده با AI با نتایج کارشناسان انسانی مقایسه شدند که تصاویر را قبل از تست‌های AI بررسی کردند.

ما به چه نتایجی رسیدیم؟
ما 36 مطالعه را با بیش از 16,000 نفر و 62,000 تصویر شناسایی کردیم که نتایج 41 تست مختلف AI را گزارش کردند. بیش از نیمی از مطالعات در آسیا و به دنبال آن اروپا، ایالات متحده آمریکا و همکاری‌های چند کشوری انجام شدند. به‌طور متوسط، 33% از افراد در مطالعات مبتلا به eAMD بودند.

برای سه تست AI که روی داده‌های جدید فراتر از تصاویر آموزشی ارزیابی شدند، وقتی برای تشخیص eAMD در 10,000 فرد (از جمله 100 نفری که واقعا eAMD داشتند) استفاده ‌شدند، تست‌های AI به اشتباه حدود 99 نفر را دارای eAMD (مثبت کاذب) تشخیص ‌دادند و تقریبا 6 مورد (منفی کاذب) را از دست دادند.

برای 28 تست AI که صرفا بر اساس داده‌های آموزشی ارزیابی شدند، با استفاده از سناریو یکسان، تست‌ها به اشتباه حدود 396 نفر را دارای eAMD (مثبت کاذب) شناسایی کردند و تقریبا 7 مورد (منفی کاذب) را از دست دادند.

تست‌های AI عملکرد مشابهی را با متخصصان انسانی نشان دادند، چه با استفاده از تصاویر مجموعه آموزشی ارزیابی شدند یا از یک مجموعه داده جدید استفاده کردند. عملکرد آنها در مجموعه داده‌های تصویری eAMD و گروه‌های کنترل مختلف یا انواع تصویر، مشابه بود.

محدودیت‌های شواهد چه هستند؟
اکثر مطالعات واردشده دارای نواقصی در انتخاب، آموزش یا ارزیابی تست‌های AI بودند. این نواقص مطالعه ممکن است باعث شده باشد که نتایج تست بهتر از آنچه بودند، به نظر برسند. در نتیجه، سطح اطمینان ما به صحت (accuracy) نتایج تست پائین بود. مطالعات آینده باید شرکت‌کنندگانی را وارد کنند که سن و شدت بیماری آنها منعکس‌کننده شرایط دنیای واقعی است.

این شواهد تا چه زمانی به‌روز است؟
شواهد تا اپریل 2024 به‌روز است.

نتیجه‌گیری‌های نویسندگان: 

شواهدی با قطعیت پائین تا بسیار پائین نشان می‌دهد که یک تست مبتنی بر الگوریتم ممکن است به درستی اکثر افراد مبتلا به eAMD را، بدون افزایش ارجاعات غیرضروری (مثبت کاذب)، در مراکز مراقبت اولیه یا تخصصی شناسایی کند. به دلیل تفاوت در شیوع eAMD در مطالعات واردشده، نگرانی‌های قابل توجهی برای اعمال یافته‌های مرور وجود داشت. علاوه بر این، میان تست‌های واردشده مبتنی بر الگوریتم، برآوردهای صحت تشخیصی، به دلیل عدم انعکاس ویژگی‌های دنیای واقعی، اعتبارسنجی ناکافی مدل، و احتمال گزارش‌دهی انتخابی نتایج، در معرض خطر سوگیری بودند. کیفیت و کمّیت محدود الگوریتم‌هایی با اعتبار خارجی نیاز به دستیابی به شواهدی را با قطعیت بالا برجسته می‌کند. این شواهد به یک تعریف استانداردشده برای eAMD در روش‌های مختلف تصویربرداری و اعتبارسنجی خارجی الگوریتم برای ارزیابی تعمیم‌پذیری آن نیاز دارد.

خلاصه کامل را بخوانید...
پیشینه: 

دژنراسیون ماکولا وابسته به سن (age-related macular degeneration; AMD) نوعی اختلال شبکیه چشم است که با آسیب مرکزی شبکیه (ماکولا) مشخص می‌شود. تقریبا 10% تا 20% از موارد AMD غیراگزوداتیو به سمت اگزوداتیو (exudative) پیشرفت می‌کنند، که ممکن است منجر به زوال سریع بینایی مرکزی شود. افراد مبتلا به AMD اگزوداتیو (exudative age-related macular degeneration; eAMD) نیاز به مشاوره فوری با متخصصان شبکیه دارند تا خطر و میزان از دست دادن بینایی را به حداقل برسانند. روش‌های مرسوم تشخیص بیماری‌های چشمی بر ارزیابی بالینی و تکنیک‌های تصویربرداری چندگانه تکیه می‌کنند، که می‌توانند منابع زیادی را مصرف کنند. تست‌های اعمال نفوذ هوش مصنوعی (artificial intelligence; AI) نوید شناسایی و دسته‌بندی خودکار ویژگی‌های پاتولوژیک را می‌دهند و امکان تشخیص و درمان به موقع eAMD را فراهم می‌کنند.

اهداف: 

تعیین صحت (accuracy) تشخیصی هوش مصنوعی (AI) به عنوان یک ابزار تریاژ برای دژنراسیون ماکولا وابسته به سن اگزوداتیو (eAMD).

روش‌های جست‌وجو: 

ما CENTRAL؛ MEDLINE؛ Embase، سه پایگاه ثبت کارآزمایی‌های بالینی، و آرشیو داده‌ها و خدمات شبکه‌ای (Data Archiving and Networked Services; DANS) را برای متون علمی خاکستری جست‌وجو کردیم. جست‌وجوی خود را به زبان یا وضعیت انتشار مطالعه محدود نکردیم. تاریخ آخرین جست‌وجو اپریل 2024 بود.

معیارهای انتخاب: 

مطالعات واردشده، عملکرد تست الگوریتم‌ها را با عملکرد خوانندگان انسانی برای تشخیص eAMD روی تصاویر شبکیه جمع‌آوری‌شده از افراد مبتلا به AMD مقایسه کردند که در کلینیک‌های چشم در سطح اجتماع یا در مراکز پزشکی دانشگاهی مورد ارزیابی قرار گرفتند، و کسانی که هنگام گرفتن عکس‌ها تحت درمان برای eAMD نبودند. ما الگوریتم‌هایی را وارد کردیم که اعتبار داخلی یا خارجی یا هر دو در آنها تایید شده بود.

گردآوری و تجزیه‌وتحلیل داده‌ها: 

گروه‌های دو نفره از نویسندگان مرور به‌طور مستقل از هم داده‌ها را استخراج کرده و کیفیت مطالعه را با استفاده از ابزار ارزیابی کیفیت مطالعات صحت تشخیصی-2 (QUADAS-2) با سوالات تجدیدنظر شده سیگنالینگ ارزیابی کردند. برای مطالعاتی که بیش از یک مجموعه از نتایج عملکرد را گزارش کردند، ما فقط یک مجموعه را از داده‌های صحت تشخیصی در هر مطالعه بر اساس آخرین مرحله توسعه یا الگوریتم مطلوب که توسط نویسندگان مطالعه نشان داده شد، استخراج کردیم. برای الگوریتم‌های دو-کلاس (two-class)، هر زمان که امکان‌پذیر بود، داده‌ها را از جدول 2x2 جمع‌آوری کردیم. برای الگوریتم‌های چند-کلاس (multi-class)، ابتدا داده‌ها را از همه کلاس‌ها به جز eAMD پیش از ساخت جداول 2x2 مربوطه، ادغام کردیم. با فرض یک حد آستانه (threshold) مثبت مشترک اعمال‌شده توسط مطالعات واردشده، ما اثرات تصادفی (random-effect)، مدل‌های لجستیک دو متغیره (bivariate logistic model) را برای برآورد جمع‌بندی حساسیت (sensitivity) و ویژگی (specificity) به عنوان معیارهای عملکرد اولیه انتخاب کردیم.

نتایج اصلی: 

ما 36 مطالعه واجد شرایط را شناسایی کردیم که 40 مجموعه داده‌ای را از عملکرد الگوریتم گزارش کردند، که شامل بیش از 16,000 شرکت‌کننده و 62,000 تصویر بودند. تعداد 28 مطالعه (78%) را وارد کردیم که 31 الگوریتم را با داده‌های عملکرد در متاآنالیز گزارش دادند. نه مطالعه باقی‌مانده (25%) هشت الگوریتم را گزارش کردند که فاقد داده‌های عملکرد قابل استفاده بودند؛ آنها را در سنتز کیفی گزارش کردیم.

ویژگی‌های مطالعه و خطر سوگیری (bias)

بیشتر مطالعات در آسیا و پس از آن در اروپا، ایالات متحده آمریکا، و همکاری‌های چند کشوری انجام شدند. اکثر مطالعات، شرکت‌کنندگان در مطالعه را از محیط‌های بیمارستانی شناسایی کردند، در حالی که دیگران از تصاویر شبکیه از مخازن عمومی استفاده کردند؛ چند مطالعه نیز منابع تصویر را مشخص نکردند. بر اساس نتایج چهار مطالعه از 36 مطالعه که اطلاعات دموگرافیک را گزارش ‌کردند، سن شرکت‌کنندگان در مطالعه از 62 تا 82 سال متغیر بود. الگوریتم‌های واردشده از انواع مختلف تصاویر شبکیه به عنوان ورودی مدل استفاده کردند، مانند تصاویر توموگرافی انسجام نوری (optical coherence tomography; OCT) (N = 15)، تصاویر فوندوس (N = 6)، و تصویربرداری چند-وجهی (N = 7). روش اصلی مورد استفاده، شبکه‌های عصبی عمیق بود. همه مطالعاتی که الگوریتم‌های دارای اعتبار خارجی را گزارش کردند، عمدتا به دلیل سوگیری بالقوه انتخاب (selection bias) ناشی از طراحی دو-دروازه (two-gate) یا حذف نامناسب تصاویر شبکیه (یا شرکت‌کنندگان) که بالقوه واجد شرایط بودند، در معرض خطر سوگیری بالا قرار داشتند.

یافته‌ها

فقط سه الگوریتم از 40 مورد واردشده، دارای اعتبار خارجی بودند (7.5%؛ 3/40). جمع‌بندی حساسیت و ویژگی به ترتیب برابر با 0.94 (95% فاصله اطمینان (CI): 0.90 تا 0.97) و 0.99 (95% CI؛ 0.76 تا 1.00) در مقایسه با درجه‌بندی آن توسط پزشکان بود (3 مطالعه؛ 27,872 تصویر؛ شواهد با قطعیت پائین). شیوع تصاویر دارای eAMD از 0.3% تا 49% متغیر بود.

بیست و هشت الگوریتم که دارای اعتبار داخلی بودند (20%؛ 8/40) یا روی یک مجموعه تست شدند (50%؛ 20/40)، دارای حساسیت و ویژگی تجمعی، به ترتیب، معادل 0.93 (95% CI؛ 0.89 تا 0.96) و 0.96 (95% CI؛ 0.94 تا 0.98) در مقایسه با درجه‌بندی آن توسط پزشکان بودند (28 مطالعه؛ 33,409 تصویر؛ شواهد با قطعیت پائین). ما منابع قابل توجهی از ناهمگونی (heterogeneity) را بین این 28 الگوریتم شناسایی نکردیم. اگرچه الگوریتم‌هایی که از تصاویر OCT استفاده کردند، همگن‌تر به نظر رسیدند و بالاترین ویژگی جمع‌بندی شده (0.97؛ 95% CI؛ 0.93 تا 0.98 را نشان دادند، نسبت به الگوریتم‌هایی که فقط از تصاویر فوندوس استفاده کردند (0.94؛ 95% CI؛ 0.89 تا 0.97) یا تصویربرداری چندوجهی (0.96؛ 95% CI؛ 0.88 تا 0.99؛ P برای متارگرسیون = 0.239) برتری نداشتند. میانه (median) شیوع تصاویر دارای eAMD برابر با 30% بود (دامنه بین-چارکی (interquartile; IQR)؛ 22% تا 39%).

ما هشت مطالعه را وارد نکردیم که نه الگوریتم (یک مطالعه دو مجموعه از نتایج الگوریتم را گزارش کرد) را برای تشخیص eAMD از تصاویر عادی، تصاویری از دیگر موارد AMD، یا دیگر ضایعات غیر از AMD شبکیه در متاآنالیز، توصیف ‌کردند. پنج مورد از این الگوریتم‌ها عموما مبتنی بر مجموعه داده‌های کوچک‌تر بودند (محدوده 21 تا 218 شرکت‌کننده در هر مطالعه) اما با شیوع بالاتری از تصاویر eAMD (محدوده 33% تا 66%). نسبت به درجه‌بندی ضایعات توسط پزشکان، حساسیت گزارش‌شده در این مطالعات از 0.95 و 0.97 متغیر بود، در حالی که ویژگی از 0.94 تا 0.99 گزارش شد. به‌طور مشابه، با استفاده از مجموعه داده‌های کوچک (محدوده 46 تا 106)، چهار الگوریتم بیشتر از دیگر ضایعات شبکیه، حساسیت (محدوده 0.96 تا 1.00) و ویژگی (محدوده 0.77 تا 1.00) بالا را برای تشخیص eAMD نشان دادند.

یادداشت‌های ترجمه: 

این متن توسط مرکز کاکرین ایران به فارسی ترجمه شده است.

Tools
Information