הערכת האיכות, הדיוק וההטיה של ChatGPT בסיכום של תקצירים רפואיים

הידע הקליני ברחבי העולם מתרחב במהירות, אך לרופאים ישנו זמן מועט לסקור את הספרות המדעית. מודלי שפה גדולים, כמו ChatGPT (Chat Generative Pretrained Transformer), עשויים לסייע בסיכום ובתיעדוף של מאמרי מחקר לסקירה. עם זאת, מודלים אלו לעיתים מייצרים מידע שגוי, תופעה המכונה "הזיה".

עוד בעניין דומה

במחקר שממצאיו פורסמו לאחרונה בכתב העת annals of family medicine, חוקרים העריכו את היכולת של ChatGPT לסכם 140 תקצירים שעברו ביקורת עמיתים מ-14 כתבי עת שונים. רופאים דירגו את האיכות, הדיוק וההטיה של סיכומי ה-ChatGPT. בנוסף, החוקרים ביצעו השוואה בין דירוגים שניתנו על ידי בני אדם לגבי הרלוונטיות של התקצירים לתחומים שונים ברפואה, לבין דירוגים שנוצרו על ידי ChatGPT.

תוצאות המחקר הדגימו כי ChatGPT יצר סיכומים שהיו קצרים יותר ב-70% (אורך תקציר ממוצע של 2,438 תווים ירד ל-739 תווים). למרות זאת, הסיכומים דורגו כאיכותיים (ציון חציוני 90, טווח בין-רבעוני: 82.0-92.5; סולם 0-100), עם דיוק גבוה (חציון 92.5, 89.0-95.0) והטיה נמוכה (חציון 0, 0-7.5). אי-דיוקים חמורים ו"הזיות" היו נדירים. כמו כן, סיווג הרלוונטיות של כתבי עת שלמים לתחומי רפואה שונים תאם באופן הדוק את הסיווגים שנעשו על ידי הרופאים (שגיאת תקן לא ליניארית של רגרסיה 8.6, בסולם של 0-100). עם זאת, סיווג הרלוונטיות של מאמרים בודדים היה פחות מדויק ועקבי (שגיאת תקן של הרגרסיה 22.3).

החוקרים מסכמים כי סיכומים שנוצרו על ידי ChatGPT היו קצרים ב-70% מהאורך הממוצע של תקצירי המאמרים, ואופיינו באיכות גבוהה, דיוק גבוה והטיה נמוכה. לעומת זאת, ל-ChatGPT הייתה יכולת מוגבלת בסיווג הרלוונטיות של מאמרים להתמחויות רפואיות. החוקרים הציעו ש-ChatGPT יוכל לסייע לרופאי משפחה לזרז את סקירת הספרות המדעית, וכדי להקל על יישום זה, פיתחו תוכנה בשם pyJournalWatch. כמו כן, החלטות רפואיות קריטיות צריכות להתקבל על סמך הערכה מלאה, ביקורתית ומתחשבת של מאמרי המחקר שלמים בהקשר להנחיות הקליניות שנקבעו.

מקור:

Quality, Accuracy, and Bias in ChatGPT-Based Summarization of Medical Abstracts. Joel Hake, Miles Crowley, Allison Coy, Denton Shanks, Aundria Eoff, Kalee Kirmer-Voss, Gurpreet Dhanda, Daniel J. Parente. The Annals of Family Medicine Mar 2024, 22 (2) 113-120; DOI: 10.1370/afm.3075

הערכת האיכות, הדיוק וההטיה של ChatGPT בסיכום של תקצירים רפואיים

נמצא כי ChatGPT מפגין פוטנציאל מבטיח בסיוע בסיכום יעיל של ספרות רפואית, אך מומלץ להיזהר בשימוש בכלי זה לקבלת החלטות רפואיות קריטיות

עוד בעניין דומה

תגובות

16.05.2024

החדשות

תגובות אחרונות

5 הכי נקראות