למודלי שפה גדולים (Large Language Models - LLMs) יש פוטנציאל לספק מידע אמין למטופלים. מטרת מחקר זה הייתה להשוות בין תגובות של LLM לבין מקורות מידע זמינים עבור מטופלים (Patient Information Resources - PIR) בהולנד לצורך מענה על שאלות מטופלים בנושא מלנומה.
עוד בעניין דומה
החוקרים בחנו תגובות של ChatGPT גרסה 3.5 ו-4 ושל Gemini הושוו לתשובות של שלושה PIR מובילים בהולנד על מלנומה עבור 50 שאלות בנושא מלנומה. עבור LLM, התשובות נבחנו בשנית כעבור שמונה חודשים. תוצאי המחקר כללו דיוק רפואי, שלמות, התאמה אישית, קלות הקריאה ועבור LLM בחנו גם הדירות.
תוצאות המחקר הדגימו כי בין LLM,יChatGPT גרסה 3.5 הדגים את הדיוק הרפואי הגבוה ביותר (p=0.009). Gemini סיפק את התשובות הכי מלאות (p<0.001), מותאמות אישית (p=0.007) וקלות לקריאה (p<0.001). PIR נמצאו עקביים מבחינם דיוק ושלמות, כאשר אתרים של רופאים כלליים הצטיינו במיוחד בהתאמה אישית של התשובות (p=0.013) וקלות הקריאה (p<0.001). LLM בעלי התפקוד הטוב ביותר נמצאו טובים יותר מ-PIR, אשר נחשבים תקן הזהב בכלל המדדים מלבד דיוק. במהלך הזמן, ההדירות של כלל LLM פחתה, מה שסיפק שונות רבה בתוצאים.
מסקנת החוקרים הייתה כי למרות ש-LLM הדגימו פוטנציאל במענה מותאם אישית ברמה גבוה עבור שאלות של נבדקים על מלנומה. יש להמשיך ולשפר ולשמור על דיוק, הדירות ונגישות של LLM לפני שניתן לומר כי אלו יחליפו או ישלימו מידע המתקבל מ-PIR כמקובל.
מקור:
תגובות אחרונות