Het Large Language Model (LLM) kan overtuigende artikelen schrijven op basis van korte woorden, slagen voor examens in professionele taalvaardigheid en patiëntvriendelijke en empathische informatie schrijven. Naast de bekende risico's van fictie, kwetsbaarheid en onjuiste feiten in de LLM, komen echter geleidelijk ook andere onopgeloste problemen aan de orde, zoals AI-modellen die potentieel discriminerende 'menselijke waarden' bevatten bij hun ontwikkeling en gebruik. Zelfs als de LLM geen content meer verzint en duidelijk schadelijke resultaten elimineert, kunnen 'LLM-waarden' nog steeds afwijken van menselijke waarden.
Talloze voorbeelden illustreren hoe de data die gebruikt worden om AI-modellen te trainen, individuele en sociale waarden coderen, die binnen het model verstevigd kunnen worden. Deze voorbeelden omvatten een scala aan toepassingen, waaronder automatische interpretatie van thoraxfoto's, classificatie van huidziekten en algoritmische besluitvorming met betrekking tot de toewijzing van medische middelen. Zoals vermeld in een recent artikel in ons tijdschrift, kunnen bevooroordeelde trainingsdata de waarden en vooroordelen in de maatschappij versterken en onthullen. Onderzoek heeft daarentegen ook aangetoond dat AI kan worden gebruikt om vooroordelen te verminderen. Zo pasten onderzoekers deep learning-modellen toe op röntgenfoto's van de knie en ontdekten factoren die werden gemist door standaard ernstindicatoren (beoordeeld door radiologen) in het kniegewricht, waardoor onverklaarbare pijnverschillen tussen zwarte en blanke patiënten werden verminderd.
Hoewel steeds meer mensen zich realiseren dat AI-modellen een bias hebben, met name op het gebied van trainingsdata, krijgen veel andere aspecten van menselijke waarden onvoldoende aandacht in het ontwikkel- en implementatieproces van AI-modellen. Medische AI heeft recentelijk indrukwekkende resultaten behaald, maar menselijke waarden en hun interactie met risicobeoordeling en probabilistisch redeneren zijn grotendeels niet expliciet meegenomen, noch gemodelleerd.
Om deze abstracte concepten te concretiseren, stelt u zich voor dat u een endocrinoloog bent die recombinant humaan groeihormoon moet voorschrijven aan een 8-jarige jongen die onder het 3e percentiel van zijn leeftijd zit. De gestimuleerde humaan groeihormoonspiegel van de jongen is lager dan 2 ng/ml (referentiewaarde, > 10 ng/ml; de referentiewaarde voor veel landen buiten de Verenigde Staten is > 7 ng/ml) en zijn gen dat codeert voor humaan groeihormoon heeft zeldzame inactiveringsmutaties gedetecteerd. Wij zijn van mening dat de toepassing van humaan groeihormoontherapie in deze klinische setting voor de hand ligt en onbetwistbaar is.
De toepassing van therapie met menselijk groeihormoon in de volgende scenario's kan controverse veroorzaken: de lengte van een 14-jarige jongen is altijd in het 10e percentiel van zijn leeftijdsgenoten geweest en de piek van menselijk groeihormoon na stimulatie is 8 ng/ml. Er zijn geen bekende functionele mutaties die de lengte kunnen beïnvloeden, noch andere bekende oorzaken van een kleine gestalte, en zijn botleeftijd is 15 jaar (d.w.z. geen ontwikkelingsachterstand). Slechts een deel van de controverse is te wijten aan verschillen in de drempelwaarden die door experts zijn bepaald op basis van tientallen studies met betrekking tot de niveaus van menselijk groeihormoon die worden gebruikt voor de diagnose van geïsoleerde groeihormoondeficiëntie. Minstens evenveel controverse komt voort uit de risico-batenverhouding van het gebruik van therapie met menselijk groeihormoon vanuit het perspectief van patiënten, patiënten, ouders, zorgprofessionals, farmaceutische bedrijven en verzekeraars. Pediatrische endocrinologen kunnen de zeldzame bijwerkingen van dagelijkse injecties met groeihormoon gedurende 2 jaar afwegen met de waarschijnlijkheid van geen of slechts minimale groei in volwassen lichaamsgrootte in vergelijking met de huidige. Jongens denken misschien dat het de moeite waard is om groeihormoon te injecteren, ook al neemt hun lengte maar 2 cm toe. De betaler en het farmaceutische bedrijf denken daar echter anders over.
We nemen de creatininegebaseerde eGFR als voorbeeld. Dit is een veelgebruikte indicator voor de nierfunctie voor het diagnosticeren en stadiëren van chronische nierziekte, het vaststellen van niertransplantatie- of donatievoorwaarden en het bepalen van reductiecriteria en contra-indicaties voor veel voorgeschreven medicijnen. EGFR is een eenvoudige regressievergelijking die gebruikt wordt om de gemeten glomerulaire filtratiesnelheid (mGFR) te schatten. Dit is een referentiestandaard, maar de evaluatiemethode is relatief omslachtig. Deze regressievergelijking kan niet als een AI-model worden beschouwd, maar illustreert wel veel principes over menselijke waarden en probabilistisch redeneren.
Het eerste punt waarop menselijke waarden in de eGFR worden opgenomen, is bij het selecteren van gegevens voor het aanpassen van vergelijkingen. De oorspronkelijke wachtrij die werd gebruikt om de eGFR-formule te ontwerpen, bestond voornamelijk uit zwarte en witte deelnemers, en de toepasbaarheid ervan op veel andere etnische groepen is onduidelijk. De volgende punten waarop menselijke waarden in deze formule worden opgenomen, zijn onder andere: het selecteren van de mGFR-nauwkeurigheid als primaire doelstelling voor het evalueren van de nierfunctie, wat een acceptabel nauwkeurigheidsniveau is, hoe de nauwkeurigheid te meten en het gebruiken van de eGFR als drempelwaarde voor het triggeren van klinische besluitvorming (zoals het bepalen van de voorwaarden voor niertransplantatie of het voorschrijven van medicatie). Ten slotte, bij het selecteren van de inhoud van het invoermodel, zullen ook menselijke waarden in deze formule worden opgenomen.
Zo suggereren richtlijnen vóór 2021 om de creatininewaarden in de eGFR-formule aan te passen op basis van de leeftijd, het geslacht en het ras van de patiënt (alleen geclassificeerd als zwart of niet-zwart). De aanpassing op basis van ras is gericht op het verbeteren van de nauwkeurigheid van de mGFR-formule, maar in 2020 begonnen grote ziekenhuizen het gebruik van een op ras gebaseerde eGFR in twijfel te trekken, onder vermelding van redenen zoals het vertragen van de geschiktheid van de patiënt voor transplantatie en het concretiseren van ras als biologisch concept. Onderzoek heeft aangetoond dat het ontwerpen van eGFR-modellen in termen van ras een diepgaande en wisselende impact kan hebben op de nauwkeurigheid en klinische uitkomsten; daarom weerspiegelt selectieve focus op nauwkeurigheid of focus op een deel van de uitkomsten waardeoordelen en kan het transparante besluitvorming verhullen. Ten slotte stelde de nationale werkgroep een nieuwe formule voor die werd aangepast zonder rekening te houden met ras om prestatie- en eerlijkheidskwesties in evenwicht te brengen. Dit voorbeeld illustreert dat zelfs een eenvoudige klinische formule veel aanknopingspunten heeft voor menselijke waarden.
Vergeleken met klinische formules met slechts een klein aantal voorspellende indicatoren, kan een LLM bestaan uit miljarden tot honderden miljarden parameters (modelgewichten) of meer, wat het moeilijk te begrijpen maakt. De reden waarom we "moeilijk te begrijpen" zeggen, is dat in de meeste LLM's de exacte manier om antwoorden te verkrijgen door middel van vragen niet in kaart kan worden gebracht. Het aantal parameters voor GPT-4 is nog niet bekendgemaakt; zijn voorganger GPT-3 had 175 miljard parameters. Meer parameters betekenen niet per se sterkere mogelijkheden, aangezien kleinere modellen met meer rekencycli (zoals de LLaMA [Large Language Model Meta AI] modelserie) of modellen die nauwkeurig zijn afgesteld op basis van menselijke feedback, beter presteren dan grotere modellen. Volgens menselijke beoordelaars presteert het InstrumentGPT-model (een model met 1,3 miljard parameters) bijvoorbeeld beter dan GPT-3 bij het optimaliseren van modeluitvoerresultaten.
De specifieke trainingsdetails van GPT-4 zijn nog niet bekendgemaakt, maar de details van modellen van eerdere generaties, waaronder GPT-3, InstrumentGPT en vele andere open-source LLM's, zijn wel bekendgemaakt. Tegenwoordig worden veel AI-modellen geleverd met modelkaarten; de evaluatie- en beveiligingsgegevens van GPT-4 zijn gepubliceerd in een vergelijkbare systeemkaart van het modelontwikkelingsbedrijf OpenAI. De ontwikkeling van een LLM kan grofweg worden onderverdeeld in twee fasen: de initiële pre-trainingsfase en de fine-tuningfase, gericht op het optimaliseren van de modeluitvoerresultaten. In de pre-trainingsfase krijgt het model een groot corpus met de originele internettekst om het te trainen het volgende woord te voorspellen. Dit ogenschijnlijk eenvoudige proces van "automatische aanvulling" levert een krachtig fundamenteel model op, maar kan ook leiden tot schadelijk gedrag. Menselijke waarden komen aan bod in de pre-trainingsfase, waaronder het selecteren van pre-trainingsgegevens voor GPT-4 en het besluit om ongepaste inhoud, zoals pornografische inhoud, uit de pre-trainingsgegevens te verwijderen. Ondanks deze inspanningen is het basismodel mogelijk nog steeds niet bruikbaar of in staat om schadelijke uitvoerresultaten te bevatten. In de volgende fase van het verfijnen zullen veel nuttige en ongevaarlijke gedragingen naar voren komen.
In de finetuningfase wordt het gedrag van taalmodellen vaak ingrijpend veranderd door middel van supervised finetuning en reinforcement learning op basis van menselijke feedback. In de supervised finetuningfase schrijft ingehuurd contractpersoneel antwoordvoorbeelden voor promptwoorden en traint het model direct. In de reinforcement learningfase, gebaseerd op menselijke feedback, sorteren menselijke evaluatoren de modeluitvoerresultaten als inputcontentvoorbeelden. Vervolgens passen ze de bovenstaande vergelijkingsresultaten toe om het 'beloningsmodel' te leren en het model verder te verbeteren door middel van reinforcement learning. Verbazingwekkende menselijke betrokkenheid op laag niveau kan deze grote modellen finetunen. Het InstrumentGPT-model maakte bijvoorbeeld gebruik van een team van ongeveer 40 contractmedewerkers, gerekruteerd via crowdsourcingwebsites, en slaagde voor een screeningtest gericht op het selecteren van een groep annotators die gevoelig zijn voor de voorkeuren van verschillende bevolkingsgroepen.
Zoals deze twee extreme voorbeelden, namelijk de eenvoudige klinische formule [eGFR] en de krachtige LLM [GPT-4], aantonen, spelen menselijke besluitvorming en menselijke waarden een onmisbare rol bij het vormgeven van de modeluitkomsten. Kunnen deze AI-modellen hun uiteenlopende patiënt- en artswaarden vastleggen? Hoe kunnen we de toepassing van AI in de geneeskunde publiekelijk sturen? Zoals hieronder vermeld, kan een herziening van de analyse van medische beslissingen een principiële oplossing voor deze kwesties bieden.
Medische beslissingsanalyse is niet bekend bij veel clinici, maar het kan onderscheid maken tussen probabilistisch redeneren (voor onzekere uitkomsten gerelateerd aan besluitvorming, zoals de vraag of menselijk groeihormoon moet worden toegediend in het controversiële klinische scenario in Figuur 1) en overwegingsfactoren (voor subjectieve waarden die aan deze uitkomsten worden toegekend, waarvan de waarde wordt gekwantificeerd als "utiliteit", zoals de waarde van een toename van 2 cm in mannelijke lengte), wat systematische oplossingen biedt voor complexe medische beslissingen. Bij beslissingsanalyse moeten clinici eerst alle mogelijke beslissingen en waarschijnlijkheden die aan elke uitkomst zijn gekoppeld, bepalen en vervolgens het nut van de patiënt (of andere partij) dat aan elke uitkomst is gekoppeld, meenemen om de meest geschikte optie te selecteren. De validiteit van beslissingsanalyse hangt daarom af van de volledigheid van de uitkomstbepaling, en van de nauwkeurigheid van de meting van het nut en de schatting van de waarschijnlijkheid. Idealiter helpt deze aanpak ervoor te zorgen dat beslissingen evidence-based zijn en aansluiten bij de voorkeuren van de patiënt, waardoor de kloof tussen objectieve gegevens en persoonlijke waarden wordt verkleind. Deze methode werd enkele tientallen jaren geleden in de medische sector geïntroduceerd en toegepast bij de besluitvorming van individuele patiënten en bij het beoordelen van de gezondheid van de bevolking, bijvoorbeeld door aanbevelingen te doen voor screening op colorectale kanker aan de algemene bevolking.
Bij de analyse van medische beslissingen zijn verschillende methoden ontwikkeld om nut te bepalen. De meeste traditionele methoden ontlenen de waarde rechtstreeks aan individuele patiënten. De eenvoudigste methode is het gebruik van een beoordelingsschaal, waarbij patiënten hun voorkeur voor een bepaalde uitkomst aangeven op een digitale schaal (zoals een lineaire schaal van 1 tot 10), met de meest extreme gezondheidsuitkomsten (zoals volledige gezondheid en overlijden) aan beide uiteinden. De tijdruilmethode is een andere veelgebruikte methode. Bij deze methode moeten patiënten beslissen hoeveel gezonde tijd ze bereid zijn te besteden in ruil voor een periode van slechte gezondheid. De standaard gokmethode is een andere veelgebruikte methode om nut te bepalen. Bij deze methode wordt patiënten gevraagd welke van de twee opties ze verkiezen: ofwel een bepaald aantal jaren in normale gezondheid leven met een specifieke waarschijnlijkheid (p) (t), en het risico op overlijden dragen met een waarschijnlijkheid van 1-p; ofwel ervoor zorgen dat ze t jaar leven onder verschillende gezondheidsomstandigheden. Vraag patiënten meerdere keren met verschillende p-waarden totdat ze geen voorkeur meer tonen voor een optie, zodat het nut kan worden berekend op basis van de antwoorden van de patiënten.
Naast methoden om individuele patiëntvoorkeuren te achterhalen, zijn er ook methoden ontwikkeld om het nut voor de patiëntenpopulatie te bepalen. Vooral focusgroepdiscussies (waarbij patiënten samenkomen om specifieke ervaringen te bespreken) kunnen helpen hun perspectieven te begrijpen. Om het nut van de groep effectief te aggregeren, zijn verschillende gestructureerde groepsdiscussietechnieken voorgesteld.
In de praktijk is de directe introductie van utiliteit in het klinische diagnose- en behandelproces zeer tijdrovend. Als oplossing worden enquêtevragenlijsten meestal verspreid onder willekeurig geselecteerde populaties om utiliteitsscores op populatieniveau te verkrijgen. Enkele voorbeelden zijn de EuroQol 5-dimensionale vragenlijst, de verkorte 6-dimensionale utiliteitsweging, de Health Utility Index en de Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30-tool.
Plaatsingstijd: 01-06-2024




