FLORIDA / MÜNCHEN (IT BOLTWISE) – KI-Modell von Forschern der Universität Florida erzielt in Tests vergleichbare Ergebnisse wie echte Ärzte
Kann künstliche Intelligenz medizinischen Fragen beantworten und damit einen Teil der Last von den Schultern der Ärzte und medizinischen Fachkräfte nehmen?
Große Sprachmodelle wie ChatGPT erzeugen Text, indem sie Datensätze trainieren und Statistiken verwenden, um die wahrscheinlichste Antwort auf eine Benutzeranfrage zu erstellen. Eine große Sorge ist, dass diese Modelle nicht speziell für den medizinischen Gebrauch trainiert werden. Die meisten großen Sprachmodelle verwenden das gesamte Internet als ihren Datensatz – im Grunde eine intelligentere und schnellere Google-Suche.
Die meisten argumentieren, dass das Googeln einer Frage nicht unbedingt zu einer korrekten Antwort führen wird, und die gleiche Besorgnis kann auf ChatGPT angewendet werden. Wenn jedoch ein großes Sprachmodell speziell mit klinischen Gesundheitsdatensätzen trainiert würde, könnten die Ergebnisse weitaus genauer und vertrauenswürdiger sein.
Genau dies war das Ziel einer Studie, die von Dr. Cheng Peng und Kollegen an der University of Florida in “Nature” veröffentlicht wurde. Ihr Programm mit dem passenden Namen GatorTronGPT beantwortete Benutzeranfragen in etwa mit der gleichen sprachlichen Lesbarkeit und klinischen Relevanz wie echte Ärzte.
Anstatt von Grund auf ein völlig neues großes Sprachmodell zu erstellen, verwendeten Peng und seine Kollegen das Grundgerüst von ChatGPT-3. Mit anderen Worten: GatorTronGPT sollte lernen wie die großen Sprachmodelle, die ihm vorausgegangen waren. Statt jedoch unbeschränkte Datensätze aus allen Bereichen der Menschheit zu erlernen, wurde GatorTronGPT ausschließlich 82 Milliarden Wörtern an deidentifiziertem klinischem Text und dem 195 Milliarden Wörter umfassenden “Pile”-Datensatz ausgesetzt, einem häufig verwendeten großen Sprachmodelldatensatz, der dem Programm hilft, effektiv zu kommunizieren.
Es gab zwei Hauptkriterien für GatorTronGPT: sprachliche Lesbarkeit und klinische Relevanz.
Um die sprachliche Lesbarkeit von GatorTronGPT zu bewerten, wandten sich die Forscher an Natural Language Processing-Programme, die computerlinguistische, maschinelle Lern- und Deep Learning-Modelle kombinieren, um menschliche Sprache zu verarbeiten und sehr leicht die Lesbarkeit aus absurd großen Datensätzen zu bestimmen.
Die Forscher verglichen die Lesbarkeit von 1, 5, 10 und 20 Milliarden Wörtern synthetischen klinischen Textes von GatorTronGPT mit 90 Milliarden Wörtern echten Textes aus den medizinischen Archiven der University of Florida.
Sie stellten fest, dass der synthetische Text von GatorTronGPT im 1-Milliarden-Wörter-Datensatz in acht Benchmarks mindestens geringfügig (>1 %) lesbarer war als Real-World-Text. Wenn der Natural Language Processor mit 5, 10 oder 20 Milliarden Wörtern gefüttert wird, ist die Lesbarkeit zwischen GatorTronGPT und Real-World-Text etwa gleich.
Mit anderen Worten: Das spezialisierte große Sprachmodell ist mindestens so lesbar wie echter medizinischer Text. Es wird schwieriger zu lesen, je mehr Wörter das Modell lernt, was angesichts der zunehmenden Spezialisierung und Differenzierung der Diskussion sinnvoll erscheint.
Was die klinische Relevanz betrifft, verwendeten die Forscher das, was sie als Physicians’ Turing-Test bezeichnen. Der ursprüngliche Turing-Test, benannt nach dem Mathematiker Dr. Alan Turing, ist eine Methode zur Bewertung, ob eine Person das intelligente Verhalten einer Entität, mit der sie kommuniziert, als menschlich oder maschinell erkennen kann.
Beim Physicians’ Turing-Test wurden zwei Ärzten 30 Notizen mit medizinischem Text und 30 Notizen mit synthetischem Text vorgelegt, die von GatorTronGPT geschrieben wurden. Von den 30 synthetischen Notizen wurden nur neun (30,0 %) bzw. 13 (43,4 %) korrekt als synthetisch identifiziert, d. h. mehr als die Hälfte der Zeit dachten die Ärzte, dass eine von KI geschriebene Notiz menschlich war und damit die für die Turing-Test-Qualifikation erforderlichen 30 % erreichte.
Angesichts der verbesserten medizinischen Eignung von GatorTronGPT gegenüber allgemeinen großen Sprachmodellen wie ChatGPT ist es wahrscheinlich, dass es oder ein ähnliches Modell in den kommenden Monaten und Jahren als Alternative zu den derzeit verfügbaren ChatGPT eingesetzt wird.
Ein solches System wird sicherlich in den administrativen Aspekten des Gesundheitssystems eingesetzt werden, einschließlich der Analyse klinischer Texte, der Dokumentation von Patientenberichten, der Terminplanung und der Aufnahme etc.
Selbst mit dem verbesserten GatorTronGPT wird es wahrscheinlich immer noch Zurückhaltung geben, große Sprachmodelle als Alternative zu Ärzten oder Technikern zu verwenden. Es bedarf weiterer groß angelegter Forschung zur Validität und Genauigkeit dieser Systeme. Während der im obigen Studie präsentierte Turing-Test bemerkenswert ist, muss er Hunderte Male wiederholt werden, anstatt nur mit zwei Ärzten.
Es wird Bedenken hinsichtlich rassischer oder sexueller Verzerrungen geben, der Verteilung menschlicher versus robotergestützter Gesundheitsversorgung auf Reiche oder Arme und Fragen zu den Feinheiten der persönlichen Gesundheitsversorgung, die von einem Modell auf der Grundlage massiver Datensätze gehandhabt werden.
Letztendlich scheint die Einbeziehung künstlicher Intelligenz in das Gesundheitswesen unvermeidlich, so dass wir versuchen müssen, sie so genau und vertrauenswürdig wie möglich zu gestalten, um sicherzustellen, dass ihre Anwendung gut aufgenommen wird, wenn sie zu einem Mainstream-Bereich wird.
Ergänzungen und Infos bitte an die Redaktion per eMail an de-info[at]it-boltwise.de. Bitte vergiss nicht in deiner eMail die Artikel-Headline zu nennen: "Künstliche Intelligenz schreibt bessere medizinische Texte als Ärzte".
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "Künstliche Intelligenz schreibt bessere medizinische Texte als Ärzte" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "Künstliche Intelligenz schreibt bessere medizinische Texte als Ärzte" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.