MÜNCHEN (IT BOLTWISE) – In der Welt der Künstlichen Intelligenz gibt es einen neuen Akteur, der speziell für europäische Sprachen entwickelt wurde: EuroBERT. Dieses Modell, das von einem Konsortium aus Forschungseinrichtungen und Industriepartnern, darunter die KI-Plattform Hugging Face, vorgestellt wurde, verspricht eine verbesserte Leistung in europäischen und weltweit verbreiteten Sprachen.
EuroBERT, ein neues multilinguales Encoder-Modell, wurde entwickelt, um die Leistung in europäischen Sprachen zu steigern und gleichzeitig für Code-Reasoning geeignet zu sein. Das Modell, das von einem Konsortium aus Forschungseinrichtungen und Industriepartnern wie Hugging Face entwickelt wurde, ist optimiert für Aufgaben auf Dokumentenebene und unterstützt Kontextsequenzen mit bis zu 8192 Tokens. Es bietet Fähigkeiten für mehrsprachiges Retrieval, Klassifikation, Regression sowie Mathematik- und Code-Verständnis. EuroBERT eignet sich hervorragend für Finetuning bei Klassifikationsaufgaben und als Basis für Embedding-Modelle. Laut den Benchmarks des Konsortiums übertrifft es in vielen Bereichen die Konkurrenz. Die EuroBERT-Modelle sind in verschiedenen Größen erhältlich, von 210 Millionen bis zu 2,1 Milliarden Parametern. Das Training des größten Modells erforderte über 12 GPU-Jahre, während das Finetuning deutlich schneller abläuft, jedoch einen erheblichen Speicherbedarf erfordert. Interessant ist das offene Trainingsverfahren, bei dem etwa sechs Prozent der Trainingsdaten auf Deutsch vorlagen. Dies ist im Vergleich zu den 41 Prozent auf FineWeb zwar wenig, aber dennoch mehr als bei bisherigen Modellen. Das Vokabular umfasst 128.000 Tokens, was im Vergleich zu den etwa 50.000 Tokens von ModernBERT-Modellen eine erhebliche Erweiterung darstellt. Encoder-Modelle wie BERT stehen oft im Schatten generativer Modelle, obwohl sie in vielen Unternehmensanwendungen eine große Rolle spielen. BERT, das für Bidirectional Encoder Representations from Transformers steht, wurde 2018 von Google vorgestellt und hat sich seitdem zu einem wichtigen Werkzeug für die Verarbeitung natürlicher Sprache entwickelt. Mithilfe solcher Modelle können Texte klassifiziert, Stimmungen erkannt oder semantische Suchen implementiert werden. Das Training solcher Modelle ist aufwendig, aber sie lassen sich leicht an individuelle Bedürfnisse anpassen, insbesondere wenn das Grundmodell gut vortrainiert ist. Viele Basismodelle sind primär mit englischen Texten trainiert, was bei Finetuning mit deutschen Texten nicht immer zu guten Ergebnissen führt. Speziell für Deutsch trainierte Modelle sind oft veraltet. EuroBERT nutzt die ModernBERT-Architektur als Basis und kann überall dort eingesetzt werden, wo bisher BERT verwendet wurde. In Tests erzielte EuroBERT für deutschsprachige Texte mindestens so gute Ergebnisse wie alte deutschsprachige Modelle und übertraf ModernBERT deutlich, während es gleichzeitig schneller arbeitete. Ein weiterer Vorteil ist die Fähigkeit, mit längeren Texten zu arbeiten und leicht auf andere Sprachen umzustellen.
☕︎ Unterstützen Sie IT BOLTWISE® mit nur 1,99 Euro pro Monat:
- NIEDLICHER BEGLEITER: Eilik ist der ideale Begleiter für Kinder und Erwachsene, die Haustiere, Spiele und intelligente Roboter lieben. Mit vielen Emotionen, Bewegungen und interaktiven Funktionen.
- Die besten Bücher rund um KI & Robotik!
- Die besten KI-News kostenlos per eMail erhalten!
- Zur Startseite von IT BOLTWISE® für aktuelle KI-News!
- Service Directory für AI Adult Services erkunden!
- IT BOLTWISE® kostenlos auf Patreon unterstützen!
- Aktuelle KI-Jobs auf StepStone finden und bewerben!
Stellenangebote
Vertriebsprofi (m/w/d) für KI-basierte Softwarelösungen in der Autohausbranche
Praktikant (m/w/d) im Bereich Innovations - Optimierung kapazitiver Sensorsysteme durch KI
Senior Consultant (m/w/d) Data & AI
Duales Studium BWL - Spezialisierung Artificial Intelligence (B.A.) am Campus oder virtuell
- Die Zukunft von Mensch und MaschineIm neuen Buch des renommierten Zukunftsforschers und Technologie-Visionärs Ray Kurzweil wird eine faszinierende Vision der kommenden Jahre und Jahrzehnte entworfen – eine Welt, die von KI durchdrungen sein wird
- Künstliche Intelligenz: Expertenwissen gegen Hysterie Der renommierte Gehirnforscher, Psychiater und Bestseller-Autor Manfred Spitzer ist ein ausgewiesener Experte für neuronale Netze, auf denen KI aufbaut
- Obwohl Künstliche Intelligenz (KI) derzeit in aller Munde ist, setzen bislang nur wenige Unternehmen die Technologie wirklich erfolgreich ein
- Wie funktioniert Künstliche Intelligenz (KI) und gibt es Parallelen zum menschlichen Gehirn? Was sind die Gemeinsamkeiten von natürlicher und künstlicher Intelligenz, und was die Unterschiede? Ist das Gehirn nichts anderes als ein biologischer Computer? Was sind Neuronale Netze und wie kann der Begriff Deep Learning einfach erklärt werden?Seit der kognitiven Revolution Mitte des letzten Jahrhunderts sind KI und Hirnforschung eng miteinander verflochten
Du hast einen wertvollen Beitrag oder Kommentar zum Artikel "EuroBERT: Fortschrittliche KI für europäische Sprachen" für unsere Leser?
Es werden alle Kommentare moderiert!
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen.
Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte.
Du willst nichts verpassen?
Du möchtest über ähnliche News und Beiträge wie "EuroBERT: Fortschrittliche KI für europäische Sprachen" informiert werden? Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den RSS-Hauptfeed oder IT BOLTWISE® bei Google News wie auch bei Bing News abonnieren.
Nutze die Google-Suchmaschine für eine weitere Themenrecherche: »EuroBERT: Fortschrittliche KI für europäische Sprachen« bei Google Deutschland suchen, bei Bing oder Google News!