Einführung von BLOOM: Das größte offene mehrsprachige Sprachmodell der Welt 🌍
Große Sprachmodelle (LLMs) haben einen erheblichen Einfluss auf die KI-Forschung. Diese leistungsstarken, allgemeinen Modelle können eine Vielzahl neuer Sprachaufgaben basierend auf den Anweisungen der Benutzer übernehmen. Allerdings haben Akademiker, gemeinnützige Organisationen und kleinere Forschungsinstitute Schwierigkeiten, LLMs zu erstellen, zu studieren oder sogar zu nutzen, da nur wenige industrielle Labore mit den notwendigen Ressourcen und exklusiven Rechten vollen Zugang zu ihnen haben.
Heute präsentieren wir BLOOM, das erste mehrsprachige LLM, das in vollständiger Transparenz trainiert wurde, um diesen Status quo zu ändern – das Ergebnis der größten Zusammenarbeit von KI-Forschern, die jemals an einem einzigen Forschungsprojekt beteiligt waren. Mit seinen 176 Milliarden Parametern kann BLOOM Texte in 46 natürlichen Sprachen und 13 Programmiersprachen generieren. Für fast alle von ihnen, wie Spanisch, Französisch und Arabisch, wird BLOOM das erste Sprachmodell mit über 100 Milliarden Parametern sein, das jemals erstellt wurde.
Dies ist das Ergebnis eines Jahres Arbeit, an dem über 1000 Forscher aus mehr als 70 Ländern und 250 Institutionen beteiligt waren, was zu einem abschließenden Lauf von 117 Tagen (11. März - 6. Juli) führte, in dem das BLOOM-Modell auf dem Jean Zay Supercomputer im Süden von Paris, Frankreich, trainiert wurde, dank eines Compute-Stipendiums im Wert von schätzungsweise 3 Millionen Euro von den französischen Forschungsagenturen CNRS und GENCI.
Forscher können jetzt BLOOM herunterladen, ausführen und studieren, um die Leistung und das Verhalten von kürzlich entwickelten großen Sprachmodellen bis zu ihren tiefsten internen Operationen zu untersuchen. Allgemeiner gesagt, kann jede Person oder Institution, die den Bedingungen der Responsible AI License des Modells (entwickelt während des BigScience-Projekts selbst) zustimmt, das Modell auf einem lokalen Computer oder bei einem Cloud-Anbieter verwenden und darauf aufbauen – da es im Hugging Face-Ökosystem eingebettet ist, ist es so einfach wie das Importieren mit Transformers und das Ausführen mit Accelerate.
In diesem Geist der Zusammenarbeit und kontinuierlichen Verbesserung veröffentlichen wir auch zum ersten Mal die Zwischenprüfungen und Optimierungszustände des Trainings. Haben Sie nicht 8 A100s, um damit zu spielen? Wir finalisieren eine Inferenz-API für den großflächigen Einsatz, auch ohne dedizierte Hardware oder Ingenieurwesen. In der Zwischenzeit können Sie bereits mit einer frühen Version auf dem HF-Hub spielen, um schnelle Tests, Prototyping und kleinere Anwendungen durchzuführen.
Dies ist erst der Anfang. Die Fähigkeiten von BLOOM werden sich weiter verbessern, während die Werkstatt weiterhin mit dem Modell experimentiert und tüftelt. Wir haben begonnen, daran zu arbeiten, es so anweisbar zu machen wie unser früherer Versuch T0++ und planen, weitere Sprachen hinzuzufügen, das Modell in eine benutzerfreundlichere Version mit demselben Leistungsniveau zu komprimieren und es als Ausgangspunkt für komplexere Architekturen zu verwenden… Alle Experimente, die Forscher und Praktiker immer durchführen wollten, beginnend mit der Leistung eines Modells mit über 100 Milliarden Parametern, sind jetzt möglich.
BLOOM ist der Samen einer lebendigen Familie von Modellen, die wir wachsen lassen wollen, nicht nur ein einmaliges Modell, und wir sind bereit, die Bemühungen der Gemeinschaft zu unterstützen, um es zu erweitern.