Conformer-2: Das krass gute Spracherkennungsmodell

Conformer-2 ist ein richtig geiles Modell für die automatische Spracherkennung. Das Ding wurde mit 1,1 Millionen Stunden englischen Audio-Daten gedrillt und baut auf Conformer-1 auf. Durch diese mega Trainingsphase kriegt Conformer-2 richtig gute Upgrades bei Eigennamen, alphanumerischen Dingern und der Widerstandsfähigkeit gegen Krach. Die Technik der Modell-Ensembles, die bei der Entwicklung von Conformer-2 benutzt wurde, bringt mehr Stabilität, weil das Schüler-Modell mit einer breiteren Palette an Verhalten konfrontiert wird. Außerdem wurde die Skalierung von Daten und Modellparametern weiter aufgedreht, was zu einer noch besseren Leistung führt. Und die Inferenz-Pipeline wurde auch noch optimiert, so dass Conformer-2 im Vergleich zu Conformer-1 in Sachen Verarbeitungsgeschwindigkeit um bis zu 55 % schneller ist. Was die Leistung in der Praxis angeht, zeigt Conformer-2 richtig starke Verbesserungen. Die Alphanumerische Transkriptionsgenauigkeit wurde um 31,7 % hochgefahren, die Fehlerrate bei Eigennamen um 6,8 % runtergedrückt und die Robustheit gegen Lärm um 12,0 % gesteigert. Mit dem Release von Conformer-2 kommt auch ein neuer API-Parameter, speech_threshold, mit ins Spiel. Damit können die User eine Grenze für den Anteil an Sprache in einem Audiofile festlegen, der für die Verarbeitung nötig ist.

Empfohlene KI-Tools

LipSurf

LipSurf ist ein hammermäßiges Sprachsteuerungs-Tool für den Browser, das deine Produktivität hochschraubt!

Details anzeigen

Transcribear

Transcribear ist ein KI-gestütztes Transkriptionstool, das Audio- oder Videodateien automatisch oder manuell in Text umwandelt.

Details anzeigen

Wavify

Wavify ist eine KI-gestützte Plattform für Spracherkennung und Wake-Word-Erkennung, die Entwicklern ermöglicht, diese Funktionen in jede Software zu integrieren.

Details anzeigen

AdutorAI

AdutorAI ist eine KI-gestützte Lösung, die Sprache in klaren Text umwandelt und dabei hilft, Notizen, E-Mails, Tweets oder Beiträge zu erstellen.

Details anzeigen

izwe.ai

izwe.ai ist eine mehrsprachige Technologieplattform, die Sprache in Text in Ihrer lokalen Sprache transkribiert.

Details anzeigen

SpeechFlow

SpeechFlow ist eine KI-gestützte Spracherkennungs-API, die Audio in Text mit führender Genauigkeit in 14 Sprachen transkribiert.

Details anzeigen

Gladia

Gladia bietet eine leistungsstarke API für Audio-Transkription in Echtzeit.

Details anzeigen

VoiceBase

VoiceBase ist eine KI-gestützte Sprachanalytik, die Unternehmen unterstützt

Details anzeigen

Conformer

Conformer-2 bietet top Spracherkennung mit coolen Extras und höherer Geschwindigkeit.

Top-Alternativen zu Conformer

Scriptix

Tunk.ai

Conformer

VoiceHub

superwhisper

TurboScribe

Speechlogger

Audiotype

XspaceGPT

Dictate Buddy

GoVoice

Vext

Speechnotes

Whisper Memos

Unvoice Bot

TranscribeMe

Audio2Text

Audio Writer

SpeechPulse

Trint

WAAS