A Mozilla befejezi a DeepSpeech fejlesztését – nyílt forrású hangfelismerő modell támogatása helyett új irányba fordul

Beküldte kami911 - 2025. júl. 05. 11:39

2017-ben indította el a Mozilla a DeepSpeech-t, mint nyílt forrású beszédfelismerő modellt, amely az automatizált beszédbevitelre (automatic speech recognition) összpontosított. Az elmúlt évek során emberi szinten is használható pontosságot ért el – 7–8 %-os szóhibaarány mellett –, de a vállalat most úgy döntött, hogy a továbbiakban nem tartja fenn a fejlesztést és karbantartást, hanem tanácsadóként lép vissza a projekt éléről.

Miért hozta ezt a döntést a Mozilla?

A DeepSpeech már elérte azt a fejlődési határt, amikor a projektnek nem az alapmotor fejlesztése, hanem az alkalmazások készítése volt a következő logikus lépése. Ezért a Mozilla mostantól mások kezébe adná a továbbgondolást – emellett pedig elindít egy támogatási programot (grant program) azokra a kezdeményezésekre fókuszálva, amelyek a DeepSpeech technológiára építve fejlesztenének hangalapú megoldásokat .

Hogyan jön ebben a képbe a Common Voice?

A DeepSpeech mellett a Mozilla másik kulcsprojektje a Common Voice adatbázis, mely több mint 9 000 órányi beszédet tartalmaz 60 nyelven. A cég most úgy döntött, hogy inkább erre az adatgyűjtő és -képzési platformra összpontosít, amelyet az Nvidia támogatásával is tovább építenek – ezzel válik a DeepSpeech háttérévé, nem pedig más fejlesztésének motorjává .

A Mozilla bejelentett egy grant programot, amely forrást biztosít olyan projektek számára, amelyek bemutatják a DeepSpeech felhasználási lehetőségeit különböző területeken. A cél, hogy a beszédfelismerő motortokat ne fejlesztők, hanem inkább végfelhasználó megoldások hajtsák tovább – egyszerűbb telepítéssel, kevesebb függőséggel és jobb dokumentációval.

A Mozilla hivatalosan leállítja a belső fejlesztést, viszont a közösségi forkok – például a Coqui AI – folytathatják a munkát. A projekt alapjainál dolgozó fejlesztők közül többen már a Coqui csapatában folytatják a DeepSpeech utódjának fejlesztését, amely aktívabban működik tovább. A DeepSpeech beltéri szakemberek számára továbbra is elérhető lesz – a kód tisztításával, a folyamatos integráció egyszerűsítésével és egy új toolkit biztosításával, hogy kutatók és cégek maguk építhessenek hangalapú megoldásokat . Ugyanakkor az alternatív megoldások – mint például a Vosk – is erősödnek a piacon.

A Mozilla visszahúzódik a DeepSpeech közvetlen fejlesztéséből, és fókuszát az adattárgyakra – Common Voice – helyezi. A felhasználók azonban nem maradnak támogatás nélkül: elindul a grant program, készül a toolkit, és a közösség – így a Coqui AI – átveszi a projektet. Ez a váltás a nyílt hangtechnológiák ökoszisztémáját is alaposan átalakíthatja.

A jövőben a DeepSpeech ugyanakkor útmutató lehet az alkalmazásoknak, nem pedig magának az alapmotor további fejlesztéseinek – így a beszédfelismerés egy új, felhasználásközpontú korszak küszöbéhez érkezett.