
2017-ben indította el a Mozilla a DeepSpeech-t, mint nyílt forrású beszédfelismerő modellt, amely az automatizált beszédbevitelre (automatic speech recognition) összpontosított. Az elmúlt évek során emberi szinten is használható pontosságot ért el – 7–8 %-os szóhibaarány mellett –, de a vállalat most úgy döntött, hogy a továbbiakban nem tartja fenn a fejlesztést és karbantartást, hanem tanácsadóként lép vissza a projekt éléről.
Miért hozta ezt a döntést a Mozilla?
A DeepSpeech már elérte azt a fejlődési határt, amikor a projektnek nem az alapmotor fejlesztése, hanem az alkalmazások készítése volt a következő logikus lépése. Ezért a Mozilla mostantól mások kezébe adná a továbbgondolást – emellett pedig elindít egy támogatási programot (grant program) azokra a kezdeményezésekre fókuszálva, amelyek a DeepSpeech technológiára építve fejlesztenének hangalapú megoldásokat .
Hogyan jön ebben a képbe a Common Voice?
A DeepSpeech mellett a Mozilla másik kulcsprojektje a Common Voice adatbázis, mely több mint 9 000 órányi beszédet tartalmaz 60 nyelven. A cég most úgy döntött, hogy inkább erre az adatgyűjtő és -képzési platformra összpontosít, amelyet az Nvidia támogatásával is tovább építenek – ezzel válik a DeepSpeech háttérévé, nem pedig más fejlesztésének motorjává .
A Mozilla bejelentett egy grant programot, amely forrást biztosít olyan projektek számára, amelyek bemutatják a DeepSpeech felhasználási lehetőségeit különböző területeken. A cél, hogy a beszédfelismerő motortokat ne fejlesztők, hanem inkább végfelhasználó megoldások hajtsák tovább – egyszerűbb telepítéssel, kevesebb függőséggel és jobb dokumentációval.
A Mozilla hivatalosan leállítja a belső fejlesztést, viszont a közösségi forkok – például a Coqui AI – folytathatják a munkát. A projekt alapjainál dolgozó fejlesztők közül többen már a Coqui csapatában folytatják a DeepSpeech utódjának fejlesztését, amely aktívabban működik tovább. A DeepSpeech beltéri szakemberek számára továbbra is elérhető lesz – a kód tisztításával, a folyamatos integráció egyszerűsítésével és egy új toolkit biztosításával, hogy kutatók és cégek maguk építhessenek hangalapú megoldásokat . Ugyanakkor az alternatív megoldások – mint például a Vosk – is erősödnek a piacon.
A Mozilla visszahúzódik a DeepSpeech közvetlen fejlesztéséből, és fókuszát az adattárgyakra – Common Voice – helyezi. A felhasználók azonban nem maradnak támogatás nélkül: elindul a grant program, készül a toolkit, és a közösség – így a Coqui AI – átveszi a projektet. Ez a váltás a nyílt hangtechnológiák ökoszisztémáját is alaposan átalakíthatja.
A jövőben a DeepSpeech ugyanakkor útmutató lehet az alkalmazásoknak, nem pedig magának az alapmotor további fejlesztéseinek – így a beszédfelismerés egy új, felhasználásközpontú korszak küszöbéhez érkezett.
