Audioknygos ateityje: pažangiausios platformos, skirtos mažai išteklių turinčioms kalboms, kūrimas
AAI Labs intensyviai dirba prie savo naujausio produkto - Colibris. Susėdome su projekto vadovu Arnu, kad sužinotume apie jį daugiau.
Sveiki, Arnai! Ar galėtumėte pradėti nuo naujojo produkto pristatymo?
Taip, žinoma. Mūsų naujoji platforma Colibris - tai pastangų diegti naujoves ir palengvinti audioknygų gamybos procesą rezultatas. Colibris darbo eiga labai paprasta - naudotojas įkelia bet kokią knygą, kurią nori paversti garso įrašu, o platforma paverčia ją aukštos kokybės dirbtinio intelekto sintezuota garso knyga. Be to, siūlome pritaikymo priemonių rinkinį, kuris leidžia naudotojams individualizuoti galutinį rezultatą. Pavyzdžiui, galima tiksliai sureguliuoti kiekvieną sakinį, iš daugybės parinkčių pasirinkti tam tikrą balsą ir valdyti emocinį pasakojimo gylį. Mūsų tikslas - padaryti garso knygų kūrimą prieinamą, universalų ir išraiškingą, skirtą tiek profesionaliems leidėjams, tiek individualiems entuziastams. Naudojant Colibris galima iki 80 % sumažinti gamybos sąnaudas, sutaupyti daug laiko audioknygų kūrimui ir visiškai kontroliuoti galutinį rezultatą.
Nuo ko pradėjote kurti Colibris?
Pradėjome nuo esamų teksto į kalbą (TTS) sistemų analizės, siekdami sukurti tokį TTS modelį, kuris gebėtų imituoti žmogaus kalbą natūralumo ir išraiškingumo požiūriu. Taigi idealus rezultatas būtų sintezatorius, kuris sukurtų tokį įtikinamai žmogišką garsą, kad klausytojai negalėtų atskirti, ar audioknygą įgarsino profesionalus žmogus pasakotojas, ar Colibris. Nors esami sintezatoriai rodo techninį pranašumą atskiruose kalbos pavyzdžiuose, jie dažnai nesugeba užtikrinti nuoseklaus ir natūralaus klausymo patirties per visą knygą. Nusprendėme spręsti šią problemą imdamiesi naujoviškų metodų tiek mokant mūsų neuroninius tinklus, tiek apdorojant tekstą ir sintezuotą kalbą.
Skamba įdomiai! Koks jūsų asmeninis požiūris į šią technologiją? Kaip, jūsų nuomone, ji paveiks leidėjus?
Mano požiūriu, tradicinis audioknygų gamybos būdas yra varginantis ir sudėtingas procesas. Iš pradžių leidėjai turi užsitikrinti teises į teksto garso knygos versiją. Tuomet reikia surasti ir pasamdyti profesionalius diktorius, kurių balsai atitiktų knygos toną, stilių ir turinį. Po to reikia atlikti įrašymą profesionalioje studijoje. Po įrašymo garso specialistai daug laiko skiria įrašų redagavimui, pašalina nereikalingus elementus ir užtikrina, kad galutinis produktas būtų visiškai nušlifuotas.
Colibris iš esmės pakeis šią darbo eigą. Siūlydami aukštos kokybės, dirbtinio intelekto sintezuotas garso knygas, nesiskiriančias nuo tų, kurias skaito žmonės, mes drastiškai supaprastinsime gamybą. Nereikės valandų paieškos ieškant tinkamo balso, jokio laiko studijoje, jokio ilgo postprodukcijos proceso. Rezultatas? Leidėjai gali gaminti daugiau garso knygų, efektyviau ir galiausiai parduoti garso knygas konkurencingomis kainomis.
Tai ne tik finansiškai ir laiko atžvilgiu naudinga leidėjams, bet ir išplečia jų veiklos sritį, įtraukdama įvairesnius leidinius, įskaitant nišinius ar mažiau komerciškai perspektyvius kūrinius. Poveikis didelis: leidėjai gali pasiekti naujas rinkas ir auditorijas, skatindami įvairesnę ir turtingesnę literatūros įvairovę garso formatu.
Ar įžvelgiate Colibris panaudojimo galimybių už Lietuvos ribų?
Tikrai taip. Nors Colibris kol kas siūlo aukštos kokybės audioknygų gamybą tik lietuvių kalba, jau plečiame savo galimybes ir pradedame kurti audioknygas lenkų ir vokiečių kalbomis. Pagrindinis tikslas - išplėsti Colibris pasiūlą ir sudaryti sąlygas sintetinti aukštos kokybės audioknygas daugybe mažo dažnumo kalbų, pasiekiant leidėjus už Lietuvos ribų. Aktyviai dirbame siekdami užtikrinti, kad sintezės kokybė visomis kalbomis išliktų nuosekliai aukšta. To pasiekimas ne tik parodytų mūsų technologijos universalumą, bet ir jos galimybes racionalizuoti audioknygų gamybą pasauliniu mastu.
Nors Colibris vis dar yra ankstyvojoje stadijoje, kokį (-ius) didžiausią (-ius) komandos pasiekimą (-us) šiuo metu galėtumėte išskirti?
Sėkmingai surinkome ir patobulinome įvairių kalbų kalbos duomenų rinkinius, kurie yra labai svarbūs kuriant patikimą ir universalią TTS sistemą. Tai buvo ilgas ir kruopštus procesas, tačiau jis mums suteikė tvirtą pagrindą plėsti garsinių knygų sintezės kalbų galimybes. Be to, sėkmingai sukūrėme infrastruktūrą, kuri supaprastina modelių mokymą ir tyrimus. Šis pagrindas yra labai svarbus siekiant paspartinti mūsų pažangą ir padidinti mūsų darbo efektyvumą. Taip pat daug dirbome plėtodami savo TTS architektūrą. Ji jau palaiko tokias funkcijas kaip kelių kalbėtojų galimybės, daugiakalbė sintezė ir emocinių niuansų perteikimas kalboje. Nors šios funkcijos dar tik pradedamos kurti, manome, kad dabartinė sėkmė akivaizdžiai rodo ilgalaikį mūsų komandos potencialą kelti pasiūlymo lygį.
Ar nustatėte su projektu susijusią riziką? Jei taip, kaip jas sumažinote?
Vienas iš pagrindinių rūpesčių buvo tai, ar galime pasiekti, kad mūsų teksto keitimo į kalbą (TTS) sistema skambėtų taip, kaip kalba žmogus, ypač skirtingomis kalbomis. Siekdami išspręsti šį klausimą, daugiausia dėmesio skyrėme:
Nuolat informuojame ir taikome naujausius mokslinius tyrimus - nuolat stebime naujausius tyrimus ir išvadas apie TTS ir neuroninius tinklus. Tai padeda mums suprasti, kas šioje srityje veikia gerai ir ką galima pritaikyti Colibris.
Eksperimentuojame su įvairiais modeliais - išbandome įvairius TTS sistemų kūrimo būdus. Kai kurie iš jų yra gerai žinomi metodai, o kai kurie - naujos mūsų sugalvotos idėjos. Šis eksperimentavimas yra svarbus siekiant rasti tai, kas geriausiai atitinka mūsų konkrečius poreikius.
Ambicingai dirbame su savo technologijomis - ne tik naudojame esamus metodus, bet ir kuriame savus ir atitinkamai juos taisome. Mūsų tikslas - ne padaryti Colibris gerą, mes norime, kad ji būtų nepriekaištinga.
Aukštos kokybės kalbos duomenų rinkimas ir paruošimas - kaip jau minėjau, mes įdėjome daug pastangų rinkdami ir tobulindami kalbos įrašus. Šie aukštos kokybės duomenys yra labai svarbūs, nes būtent juos naudojame mokydami savo sistemą, kad skambėtų natūraliai įvairiomis kalbomis.
Nors Colibris dar tik kuriamas, ar jau pavyko sulaukti susidomėjimo iš leidėjų Lietuvoje ar užsienyje?
Taip! Colibris jau tampa žinoma platforma audioknygų rinkoje. Užtikrinome bendradarbiavimą su tokiomis leidyklomis kaip "Alma littera", "Aukso žuvys" ir "Quickfox Publishing", kurios jau eksperimentuoja su šia technologija ir naudoja ją audioknygoms kurti. Artimiausiais mėnesiais taip pat tikimės užsitikrinti daugiau partnerysčių DACH regione ir Lenkijoje. Žinoma, mūsų ilgalaikis siekis yra paversti Colibris konkurencingu žaidėju pasauliniu mastu, galinčiu tapti audioknygų gamybos technologijų lyderiu.
Norite sužinoti daugiau apie Colibris? Susisiekite su mumis arba apsilankykite svetainėje.