„Google“ pristatė garso dirbtinio intelekto modelį „Gemini 3.5 Live Translate“, skirtą sinchroniniam vertimui išsaugant intonaciją
Bendrovė Google pristatė naują modelį Gemini 3.5 Live Translate, skirtą balso vertimui realiuoju laiku. Neuroninis tinklas automatiškai atpažįsta daugiau nei 70 kalbų ir sugeneruoja vertimą, išsaugodamas originalią kalbėtojo intonaciją, kalbėjimo tempą ir balso aukštį.
Skirtingai nei sistemos, kurios laukia, kol bus baigta visa frazė, naujasis algoritmas garso srautą apdoroja sinchroniškai. Vėlavimas tarp originalios kalbos ir vertimo siekia vos kelias sekundes, todėl dialoge išvengiama nenatūralių pauzių. Modelis pritaikytas darbui triukšmingoje aplinkoje ir nereikalauja rankiniu būdu konfigūruoti papildomų parametrų. Siekiant užtikrinti saugumą ir kovoti su dezinformacija, visi sugeneruoti garso įrašai žymimi nematomu skaitmeniniu vandens ženklu „SynthID“.
Įrankis jau prieinamas kūrėjams kaip vieša išankstinė versija per Gemini Live API ir Google AI Studio. Integracija su tokiomis specializuotomis platformomis kaip Agora, LiveKit ir Vision Agents leidžia kurti programas be būtinybės diegti nuosavą sudėtingą medijos transliavimo infrastruktūrą. Šiuo metu technologiją taip pat testuoja Azijos taksi ir pristatymo paslaugų bendrovė Grab, kuri per mėnesį apdoroja daugiau nei 10 mln. skambučių, siekdama pagerinti vairuotojų ir klientų tarpusavio komunikaciją.
Verslo segmente algoritmo diegimas prasidės jau šį mėnesį kaip uždaro testavimo dalis Google Workspace prenumeratoriams, naudojantiems vaizdo konferencijų paslaugą Google Meet. Atnaujinimas leis versti pokalbius naudojant daugiau nei 2000 kalbinių kombinacijų vieno susitikimo metu, tuo tarpu ankstesnė sistemos versija palaikė tik penkias kalbas ir būtinai reikalavo anglų kalbos. Platus verslo klientams skirtas išleidimas numatytas metų pabaigoje.
Paprasti vartotojai prie funkcijos galės prisijungti per pasaulinį programėlės Google Translate atnaujinimą iOS ir Android platformose. Prijungus bet kokias ausines, sistema perduos išverstą kalbą tiesiogiai pašnekovui. „Android“ įrenginių savininkams taip pat numatytas specialus „klausymosi režimas“ (listening mode), leidžiantis girdėti vertimą tiesiai per telefono garsiakalbį. Savo tinklaraštyje aiškina „Google“, kad ši funkcija gali būti naudinga situacijose, kai „reikia greitai išgirsti vertimą neatkreipiant aplinkinių dėmesio, o po ranka nėra ausinių“.
