„Google“ išmokė „Gemini 2.5“ suprasti ir perteikti emocijas pokalbiuose
2025 m. „Google I/O“ konferencijoje bendrovė pristatė naują savo daugiamodžio modelio „Gemini 2.5“ versiją, kuri dabar palaiko garso generavimą ir pokalbius realiuoju laiku. Šios galimybės prieinamos kūrėjams peržiūros versijoje per „Google AI Studio“ ir „Vertex AI“ platformas.
„Gemini 2.5 Flash Preview“ užtikrina tikrovišką bendravimą balsu su dirbtiniu intelektu, įskaitant kalbos emocinio atspalvio atpažinimą, intonacijos ir akcento pritaikymą bei galimybę perjungti daugiau nei 24 kalbas. Modelis gali ignoruoti foninius triukšmus ir naudoti išorinius įrankius, tokius kaip „Paieška“, kad pokalbio metu gautų aktualią informaciją.
Be to, „Gemini 2.5“ siūlo patobulintas kalbos sintezės (TTS) funkcijas, leidžiančias valdyti stilių, tempą ir emocinę išraišką. Palaikomas kelių balsų dialogų generavimas, todėl modelis tinka kuriant tinklalaides, garso knygas ir kitus daugialypės terpės produktus.
Siekdama užtikrinti skaidrumą, visas modelio sugeneruotas garsas žymimas „SynthID“ technologija, leidžiančia identifikuoti turinį kaip sugeneruotą dirbtinio intelekto. Kūrėjai gali išbandyti naujas funkcijas per „Stream“ ir „Generate Media“ skirtukus „Google AI Studio“.
„Gemini 2.5“ žymi reikšmingą žingsnį į priekį daugiamodžių dirbtinio intelekto sistemų srityje, sujungdamas tekstą, vaizdus, garsą ir vaizdo įrašus į vieningą platformą. Naujos funkcijos atveria plačias perspektyvas kuriant interaktyvias programas, virtualius asistentus ir inovacijas švietimo srityje.