
Saabumine Gemini 3.1 Flash Live otseülekande otsinguks ja Gemini otseülekandeks See tähistab Google'i jaoks uut sammu reaalajas häälliideste võidujooksus. Ettevõte hakkab turule tooma vestluspõhine otsingukogemus mis ühendab endas heli, video ja Google'i otsingumootori ning mida juba aktiveeritakse Hispaanias ja suures osas Euroopast.
Selle strateegia taga on järgmise põlvkonna helimudel, loodud reageerima peaaegu inimvestluse kiirusegaSee võimaldab kasutajatel mõista kõne nüansse ja navigeerida igapäevastes keskkondades tõhusamalt, kasutades taustamüra, katkestusi ja rea küsimusi. Google esitleb seda kui oma seni kõige arenenumat häälsüsteemi, mis on loodud nii igapäevastele kasutajatele kui ka arendajatele ja ettevõtetele.
Mis on Search Live ja kuidas see Gemini 3.1 Flash Live'iga töötab?
Otsi otseülekannet, mis hispaania keeles on saamas tuntuks kui Reaalajas otsingSee on funktsioon, mis ühendab Google'i otsingu "AI-režiimis" Gemini Live'i kogemusega.Praktikas võimaldab see teil otsingumootoriga reaalajas vestelda, kasutades oma häält ja soovi korral ka mobiiltelefoni kaamerat visuaalse konteksti pakkumiseks.
Hispaanias lubatakse seda funktsiooni Google'i rakendus Androidile ja iOS-ileRakenduse avades ja ikooni „Otseülekanne“ puudutades saab kasutaja oma küsimuse valjusti rääkides esitada. Kui kaamera on aktiveeritud, on võimalik kuvada konkreetseid objekte, ruume või olukordi sarnaselt Google Lensiga, kuid sujuvama ja loomulikuma interaktsiooniga.
See kogu uus otsinguformaat põhineb Gemini 3.1 Flash Live'il, mis on mudel Reaalajas hääl ja nägemine, mis töötleb kasutaja ümber toimuvat ja reageerib vestluse kiirusegaIdee seisneb selles, et suhtlus peaks olema pigem inimesega rääkimine kui traditsiooniliste tekstiotsingute aheldamine.
Google'i see samm on osa üleminekust vestluslikumale otsingumootorile, kus Otsingumootori "tehisintellekti režiim" toimib väravana täiustatud mudelite loodud vastustele.Selles kontekstis on Search Live täiendav kiht, mis lisab otsingumootorile endale hääle, kaamera ja pideva dialoogi.
Globaalne juurutamine: enam kui 200 riiki ja fookus Euroopal
Pärast esialgset teadaannet Google I/O-l eelmisel aastal ja esialgset testimisfaasi AI Mode Labsis debüteeris Search Live 2018. aastal. Ameerika Ühendriigid septembrisNüüd on Google kinnitanud, et kogemust hakatakse laiendama enam kui 200 riigile ja territooriumile, kus otsingul on tehisintellekti režiim juba lubatud.
See juurutus hõlmab Hispaania ja teised Euroopa turudEttevõte rõhutas oma tuge mitmele riigis levinud keelele. Lisaks hispaania keelele on kinnitatud ühilduvus katalaani, galeegi ja baski keelega, mis avab ukse reaalajas häälsuhtlusele nendes keeltes sama otsingukeskkonna raames.
Rahvusvaheline laienemine põhineb iseloomul loomupäraselt mitmekeelne Gemini 3.1 Flash LiveGoogle'i sõnul toetab mudel reaalajas multimodaalsete vestluste jaoks enam kui 90 keelt, mis lihtsustab sama hääle- ja kaamerakogemuse pakkumist suure keelelise mitmekesisusega piirkondades ilma iga keele jaoks eraldi mudeleid arendamata.
Turu seisukohast süvendab see samm konkurentsi igapäevaste tehisintellekti liideste kontrolli pärast Euroopas. Selle asemel, et piirata arendustegevust ingliskeelsete riikide või mõne teise riigiga, otsustab Google tehnoloogiat laialdaselt juurutada kõikjal, kus tal on tugev turuosa. Finderis on nüüd saadaval tehisintellekti režiimpöörates erilist tähelepanu iga keele äratundmise ja reageerimise kvaliteedile.
Keskmise Euroopa kasutaja jaoks on praktiline erinevus selles, et Otsimine ei ole enam ainult tekstikasti tippimine ja see on üha enam muutumas vestluseks, kus saab rääkida, pilte näidata ja tehisintellekti loodud vastuseid reaalajas vastu võtta.
Gemini 3.1 Flash Live: väiksem latentsus ja loomulikum hääl
Selle muudatuse tehniline tuum on Gemini 3.1 Flash Live, heli- ja häälemudel, mida Google kirjeldab oma kataloogi kõige arenenumana reaalajas interaktsioonide jaoks. Selle eesmärk on minimeerida latentsust ja muuta vastused loomulikumaks, inimkõnele lähedasema kadentsi ja intonatsiooniga.
Reaalajas interaktsioonides on iga millisekund oluline. Google väidab, et see mudel viitab hüpe kiiruses, usaldusväärsuses ja dialoogi kvaliteedisVõrreldes varasemate versioonidega, näiteks 2.5 Flash Native Audioga, vähendab Gemini 3.1 Flash Live märgatavat viivitust kasutaja küsimuse ja süsteemi vastuse vahel, siludes ebamugavaid pause, mis vestluse voogu katkestavad.
Lisaks kiiremale reageerimisele on mudel ka täpsem akustiliste nüansside tuvastamisel näiteks hääletoon, rõhk ja rütmSee võimaldab paremini eristada, millised heli osad on asjakohased (kasutaja juhised) ja millised kuuluvad taustamüra hulka (liiklus, televisioon, lähedalasuvad vestlused), filtreerides viimaseid, et säilitada interaktsiooni sidusus.
Ettevõtte jagatud andmete kohaselt juhib Gemini 3.1 Flash Live sellistes testides nagu ComplexFuncBench Audio, kus seda hinnatakse mitmeastmelised funktsioonikõned erinevate piirangutegasaavutades keerulistes helisituatsioonides umbes 90% tulemuse. See ületab ka selliseid võrdlusnäitajaid nagu Scale AI Audio MultiChallenge, kui "mõtlemis" funktsioon on aktiveeritud, mis viitab paranemisele pikkade juhiste järgimises ja arutluskäigus vestlustes, kus esineb katkestusi ja kõhklusi.
Tehnilises kokkuvõttes on see mudel, mis on loodud toetama pikemad, sujuvamad ja sisukamad vestlusedisegi siis, kui inimene muudab teemat, kõhkleb, sõnastab küsimuse ümber või esitab aheldatud palveid, mille täitmine nõuab mitut sammu.
Võimekamad häälagendid ettevõtetele ja arendajatele
Lisaks tarbijamõõtmele pakutakse Gemini 3.1 Flash Live'i ka järgmiselt: keskne komponent ettevõtetele ja arendajatele keerukate häälagentide loomiseksMudel on eelvaates saadaval Google AI Studio Gemini Live API kaudu, mis võimaldab teil hakata katsetama reaalajas hääle- ja nägemisrakendustega.
Ettevõtte keskkonnas integreerib Google selle mudeli Gemini Enterprise kliendikogemuse jaoksNende ettepanek klienditeeninduse ja ulatusliku suhtluse automatiseerimiseks. Idee seisneb selles, et ettevõtted saavad kujundada assistendid, kes on võimelised lahendama täielikke ülesandeid – mitte ainult vastama lihtsatele küsimustele –, säilitades samal ajal konteksti kogu vestluse vältel.
Nende agentide täiustuste hulgas, mida ettevõte esile tõstab, on: kõrgem ülesannete täitmise määr mürarikkas keskkonnasSee on tänu täiustatud võimalusele aktiveerida väliseid tööriistu ja pakkuda teavet, säilitades samal ajal kasutajaga vestluse. Praktikas tähendab see assistente, kes saavad andmebaasidest päringuid teha, toiminguid teha või muid teenuseid integreerida ilma vestlust katkestamata.
Teine oluline punkt on „parem juhiste järgimine” või keerukate juhiste parem jälgimineMudel on tugevdanud oma võimet austada talle seatud reegleid ja piiranguid, nii et agent jääb oma "piirete" piiresse isegi siis, kui vestlus võtab ootamatuid pöördeid või kasutaja püüab seda kontekstist välja rebida.
Google on toonud välja ka näiteid hääljuhitavate programmeerimiste, interaktiivse tehnilise toe või töötajate sisemiste assistentide kasutamisest eesmärgiga, et Häälest saab elujõuline liides ülesannete jaoks, mida praegu tehakse teksti või traditsiooniliste paneelide abilKuigi ettevõte viitab positiivsetele arvamustele äripartneritelt, kes on mudelit juba testinud, ei ole ta avalikustanud sõltumatuid näitajaid majandusliku mõju või kulude vähendamise kohta.
Gemini Live'i kogemus: kiiremad vastused ja pikem kontekst
Lõppkasutaja vaatenurgast integreerub Gemini 3.1 Flash Live otse Gemini Live, Google'i vestluskogemus, mis on saadaval mobiilseadmetesUue mudeli puhul väidab ettevõte, et vastused saabuvad kiiremini ja "vähemate ebamugavate pausidega", mis voolu katkestavad.
Teine oluline muudatus on võime jälgi vestluse teemat kaks korda kauem võrreldes eelmise mudeliga. See on eriti kasulik ajurünnakute ajal, keeruliste kontseptsioonide selgitamisel või ülesannete planeerimisel, kus päringud kipuvad kuhjuma ja konteksti kaotamine vähendab drastiliselt abilise kasulikkust.
Flash Live 3.1 toega Gemini Live saab ka vastuste pikkust ja helikõrgust dünaamiliselt reguleerida Olenevalt hetkest: lühemad vastused kiiretele küsimustele, üksikasjalikumad selgitused, kui kasutaja süveneb teemasse või vajab samm-sammult juhendit.
Tooni kohandamist soodustab mudeli parem toonitaju, mida see nüüd täpsemalt ära tunneb. emotsioonid ja nüansid, näiteks frustratsioon, kahtlus või segadusKlienditeeninduse kontekstis võib see tundlikkus väljenduda empaatilisemates vastustes või lisaselgitustes ilma, et kasutaja peaks otseselt täpsustama, et ta millestki aru ei saanud.
Kokkuvõttes näitab kogemus, et Süsteemiga rääkimine ei seisne niivõrd käskude dikteerimises kuivõrd vestluses vestluskaaslasega, kes mõistab konteksti ja kohaneb olukorraga., kuigi alati vestluspõhise tehisintellekti mudeli piiride ja võimaluste piires.
Mitmekeelsus ja selle olulisus Hispaania ja Euroopa jaoks
Gemini 3.1 Flash Live'i üks alustalasid on selle iseloom. Vaikimisi mitmekeelne, toetab üle 90 keele hääle ja nägemisega vestlustes. See mitte ainult ei võimalda Google'il tuua Search Live'i ja Gemini Live'i rohkematesse riikidesse, vaid pakub ka järjepidevamat kogemust piirkondades, kus on mitu ametlikku keelt.
Hispaania puhul on ettevõte kinnitanud toetust hispaania, katalaani, galeegi ja baski keel Search Live'i juurutuse raames. Kasutaja jaoks tähendab see võimalust otsingumootoriga suhelda oma igapäevases keeles, ilma et ta peaks inglise või hispaania keelele üle minema, kui ta eelistab mõnda muud varianti.
Euroopas võib see mitmekeelne oskus muutuda eristav tegur võrreldes teiste häälpõhiste tehisintellekti lahendustega mis seavad esikohale mõned keeled. Võimalus pidada pikki ja kontekstuaalseid vestlusi erinevates keeltes hõlbustab nii tarbijate kui ka mitmel turul tegutsevate ettevõtete seas nende kasutuselevõttu.
Lisaks, kuna tegemist on mudeliga, mis ühendab heli ja pildi, ei piirdu kogemus ainult kasutaja öeldu mõistmisega, vaid ka mida kaamera näitabSee avab võimalusi sellisteks olukordadeks nagu videotehniline tugi, päringud füüsiliste toodete kohta, reaalajas abi reisi ajal või mobiiltelefoni ette asetatud trükitud dokumentide selgitamine.
Võti seisneb selles, kuidas süsteem kohaneb iga Euroopa keele ja piirkonna eripäradArvesse tuleb võtta aktsente, kõnekeelseid väljendeid ning mitmesuguseid ametlikke ja mitteametlikke registreid. Google väidab, et Gemini 3.1 Flash Live on loodud nende variatsioonidega toime tulema, kuigi selle tegelikku toimivust testitakse, kui funktsioon jõuab rohkemate kasutajateni.
Turvalisus, vesimärgid ja võitlus väärinfo vastu
Tehisintellekti loodud hääle loomulikkuse edenemine tõstab ka küsimused turvalisuse, autentsuse ja võimalike kuritarvituste kohtaGoogle on püüdnud seda probleemi lahendada, lisades SynthID-i, vesimärgistussüsteemi, mida rakendatakse Gemini 3.1 Flash Live'i toodetud helile.
Need vesimärgid on inimese kõrva jaoks märkamatu, kuid spetsiaalsete tööriistade abil tuvastatavSee võimaldab tuvastada, millal tehisintellekt on helifragmendi genereerinud. Eesmärk on tugevdada sisu jälgitavust ja hõlbustada meediaväljaannete, platvormide ja organisatsioonide tööd, kes peavad salvestiste päritolu kontrollima.
Otsus tehti kasvava mure keskel selle pärast, Hääle süvavõltsinguid ja identiteedivargustSee kehtib nii poliitiliste olude, finantssektori kui ka telefonipettuste kohta. Kuigi vesimärk üksi neid riske ei kõrvalda – näiteks kolmandad osapooled ei pruugi SynthID-ga mudeleid kasutada või võivad heli hiljem manipuleerida –, toob see süsteemi ülesehitusse täiendava vastutuse kihi.
Google viitab üksikasjade saamiseks Gemini 3.1 Flash Live'i mudelikaardile. keskendumine ohutusele, riskide maandamisele ja vastutustundlikule kasutamiseleMainitud elementide hulgas on vajadus säilitada auditeerimismehhanismid, kasutuskontrollid ja selged piirid kontekstidele, milles mudelit saab kasutada.
Ettevõte on teadlik, et kuna inimhääle ja tehishääle vaheline piir hägustub, Usaldus ei sõltu ainult heli kvaliteedist, vaid ka võimest näidata, millal see on masina loodud.SynthID on üks selles suunas pakutud lahendustest, kuigi arutelu regulatsiooni ja ühiste standardite üle Euroopas ja mujal maailmas on endiselt avatud.
Gemini 3.1 Flash Live'i kasutuselevõtuga ja Search Live'i laienemisega Hispaaniasse, Euroopasse ja enam kui 200 muusse territooriumile püüab Google konsolideerida ökosüsteemi, kus Hääl ja kaamera muutuvad tehisintellektile juurdepääsu tavalisteks viisideksSelle ettevõtmise edu sõltub sellest, kas lubatud kogemus – kiirem, loomulikum, turvalisem ja kasulikum – leiab kinnitust kasutajate, ettevõtete ja arendajate igapäevases kasutuses, kes nüüd neid uusi võimalusi testima hakkavad.
