Google kondigt AI-modellen Gemini Nano, Pro en Ultra aan

Google kondigt drie varianten van zijn AI-model Gemini 1.0 aan. Gemini Nano is de smartphonevariant die in eerste instantie voor de Pixel 8 Pro uitkomt. Ook voegt het bedrijf Gemini Pro toe aan Bard en komt begin volgend jaar Bard Advanced met Gemini Ultra uit.

In een blogpost noemt Google Gemini een 'multimodaal AI-model' dat verschillende soorten informatie moet kunnen verwerken, waaronder tekst, afbeeldingen, audio, video en programmeertalen. Het model is volgens het bedrijf vanaf begin af aan getraind als multimodaal model. Onder meer Search, Ads, Chrome en Duet AI moeten op den duur van Gemini-ondersteuning worden voorzien. Google zegt dat Gemini al voor de generatieve zoekmachine-AI Search Generative Experience getest wordt in de Verenigde Staten. Hierdoor zou de vertraging van het genereren van antwoorden met 40 procent zijn afgenomen.

De nieuwe AI-modellen worden in meerdere stappen uitgebracht. Vanaf het moment van schrijven wordt het vernieuwde Google Bard aangedreven door wat het bedrijf Gemini Pro noemt. Het large language model Bard gebruikte tot dusver het model Pathways Language Model 2, maar stapt nu dus over op Gemini 1.0. Volgens het bedrijf zorgt de overstap naar het nieuwe llm voor verbeteringen op het gebied van samenvatten, redeneren, brainstormen en schrijven. De Engelstalige versie van Bard maakt nu al gebruik van het model; later wil Google ook andere versies upgraden, waaronder de Nederlandstalige versie.

Verder brengt Google het 'efficiëntere' AI-model Gemini Nano uit voor smartphones, waarbij in eerste instantie de Pixel 8 Pro van een update voorzien wordt. Na de update kunnen gebruikers onder meer opnames in de Recorder-app laten samenvatten en automatisch antwoorden door het Gboard-toetsenbord voor WhatsApp laten genereren. Later wil het bedrijf meer berichtendiensten en meer Android-toestellen ondersteunen.

Ook krijgen ontwikkelaars vanaf 13 december toegang tot de Engelstalige variant van Gemini Pro via een api voor Google AI Studio en Vertex AI. Voor ontwikkelaars die met Android werken komt er een nieuwe systeemfunctie genaamd AICore uit, om AI-toepassingen te bouwen 'voor Android 14, vanaf Pixel 8 Pro-apparaten'.

Over Gemini Ultra geeft Google relatief weinig details. Deze geavanceerdste versie van het model wordt in eerste instantie onder een kleine groep klanten, ontwikkelaars en partners uitgerold. Deze versie wordt vanaf begin volgend jaar voor alle ontwikkelaars en zakelijke klanten beschikbaar gemaakt en moet Bard Advanced gaan aandrijven.

Google Gemini

Door Yannick Spinner

Redacteur

06-12-2023 • 16:00

37

Lees meer

Reacties (37)

37
37
16
3
0
18
Wijzig sortering
Fijne ontwikkeling. Ik hoop dat deze modellen ook worden toegepast in de Google Assistant. Dat voelt als iets heel ouderwets, vergeleken met de recente AI-ontwikkelingen.
Volgens mij zijn deze taalmodellen niet geschikt voor Assistant. Het interpreteert je vraag en genereert een antwoord, dus meer dan een antwoord geven op een vraag zal het niet kunnen.

Als je acties wilt uitvoeren heb je hier dus niets aan. Hij zal je vraag misschien herkennen, maar je kunt helemaal niets er mee verder. Dan moet je een model hebben wat antwoorden kan geven op een manier dat een andere applicatie daar mee verder kan.

Doe het licht in aan in de slaapkamer.

Wat dan moet je dus een AI hebben die een output kan genereren met daar conform een datacontract het onderwerp, de actie en de locatie.

Dat is best mogelijk, maar dan moet je een AI hier ook specifiek op trainen, en niet dat je een verhaal krijgt met hoe je het zou kunnen doen en dan half gehallucineerd een API call die niet bestaat.
De clue is juist om een AI model te integreren waarin je AI de vraag stelt om de code te genereren die het mogelijk maakt om die lamp aan uit te zetten
Dat is niet waar. Maak maar eens een lijstje met instructies. Bijv A001 tm A999. Geef dit als context en vraag daarna welke vd instructies je nodig hebt om bijv de verwarming aan te zetten.

Het enige wat nog mist is een mini scriptie wat de output doorzoekt naar de instructie codes en o.b.v. de code iets uitvoert
Heb je in de afgelopen tijd een llm gebruikt? Die dingen werken enorm goed vooral met het genereren van acties etc meestal door middel van een xml form zoals je zegt. Xml is generiek en heel makkelijk aan te leren zonder te hoeven trainen (je kan gewoon 3 voorbeelden meegeven en het model doet de rest perfect).
Hier klopt dus niks van. Heb je meegekregen hoe ChatGPT allemaal plugins kan gebruiken en zelf bepaalt welke hij nodig heeft?

Zie hier de uitleg over function calling van OpenAI.
Zoek eens naar AutoGPT en BabyAGI.
Hier een (Waanzinnige) video van hands-on demo:
https://youtu.be/UIZAiXYceBI?si=0N3TN0_OwD-glfsM
Neem aan dat dit deels gecherrypicked is, maar alsnog : wauw!
Inderdaad, dit ziet er echt geweldig uit. Hopelijk werkt het ook in het echt zo. ik hoop dat het hiermee een goede stap als sterkere concurrent tegen OpenAI kan maken, om zo deze modellen te blijven verbeteren.
De Engelstalige versie van Bard maakt nu al gebruik van Bard
Ik neem aan dat de tweede Bard 'Gemini' of 'het nieuwe LLM' moet zijn hier?
Ja, foutje van mij! Bedankt :D
Gemini Ultra is slechts een paar procentpunt beter dan GPT-4 en niet eens publiekelijk beschikbaar. Too little, too late?

[Reactie gewijzigd door Weicool op 23 juli 2024 00:01]

Het is reeds beschikbaar in Google Cloud in de VS en ze wachten nog op goedkeuring van regulatoren in de EU en UK om het ook daar beschikbaar te maken.

Bron: ik ben momenteel in videocall met Google AI medewerkers ;)
Bron: ik ben momenteel in videocall met Google AI medewerkers ;)
Zijn dat AI medewerkers van Google of medewerkers van 'Google AI ' :+

[Reactie gewijzigd door watercoolertje op 23 juli 2024 00:01]

Het lijken echte mensen maar weet je dit ooit echt zeker online?
Hoe krijg ik daar toegang tot? Heb ik daar een speciale uitnodiging voor nodig? Zo ja, kun jij die uitnodiging mij sturen?
Ik had toevallig via het werk vandaag een hackathon over generative AI die door Google gehost was. Was geen virtueel event over Gemini specifiek ofzo, gewoon toevallig dat de timing samenviel.

[Reactie gewijzigd door sspiff op 23 juli 2024 00:01]

Hoezo to late? De markt gaat nog 1000den % groeien ten opzichte van nu! Zat ruimte voor concurrentie nog...

En kan ChatGPT dit al (zo geïntegreerd in een telefoon):
Na de update kunnen gebruikers onder meer opnames in de Recorder-app laten samenvatten en automatisch antwoorden door het Gboard-toetsenbord voor WhatsApp laten genereren. Later wil het bedrijf meer berichtendiensten en meer Android-toestellen ondersteunen.

[Reactie gewijzigd door watercoolertje op 23 juli 2024 00:01]

Voor het feit dat het gboard toetsenbord in alle messaging apps gebruikt kan worden, is het wel vreemd dat het alleen in whatsapp werkt. Zou daar geen reden van kunnen bedenken.
Wat ze doen in de recorder app is niet zo bijzonder. Het is een transcriptie en daarna samenvatten van de transcriptie. Dat kan in principe elke andere recorder app ook regelen met integratie in chatgpt.

Microsoft is ook al aan het testen met CoPilot in SwiftKey, wat direct werkt in elke app die input vraagt van het toetsenbord. Zie ook: https://www.windowscentra...ithout-actually-being-one (ze zijn ondertussen al verder dan wat in dit artikel wordt geschreven).
Android Store: https://play.google.com/s...id=com.touchtype.swiftkey
Voor het feit dat het gboard toetsenbord in alle messaging apps gebruikt kan worden, is het wel vreemd dat het alleen in whatsapp werkt. Zou daar geen reden van kunnen bedenken.
Misschien kan het 'meelezen' zodat je context afhankelijke reacties kunt genereren. Waarom het niet bij Google's eigen Chat kan is me dan wel een raadsel, lijkt me de eerste stap voor een Google product, maar mbt populariteit is snap ik de keus ook wel :P
Wat ze doen in de recorder app is niet zo bijzonder. Het is een transcriptie en daarna samenvatten van de transcriptie. Dat kan in principe elke andere recorder app ook regelen met integratie in chatgpt.
Het gaat er niet om dat het bijzonder is (dat is het inderdaad niet perse) maar dat het daadwerkelijk toepassingen heeft en dus daadwerkelijk bruikbaar is (en gebruikt wordt).

Ik wist bijv niet van Swiftkey dus daar zijn ze wel mee bezig wat een antwoord is op mijn opmerking dat integratie ontbreekt! wel is gboard 5x zo populair (als ik kijk naar downloads), dus zullen meer mensen in aanraking komen met AI van Google dan OpenAI (ms)
Ja, je kunt kunt gewoon een opname door OpenAI whisper of assemblyAI speech-to-text gooien en dan het transcript laten samenvatten door ChatGPT4: doe dit elke week en heb geen zin in een veel inferieure oplossing die niet state of the art is!
De eerste versie van Bard liep ver achter op GPT 3.5. zijn ze niet juist met een flinke inhaalslag bezig?
Valt me tegen: de geruchten waren dat Gemini optimale oplossingen zou kunnen vinden zoals AlphaGo van Google Deepmind, niet dat het nog steeds in 2 van de 3 gevallen achter GPT-4 zou lopen
AlphaGo biedt geen optimale oplossingen (de gevonden strategieën zijn heuristieken die beter zijn dan onze hersenen hebben kunnen verzinnen) en een taalmodel is geen efficiënte manier om een ander algoritme te implementeren. Ik weet niet waar je die geruchten vandaan haalt, maar dat komt zeker van iemand die het gewoon niet doorgrond.
Fout! Je hebt je huiswerk duidelijk niet gedaan… De huidige LLM systemen zijn type I: het geeft de meest snelle algemene en voor de hand liggende antwoorden. Waar men naar toe wil zijn LLM systemen type II, waarbij er meer tijd is om na te denken om binnen een bepaalde tijdslimiet de meest optimale oplossing te geven voor een gegeven probleem en de HumanFeedback daar niet meer nodig voor heeft ! Omdat Google Deepmind achter Gemini zat waren er dus meerdere geruchten over dat dit zo’n type II systeem zou kunnen worden te vinden.

[Reactie gewijzigd door Weicool op 23 juli 2024 00:01]

Optimaal heeft een specifieke betekenis binnen de wiskunde en informatica, namelijk dat het van alle mogelijke oplossingen diegene is die een kostenfunctie minimaliseert (of maximaliseert, afhankelijk van wat de doelstelling is). Heuristische algoritmen doen optimalisering, maar vinden typisch niet het globaal optimum. Voor bepaalde discrete of continue problemen (bijv. convexe problemen) bestaan algoritmen die gegarandeerd het optimum vinden in polynomiale tijd. Ik publiceer over machine learning algoritmen, je kunt me vertrouwen dat het echt klopt wat ik hierboven schreef.

Wellicht bedoelde jij het minder formeel, maar dan moet je niet zeggen dat ik fout ben.

Ik wil zeker niet beweren dat RLHF nodig is en dat de specifieke vorm van een prompt enorme invloed heeft op de kwaliteit is uiteraard iets waar we allemaal vanaf willen. Ik zie niet direct hoe dat op basis van `een game tegen jezelf spelen' kan, zonder nog meer data, maar wie weet.
Ik bedoel dat ik natuurlijk in brede zin en ik zeg ook niet dat jij niks over Machine Learning weet, maar alleen dat jij je huiswerk niet genoeg gedaan had wat betreft LLMs: “Google DeepMind’s CEO Says Its Next Algorithm Will Eclipse ChatGPT
Demis Hassabis says the company is working on a system called Gemini that will tap techniques that helped AlphaGo defeat a Go champion in 2016.” https://www.wired.com/sto...d-demis-hassabis-chatgpt/
Er is veel te lezen op het internet. Ik durf wel te beweren dat het extra lastig is om te doorgronden (voor wie dan ook) wat LLMs nu wel en niet kunnen, doordat er veel partijen een belang hebben bij het bestaan van een waas van onduidelijkheid. Een algoritme dat GPT4 gaat `eclipsen' is gewoon marketingtaal, niets meer dan dat.

Algoritmes komen niet uit de lucht vallen. OpenAI heeft niets uitgevonden dat tot ChatGPT heeft geleid, ze hebben het alleen beter uitgevoerd dan de rest (wat zeker heel knap is). GPT3 bestond overigens al 2,5 jaar voordat ze ChatGPT online brachten met een geüpdatet en gefinetunede versie daarvan.

Hier werk van Yann LeCun dat vorige week online is gekomen, waarbij de `AGI is bijna hier'-hype toch wel gewoon onderuit gehaald wordt: https://arxiv.org/abs/2311.12983

Ik denk dat we op korte termijn vooral nog wel knallers kunnen gaan zien in het gebruik van huidige LLMs, in plaats van echt grote stappen in de modellen zelf. Op de lange termijn gaat dat nog wel veranderen, want die modellen zijn niet juist opgezet. Ik zou er mijn geld niet op zetten dat ze bij DeepMind daar al een grote doorbraak in hebben gedaan. Jouw teleurstelling in Gemini zegt denk ik genoeg, het grote verschilmakende idee was er helemaal niet.
Kan ik de geüpdatete Engelstalige variant nu al gebruiken hier in NL? Gezien mijn Bard nu nog in het Nederlands is, en dus de oudere versie volgens het nieuwsbericht.
Tweakers is verkeerd ivm Google Bard.
Zie deze blog: https://blog.google/products/bard/google-bard-try-gemini-ai/

"You can try out Bard with Gemini Pro today for text-based prompts, with support for other modalities coming soon. It will be available in English in more than 170 countries and territories to start, and come to more languages and places, like Europe, in the near future."
Ik las even "Ultron".... Toen moest ik toch even goed kijken ;)
Tot nu toe leuke technologie maar weinig echt zinvolle toepassingen gezien - code genereren doet het wel, echter komt ook genoeg meuk uit…
Teksten samenvatten en dergelijke heb ik nog niet getest maar bing vragen stellen werkt best aardig (jaja, dat is niet het ding van Google maar is lood om oud ijzer…) hoewel je er wel op moet letten dat je de informatie eerst nog even zelf controleert want niveau ‘the internet says…’

Alleen die integratie drang om die zooi overal in te drukken is extreem irritant…

Interessant is het zeer zeker!
hoewel je er wel op moet letten dat je de informatie eerst nog even zelf controleert want niveau ‘the internet says…’
Daar heeft Google Bard zelfs een ingebouwde functie voor, waarmee het aangeeft voor welke beweringen het bevestigende bronnen kan vinden (en wat die bronnen zijn), en van welke beweringen niet.
Er zijn collega's die het als interface naar een database gebruiken, je geeft dan fonetisch een opdracht en gpt maakt de query om de database uit te vragen.
Je kunt ook vier of vijf gpt's bij elkaar zetten en IT bedrijfje laten spelen die software ontwikkelen. Artsen kunnen analyses laten maken van testresultaten. De mogelijkheden zijn eindeloos afhankelijk wat en hoe een model getraind is. Denk bijvoorbeeld aan verwerking van beeld, geluid of radar signalen. Ik begrijp dat ons bedrijf al producten leverd op basis van AI.
Wat ik wel grappig vindt is dat Bard bijna dezelfde output geeft als chatgpt als ik ze beiden vraag een bepaald verhaal te schrijven met een omschrijving waar over moet gaan dan is de output bijna indentiek.
Dit heb ik niet nodig, ik heb tenslotte Siri :o .

Ik ben echt benieuwd hoe Apple hierop gaat reageren, want als Gemini versmolten gaat worden in Android moet Apple ook al reeds klaar zijn met hun model.

Op dit item kan niet meer gereageerd worden.