Meta brengt LLaMA-AI-taalmodellen uit voor wetenschappelijk onderzoek

Meta heeft een verzameling AI-taalmodellen uitgebracht die onderzoekers moeten helpen taalmodellen te onderzoeken. De LLaMA-taalmodellen komen vooralsnog niet publiekelijk beschikbaar. Meta werkt al jaren aan AI-taalmodellen, net als bijvoorbeeld Google en OpenAI.

Large Language Model Meta AI, of LLaMA, bestaat uit vier AI-taalmodellen uit verschillende groottes, die alle vier relatief klein zijn. Daardoor vereisen ze volgens Meta minder rekenkracht dan andere AI-taalmodellen, wat ze beter geschikt maakt voor onderzoeksdoeleinden.

"Het afgelopen jaar hebben taalmodellen nieuwe mogelijkheden laten zien voor het maken van creatieve teksten, het oplossen van wiskundige stellingen, het voorspellen van eiwitstructuren en het beantwoorden van begrijpend-lezenvragen", schrijft Meta. Hiermee doelt het bedrijf onder meer op de chatbots van bijvoorbeeld Google en Microsoft. Het Facebook-moederbedrijf zegt dat het echter lastig is om wetenschappelijk onderzoek te doen met deze modellen, omdat ze zodanig groot zijn dat er veel rekenkracht nodig is om te begrijpen hoe en waarom ze werken.

Meta zegt dat door deze belemmering, het lastiger is om de robuustheid te verbeteren en 'bekende problemen als vooroordelen, toxicity en het potentieel verspreiden van desinformatie' op te lossen. Het bedrijf hoopt dat met de kleinere taalmodellen hier beter onderzoek naar gedaan kan worden. De LLaMA-taalmodellen worden alleen na controle verstrekt aan onderzoekers die betrokken zijn bij overheidsinstellingen, maatschappelijke organisaties of wetenschappelijke instellingen. Afgelopen mei bracht Meta een ander taalmodel uit voor wetenschappelijk onderzoek.

Door Hayte Hugo

Redacteur

24-02-2023 • 21:06

33

Lees meer

Reacties (33)

33
29
10
0
0
13
Wijzig sortering
Waar ik best wel moeite mee heb is dat sowieso zulk grote bedrijven als Meta met dit soort AI taalmodellen komen voor de wetenschap. Meta is en blijft een commercieel bedrijf waarbij de insteek hoofdzakelijk gericht is op het maken van winst. Ergens moet er dus een verdienmodel uit voortvloeien en daarbij het werkelijke doel niet wetenschap is.

Opvallend ook wel dat opeens AI als paddenstoelen uit de grond schiet en dit blijkbaar commercieel interessant geworden is. Steun vanuit bedrijven is op zich niet zo'n probleem maar wel als bedrijven zelf gaan ontwikkelen. Zoals b.v. bij wetenschap denk ik dat het veel logischer zou zijn als AI taalmodellen door wetenschappers zelf worden ontwikkeld.

Maar ik blijf er ook bij dat AI puur en alleen als hulpmiddel gezien moet worden maar nooit volledig ingezet kan worden ter vervanging van de mens.
Tegen de tijd dat een weternschappelijk instituut in zee wil gaan met een betaalbare firma die zich richt op AI, is diezelfde firma al weer opgekocht door één van deze techgiganten.
Helaas gebeurd dit inderdaad maar al te vaak en eigenlijk zou daar ook eens een rem op gezet moeten worden.
Waarom zou daar een rem op gezet moeten worden?
Dat lijkt mij wel vrij logisch want op die manier krijgen de techgiganten een steeds grotere monopoly positie.
De tech-giganten concurreren behoorlijk goed op AI gebied. Dat zorgt voor snelle ontwikkeling.
En geen monopolie want er is daadwerkelijk concurrentie met totaal verschillende AI engines.
En geen monopolie want er is daadwerkelijk concurrentie met totaal verschillende AI engines.
Dat valt nog maar af te wachten want ook tech-giganten kunnen fuseren met elkaar om nog groter te kunnen worden.
We hebben al allerlei instanties om dat te bewaken. Alsjeblieft niet nog meer regels. Kost alleen maar geld.
Alsjeblieft niet nog meer regels.
Ben ik wel met je eens maar je kan nog zoveel regels hebben, als ze niet goed gehandhaafd worden heb je er geen fluit aan. Dus de bestaande regels moeten misschien eens op de schop en dan minder regels maar wel strengere regels en goed en rechtmatig handhaven.
Ik snap je frustratie, maar
Ergens moet er dus een verdienmodel uit voortvloeien en daarbij het werkelijke doel niet wetenschap is.
is dit niet wat nou juist heel veel wetenschappelijk onderzoek drijft? Zie, b.v. het onderzoek naar betere batterijen, snellere communicatie, grotere opslag? puur academisch niet interessant, wetenschappelijk zeer relevant.
is dit niet wat nou juist heel veel wetenschappelijk onderzoek drijft?
Ja je kan dan wel vanuit een verdienmodel wetenschappelijk onderzoek verrichten, maar het gaat mij meer om het omgekeerde dat je dus een wetenschappelijk onderzoek doet met als doel een verdienmodel. Onderzoek naar betere accu's is b.v. veel meer gericht op efficiëntie, veiligheid etc.. waarbij het verdienmodel daarnaast staat. Het gevaar bestaat echter dat als er alleen naar het verdienmodel gekeken word dat accu's onveilig kunnen zijn, of niet efficiënt maar toch goed verkopen.

Kijk, ander voorbeeld, ooit hebben wetenschappers een rubbersoort kunnen ontwikkelen wat onverslijtbaar was. Dit is toen vooral door de bandenfabrikanten snel aan de kant geschoven omdat daar geen geld mee te verdienen viel. Hetzelfde als dat wetenschappers ook al lampen ontwikkeld hebben die onverslijtbaar waren, helaas, ook aan de kant geschoven.
Kijk, ander voorbeeld, ooit hebben wetenschappers een rubbersoort kunnen ontwikkelen wat onverslijtbaar was. Dit is toen vooral door de bandenfabrikanten snel aan de kant geschoven omdat daar geen geld mee te verdienen viel.
Dit zit in dezelfde categorie als de auto die op water rijdt, de giftigheid van DHMO en chemtrails.

Het verhaal van de onverslijtbare rubbersoort is tijdens mijn chemie studie gebruikt tijdens de colleges wetenschapscommunicatie en hoe om te gaan met foutieve veronderstellingen bij het leken publiek.

Ik lees overigens nergens dat Facebook persé een verdien model terug wil van de wetenschap.

[Reactie gewijzigd door divvid op 22 juli 2024 17:29]

Het verhaal van de onverslijtbare rubbersoort is tijdens mijn chemie studie gebruikt tijdens de colleges wetenschapscommunicatie en hoe om te gaan met foutieve veronderstellingen bij het leken publiek.
Zeker geloof ik dat je dat tussen kanttekeningen moet zetten maar ik geloof wel dat er producten ontwikkeld zijn die commercieel niet interessant zijn omdat ze te lang mee gaan.
Ik lees overigens nergens dat Facebook persé een verdien model terug wil van de wetenschap.
Meta is en blijft een groot commercieel bedrijf gericht op winst maken, dus dan lijkt het mij toch wel duidelijk dat ze niet uit goodwill zomaar iets ontwikkelen.
Dat Meta commercieel is staat als een paal boven water. Dat wil nog niet zeggen dat al hun research gelijk tot commerciële activiteit moet leiden. Veel geld gaat bv naar czbiohub. “cz gen epi” b.v kost alleen maar geld.

FB, Google, MS, Amazon, ze dragen allemaal substantieel bij aan fundamenteel onderzoek waar geen directe commerciële activiteit aan gekoppeld kan worden (inclusief onderzoek in mijn eigen domein)
Veel geld gaat bv naar czbiohub. “cz gen epi” b.v kost alleen maar geld.
Ongemerkt zit ook daar een verdienmodel achter, denk maar eens aan b.v. apparatuur voor wetenschappelijke onderzoeken. Of misschien zelfs dat als een wetenschapper iets bijzonders ontdekt heeft zal Meta er ook zijn vruchten van plukken. Al is het maar dat b.v. dat accu's veel efficiënter kunnen werken en lange mee gaan. Meta zit dan meteen op de 1ste rij en kan dan snel zo'n accu's gaan aanbieden in de verkoop.
Ligt een beetje aan de tak van wetenschap. Zodra je in een tak zit waar dingen gebouwd moeten worden schieten de kosten als een raket omhoog. Dan kunnen bedrijven een prachtige locatie zijn om te werken als je een mooi budget krijgt. De ene hand wast de andere.
Ja, het verhaal dat ze bij Philips een gloeilamp konden maken met een vrijwel oneindige levensduur is 100% waar.
Maar dat waren dan wel zeer onzuinige lampen, zelfs voor een gloeilamp. Er zijn drie factoren bij een gloeilamp waar je een balans in moet vinden: levensduur, efficiëntie en productiekosten. Het is onmogelijk op alle drie de factoren zeer goed te scoren in dezelfde lamp.

Inmiddels is de gloeilamp natuurlijk een achterhaalde techniek dankzij de led-lamp. Maar het algemene principe is bij veel producten en technieken van toepassing.
Maar dat waren dan wel zeer onzuinige lampen, zelfs voor een gloeilamp.
Als dat misschien toch door ontwikkeld was geworden dan weet je ook niet hoe het er nu uit had gezien. Ik denk namelijk dat toch de commercie vooral het heikele punt hierbij was. Vergeet daarbij niet dat productie van dan de gewone lampen ook veel energie heeft gevergd.
Inmiddels is de gloeilamp natuurlijk een achterhaalde techniek dankzij de led-lamp. Maar het algemene principe is bij veel producten en technieken van toepassing.
De ledlamp is ook weer een doorontwikkeling van de led en dit weer commercieel interessant bleek. Dat is wat ik vooral bedoel dat wetenschap veel te zeer daar aan vast hangt. Was de led commercieel niet interessant had er nooit een ledlamp gekomen. En tja kijk ook maar hoe lang eigenlijk de gewone gloeilamp nog naast de ledlamp bestaan heeft. Door een verbod in te stellen is de gloeilamp uiteindelijk eruit gefaseerd.
Weet je wat nog zo bijzonder is? Dat we de afgelopen jaren zo'n gigantische chiptekorten hadden, maar wonder boven wonder hebben deze bedrijven massaal hun AI's kunnen inwerken en dat is geen kattenpis. Daar heb je flinke datacenters/cpu/gpu kracht voor nodig en hoe bijzonder is het dat hun daar geen last van hadden?
Misschien hadden we daarom een chiptekort, zij kochten alles op :+
Chiptekort is meer doordat opeens door COVID-19 alle leerlingen, studenten en werknemers gingen thuiswerken en daardoor meer computer chips nodig hadden.
welk chip tekort? het te kort aan nog snellere chips, of het tekort aan bestaande chips in de magazijnen.
Cool, heeft iemand hier dat LLaMA taalmodel al kunnen uittesten? Ironisch hoe ze als Facebook voor het inschrijfformulier alle data doorsturen naar hun concurrent Google: https://docs.google.com/f...fBxjY_OjhJILlKGA/viewform

[Reactie gewijzigd door Weicool op 22 juli 2024 17:29]

De KoboldAI community zit erg op een dergelijk model te wachten gezien wij dit thuis draaien en de goede resultaten voor ons een enorme sprong kunnen zijn. Maar als ik het niet mag aanbieden aan de gebruikers heeft het voor ons geen nut om het model daadwerkelijk te gebruiken.

Hun OPT model is onze community ook goed bevallen en die hebben er verschillende finetunes voor gemaakt voor fictieve doeleinden.

Ik hoop dus dat Meta deze wel publiek gaat aanbieden of dat op z'n minst voor het 7B en 13B model doet die je thuis kunt draaien (Met veel VRAM dus denk aan een 3090). Als die dan naar het huggingface platform wordt geconverteerd kunnen wij als hobbyisten er mee aan de slag.
Ben even nieuwsgierig: wat voor use-cases heb je thuis met zo’n model?
Wij gebruiken het voor entertainment, dus denk aan het schrijven van een verhaal samen met de AI. Het spelen van een text avontuur vergelijkbaar met Zork of het gebruik als een chat personage. Er is ook een streamer die het gebruikt voor het genereren van afleveringen voor zijn stream.

De AI kan altijd behoorlijk creatief uit de hoek komen en dat maakt het leuk. Mijn persoonlijke favoriet is het spelen van de text adventures omdat het een vrijwel oneindige game is. Je schrijft zelf de setting die je wilt spelen en vervolgens stuur je de commando's wat je wil dat je personage doet. De AI geeft je dan een antwoord met wat je personage daadwerkelijk heeft gedaan en wat de gevolgen daar van zijn. En die scenarios zijn op hun beurt weer heel divers, of je nou een horror verhaal wilt spelen, een middeleeuws avontuur, een verhaal over hackers, speelt als een detective of toch liever mario. Het kan allemaal omdat die modellen hele brede kennis hebben.

Het nieuwe facebook model is dan weer getrained op nog meer generieke kennis dan de modellen die wij hebben en dat kan heel veel verschil maken tussen wat de AI kent. Dus als ik een avontuur wil beleven in de setting van Stargate SG1 dan kan dit enkel omdat een van onze eigen modellen daar op is getrained, de basis modellen hebben die kennis niet. Voorspellen welke thema's iemand wil doen is vrijwel niet te doen voor ons buiten bekende zaken om, dus hoe meer data in het basis model zit hoe beter.
Ik vind het OPT model (demo hier: https://opt.alpa.ai/#generation ) van Facebook echter bagger voor contentgeneratie in vergelijking met ChatGPT. Het schrijfniveau van ChatGPT is meer vergelijkbaar met het niveau van een universiteitsstudent, terwijl het schrijfniveau OPT meer vergelijkbaar is met dat van iemand op de basisschool.
Komt omdat het twee verschillende modellen zijn, ChatGPT is een model voor instructies dus je vraagt bijvoorbeeld "Schrijf een verhaal over piraten" en dan krijg je een verhaal terug. OPT kan dit niet en vult een bestaande text aan.

Daar bij komt ook wat extra's kijken, de alpa demo is een erg beperkte implementatie en de gebruikers van KoboldAI gaven tijdens ons OPT-66B evenement aan dat zij betere resultaten haalden met onze OPT-66B Demo dan met de publieke OPT-175B van Alpa. Dit komt omdat KoboldAI meerdere samplers heeft geimplementeerd die bijvoorbeeld herhalingen van text beter voorkomen.

Wil je het beste uit een dergelijk model halen kun je beter een finetune gebruiken die past bij wat je wenst te doen, of gebruik maken van een langere voorbeeld text. Maar open source instructie modellen zijn nieuw en daar is OPT er nog geen een van. Dus je zult altijd een bestaande text aanvullen en niet de AI een instructie geven om iets te maken.

Met zaken als adventure mode passen we een truuk toe, die modellen zijn speciaal getrained op Choose your own Adventure stories dus hij heeft 100MB aan voorbeelden hoe hij met het format moet omgaan. Op die manier heeft die genoeg kennis dat je iets als een actie bedoelt en die daar een passende reactie voor moet verzinnen. Dus ook in die voorbeelden wordt enkel de text aangevuld en er geen instructie uitgevoerd, maar de getrainde text is in dat geval in het format van een text avontuur. (Dit werkt niet in deze OPT demo omdat je daar dus een speciaal getrained model voor moet hebben zoals bijvoorbeeld Nerys of Skein beide te vinden in onze Google Colab of als je geluk hebt worden deze gratis door de community aangeboden op het Horde platform. Houdt er wel rekening mee dat deze modellen slechts 6B zijn, vergeleken met de 175B van de OPT demo en ChatGPT. Juist daarom hopen we toegang te krijgen tot LLama om de kleinere modellen te kunnen verbeteren.

Het zal nog even duren voordat de open source instruct modellen op het niveau zijn van ChatGPT. Maar vergelijkbare modellen zijn bijvoorbeeld BloomZ of GPT-JT.

[Reactie gewijzigd door henk717 op 22 juli 2024 17:29]

Inderdaad... een vage term die ongeveer betekent "dingen die ik stom vind".

Op dit item kan niet meer gereageerd worden.