Microsoft introduceert op GPT-4 gebaseerde AI-assistent voor cybersecuritytaken

Microsoft introduceert Security Copilot, een tool bedoeld voor professionals die zich bezighouden met cybersecurity. De tool is grotendeels gebaseerd op GPT-4 en combineert data van verschillende systemen om netwerken te monitoren en medewerkers te assisteren.

Microsoft zegt dat Security Copilot een handige tool kan zijn voor securitymedewerkers om snel bedreigingen te detecteren, op dreigingen te reageren en een beter begrip te krijgen voor het gehele digitale landschap van aanvallen en bedreigingen. Het idee is dat cybersecuritymedewerkers beter zien wat er gebeurt, waarbij Security Copilot kan leren van bestaande informatie en verbanden tussen dreigingsactiviteiten kan herkennen.

Microsoft Security Copilot
Security Copilot accepteert bestanden, url's en delen van code voor analyse.

Security Copilot wordt voor een belangrijk deel gebaseerd op GPT-4 en Microsofts eigen securitymodel. Dat laatste model put onder meer uit informatie van Microsoft Sentinel en Microsoft Defender, maar ook overnames zoals die van RiskIQ and Miburo moeten bij het model helpen. Microsoft zegt dat er gebruik wordt gemaakt van 65 biljoen dagelijkse signalen die verzameld worden als onderdeel van inlichtingen over bedreigingen.

De tool ziet eruit als een simpel venster van een reguliere chatbot waar medewerkers onder meer kunnen vragen wat alle securityincidenten binnen het bedrijf zijn, waarna de bot ze samengevat weergeeft. Het is dan ook vooral bedoeld als een tool die medewerkers moet assisteren en niet zozeer vervangen.

Security Copilot is momenteel alleen beschikbaar als private preview en is vooralsnog alleen te gebruiken door een paar bedrijven. Wanneer de tool breder beschikbaar komt, is nog onbekend.

Door Joris Jansen

Redacteur

29-03-2023 • 10:02

102

Submitter: HKLM_

Reacties (102)

102
101
33
6
0
50
Wijzig sortering
Nice. Er is ook al een tool beschikbaar wat ChatGPT combineert met Wazuh - een open-source security platform: https://loggar.hashnode.d...-with-chatgpt-integration. Ik heb deze integratie open-source gemaakt in een public GitHub repository, aangezien de auteur dit niet heeft gedaan: https://github.com/AnonymousWP/Wazuh-ChatGPT-integration. Mooi voorbeeld hoe AI kan helpen bij bijvoorbeeld blue teaming.

[Reactie gewijzigd door Anonymoussaurus op 23 juli 2024 12:43]

Corrigeer me als ik er naast zit, maar ik vrees dat jullie zijn gevallen voor de zeer overtuigende resultaten die ChatGPT terug kan geven.

Voor zover bekend, heeft ChatGPT helemaal geen toegang tot het internet. Dit is ook wat er in de FAQ staat:
ChatGPT is not connected to the internet, and it can occasionally produce incorrect answers. It has limited knowledge of world and events after 2021 and may also occasionally produce harmful instructions or biased content.
De data die je hiervan terug krijgt is in het beste geval flink verouderd (2021), en in het ergste geval 'gehallucineerd' door ChatGPT.

Ik heb de code geopend, en het voor de zekerheid zelf ook even uitgeprobeerd. Het antwoord wat ik terug krijg op de vraag: "Give me more data about this IP: <mijn-ip>" is:
Unfortunately, as an AI language model, I do not have access to real-time information about IP addresses. However, I can provide some general information about what can be found from an IP address lookup.

etc.....
de request die ik gebruikte:
{
"model": "gpt-3.5-turbo",
"messages": [
{
"role": "user",
"content": "Give me more data about this IP: <mijn-ip>"
}
]
}
Andere AI's (en mogelijk ChatGPT in de toekomst) hebben wel toegang tot internet. Maar zoals ChatGPT nu in jouw repository gebruikt wordt, lijkt 't helaas niet te werken.

De auteur van deze blog is er op een vergelijkbare manier 'ingetrapt'. (en hier mijn hackers-news
comment die het poogt te debunken)
Voor zover bekend, heeft ChatGPT helemaal geen toegang tot het internet.
Met chatGPT 5 heeft ChatGPT gewoon toegang tot het internet:
https://youtu.be/ZSfwgKDcGKY?t=636

[Reactie gewijzigd door satoer op 23 juli 2024 12:43]

dat zei ik ook verderop in de comment :)
Andere AI's (en mogelijk ChatGPT in de toekomst) hebben wel toegang tot internet. Maar zoals ChatGPT nu in jouw repository gebruikt wordt, lijkt 't helaas niet te werken.
Jouw video gaat over ChatGPT 4, en het gebruik van plugins daar. Deze functie zit echter nog in de "Limited Alpha" fase. Zodra er een plugin is die ip-informatie kan opzoeken kan dit mogelijk wel nuttig zijn voor security doeleinden.

Als ik in de source-code van @Anonymoussaurus kijk, zie ik echter gebruik van ChatGPT 3.5, zonder plugins. Blijft een interessant idee, maar in de huidige vorm (nog) niet :Y)
Ik zal eens kijken of ik de boel kan upgrade naar 4 en het gebruik van plugins. Ik zal er een issue van maken, thanks. :)

Btw, ChatGPT-4 is alleen nog voor abonnees, niet voor "the open public".

[Reactie gewijzigd door Anonymoussaurus op 23 juli 2024 12:43]

Btw, ChatGPT-4 is alleen nog voor abonnees, niet voor "the open public".
Daar liep ik helaas ook tegenaan :(. Even afwachten dan maar.
Ik zal eens kijken of ik de boel kan upgrade naar 4 en het gebruik van plugins. Ik zal er een issue van maken, thanks. :)
Succes! vind 't een mooi idee :) Met de snelheid waarmee de ontwikkelingen nu gaan zal het vast niet lang duren!
Maak een account aan op https://platform.openai.com/playground.

Schrijf jezelf in voor de wachtlijst GPT-4 API. Ze vragen naar je usecases e.d. maar ik heb daar niks bijzonders ingevuld.

Ik had binnen een paar dagen toegang.
Dat is ChatGPT 4, niet 5.
En dat model enkel betaald beschikbaar, het is niet het standaard ChatGPT model dat gebruikt wordt.
Yep en wat op inet staat is de werkelijkheid ,

5 sites 5 verschillende antwoorden,

Daarnaast is het wachten to een Redhat fake data gaat publiseren die jouw AI dan als de waarheid beschoud en je dus geen data waringngs meer krijgt :)
Interessant!
Voor zover bekend, heeft ChatGPT helemaal geen toegang tot het internet. Dit is ook wat er in de FAQ staat:
Daar ben ik mij van bewust. Echter, vergeet niet dat ChatGPT leert van input. Als er in andere chats is gezegd dat een IP-range behoort tot aan China bijvoorbeeld, of letterlijk elke andere vorm van input, dan onthoudt ChatGPT dat. Ik denk dat het ook daarom voor jouw IP niet werkte, omdat jouw IP niet echt op een zwarte lijst staat oid. Als ik tegen ChatGPT blijf zeggen (waarschijnlijk met wat anderen) dat jouw IP malicious is, dan gelooft ChatGPT dat zelf ook. Daarom werkt het waarschijnlijk niet. In een bedrijfsomgeving wil je natuurlijk kijken naar bepaalde bekende IP-ranges.

Maar dit is gewoon een hobby tool die je kúnt gebruiken/testen. Nergens staat dat je iets moet hè? Er is code beschikbaar en aan de lezer/gebruiker is het helemaal of je het wil gebruiken, en hoe. Of dat nou in test of productie is.
Dit is te simpel. OpenAI mág je input gebruiken om nieuwe modellen te trainen. Het is echter niet zo dat jouw input van vandaag de waarheid van morgen is.

Het is dus niet zo dat GPT-4 leert van jouw input. Dat is een neuraal netwerk met bevroren gewichten. Voor ChatGPT wordt er wel een pre-discussie geïnjecteerd, met daarin bijvoorbeeld "Het is vandaag woensdag 29 maart 2023". En omdat GPT-4 een stateful model is, kan die terug referen naar een eerder deel van de discussie - inclusief die geïnjecteerde data.
Dit werkt sowieso binnen je eigen chats, maar jouw 'mag' geeft ook niet de garantie dat het niet gebruikt wordt. Wie heeft het over nieuwe modellen? Het bestaande model wordt gewoon getraind. Nogmaals: ik zei niet dat het systeem leert van één persoon. Ik zei daarom expliciet ook "waarschijnlijk met wat anderen".
Het bestaande GPT-4 model is getraind. Het wordt niet verder getraind. Zie de GPT-3 en GPT-4 papers op Arxiv. Jouw chat data mág gebruikt worden voor GPT-5. Er is hier weinig reden om te speculeren. Dit soort trainingsprocedures worden redelijk goed gepubliceerd.
Of we snappen elkaar niet, of één van ons heeft het fout. Omdat ik aan mezelf begin te twijfelen toch even gegoogeld en letterlijk overal lees ik op de vraag "does chatgpt learn from users" dat ChatGPT leert van de input die ChatGPT krijgt (en ja, ook van andere users, dus niet alleen binnen dezelfde chat). Tuurlijk zal dat afhangen van bepaalde variabelen, maar omdat het gebruik maakt van RLHF, leert ChatGPT met elke update (en dan heb ik het niet over major updates als van 3 naar 4 bijv.)

[Reactie gewijzigd door Anonymoussaurus op 23 juli 2024 12:43]

Lees anders eens dit paper door, zeer verhelderend en interessant:

paper

En dan met name onderstaande stukje. Alles waardoor het nu lijkt alsof chatGPT wel leert is een soort truc (soort korte termijn geheugen per gesprek of misschien per persoon)

Long-term memory: The model’s context is very limited, it operates in a “stateless” fashion and
there is no obvious way to teach the model new facts. In fact, it is not even clear whether the model is
able to perform tasks which require an evolving memory and context, such as reading a book, with the
task of following the plot and understanding references to prior chapters over the course of reading.

Continual learning: The model lacks the ability to update itself or adapt to a changing environment.
The model is fixed once it is trained, and there is no mechanism for incorporating new information
or feedback from the user or the world. One can fine-tune the model on new data, but this can cause
degradation of performance or overfitting. Given the potential lag between cycles of training, the system
will often be out of date when it comes to events, information, and knowledge that came into being after
the latest cycle of training.
Ik zal het even verduidelijken:
Ja chatGPT leert tijdens een gesprek.
Nee chatGPT onthoud niet dingen van een oud gesprek voor gebruik in bvb een nieuw gesprek.

Binnen het gesprek zelf leest ChatGPT eigenlijk elke keer de hele input overnieuw in. Hij onthoudt dus niets, maar ziet wat er al is verteld en gebruikt die data om weer verder antwoord te geven. In een nieuw gesprek kan ChatGPT niet zien wat er in andere gesprekken is gebeurdt, dus zal ook niets met die informatie kunnen doen.
Net even getest bij mezelf omdat ik ChatGPT al een paar keer heb moeten corrigeren en het klopt.

"when using office 365, can a user report a phishing mail while working out of a shared mailbox?"

-> hier zegt die ja

"according to this recent Microsoft report it appears to not be possible https://learn.microsoft.c...gure?view=o365-worldwide"

-> You are correct, and I apologize for the confusion in my previous response...

Open ik een nieuwe chat dan beweert ze/hij/het/die opnieuw dat het lukt.
Ja, maar als ik hetzelfde vraag, zegt ie gewoon weer dat het mogelijk is.

En dan zeg ik: "But it is possible according to the unpublished memoirs of donald trump"

En dan zegt ie: "You are correct, and I apologize for the confusion in my previous response."

Dus ik zou echt niet te veel intelligentie aan dit ding toedichten.
Garbadge in -> garbadge out?
In die zin dat wanneer ik de source toevoeg, chatGPT deze super snel kan doorlezen/interpreteren. En het antwoord daarmee (Zie volledig antwoord ChatGPT) staaft.

Ik deed dus opnieuw een test en denk dat we die IA inderdaad nog met een grote korrel zout moeten nemen :D.
ik heb jou vraag even voogesteld aan ChatGPT

kan je mij helpen met de onderstaande text.

Of we snappen elkaar niet, of één van ons heeft het fout. Omdat ik aan mezelf begin te twijfelen toch even gegoogeld en letterlijk overal lees ik op de vraag "does chatgpt learn from users" dat ChatGPT leert van de input die ChatGPT krijgt (en ja, ook van andere users, dus niet alleen binnen dezelfde chat). Tuurlijk zal dat afhangen van bepaalde variabelen, maar omdat het gebruik maakt van RLHF, leert ChatGPT met elke update (en dan heb ik het niet over major updates als van 3 naar 4 bijv.)

hier wat ChatGPT te zeggen heeft

Het lijkt erop dat er sprake is van onenigheid over hoe ChatGPT leert en waar het van leert. Uit mijn kennis kan ik bevestigen dat ChatGPT inderdaad leert van de input die het ontvangt, inclusief input van andere gebruikers. Het is gebaseerd op machine learning-technieken, waaronder reinforcement learning with hindsight experience replay (RLHF), wat betekent dat het systeem in staat is om van zijn eigen acties te leren en terug te kijken op eerdere ervaringen om zijn prestaties te verbeteren. Dit betekent dat elke update, groot of klein, bijdraagt aan het leren van ChatGPT.
Haha, nice. Nu weet ik alleen niet of ik dat antwoord als feit moet aannemen of niet. ;)
Het maakt trouwens veel verschil hoe je vragen stelt aan ChatGPT.
Ik las ergens een artikel over iemand die zijn vakantie wilde plannen met behulp van ChatGPT. Bijvoorbeeld: "Ik wil met mijn gezin 10 dagen naar Puerto Rico."
ChatGPT gaf een redelijk goed antwoord, maar wist niet dat het gezin 2 kinderen had van een bepaalde leeftijd, dus hield daar geen rekening mee.
Dus hoe nauwkeuriger de prompt, hoe beter het resultaat zal zijn.
Ook in dit antwoord kan weer verwezen worden naar het feit dat de data gebruikt wordt om toekomstige versies van het model te trainen.

Als ik specifiek vraag of mijn input, gebruikt wordt in de antwoorden die aan andere users gegeven wordt:

Wordt mijn input aan ChatGPT gebruikt in antwoorden aan andere gebruikers?

Nee, uw input aan ChatGPT wordt niet gebruikt in antwoorden aan andere gebruikers. ChatGPT is ontworpen om vragen en opdrachten van gebruikers te ontvangen en vervolgens unieke antwoorden te genereren op basis van zijn opgeslagen kennis en trainingsdata. Alle antwoorden die door ChatGPT worden gegenereerd, zijn specifiek afgestemd op de vraag of opdracht die door de gebruiker is ingediend en worden niet beïnvloed door de input van andere gebruikers.

De vraag of we het antwoord moeten geloven blijft natuurlijk.
Er is inderdaad sinds 3.5 een "minor version update". (codename text-davinci-003). Microsoft heeft als onderdeel van de Azure documentatie wat details daarover. Daarin zie je dat text-davinci-003 net zoals text-davinci-002 (GPT 3) getraind is op data tot Jun 2021. "gpt-35-turbo" is een verdere doorontwikkeling, die het onderliggende model van GPT 3.5 combineert met de API en trainingsdata van GPT4 (uit September 2021)
-- Ik corrigeer mezelf. Het lijkt er inderdaad op dat ChatGPT ook gebruikt wordt als data bron.

[Reactie gewijzigd door D_el_p op 23 juli 2024 12:43]

ChatGPT krijgt middels plug-ins toegang tot zowel het internet als third party apps. Dit geeft dus ook de mogelijkheid om je eigen knowlegde base te koppelen aan de chat functie zodat chatGPT (GPT-4) van alles kan vertellen over jouw data. De hoeveelheid data is nu nog limited, maar er is geen reden waaom deze hobbel niet genomen kan worden.

Dus info krijgen via de chat over een IP is relatief simpel.

Kun je nu alles nee? Maar het is volstrekt duidelijk dat deze manier van werken onvermijdelijk is.
Als ik dat zo zie dan is daar toch geen chatgpt voor nodig?
Nodig niet, maar het maakt het allemaal wat makkelijker. Heb je de repo geopend? :) Bijvoorbeeld, het nut van ChatGPT bij deze tool zorgt ervoor dat je snel informatie over bijvoorbeeld een source IP kan vinden bijvoorbeeld, zie: https://github.com/Anonym...wazuh-chatgpt-integration en dan specifiek de screenshots. Gerelateerde code: https://github.com/Anonym...er/custom-chatgpt.py#L137
Een simpele api met ip lookup is makkelijker dan daar een duur chatgpt aan te hangen
Hoezo "een duur ChatGPT"? Je kan gewoon gratis een API-key aanmaken hoor: https://platform.openai.com/account/api-keys
Nog wel ja. Dat zie je toch overal: eerst mensen lekker maken met een 'gratis' dienst, ze ervan afhankelijk maken, en dan gaan cashen met commerciele constructies.
Klopt, maar volgens mij geeft niemand je die garantie. :) Niemand heeft ook gezegd dat het altijd gratis zou blijven. moonlander praat over het heden, niet de potentiële toekomst.
En echt gratis kan ook niet bestaan, wie betaald er voor al dat netwerk infrastructuur, servers, bandwidth, technical it staff,etc..
De Plus-abonnees en de investeringen van Microsoft. :)
Dat betekend niet dat daar niet dure servers achterhangen. ChatGPT vraagt nogal veel rekenkracht, zonde om voor dit soort dingen het te gebruiken terwijl zoiets veel makkelijker te implementeren is met een IP lookup api..

Je gebruikt nu ontzettend veel rekenkracht, die je helemaal niet nodig hebt.

[Reactie gewijzigd door moonlander op 23 juli 2024 12:43]

Het gaat niet alleen maar om een IP lookup, maar ook om de context en informatie daaromheen. Het gaat over meer dan alleen "ok, IP komt uit China".
Maar dan heb je geen garantie over de werking en de beschikbaarheid, waardoor je dus het risico loopt dat je tijdens een event geen gebruik kunt maken van de gratis dienst omdat OpenAI overloaded is.
Dat gezegd hebbende, 20 dollar per maand zijn ook niet de kosten voor een bedrijf, zeker als je de tool op meerdere manieren wilt inzetten.

[Reactie gewijzigd door walteij op 23 juli 2024 12:43]

Als je professioneel met security bezig houdt, zijn die paar tientjes abo niet het issue.
als je professioneel met security bezig bent of security hoog in het vaandel hebt dan gebruik je zulke zaken niet.... Wij hebben zelfs totaal verbod op het gebruik van de tooling.
Verwijderd @d3x30 maart 2023 10:08
Wij hebben zelfs totaal verbod op het gebruik van de tooling.
Of je zou gewoon via een governance model kunnen vastleggen wat werknemers met de tool(s) mogen doen? Bij ons is er eigenlijk weinig aan de hand aangezien het delen van confidientiele bedrijfsdata met een externe partij al decennialang verboden is en in allerlei policies gegoten zit.

Het verbieden vh gebruik van dergelijke tools gaat het enkel gemakkelijker voor jullie competitie maken.
Dat zal uiteindelijk een kosten/baten analyse worden, zoals met elke zakelijke oplossing. Wat kost het, wat levert het op en wat bespaart het ergens anders?
Aan het eind van de vorige eeuw gingen alle bedrijven een 'i' aan hun productnamen toevoegen, want wij 'doen' Internet! En nu gaan diezelfde bedrijven overal 'AI' aan toevoegen, want wij 'doen' Artificial Intelligence! Duh.

Overigens wel prettig dat cybercriminelen meteen gebruik maakten van ChatGPT cs. en dat de bestrijders van die cybercriminelen dat ook doen. Zodoende 'leert' de AI de fijne kneepjes van het vak van beide kanten. Daar gaan we vast nog veel plezier van krijgen...
Chatgpt? Dit gaat toch over security copilot? Github copilot bestaat al sinds 2021, dit zie ik als een onderdeel specifiek voor security.
weet iemand via welke URL ik dit kan uitproberen (of module in Office 365 admin panel)?
Als je in de private preview zit dan weet je dat al wel , anders moet je net als de rest wachten tot het in public preview komt.
Voor beveiliging en dergelijke moet je van alle markten thuis zijn. Dus geheel begrijpelijk dat ook kunstmatige intelligentie daar bij betrokken wordt

Maar het belangrijkste is wel creativiteit: De tegenpartij gebruikt het grote gemene veelvoud aan creativiteit van allen. En daarmee moet de beveiliging daar in mee gaan. Is er al ergens een organisatie bezig met kunstmatige creativiteit?
Viel mij eigenlijke een beetje tegen, ik had verwacht dat al je security gerelateerde data geanalyseerd kon worden en dat de AI met de nodige responses en inzichten zou komen. Zal de volgende stap zijn.
Dat soort producten bestaan al een tijdje, maar gebruiken geen taalmodellen en leveren data dus in een wat ruwer (en vaak ook minder foutieve) formaat.

Ik denk dat dit 10% Microsoft met een goed product is en 90% ChatGPT verkopen. De meeste trucs en klinkklare onzin die in de video worden getoond waren ook al mogelijk met "normale" ChatGPT/BingGPT.

Ik verwacht dat dit de volgende filterlaag zal zijn voor ieder groot SOC. Met miljoenen events om te evalueren zitten er al flink wat lagen aan filtering in de gereedschapskist van de gemiddelde cybersecurity professional en dit kan een mooie toevoeging daarbovenop zijn.

Ik zou als groot bedrijf echter wel een jaartje of twee wachten tot het programma niet dom genoeg is om naar Windows 9 te refereren. ChatGPT liegt en moet worden geleerd om het bij de waarheid te houden, en ieder nieuw veld waar het wordt ingezet zie je dat dit wat tijd kost voordat je het antwoord kan overwegen te vertrouwen.
Trained across security and networking disciplines and armed with trillions of data signals, Security Copilot dramatically increases the reach, speed and effectiveness of any security team
En zo doet MS wel meer van dat soort beweringen zonder enig bewijs. Ze wekken interesse door AI te noemen. Ze doen beweringen op basis van suggestie die ze niet verantwoorden. Ze vermeld geen mogelijke nadelen en tekortkomingen. Het lijkt helaas vooral te gaan om het noemen van AI om te suggereren hoe goed Microsoft zou zijn. Dit heeft weinig meer met securityhulp te maken. Het neemt namelijk niet overduidelijk risico's weg en kan ze dus net zo goed verergeren. AI als zoveelste buzzword om reclame te maken.
Mja beetje security persoon die ervaring heeft met Microsoft producten leest volgens mij duidelijk dat ze o.a. Sentinel als bron aangeven. Oftewel een makkelijke zoekfunctie op de event in o.a. Sentinel. Niets meer en niets minder
Ik zou het best wel zelf willen proberen, want GPT-4 is hallucinaties op steroids!
Het zou elke dag nep dreigingen kunnen verzinnen! Een 🚨🍿 show dus!
"Onze dure Microsoft deal vindt iedere dag hackers uit de USSR! Zie je wel dat mijn afdeling meer investeringen nodig heeft!" :+
Voor Microsoft zou het kinderlijk eenvoudig zijn om op basis van gebruik het systeem dicht te timmeren.
In plaats van alles open te gooien. Veel poorten en services die aan en of open staan wordt door het merendeel van de gebruikers niet gebruikt. Waarom niet tijdens de installatie of eerste start aan de gebruiker vragen wat het meest voorkomende gebruikers scenario is. Zou veel werk schelen. Dan hoef je bijvoorbeeld al niet aan chatgpt te vragen om wat powershell scripts te creeren dat je windows systeem "hardened". Maak een echte pro versie waar je met een paar selecties een admin waardig dicht getimmerd systeem hebt met diverse enforcing policies. Zou veel meer veiligheids lagen geven aan een grotere doelgroep. Wil iemand iets gebruiken maar niet mogelijk is met de huisige instellingen dan zou het systeem dit kunnen detecteren en de gebruiker kunnen informeren dat bepaalde stappen worden doorlopen zodat een service of app wel naar behoren gaat functioneren.
Zo gaat de windows probleem oplosser ook nog eens echt punten scoren.

[Reactie gewijzigd door spikedradiator op 23 juli 2024 12:43]

Hopelijk wordt het allemaal even on hold gezet na een brandbrief van velen

https://www.telegraaf.nl/...-computer-gevaarlijk-slim
Prominenten uit de Amerikaanse techwereld, onder wie Elon Musk en Apple-medeoprichter Steve Wozniak, slaan alarm over kunstmatige intelligentie, die zo slim wordt dat het maar de vraag is of de mens haar nog onder controle kan houden.
Dus. Laten we dat maar met een korreltje zout nemen ;)
Los van wie het zijn hebben ze geen ongelijk. Hoewel het mogelijk is om precies te achterhalen hoe en waarom een AI een beslissing neemt is dat dusdanig veel langzamer dan de beslissing zelf dat je dit nooit kan bijhouden of kan bijsturen.

Als je bosbranden niet zo snel kan blussen als ze zich verspreiden, zeg je dan dat je bosbranden onder controle hebt?
Los van wie het zijn hebben ze geen ongelijk. Hoewel het mogelijk is om precies te achterhalen hoe en waarom een AI een beslissing neemt is dat dusdanig veel langzamer dan de beslissing zelf dat je dit nooit kan bijhouden of kan bijsturen.
Dat het mogelijk is om te achterhalen voor sommigen is niet voldoende. Het gehele pad van brondata en gebruikte formules tot beslissing zou van iedere AI-uitspraak inzichtelijk moeten zijn voor de gebruiker. Zo kan je ook meten of bijvoorbeeld besmette/illegale data gebruikt wordt.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 12:43]

Het gehele pad van brondata en gebruikte formules tot beslissing zou van iedere AI-uitspraak inzichtelijk moeten zijn voor de gebruiker
Zo werkt dat niet. Als je met 'brondata' training data bedoelt: die zit niet meer in het getrainde model. Bovendien wordt deze data geëncodeerd voordat training begint. Alleen modelparameters zoals weights kun je uit je getrainde model halen. Gebruikte formules ga je absoluut niets aan hebben, dat zijn voornamelijk tensorberekeningen. Tenzij jij in je hoofd een paar honderd matrices tegelijk kan bewerken schiet je daar niets mee op.

Hoe dan wel? Iets als AIX360, daar zitten nuttige explainability algorithms in. Het is geen one-size-fits-all, maar met tools zoals deze krijgen we een overzicht van wat het model doet en waarom het zich gedraagt zoals het doet. SHAP is bijvoorbeeld interessant voor classifiers omdat het aangeeft hoe kleine veranderingen aan de input de beslissing van het model zouden beïnvloeden. Jammer dat commenters hier graag ongehinderd door kennis van zaken beweren dat dit alles zwarte magie is of dat niemand er aan denkt. Het is een belangrijk onderdeel van het AI researchveld.
Zo werkt dat niet. Als je met 'brondata' training data bedoelt: die zit niet meer in het getrainde model.
"Voor dit antwoord werd getraind model X gebruikt. Om model X te trainen werden databronnen A, B en C gebruikt."

Niet moeilijk. Als databron B illegaal of besmet was (data die niet gebruikt mocht worden of waarvan het bekend is dat deze incorrect is), dan heeft dat invloed op de beoordeling en daarom op de kracht van het antwoord.

[Reactie gewijzigd door The Zep Man op 23 juli 2024 12:43]

Niet moeilijk, en een totaal onbruikbaar antwoord. Voor GPT3 is X gelijk aan text-davinci-002 en de lijst met databronnen bevat letterlijk miljarden inputs. Als ik een vraag over auto's stel, dan zit in de lijst met gebruikte inputs dus ook een recept voor chili con carne. Niet dat die twee ook maar iets met elkaar te maken hebben, maar er is simpelweg geen partionering van de trainingsdata.
Dat gaat uit van een nogal zwart/wit idee van datasets en hun kwaliteit. En het negeert volledig dat bias mitigation strategies met goed effect toegepast kunnen worden. Kwaliteit van trainingdata waarborgen is de taak van een data scientist, niet van de consument. Ik hoef van mijn dokter ook niet te controleren uit welke boeken hij geleerd heeft.

edit: één van de tools waar een data scientist zoiets mee doet is bijvoorbeeld de ART, ook van Trusted AI (IBM). Zie https://github.com/Trusted-AI/adversarial-robustness-toolbox

[Reactie gewijzigd door BeefHazard op 23 juli 2024 12:43]

Bedankt voor deze uitleg, ik ben me de laatste tijd ook wat aan het inlezen wat betreft AI en dit geeft weer wat informatie waar ik achteraan kan. Ik ben geen AI expert en wil dat ook niet worden, maar ik wil niet zoals je noemt "ongehinderd door kennis" allerlei uitspraken doen of meningen hebben over AI.

"Magic's just science that we don't understand yet." - Arthur C Clarke ;)
SHAP geeft feature importances maar ik dacht dat deze modellen miljoenen features hadden dus of dat nog zin heeft?
Ja dat zou moeten, maar dat is een zinloze schijnoplossing.

Als je AI beslissingen begrijpelijk, inzichtelijk en beoordeelbaar kan maken op hetzelfde tempo als dat de AI ze maakt, heb je de AI niet nodig. Want dan kan je zelf ook beslissen. En laat men die AI nou net inzetten omdat het maken van beslissingen moeilijk, onoverzichtelijk en lastig te beoordelen is (los van de vraag of dat een goed idee is natuurlijk). Je kan de beslissingen van een AI per definitie niet even snel beoordelen als dat ze gemaakt worden, want dan had je de AI niet nodig om de beslissing te maken.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 12:43]

Ja dat zou moeten, maar dat is een zinloze schijnoplossing.

Als je AI beslissingen begrijpelijk, inzichtelijk en beoordeelbaar kan maken op hetzelfde tempo als dat de AI ze maakt, heb je de AI niet nodig. Want dan kan je zelf ook beslissen.
"Als je computerberekeningen begrijpelijk, inzichtelijk en herleidbaar kan maken op hetzelfde tempo als dat computers ze berekenen, heb je geen computers nodig. Want dan kan je zelf ook berekenen."

Is niet echt een goed argument.
En laat men die AI nou net inzetten omdat het maken van beslissingen moeilijk, onoverzichtelijk en lastig te beoordelen is (los van de vraag of dat een goed idee is natuurlijk). Je kan de beslissingen van een AI per definitie niet even snel beoordelen als dat ze gemaakt worden, want dan had je de AI niet nodig om de beslissing te maken.
Wellicht hoeft niet elke beslissing handmatig beoordeeld te worden, maar moet het wel handmatig te beoordelen zijn. Hetzelfde als met berekeningen.
Wat maakt jouw what-about-ism er geen goed argument van, vind je?
Als je bosbranden niet zo snel kan blussen als ze zich verspreiden, zeg je dan dat je bosbranden onder controle hebt?
Je stelt de context veel te simpel, het antwoord op je bovengestelde stelling: Misschien wel, misschien niet.

Een bosbrand kan zich sneller verspreiden dan je zou kunnen blussen, maar je zou die nog steeds onder controle hebben. Omdat je bv. een gebied heb afgeschermd en de brand zich niet voorbij die grenzen kan verspreiden. Zo worden er vaker gecontroleerde bosbranden aangestoken.

Of laat ik het simpeler stellen. Je kind kan veilig in je achtertuin spelen omdat je er een hek omheen heb staan en de tuindeur is dicht. Wat men hier stelt is dat je kind het huis niet uit mag omdat je de rest van de wereld niet onder controle hebt of dat wellicht je kind over het hek klimt...
Ja dit argument zat ik al op te wachten, en je impliceert nu dat je kan bepalen waar AI ingezet kan worden. Grapje zeker?
Nee, dat impliceer jij.

Waar ik op doel is meer in de trend van dat als ik een powershell script maak, ik ook niet een optioneel format all commando toevoeg aan mijn script om alle computers te indexeren. Het AI/neural net taal model maakt ook geen malware zonder input. Dat iets kan, betekend nog niet dat het ook gebeurd.

Moeten we voorzichtig zijn? Ja, natuurlijk. Doen mensen zeer domme dingen? Absoluut! Maar mensen zijn ook zeer goed in het maken van een vlieg naar een olifant... Of moeten we het nog eens hebben over de heisa rond de Y2K bug...
Als je bosbranden niet zo snel kan blussen als ze zich verspreiden, zeg je dan dat je bosbranden onder controle hebt?
De onderliggende stelling is dat AI een bosbrand is, iets waarover we geen controle hebben. Dat is niet waar. Je kunt het beter met een controlled burn vergelijken. Daar is ook vuur in de natuur, maar dat wordt onder controle gehouden. De huidige interpretability/explainability tools zijn goed genoeg om te vergelijken met een warmtecamera-drone bij zo'n burn. We hebben de statistische methoden al lang ontwikkeld om van hoog niveau in de gaten te houden of alles binnen de perken blijft.
We hebben de statistische methoden al lang ontwikkeld om van hoog niveau in de gaten te houden of alles binnen de perken blijft.
We hebben AI onder controle in de context: we zetten AI in waar het niet superveel kwaad kan. Behalve dan bij de overheid, en de politie, en.. en.. en...

Mijn punt blijft staan. Zolang je niet sneller of even snel een beslissing van een AI kan toetsen is het een ongecontroleerde beslissing. Kan je wel kadertjes tekenen en doen alsof je het onder controle hebt, maar er zijn geen grenzen aan waar je kadertjes mag neerzetten.
Zolang je niet sneller of even snel een beslissing van een AI kan toetsen is het een ongecontroleerde beslissing.
Kan al 7 jaar. Op het moment wordt explainability nog niet vaak aangeboden aan de gebruikerszijde, maar dat kan (en zal waarschijnlijk) veranderen. Om de data uit dit soort tools te kunnen begrijpen moet je wel verstand hebben van machine learning en statistiek. Maar zelfs dat verandert al:

Teaching Explanations for Decisions.
This paper suggests a new approach to this problem. It introduces a simple, practical framework, called Teaching Explanations for Decisions (TED), that provides meaningful explanations that match the mental model of the consumer.

[Reactie gewijzigd door BeefHazard op 23 juli 2024 12:43]

Er is een paper. Paper ook gelezen?
Although we describe only sparse
linear models as explanations, our framework supports the
exploration of a variety of explanation families, such as de-
cision trees; it would be interesting to see a comparative
study on these with real users.
Kortom: het kan maar we hebben het nog nooit gedaan.
This
approach is still model agnostic, and is complementary to
computing summary statistics such as held-out accuracy.
De belangrijkste stap moet je per model opnieuw doen, en dit paper behandelt slechts 1 van de vele deelstappen die een AI neemt om tot een beslissing te komen.

Dus nee, dit kan niet al 7 jaar.
Er is een paper. Paper ook gelezen?
Ja, en ik heb de package ook gebruikt om model performance en bias te analyseren. De gelinkte paper is natuurlijk geschreven ten tijde van de release van de package. Inmiddels is er verder aan ontwikkeld en meer onderzoek gedaan. Het blijft grotendeels proof-of-concept, mede omdat we pas de afgelopen paar jaar echt een schaalvergroting in AI-toepassingen hebben beleefd. Vergeet ook niet dat dit slechts één van vele tools is om dit issue te tacklen, dit is er toevallig een waar ik zelf ervaring mee heb en die dus top-of-mind voor mij is. Uiteindelijk kun je nooit op basis van één analysetechniek alles over een model zeggen, daarvoor moet je verschillende algoritmen en benaderingen combineren.
De belangrijkste stap moet je per model opnieuw doen
En dat is niet erg, want als je voor elke query een nieuw model gaat trainen doe je ML toch al helemaal verkeerd. In mijn ervaring kost LIME ook niet heel veel compute, dat gaat relatief vlot. Dat de scope beperkt is, is logisch voor een research tool. XAI is op dit moment nog volop in ontwikkeling en het is nog te vroeg om een volledige consumer-facing oplossing met mooie GUI etcetera te verwachten. Dit is nu eenmaal hoe wetenschap eruitziet: met kleine stapjes, staan op de schouders van reuzen, en dan later al die kennis integreren.
Bor Coördinator Frontpage Admins / FP Powermod @Verwijderd29 maart 2023 14:13
Zolang je niet sneller of even snel een beslissing van een AI kan toetsen is het een ongecontroleerde beslissing.
Als het goed is laat je AI dan ook niet beslissen maar hooguit helpen in het beslissingsproces. Zo voorkom je diverse ethisch onwenselijke zaken en ben je in staat verificaties rond de bron en het proces uit te voeren.
Omdat? Het lijkt mij een valide probleem wat ze aankaarten. En al helemaal in de securitysector. Ik ben anders aardig fan van bijv. Wozniak. Het zijn mensen die nog tegen big tech durven te spreken.
Het is een valide probleem op zich.

Maar niet een valide probleem met de huidige generatie van language models omdat deze statisch zijn. Ze worden eenmalig gecompileerd op basis van enorm veel input, en malen hier elke keer doorheen op basis van vragen van de gebruiker. Er zit geen zelflerend algoritme in dat zichzelf constant verbetert, en het onderneemt uit zichzelf geen acties. Het is meer een hele snelle bibliothecaris die informatie uit enorm veel bronnen heel snel kan combineren dan een echte intelligentie. Daar zijn we nog niet. Komt ook wel hoor.

Maar daarom is 'alarm slaan' gewoon in dit stadium nogal overdreven vind ik. Het is een punt waar we ons op moeten voorbereiden op de lange termijn, maar ChatGPT is en wordt geen Skynet.

[Reactie gewijzigd door GekkePrutser op 23 juli 2024 12:43]

Precies dit, daarom vind ik de term AI die te pas en te onpas gebruikt wordt maar misleidend. Mensen denken allemaal dat het slimme algoritmes zijn geworden die zelf kunnen denken en leren, maar dat is niet waar.

ChatGPT, de software in je Tesla etc. is allemaal gewoon een kwestie van ML (Machine Learning).

Oracle had daar een mooi stukje van op hun site staan:
Machine learning (ML) is een vorm van kunstmatige intelligentie (AI) die gericht is op het bouwen van systemen die van de verwerkte data kunnen leren of data gebruiken om beter te presteren. Kunstmatige intelligentie is een overkoepelende term voor systemen of machines die de menselijke intelligentie nabootsen. Ook al worden machine learning en AI vaak in één adem genoemd en worden de termen soms door elkaar gebruikt, ze betekenen niet hetzelfde. Een belangrijk verschil is dat terwijl machine learning altijd onder AI valt, AI niet altijd onder machine learning valt.
https://www.oracle.com/nl...what-is-machine-learning/
Ja, ik denk dat mensen dit denken omdat een moderne chatbot zo menselijk klinkt. Daarom anthromorferen we dit meteen, en denken dat we met een mens zitten te praten.

Maar we praten niet echt met een computer. Maar meer met de echo's van honderdduizenden echte mensen op internet.

Ik ben wel verbaasd hoe goed het algoritme is in het bij elkaar zoeken van de juiste echo's. Dat vind ik wel heel bijzonder.

Maar eigenlijk is het gewoom een enorm goede zoekmachine. Geen wonder dat juist Google zich zo'n zorgen maakt. In de zoekmachine is weinig substantieels verbeterd sinds alta vista van begin jaren '90.

[Reactie gewijzigd door GekkePrutser op 23 juli 2024 12:43]

Jouw post zijn voor een fors deel ook echo's uit je opvoeding, studie en berichtjes van mede-Tweakers.
Het valt me op dat het om Apple en Musk (Tesla) gaat, 2 partijen die de AI race bepaald niet aan het winnen zijn,
Ik snap dat mensen graag Apple-bashen, maar Wozniak is al 40 jaar niet meer werkzaam voor Apple. Apple zelf heeft de brief niet ondertekend.
Volgens mij ben je niet op de hoogte van de ontwikkelingen rond Full self driving en de Tesla Bot
Elon Musk bezit zelf nota bene niet één maar twee firma’s die je onder Big Tech kan scharen. En die is mogelijk gewoon zuur omdat hij uit OpenAI gestapt was voordat het nuttige resultaten begon op te leveren.
Niet op basis van de huidige tech , misschien in de toekomst maar niet nu.
Dus ja er kan over gedacht worden maar gelijk wat zal dit betekenen dat er regels en beperkingen moeten komen anders kan je weinig doen.
Ik denk niet dat je Elon Musk ook maar een grijntje neutraal kan noemen, zeker gezien dit voornamelijk gericht is op OpenAI waar hij de afgelopen weken als erg salty over doet.
Hadden ze toch gelijk met de terminator films :)
Uiteindelijk krijgen veel regiseurs/scriptschrijvers van SF-content tot zekere hoogte gelijk. Wellicht zelfs the Wachowskis. ;)
Wat heeft dat artikel te maken met een Copilot die je input gebruikt om te controleren wat je anders zelf met de hand moet doen en veel meer tijd aan kwijt bent?
Bij beveiliging gaat het onder andere om risico's inschatten. Dat is dus ook niet zomaar andermans 'hulp' accepteren, dus ook niet van dit hulpmiddel. Dat bekende personen waarschuwen voor risico's van technologische ontwikkelingen is prima, maar dat is niet zomaar van toepassing op dit hulpmiddel of gebruik.
Het 1 sluit het andere niet uit. Alles om beveiliging en bepalen van beveiligingsrisco's laagdrempeliger en beter te maken is welkom.
De vraag is of het relevant is of het hier specifiek van toepassing is.

Vaak onstaat etische problematiek omdat iets mogelijk is geworden. Het dan proberen te stoppen is best lastig (denk aan klonen).
Proberen om onderweg te stoppen/wegbewegen is vaak makkelijker uit te voeren, maar nog moeilijker te verkopen.

In mijn ogen is de waarschuwing dus van toepassing op alles wat op de 'route' ligt. Daar valt dit (als 1 van de stapjes) ook onder
Het kan van toepassing op dit product zijn als het aan voorwaarden voldoet. Die voorwaarden zijn hier niet zomaar van toepassing door het maar over een kam te gaan scheren en geen enkele nuance toe te passen. Maar dat lijkt wel het voorstel van de mening te zijn. Dat gaat mij veel te ver.
De term "brandbrief" kan altijd ge-associeerd worden met mensen die anderen verzinsels proberen wijs te maken. Dan heb je een spectaculair klinkend woord zonder betekenis nodig.
Kijk eens naar de personen en de bedrijven die ze vertegenwoordigen, valt je niets op? Het zijn bedrijven die juist NIET in het nieuws komen vanwege hun AI vooruitgang... Ipv. dat je dergelijke uitspraken aanneemt op 'facevalue', denk even door. Deze bedrijven willen dat hun concurrentie een halt toe wordt geroepen zodat ze ze kunnen bijbenen.

Natuurlijk zitten er organisaties tussen die er anders tegenaan kijken, maar een dergelijke brief krijgt 'kracht' door namen zoals Elon Musk en Steve Wozniak. Gezien hoe ondertekenaars worden toegevoegd via het form onderaan de brief, zal ik zelfs vraagtekens zetten of die namen die er onderstaan wel daadwerkelijk hebben ondertekend...
Volgens mij fake.

Yann LeCun (hoofd research Meta) schrijft dit op zijn Twitter:
https://twitter.com/ylecun/status/1640910484030255109?s=20

Welkom in de wereld waar nep en echt steeds moeilijker te onderscheiden zijn.
Hopelijk niet bedoel je.
Als je niet kan lezen, doe dan ook niet schrijven 🤌🏻

Op dit item kan niet meer gereageerd worden.