Stack Overflow komt met betaalde api voor AI's die op SO-content trainen

Stack Overflow introduceert een betaalde api voor bedrijven die hun large language models op content van dat platform trainen. Google heeft zich daar al bij aangesloten. Er zitten ook eisen aan de api, zoals verplichte bronvermeldingen.

De api heet OverflowAPI. Stack Overflow kondigt ook direct een samenwerking met Google aan. Dat bedrijf gaat de api implementeren om zijn eigen taalmodel Gemini te trainen. Daarnaast gaat Google Stack Overflow integreren in de Google Cloud-console zodat websitebouwers daar direct vragen kunnen stellen aan een chatbot. Andersom gaat Stack Overflow Google Cloud gebruiken als hostingplatform.

Bedrijven kunnen de betaalde api gebruiken om content van Stack Overflow te gebruiken voor het trainen van LLM's of large language models. Stack Overflow zegt dat generatieve AI's het vertrouwen van gebruikers moeten winnen door duidelijk te maken waar data vandaan komt.

Om die reden heeft Stack Overflow eisen gesteld aan het gebruik van de api, naast dat die geld kost. Alle generatieve AI's die deels zijn gemaakt op basis van Stack Overflow-data moeten aan attributie doen. Het gaat dan om een bronvermelding van 'de meest relevante post waarop de samenvatting door een model is gebaseerd'. Het moet dan gaan om bronvermelding van de originele auteur en de community waar de brondata vandaan komt.

Stack Overflow zegt dat het de maatregelen neemt om vertrouwen op te bouwen rondom het gebruik van kunstmatige intelligentie en generatieve AI. Het bedrijf noemt daarbij nergens dat het vorig jaar een eigen AI opzette, OverflowAI. Dat is een generatieve AI waar ontwikkelaars vragen aan kunnen stellen, die getraind is op de vele vragen en antwoorden die op Stack Overflow staan. Stack Overflow heeft veel te lijden door de opkomst van AI; volgens analisten zou het platform steeds meer bezoekers verliezen, omdat er tools als Copilot, ChatGPT en Gemini bestaan die ook code kunnen genereren. Het bedrijf ontsloeg vorig jaar 28 procent van het personeel.

Door Tijs Hofmans

Nieuwscoördinator

01-03-2024 • 17:19

11

Reacties (11)

11
11
5
1
0
5
Wijzig sortering
Ik heb hier altijd een soort van moeite mee.
StackOverflow is, net als andere content sites als Reddit, volledig afhankelijk van zijn gebruikers. Ze bieden een platform aan zodat men content kan posten en serveren reclame als bron van inkomsten als ruil voor het hosten van die content. Maar nu ineens wordt diezelfde content ineens verder doorverkocht aan derden. Voor geld wat niet bij de contentmakers (klinkt wat groot, maar zo is het wel) terechtkomt. Stel je voor dat je hosting provider ineens de content van je website gaat doorverkopen voor geld. Of dat je profielfoto op een willekeurig social media platform ineens gebruikt wordt voor AI waar geld mee wordt verdiend. Da's toch best gek?
Hoewel de introductie van de OverflowAPI door SO een interessante stap lijkt te zijn, roept het besluit om content te verhandelen toch enkele ethische vragen op. Het is mooi dat ze verplichte bronvermeldingen eisen, maar het commercieel exploiteren van gebruikerscontent is een gevoelig punt...
Het probleem is dat bijvoorbeeld een openAI vast al getrained is op content van SO, SO kan niet bestaan als er geen verkeer meer komt omdat iedereen de content van SO van chatGPT voorgeschoteld krijgt, dus op zich een logische stap, en wellicht een voorbode op wat veel grote bronnen van data gaan doen.
Iedereen die op SO post hoort te weten (en als je het niet weet moet je bij jezelf te rade gaan) dat je je content licenseert onder CC BY-SA. Dat betekent dat wat je post voor alle doeleinden gebruikt mag worden, ook commercieel, mits er maar een bronvermelding bij staat. Nu is dit natuurlijk in eerste instantie nooit bedoeld geweest voor AI, maar meer om de puur praktische reden dat code en kennis op SO natuurlijk sowieso wijdverspreid wordt onder gebruikers die er van alles mee doen -- en ook daar met commercieel doel (en, durf ik wel te stellen -- zonder die eigenlijk verplichte bronvermelding...) SO is hier juist ruimer in dan bij veel andere sites waar het gewoon "alles wat je bij ons post wordt eigenlijk van ons" is.

Nou kan het natuurlijk goed zijn dat je nooit gedacht had dat je posts voor AI training gebruikt gingen worden en dat je dat liever niet gezien had, en die discussie is vast nog niet beslecht. Maar in principe ben je van meet af aan akkoord gegaan met om het even welk gebruik van je posts.

[Reactie gewijzigd door MneoreJ op 23 juli 2024 15:12]

Anoniem: 80910 @MneoreJ1 maart 2024 19:22
Citatie van code, wat de meeste programmeurs doen mag gewoon. Oftewel als je de signatuur van een methode opzoekt, een algorithme, moet er dan bij die bron niet tientallen mensen staan? Ook de post zelf moet dan bron vermelding hebben, welk boek bijvoorbeeld. Waar laat je die vermelding etc. Het is niet ontstaan op SO...
Het hangt natuurlijk af van wat je post precies is. Als het antwoord is "deze method moet je gebruiken" met een link naar API docs, valt er verder weinig te bronvermelden. Als er echter een complete code snippet staat die de oorspronkelijke vraag beantwoordt (die van de pen van de auteur is uiteraard, niet gekopieerd uit een boek) dan moet je volgens de licentieregels inderdaad gewoon netjes een bronvermelding opnemen in het werk dat je daarmee maakt. Dat de auteur gebruik gemaakt heeft van kennis die elders te vinden was is onvermijdelijk en niet relevant; het gaat erom of je dingen integraal aan het overnemen bent. Gewoon copyright dus.

En ja, in een SO post moet inderdaad ook gewoon bronvermelding staan als je het niet zelf verzonnen hebt. "Waar laat je die vermelding" is geen argument tegen het een of het ander, daar zijn mensen normaal vrij flexibel in. Check bijvoorbeeld maar eens de "LICENSE" of "CREDITS" files die je ook wel eens bij commerciële software ziet, daar wordt vaak netjes vermeld welke code van wie gebruikt is. Dit hoeft noch heel uitgebreid te zijn, noch prominent in beeld, maar het moet wel makkelijk te vinden zijn voor wie ernaar zoekt. Op SO is het dan ook uit den boze om dingen te copy-pasten van andere bronnen (inclusief andere SO-antwoorden, overigens) zonder bronvermelding.

[Reactie gewijzigd door MneoreJ op 23 juli 2024 15:12]

Ik: Bevraag de SO getrainde AI
AI: Duplicate, closed :+

[Reactie gewijzigd door oef! op 23 juli 2024 15:12]

Nou -- de (ingebakken) zoekfunctie van SO is abominabel, en de hoepeltjes waardoor je moet springen om een vraag als duplicate gesloten te krijgen (met link naar de juiste duplicate) zijn tijdrovend en ondankbaar. In die zin zou het helemaal geen verkeerd idee zijn als SO zelf een AI zou integreren in de site zelf die zulke vragen actief filtert, en pas als je aan het eind aangeeft "nee ik ben niet geholpen" je de vraag laat posten. De "question wizard" die er nu is probeert een vraag al in goede banen te leiden, maar kan nog niet daadwerkelijk antwoorden.

Natuurlijk gebeurt dit stiekem de facto al met iedereen die eerst naar ChatGPT toestapt, maar als het in de flow zelf gestopt kan worden... ik zie zowel vragenstellers als beantwoorders er alleen maar beter van worden.

[Reactie gewijzigd door MneoreJ op 23 juli 2024 15:12]

Of je scrapet gewoon de site zonder meer...
Persoonlijk vind ik dit een betere manier om geld te verdienen, dan van het handelen in je persoonsgegevens. Bij StackOverflow hebben ze het geluk dat ze al deze data kunnen verhandelen zonder je eigen privacy in het geding te brengen.

Voor dit soort sites (Stack Overflow, maar misschien ook Reddit) lijkt me dat een viable alternatief op ads/het verhandelen van persoonsgegevens.
Ik vraag me af of Google hierbij dan ook erkent dat websites niet zomaar gescraped mogen worden om een AI te trainen? Het zou zo opgevat kunnen worden, en dat kan een rol spelen in de rechtszaken die overal gestart worden.

Op dit item kan niet meer gereageerd worden.