OpenAI schakelt ChatGPT's Browse with Bing kort na bètarelease weer uit

OpenAI stopt tijdelijk met het aanbieden van de Browse with Bing-bètafunctie voor betalende ChatGPT-gebruikers. ChatGPT zou 'soms content tonen op ongewenste manieren'. De functie werd op 22 juni uitgebracht en het is niet duidelijk wanneer de functie weer online komt.

Volgens OpenAI is het uitschakelen van de internetbrowsefunctie van ChatGPT gedaan uit 'overvloedige voorzichtigheid' om eigenaren van content te beschermen. In sommige gevallen zou ChatGPT namelijk op een verkeerde manier informatie weergeven, bijvoorbeeld door 'bij verzoek van het weergeven van de volledige tekst van een URL dat ook onbedoeld te doen'. Dit suggereert dat het techbedrijf de functie offline haalt vanwege auteursrechtoverwegingen. OpenAI geeft geen andere voorbeelden.

De functie was nog geen twee weken in bèta. OpenAI zegt Browse with Bing weer zo snel mogelijk beschikbaar te maken, maar deelt geen indicatie van wanneer dit zou moeten gebeuren.

Met de Browse with Bing-functie kunnen afnemers van een abonnement op ChatGPT Plus via de iOS-app het generatieve taalmodel toegang geven tot de Bing-zoekmachine. In tegenstelling tot de standaard versie van ChatGPT kan het taalmodel via Browse with Bing informatie gebruiken die meer up-to-date is. ChatGPT is namelijk getraind op oudere data en heeft beperkte kennis over gebeurtenissen na 2021.

Update, 12.55 uur: In het artikel werd gesuggereerd dat er ook een ChatGPT-Android-app beschikbaar is. Dit klopte niet.

Door Yannick Spinner

Redacteur

04-07-2023 • 10:47

50

Lees meer

Reacties (50)

50
49
25
2
0
20
Wijzig sortering
Handig om te weten, je kan tegen chatGPT zeggen dat je website niet gecrawld mag worden.

Dit kan je in de robots.txt zetten:
User-agent: ChatGPT-User
Disallow: /

[Reactie gewijzigd door marcovit op 26 juli 2024 21:21]

Eigenlijk zou ChatGTP de creative commons moeten respecteren ( zou moeten lukken als taalmodel), ipv een wat (voor vele mensen) minder toegankelijkere user-agent string.
En toch, websites missen vaak een goede aanduiding van het auteursrecht en het gebruik ervan.

Kan jij het zo snel zien bij dit artikel? En bij de comments (hint, volgens de gebruikersvoorwaarden houden leden van Tweakers het auteursrecht, maar door die content te plaatsen heeft Tweakers wel een ongespecificeerde licentie op het gebruik)? Ik vermoed dat Tweakers wel een goede robots.txt heeft.
En toch, websites missen vaak een goede aanduiding van het auteursrecht en het gebruik ervan.
Dat is niet zo moeilijk. Copyright schrijft voor (in mijn woorden): Verboden te kopiëren, tenzij anders vermeld.
Een website zonder nadere informatie is dus verboden terrein voor ChatGTP.
Maar chatGPT hoeft het dus niet te kopiëren, die kan het in eigen woorden opschrijven. Dat is toch niet anders dan iemand in je eigen woorden gaan vertellen wat er in een artikel stond dat je net hebt gelezen? Ik mag gewoon gaan praten/chatten/mailen over wat ik op Tweakers lees hoor, ik heb geen geheimhoudingsverklaring getekend.
Dit is simpelweg onjuist. Door een website zonder meer beschikbaar te maken, sta je het normale gebruik toe. Dat wil zeggen dat iedereen de pagina's mag lezen, maar niet kopiëren. Lezers mogen ook informatie uit die pagina's onthouden.

ChatGPT mag dus ook die pagina's lezen in training, en gewichten in het neurale netwerk aanpassen.
Verwijderd @T-men4 juli 2023 15:23
Als het bereikbaar(openbaar domein ) is om te crawlen, mag je crawlen.
Valt in ieder geval de VS en Japan niet onder een fair use policy? Weet niet wat er in de aanstaande europese AI act precies komt te staan
Wat een vervelende profielfoto haha. Dacht dat er een beestje onder m'n scherm zat.
Kan jij het zo snel zien bij dit artikel?
Als ik het wil gebruiken kan ik het inderdaad snel zien: Het staat er niet dus ik mag het niet.
Een goede robots.txt is geen robots.txt
Zonder aanduiding betekent dus dat de volledige copyright-wetgeving geldt: er mag dus niet zomaar gecrawled worden.
Handig om te weten, je kan tegen chatGPT zeggen dat je website niet gecrawld mag worden.
Goed dat je het meldt, maar ergens is het natuurlijk gek dat je dit moet doen per dienst. Vandaag is het ChatGPT, morgen is het AI XYZ.

Je kan ook iets als dit gebruiken, met whitelisting voor Google:
User-agent: googlebot
Allow: /

User-agent: *
Disallow: /
Is wat onderhoud, want Google is natuurlijk niet de enige (zoek)dienst die je mogelijk wel wilt laten crawlen.

[Reactie gewijzigd door The Zep Man op 26 juli 2024 21:21]

Is wat onderhoud, want Google is natuurlijk niet de enige zoekdienst.
Als iedereen jouw advies op volgt binnenkort wel :)
Als iedereen jouw advies op volgt binnenkort wel :)
"Iets als". Verder is het geen advies. Ik geef alleen aan in welke richting men een deeloplossing kan vinden. Het is geen volledige oplossing, want een crawler kan natuurlijk vrolijk robots.txt negeren of zodanig interpreteren dat het in diens voordeel is.

[Reactie gewijzigd door The Zep Man op 26 juli 2024 21:21]

Het is meer dat dit soort regels monopolisten in de hand spelen.
User-agent: googlebot
Allow: /

User-agent: *
Disallow: /
Google is een no brainer. Maar Bing? Yahoo? In Europa zijn dat geen spelers van betekenis. Dus zal je wereldwijd zien dat iedereen Google toevoegt, maar DuckDuckGo en Yandex maar sporadisch werken. Dus uiteindelijk blijft er rmaar 1 speler over. Dat geeft niet, want tegen die tijd is Chrome (en skins over Chromium) is dan ook de enige browser die nog bestaat, dus tegen die tijd hebben we het internet al informeel overgedragen aan Larry Page.[/darkmode]
Het is meer dat dit soort regels monopolisten in de hand spelen.
Opnieuw, "iets als" plus:
Is wat onderhoud, want Google is natuurlijk niet de enige (zoek)dienst die je mogelijk wel wilt laten crawlen.
Dat iemand anders dit interpreteert als de enige twee regels die nodig zijn kan ik niets aan doen. T.net is aardig mainstream, maar er wordt verwacht dat de bezoeker nog steeds zelf kan nadenken en niet alles klakkeloos overneemt.

Verder voorkomt robots.txt niet dat een site uitgelezen wordt. Het is geen afgedwongen standaard. Crawlers kunnen het negeren.

[Reactie gewijzigd door The Zep Man op 26 juli 2024 21:21]

Opnieuw, "iets als"
Zo werkt het natuurlijk niet. Je moet in jouw voorbeeld letterlijk elke denkbare zoekmachine opnemen om een eerlijke markt te creëren, inclusief opkomende/nieuwe. Dat is niet
wat onderhoud
zoals jij suggereert, dat is schier onmogelijk.
Dus in alle praktische implementaties draag je hiermee actief bij aan een sterker monopolie voor de grootste/bekendste zoekmachine, als Google.
Dus in alle praktische implementaties draag je hiermee actief bij aan een sterker monopolie voor de grootste/bekendste zoekmachine, als Google.
Dan verbied je Googlebot en draag je daar ook niet meer aan bij.

Keuzes, keuzes...
Maar wordt content benaderen via Bing ook gezien als crawlen? Het betekend niet dat de inhoud gelijk geïndexeerd wordt bij een zoekopdracht natuurlijk.
Het wordt tijd dat hier een meta-niveau bij komt (dus niet alleen user-agent, maar ook 'type' ofzo, die dan 'search-engine' is voor zoekmachines).

Uiteindelijk boeit het weinig want naast ChatGPT zijn er genoeg andere partijen mee bezig die zich niks aantrekken van je robots.txt, maar het zou het wel makkelijker maken om de partijen die dat wel doet tegen te houden
Het is echter belangrijk op te merken dat de instructie in de robots.txt zoals je hierboven hebt vermeld, niet noodzakelijkerwijs van toepassing is op alle webcrawlers. Daarom is het raadzaam om de juiste User-agent-identificatie te gebruiken als je specifiek wilt zijn over welke bots je wilt beperken.
Top dat dit kan. Maar ik hoop wel dat iedere site die inschakeld zal afsterven.
Het was toch al een half werkende functie. Het duurt minuten voor je een antwoord hebt. Ook controleert hij zelf de antwoorden niet. Dus krijg je een samenvatting van een aantal websites dat niet overeen komen met je vraag.

Ik vind de plugins een stuk waardevoller en nuttiger dan de browser.
Kun je eens een paar zinvolle plugins noemen? Ik heb ook Plus, ben wel benieuwd waar je op doelt.
Webpilot (browsen op google ipv bing :-))
Er is een plugin die Youtube filmpjes (de transcripts dan) kan lezen. Zo heb je binnen een minuut een heel goede samenvatting van een lange speech van 30 minuten.
Ik ben oo kbetalende gebruiker, en heb wat door die plugins gescrolled, maar werd er niet warm van. Ik heb wel het idee dat het heel veel potentie heeft, maar vond die potentie nog niet. Mag ik vragen welke plugins je gebruikt?
tja, dit is hetzelfde probleem als waar Google tegen aanloopt: Linken naar bronnen mag, hele lappen tekst ervan op je search pagina weergeven niet.
Dit gaat als gevolg hebben dat ChatGPT met bing niks meer of minder wordt dan wat Google aanbiedt.
Dat zou ik zo snel niet zeggen. Tweakers mag ook geen hele lappen text kopiëren van andere nieuwssites (tenzij ze daarvoor betalen, nieuwsdiensten als Reuters en ANP staan dit wel toe tegen betaling geloof ik), ze mogen het nieuws wel in hun eigen woorden opschrijven in een nieuw artikel. Als chatGPT de gevonden informatie zelf herschrijft, en maximaal een paar citaten meeneemt, dan is dat wat anders dan een Google die een heel artikel, of zelfs een paragraaf, op de search pagina zou kopiëren.

Je kan wel copyright hebben op geschreven tekst of afbeeldingen en dergelijke, maar je krijgt het niet op informatie en concepten (zelfs patenten moet je openbaar delen).
Er bestaat een aparte regeling voor nieuws en citaten:
https://www.iusmentis.com/auteursrecht/citeren/
https://www.iusmentis.com.../persexceptie-auteurswet/
Maar daarvoor is bronvermelding noodzakelijk en dat is nou juist problematisch bij trainen van een taalmodel.

(Zeg ik het zo goed @Arnoud Engelfriet )
Maar deze dienst gaat dus niet over het trainen van een taalmodel. ChatGPT haalt met deze plug-in realtime informatie op uit websites, die het vind via Bing, en verwerkt dat realtime in een antwoordt op het chatGPT platform. ChatGPT kan conversaties wel meenemen in toekomstige training (enkel als je hun eigen web platform gebruikt en niet als je de API gebruikt, en enkel als je het niet laat vernietigen), maar dat is enkel nadat het gesprek door mensen is beoordeelt als geschikt voor training, en daar kan ook prima een check betreffende copyright issues bij gedaan worden (of überhaupt alle conversaties die deze Bing plugin gebruiken gewoon niet meenemen natuurlijk).
Specifiek hier lijkt het me citeren en niet trainen van een taalmodel. Trainen is apart geregeld, artikel 15o Auteurswet staat gebruik toe zonder toestemming ten behoeve van datamining, en daarmee bedoelen juristen ook machine learning.
Hoe sneller men zich nu realiseert dat "auteursrecht" iets uit het verleden is, hoe beter. Het was altijd al een pleister, maar nu is er echt geen houden meer aan. Het heeft gewoon geen zin om ergens content neer te zetten en dan te verwachten dat niemand het ooit gaat gebruiken. Auteursrecht maakt meer kapot dan je lief is. Hopelijk trekt niemand zich hier wat van aan, en word gewoon alles compleet leeg gescraped. De enige weg nu is vooruit.
Hoe sneller men zich nu realiseert dat "auteursrecht" iets uit het verleden is, hoe beter.
En hoe moeten artiesten dan geld verdienen aan hun werk?
Hopelijk trekt niemand zich hier wat van aan, en word gewoon alles compleet leeg gescraped.
Ok, waar is jouw werk waar jij honderden uren in hebt gestopt en mag ik het even scrapen?
De enige weg nu is vooruit.
Geld verdienen met het werk van anderen en die anderen vooral niet compenseren. Is dat de weg vooruit? Klinkt voor mij namelijk als een doodlopende weg die getuigt van een gebrek aan ethisch besef.
Ironisch genoeg vallen AI's zélf niet onder copyright. Neurale netwerken worden getraind, en dat is simpelweg geen beschermd proces. Dus "werk waar honderden uren in gestopt is" hoeft niet beschermd te zijn. Een ander voorbeeld is parfums, die zijn ook niet beschermd. Dus dit argument was al niet zo sterk voordat er AI's waren.
Om het auteursrecht nu volledig aan de kant te gaan schuiven gaat mijzelf dan ook wat te ver maar ten dele zit er wel iets in wat @Ryangr0 schrijft. Of het in deze tijd nog reëel is te verwachten dat content onschenbaar is door het auteursrecht is denk ik nog verre van haalbaar. Vaak zie je dat dan nog het meest verdient word door dan uiteindelijke gerechtszaken die aangespannen worden. Of een contentcreator daar nu werkelijk gelukkiger van word kan je je af gaan vragen.
Afschaffen van auteursrecht is ironisch genoeg wel een oplossing voor het probleem.
Wanneer het voor contentcreators niet meer mogelijk wordt om geld te verdienen met hun content, zullen de meesten stoppen met het maken van content. Wanneer er geen content meer gemaakt wordt, hoef je je ook geen zorgen meer te maken dat anderen daar me aan de haal gaan.
Ik hoop dat het snel weer terug komt. De tool werkt briljant.

Ik heb het gisteren nog gebruikt om C# models te genereren voor vanuit de API documentatie van een systeem waar ik mee ging koppelen. Hierbij wist ChatGPT mij ook een snel code voorbeeld te geven die gebruikt maakt van hele handige features in standaard C# waar ikzelf niet van op de hoogte was.

Daarnaast kan het ook hele documentatie pagina's interpreteren en voor mij het nuttige deel samenvat.
Hoe verschilt deze functie van https://chat.bing.com/ ? Deze is gewoon gratis beschikbaar
Ik heb beiden gebruikt en het lijkt inderdaad nauwelijks te verschillen. De Bing versie grijpt veel sneller naar search dan chatGPT Plus met Bing, die doet dat maar soms.
Tja, ik vraag er niet naar dat opeens alles via AI moet gaan en erger mij er alleen maar aan. Bijvoorbeeld dat je telkens allerlei voorspellende tekst krijgt waar ik niet naar gevraagd heb. En meer en meer valt het mij ook op dat je ook via b.v. Google dan al een of ander antwoord krijgt. Ga je dan verder door zoeken dan klopt 9 van de 10 keer het antwoord totaal niet.

Voorbeeld, laatst wilde ik weten of b.v. azijn helpt tegen onkruid in de tuin en ik mooi als antwoord in Google zag staan dat dit dus effectief helpt tegen onkruid. Echter ga je dan toch verstandigerwijze even verder zoeken dan lees je dat azijn schadelijk is voor de bodem. Officieel mag azijn zelfs geeneens gebruikt worden dus tja, zo word je al snel op een verkeerd spoor gezet.
Wat is het exacte probleem hier?
Je hebt een kloppend antwoord gekregen op je vraag. Ja, azijn helpt tegen onkruid. Of je het ook mag gebruiken als onkruidverdelger was geen onderdeel van je vraag. Al is dat laatste natuurlijk ook handig om te weten.

Een standaardzoekmachine zal bij jouw vraag alleen alleen de standaard 'grootmoeder-weet-raad' sites vinden waar azijn als probaat middel tegen onkruid wordt aangeprezen. Juist een AI zou door het koppelen van allerhande informatie het verband kunnen vinden tussen azijn gebruiken tegen onkruid, azijn als schadelijk voor de bodem en het verbod om azijn in de openbare ruimte te gebruiken voor iets anders dan in voedsel.
Je hebt een kloppend antwoord gekregen op je vraag. Ja, azijn helpt tegen onkruid. Of je het ook mag gebruiken als onkruidverdelger was geen onderdeel van je vraag.
Nou nee, je zou in 1ste instantie denken dat azijn gebruikt mag worden omdat het een natuurproduct is en ik daarvoor ook die vraag stelde. Kijk als je dit dan als correct antwoord beschouwd dan zou hetzelfde gelden wanneer je vraagt of benzine tegen onkruid helpt. Ja benzine helpt ook tegen onkruid maar daarvan weet je al van te voren dat dit schadelijk is voor de bodem.
Het gaat niet om het weergeven in die context, het gaat om herdistributie. Stel je zou vragen aan GPT om tezamen een film te kijken, ik zeg even wat, dan moet je (via GPT) wel die toestemming/rechten hebben.
Volgens mij valt dat onder de thuiskopie, als bijv. je browser lokaal een cache aanmaakt. Idem met als je als gebruiker een webpagina opslaat (hetzij in de originele html, hetzij als pdf), dat mag voor eigen gebruik maar dat mag je niet zomaar met iedereen delen.

Op dit item kan niet meer gereageerd worden.