Machinelearningmodellen Alibaba en Microsoft scoren hoger dan mens in leestest

Machinelearningmodellen van Alibaba en Microsoft behaalden een hogere score dan mensen in een test voor begrijpend lezen. Het is voor het eerst dat de menselijke score in deze test wordt overtroffen door een model.

Alibaba's onderzoeksonderdeel voor Data Science and Technologies meldt dat het een score van 82,44 heeft behaald als het gaat om het geven van exacte antwoorden op vragen. De menselijke score ligt bij 82,304, zo is op te maken uit de ranglijst. Die wordt momenteel aangevoerd door het Chinese bedrijf, maar Microsoft staat op de tweede plek, met een score van 82,65, die eveneens hoger is dan de menselijke. De sortering van de lijst is op f1-score, terwijl de hier genoemde scores em-scores zijn.

Bloomberg schrijft dat de resultaten van Alibaba eerder binnen waren. Bij de test gaat het om een dataset met meer dan vijfhonderd Wikipedia-artikelen en ongeveer honderdduizend bijbehorende vragen. Zo moeten bijvoorbeeld na het lezen van een artikel over het Amazoneregenwoud vragen worden beantwoord als 'hoeveel naties hebben controle over het gebied' en 'hoeveel vierkante kilometers beslaat het regenwoud'. De dataset draagt de naam SQuAD, oftewel de Stanford Question Answering Dataset. Het model van Alibaba draagt de naam SLQA+, terwijl het Microsoft-model een variant lijkt te zijn van zijn R-net-model voor begrijpend lezen en het beantwoorden van vragen.

Alibaba schrijft dat het gebruik heeft gemaakt van een hierarchical attention network, dat het ook gebruikt bij het beantwoorden van klantvragen. Volgens Bloomberg zijn ook andere Chinese bedrijven, zoals Tencent en Baidu, bezig met onderzoek naar kunstmatige intelligentie, bijvoorbeeld voor gerichte advertenties of zelfrijdende auto's. Andere bedrijven op de SQuAD-ranglijst zijn onder meer Tencent, Facebook en Samsung.

Door Sander van Voorst

Nieuwsredacteur

15-01-2018 • 11:52

119

Submitter: Anonymoussaurus

Reacties (119)

119
113
52
9
0
49
Wijzig sortering
Slechts een paar dagen geleden las ik dit artikel over een interview dat Sundar Pichai gegeven heeft, waarin hij het volgende stelt: "De intelligentste systemen kunnen nog niet lezen als een basisschoolleerling van zeven tot negen jaar oud. Als we dat niveau in het komende decennium bereiken, is dat een grote doorbraak." (zie nieuws: Directeur Google: maak wereldwijde afspraken over kunstmatige intelli...).

Tonen deze tests nu zijn ongelijk aan? Of gaat dit om een heel ander niveau van begrijpend lezen als waar Pichai in het artikel over sprak?
Het lastige deel op dit moment is vooral de kennis die je nodig hebt random feit extractie. Net bijv. een groep 8 begrijpend lezen toest van cito online gevonden. Betreffende de zin
Plankton heet ook wel 'het gras van de zee' en bestaat uit hele kleine in het water zwevende diertjes.
Met de bijbehorende vraag
Plankton bestaat uit allemaal hele kleine beestjes.
Met anderen woorden, je moet doorhebben dat diertjes en beestjes hetzelfde is.

En iedere vraag daarna verwacht meer en meer begrip (In welke paragraaf past dit en dit statement, naar wat verwijst "dat" in deze en deze zin, welke titel past het best bij deze alinea, etc.). Natuurlijk, tot in welke mate dat allemaal wel of niet begrijpend lezen is durf ik niet te stellen, maar van wat ik tot nu toe heb gezien zijn AI systemen nog redelijk beperkt. De vraag is of de groei langzaam en gestaag zal zijn of plots explosief (zichzelf verbeterend).
Ik heb toch maar even opgezocht hoe deze "test" nou precies in elkaar zit, en of deze te vergelijken is met de cito toets waar jij het over hebt.

Een vraag uit de SQuAD toets:

[.....The European Parliament and the
Council of the European Union have
powers of amendment and veto
during the legislative process...]

Vraag:
Which governing bodies have veto
power?

Het idee is dus dat de AI kan herkennen dat het Europees parlement een regeringsinstelling is. Dit is dus eigenlijk vergelijkbaar met de vragen in de cito toets.

Verder moeten we niet vergeten dat AI de mens in deze SQuAD toets heeft verslagen, en ik neem aan dat ze met "de mens" geen 12 jarige bedoelen maar gewoon volwassene.


Bron:
https://rajpurkar.github.io/mlx/qa-and-squad/
Ja nee, punt was ook niet dat m'n voorbeeld vraag niet door een AI zou kunnen worden begrepen, m'n punt was dat dat de meest simpele vraag was en dat iedere vraag daarna meer en meer complex werd.
De verwarring zit voor een groot deel in wat in de ICT onder intelligentie wordt verstaan. Berekeningen maken en met symbolen manipuleren is voor menselijke intelligentie de eerste van vele stappen wat ons intelligent maakt, in de ICT is het vrijwel altijd het eindpunt. ICT-intelligentie kan met dat berekenen en manipuleren geweldig goed informatie boven water halen maar 'begrijpt' daarvan verder doorgaans niets.

Simpel voorbeeld: stel dat in het stuk over de Amazone staat dat het beschermen moeilijk is omdat er 5 naties bij betrokken zijn. Het machinelearning model laadt het stuk in z'n database en maakt er een soort sudoku van. Via allerlei slimme algoritmes wordt uitgezocht wat werkwoorden zijn, zelfstandige naamwoorden, grammatica regels worden toegepast en dat wordt aan elkaar geknoopt tot de sudoko opgelost is en alle informatie uit het stuk is gehaald. Stel je dan de vraag: waarom is de Amazone moeilijk te beschermen dan volgt het correcte antwoord: omdat er 5 naties bij betrokken zijn.

Qua begrijpend lezen een 10, ongetwijfeld verslaat hij daarmee alle 9 jarigen... Maar al die 9 jarigen begrijpen wel waarom het lastig beschermen is met 5 partijen, dat het met 2 waarschijnlijk makkelijker gaat en met 15 nog moeilijker. Kortom, mensen begrijpen waarom het antwoord 'vanwege 5 naties' het moeilijk maakt, voor computers is 'vanwege 5 naties' simpelweg het op zich nietszeggende antwoord.

Ik weet ook niet wat Pichai bedoeld met lezen als een basisschoolleerling. Gaat het om het lezen en informatie halen uit een informatief stuk waarbij kinderen nog over weinig extra bagage beschikken dan kan ik mij voorstellen dat de begrijpend lezen progamma's aardig in de buurt komen. Maar als het gaat over een stuk waarin ook bijvoorbeeld vriendschap, loyaliteit, familiebanden, emoties of kiezen tussen eigenbelang en groepsbelang een rol spelen -de zaken waarmee we in het gewone leven doorgaans te maken hebben- dan denk ik dat de 7 tot 9 jarigen de komende eeuw de computer nog wel de baas blijven in echt begrijpend lezen.
Anoniem: 890159 @Ashen15 januari 2018 12:34
Zo te zien gaat het hier om feitjes extraheren uit een zakelijke tekst. Tekstverklaren zoals je dat op school krijgt, zoals "vergelijk de opvattingen van persoon X aan het eind van het boek met die hij in het begin uitte" kan zo'n systeem helemaal niet.
En een zeven tot negenjarige ook amper. Sundar Pichai heeft bijzonder veel commentaar gekregen op zijn uitlatingen. Deze systemen zitten kwa begrijpend lezen ver boven de basisschoolleerlingen.

Overigens kunnen dit soort system al een paar jaar 'meningen en opvattingen' in een artikel vergelijken. Natuurlijk moet de context duidelijk zijn maar dat geld net zo goed voor mensen. Ai is veel en veel verder dan veel tweakers denken. Je hebt er dagelijks mee te maken zonder het te beseffen.
Ik denk dat ai nog nergens is. Praktisch gebruik bevestigd dat. Context en synoniemen opzoeken. Thats it. Er wordt al tientallen jaren gespeculeerd op the robots are comminggg. AI is sinds de jaren 50 gehyped en dat komt elke x jaar terug. In de praktijk merk ik niets van intelligentie. Wel van indrukwekkende dataopslag en indexering. Iets waar een mens dan weer niet goed in is (wel op een fussy manier goed in is).
Anoniem: 890159 @Rinzwind15 januari 2018 15:56
Fuzzy logic is ook niks nieuws, dat was al een hype toen ik nog studeerde begin jaren 90.
Wellicht is de AI waar je mee in aanraking komt zodanig straf dat je het niet eens merkt. Ik kan alvast wel enkele toepassingen noemen waar we in de jaren 50 (of 80...) enkel nog van konden dromen:
- google/bing zoekresultaten
- Netflix/youtube "suggested" video's
- virtual assistants
- zelfrijdende auto's
- GO en schaak leren
-....
En de robotica is sinds die tijd nog sterker geïntegreerd:
- productierobots
- zelfwerkende stofzuigers/grasmachines
- verkoops- en distributieautomaten
- drones
-...
Hier een praktisch voorbeeld.
Wij hebben al jaren een thermostaat waarbij hij zelf kijkt hoe lang hij van tevoren aan moet gaan om op tijd x temparateur y te hebben.
Als hij dat niet haalt dan begint hij de volgende dag eerder met warmstoken. En als hij te vroeg op temparateur is dan begint hij later met verwarmen.

Kwam er pas laat achter dat het eigenlijk ook een AI is O-)
een simpele eenvoudige AI maar zeer handig ;)
Hangt natuurlijk een beetje af van wat je definitie is van AI. Het voorbeeld dat jij geeft is gewoon een vorm van informatica te combineren met statistiek (regressie bv.) om zo slimme voorspellingen te kunnen doen. Dat kon men vroeger ook al, alleen werd het toen nog niet AI genoemd. 😉
Het blijft een ai met vooraf ingegeven data en instructies...

In die context is jouw ai waar we dagelijks mee te maken hebben amper meer dan een veredelde rekenmachine...
Een echte ai zie ik zo snel nog niet zijn kracht bewijzen puur omdat als je alle ingrediënten blijft aanbieden ik het geen orginele creatie vind.

Dit is het extrapoleren van data uit een gegeven set informatie... wat heeft een ai hier mee te maken ?
Als ik een zoek machine deze info geef dan krijg ik dezelfde antwoorden en ik geloof niet dat daar nog echt ai op draait qua resultaten
Zo te zien gaat het hier om feitjes extraheren uit een zakelijke tekst. Tekstverklaren zoals je dat op school krijgt, zoals "vergelijk de opvattingen van persoon X aan het eind van het boek met die hij in het begin uitte" kan zo'n systeem helemaal niet.
Maar is dat iets wat aan basisschoolleerlingen van zeven tot negen jaar oud gevraagd wordt? Volgens mij worden die ook puur om feiten gevraagd die uit de tekst te halen zijn.
Zoals ik het begrijp worden hier de beste scores van twee afzonderlijke machines vergeleken met de gemiddelde scores van een groep mensen... En dat zegt wat...?
Begrijpend lezen is zelfs aan veel bezoekers van deze site niet besteed.

Verschil tussen computer is dat computer wel alles MOET lezen en in context moet kunnen plaatsen om de meest basale vraag te kunnen beantwoorden.

Terwijl als je hier regelmatig de reacties leest veel kant noch wal raken doordat mensen of over dingen heen lezen of het geheel niet begrijpen en op basis van wat ze begrepen hebben aannames doen en reageren.

Op het gebied van AI/ machine learning zie ik een trend die ik vorige eeuw mbt biometrie ook zag en daarvoor op andere gebieden binnen de IT. Degene die er meest verstand van hebben en verst zijn publiceren tussentijds niets.

Degenen die achterlopen zijn en clueless publiceren het meest.

Ga er maar vanuit dat we nooit zullen weten hoever de beste AI/ machine learning is gevorderd. Overheden zullen er geen belang bij hebben.
My take: mensen kunnen niet lezen.

Er zijn nog maar weinig mensen die lange teksten tot zich nemen. Als je iets niet vaak doet verlies je het.
Ok Tweakers, het is wel het 1 of het ander. Je kan niet beide dingen door elkaar halen.

Inderdaad, bij Exact Match hebben Alibaba en Microsoft een menselijke score voorbijgestoken, maar als jullie dat als artikel willen gebruiken, dan was Microsoft eerst en Alibaba 2de. Waarom? Het artikel geeft de scores al: Microsoft deed het beter.

Maar jullie zeggen dat de mens is verslagen door Alibaba en Microsoft maar geven aan dat Alibaba eerst staat. Om die sortering te krijgen is er dus vanuit gegaan dat van de F1 scores. Bij de F1 score staat Alibaba inderdaad voor Microsoft, maar de mens scoort hier nog eens 2,5 punt meer (91,221 tegenover 88,607 van Alibaba).

Dus het artikel gebruikt 2 maateenheden door elkaar zonder enige reden (behalve dan dat er met consistentie geen artikel zou zijn).
Grappig dat er op een artikel over begrijpend lezen zoveel commentaar is over de cijfers in het artikel, die door juist te lezen prima te begrijpen zouden moeten zijn toch? Er staat letterlijk:
Alibaba's onderzoeksonderdeel voor Data Science and Technologies meldt dat het een score van 82,44 heeft behaald als het gaat om het geven van exacte antwoorden op vragen. De menselijke score ligt bij 82,304, zo is op te maken uit de ranglijst. Die wordt momenteel aangevoerd door het Chinese bedrijf, maar Microsoft staat op de tweede plek, met een score van 82,65, die eveneens hoger is dan de menselijke. De sortering van de lijst is op f1-score, terwijl de hier genoemde scores em-scores zijn.
Dus: Alibaba staat eerste, Microsoft tweede gesorteerd op F1 score. Deze twee scoorden hoger dan mensen in de (gerelateerde) EM test (maar dan wel andersom in volgorde qua score). Dit is precies wat er staat... alleen super verwarrend :)

[Reactie gewijzigd door Robbaman op 25 juli 2024 07:10]

Grappig dat op een reactie over de misinterpretatie van de data door Tweakers in een artikel over begrijpend lezen het blijkbaar moeilijk is om begrijpend te lezen.

Tweakers gebruikt de EM scores in het artikel en claimen vervolgens dat Alibaba het beter deed dan Microsoft, maar dat is volgens de F1 score, niet de EM score. Die ranglijst is standaard gesorteerd op F1 en dus is de F1 score waarschijnlijk de score waar men belang aan moet hechten. Tweakers haalt de F1 lijst ook aan als de manier waarop ze ranken (eerst Alibaba, dan Microsoft) maar die ranking zelf (de standaard ranking van SQuAD) gaat tegen de hele inhoud van het artikel in. Tweakers zegt dat "die" ranglijst wordt aangevoerd door Alibaba in de context van de EM scores, maar dat is - opnieuw - niet juist, alleen voor de F1 score (maar daar staat de mens weer voorop en gaat dus in tegen onderwerp het artikel).

Dus: Tweakers claimt dat Alibaba en Microsoft de mens verslaat, maar dat is enkel waar in de EM score, maar dan staat Microsoft voor Alibaba. Tweakers claimt dat Alibaba voor Microsoft staat maar dat is enkel waar voor de F1 score, waarbij de mens beide met ruime voorsprong verslaat. Niks verwarrend, Tweakers' artikel haalt verschillende gegevens door elkaar.

[Reactie gewijzigd door Loller1 op 25 juli 2024 07:10]

Anoniem: 896479 @Robbaman15 januari 2018 16:28
Maak dan gewoon een tabel waar zowel de EM test als F1 scrore in wordt vermeld..

Hoe vaak ik de laatste tijd commentaar op de schrijfwijze van de redactie voorbij kom zien, man man man.

[Reactie gewijzigd door Anoniem: 896479 op 25 juli 2024 07:10]

Wacht, maar als ze dus volgens de F1 scores zouden gaan zou er wel gewoon een artikel zijn toch?
Ja, maar in het artikel daarna beginnen ze over de andere scores te praten en dus een andere volgorde alsof dat de belangrijke volgorde is, de ranking die in de titel gebruikt wordt is hier nergens vermeld.
je snapt geloof ik niet helemaal wat fake news betekent. Wat in het artikel staat is waar. De vraag is hoe belangrijk deze EM score is tov de F1 score.
Fake news is niet gemanipuleerd nieuws, het is nieuws wat feitelijk onjuist is. bijv: het is fake news dat donald trump de best bezochte inauguratie ooit had.
Nee je zegt hetzelfde. Dus de titel van dit artikel is ook niet waar.
Het is waar dat de machine learning modellen in een test beter hebben gescoord dan de mens.
Dat is dus niet waar, beter lezen
Alibaba's onderzoeksonderdeel voor Data Science and Technologies meldt dat het een score van 82,44 heeft behaald als het gaat om het geven van exacte antwoorden op vragen. De menselijke score ligt bij 82,304, zo is op te maken uit de ranglijst. Die wordt momenteel aangevoerd door het Chinese bedrijf, maar Microsoft staat op de tweede plek, met een score van 82,65, die eveneens hoger is dan de menselijke. De sortering van de lijst is op f1-score, terwijl de hier genoemde scores em-scores zijn.

De ranglijst is gesorteerd op de ene score, het ML model scoort hoger in een andere. Ik snap niet wat je hier niet aan begrijpt.
Bij sortering op f1 score wint de mens 91.221, dus de titel is misleidend en klopt niet. Ik noem dat fake nieuws.
ja maar dan lees je dus niet goed wat er staat. vandaar dat ik al zei dat het best misleidend kan zijn, het wekt de indruk dat machine learning beter presteert in de f1 test. maar dat staat er niet.

[Reactie gewijzigd door Origin64 op 25 juli 2024 07:10]

Ik lees wat ik lees en de titel klopt gewoon niet. Feit blijft dat tweakers manipuleert met de cijfers. Moeten ze gewoon niet doen, komt amateuristisch en denigrerend tov de lezers over. Wat mij betreft hoef je dat niet goed te praten.
Gast het begint nu echt op mijn zenuwen te werken. De titel klopt. Het artikel klopt. De machine learning modellen hebben beter gescoord dan de mens in EEN leestest. Kap gewoon met zeiken.
De titel klopt niet, het artikel klopt half, dus het geheel klopt voor geen meter.
Dude waar heb je last van?
Waar heb jij last van? Kun je niet begrijpend lezen? De ML modellen hebben hoger gescoord dan de mens in een leestest.
F1 is de mens beter, dus de titel klopt niet. Of jij wil het niet snappen? Als jij die test zou afnemen, vraag ik mij af of je überhaupt op de lijst met resultaten komt.
In de EM test scoort ML beter dan de mens. Dus is de titel waar. Waarom wil je dat niet snappen.
Jij hoort daar niet bij dan, want jij leest alleen wat je wil lezen.
Dus een mens scoort 82,304
AliBaba staat eerste met 82,44
Microsoft tweede met 82,65

Als ik de punten bekijk, heeft Microsoft een hogere score dan AliBaba.
Wordt er dan een extra belonging gegeven voor het sneller inleveren van het resultaat? Zo ja, waarom zien we dat niet terug in de score?

Ook in het Bloomberg artikel is niet terug te vinden waarom AliBaba dan hoger staat dat Microsoft, behalve dan dat AliBaba roept dat Microsoft de resultaten een dag later inleverde.
Er zijn twee soorten scores: ExactMatch (EM) en F1. Microsoft scoort hoger op EM maar niet op F1.
Exact match. This metric measures the percentage
of predictions that match any one of the ground
truth answers exactly
(Macro-averaged) F1 score. This metric measures
the average overlap between the prediction and
ground truth answer. We treat the prediction and
ground truth as bags of tokens, and compute their
F1. We take the maximum F1 over all of the ground
truth answers for a given question, and then average
over all of the questions.

[Reactie gewijzigd door jeroen3 op 25 juli 2024 07:10]

Ik vraag me toch af wat dan de f1 scores zijn en waarom ze die niet laten zien.
De F1 scores staan gelinkt in het artikel:
https://rajpurkar.github.io/SQuAD-explorer/

Geen idee waarom ze in dit artikel alleen de em-scores noemen.
Dit staat letterlijk in de tekst:
De sortering van de lijst is op f1-score, terwijl de hier genoemde scores em-scores zijn.
Wel interessante ontwikkeling, maar ik vraag me af in hoeverre dit toepasbaar is bij dingen in de echte wereld?
Het is toepasbaar om domme vragen van een mens door een computer te laten beantwoorden.

Webshop, waar is mijn bestelling, wanneer wordt er geleverd, hoe groot is artikel x, hoe zwaar is het. Enz.

[Reactie gewijzigd door bbob op 25 juli 2024 07:10]

Anoniem: 388974 @bbob15 januari 2018 13:42
jammer, het wordt gebruikt door de klantenservices om klanten het bloed onder de nagels te halen, zodat ze het opgeven <kuch apple kuch>
Daar hebben mensen op callcentra al scripts voor of antwoorden uit een pc die ze oplezen. De inhoud blijft dan idd hetzelfde en de mens kun je weglaten.
Hoewel je gelijk hebt in je voorbeelden en dit soort systemen best hun nut kunnen hebben, moet je als webwinkel wel goed uitkijken naar hoe je dit soort technologie inzet. Had het zelf laatst aan de stok met een webshop customer service ai. Had een vraag over een bestelling die net iets buiten de gebaande paden kwam, waarbij ik automatisch 3 oplossingen kreeg toegemaild. Kon ik kiezen tussen mijn vraag is beantwoord en niet beantwoord.. Bij niet beantwoord werd je naar een customer portal geleid waar je dan op een knop moest drukken om het probleem "beter" te omschrijven, zodat er waarschijnlijk een medewerker naar kon kijken?!.. Uiteindelijk kon je nergens op een knop drukken _/-\o_ ...
Ik zou ver weg blijven van dit soort ongein als webwinkel, want je jaagt je klanten de deur uit.
klopt je klanten kunnen idd weglopen. Bij bedrijf laatst moest ik zelf vraag of nummer via stem ingeven.
Ik wil een medewerker spreken, dat gaat dus ook niet zo maar, heel irritant.
Heel erg, als je nu al bekijkt dat niemand een handleiding leest en dat de meeste vragen gewoon RTFM zijn. Een chatbot die voor jou de handleiding doorworstelt en je het juiste antwoord geeft ipv een zoekalgoritme dat je naar het juiste hoofdstuk doorverwijst is dus al voordeel.
Wat dacht je van het systeem voeren met e-mails en dan die mail laten beantwoorden door de bot? Daar is misschien nog wel wat doorontwikkeling voor nodig en wat koppelingen met andere systemen (bv om de vraag "wat is de omzet van vestiging X geweest in Q4 t.o.v. Q4 het jaar ervoor" te beantwoorden).
Misschien begrijp ik het verkeerd, maar snelheid lijkt me geen belangrijke factor hierin (als in absolute snelheid) omdat meer processorkracht toevoegen dan de resultaten beïnvloedt zonder daadwerkelijk betere code / modellen te hebben.
Belangrijk om te vermelden is wel dat de laatste jaren het onderzoek vooral ook gericht is op sneller dezelfde accuracy halen.


Niemand zit te wachten op een robot die niet instantly objecten herkent of een verhaal kan summarizen.
Zo'n robot is vaak ook nog eens niet groot genoeg of heeft geen accu om een pak compute of bandbreedte mee te zeulen.

Dus moet je kleiner, sneller en efficiënter. :)
Zoals in het artikel hierboven staat zijn er twee verschillende scoringsmethoden: F1 en EM.
dat zijn de em scores, en er wordt gesorteerd op f1 score
De sortering van de lijst is op f1-score, terwijl de hier genoemde scores em-scores zijn
Betekent "na het lezen" dat de mens niet terug mag zoeken, m.a.w. ook een component geheugen naast begrip?
Goed punt. Sterker nog, het zou zomaar kunnen dat de algoritmes beduidend slechter begrijpend lezen dan een mens, maar omdat ze niets vergeten toch netto meer vragen goed kunnen beantwoorden.
Ik zie alleen simpel begrijpend lezen.

"hoeveel naties hebben controle over het gebied"
"hoeveel vierkante kilometers beslaat het regenwoud"

Dit was voorbeeld vragen over regenwoud.

Het wordt natuurlijk leuker als je vragen krijgen wat is de invloed van de ontbossing op het lokale en wereld klimaat.
Anoniem: 286576 @bbob15 januari 2018 12:39
Denk je dat de gemiddelde mens zo'n vragen goed en unbiased gaat beantwoorden na het lezen van één tekst? :)

[Reactie gewijzigd door Anoniem: 286576 op 25 juli 2024 07:10]

De gemiddelde mens zal het ergens op moeten zoeken en computer kan dat sneller opzoeken.
Anoniem: 286576 @bbob15 januari 2018 12:52
Maar de test gaat over begrijpend lezen zoals in het lager en secundair onderwijs.
Niet over het lange termijn onthouden van kennis.

Ik kan je gerust tests geven die je openboek mag doen waar je je peren van gaat zien. En computer gaat dan ook niet klagen over "ja maar de context" of nutteloos speculeren over topics waar hij niets van af weet.
Anoniem: 686983 @bbob15 januari 2018 12:56
Of sarcasme, humor en partijdigheid in de tekst verwerkt is.
Anoniem: 286576 @Clavius15 januari 2018 12:34
Wel, dan kan je natuurlijk gaan argumenteren dat alles wat een mens doet de abstractie onthouden is en hiermee iets reproduceren.

Dat doet een computer in dit geval ook. Een abstractie onthouden. Sterker zelfs: hij onthoudt enkel de meest discriminerende abstractie-factoren. Dat maakt hem dus beter?
Ook een van mijn vragen.
Daar naast ben ik dan wel benieuwd naar het objectieve antwoord op de kennelijk objectieve vraag en objectief te beantwoorden vraag "what causes rain?". (en of ik weg kom met 42 natuurlijk :p)
Ik zie het woord objectief niet direct ergens terug maar in een informatieve tekst als Wikipedia (dus zonder moeilijke fratsen als sarcasme) kun je in theorie prima uitvissen wat de tekst daarover zegt.

https://en.wikipedia.org/wiki/Rain
The major cause of rain production is moisture moving along three-dimensional zones of temperature and moisture contrasts known as weather fronts. [Enz.]
Ook een primitief NLP-algoritme zou het in dit specifieke geval nog vrij goed moeten doen. Je hebt immers duidelijke markeringen als "cause of " en "is".
Uit het bloomberg artikel:
“That means objective questions such as ‘what causes rain’ can now be answered with high accuracy by machines,” Luo Si, chief scientist for natural language processing at the Alibaba institute, said in a statement.
Alleen de vraag zelf vind ik al een lastige, op welk abstractieniveau wil je het antwoord ?
In hoeverre wordt er verwacht dat je bij tussenliggende mechanismen stopt, of ook door redeneert naar achterliggende oorzaken ?
Je denkt veel te ingewikkeld. :P Dit gaat om NLP, dus om informatie uit de tekst halen, een klassiek probleem. Om het "objectief" te noemen is ofwel wat onhandig geparafraseerd door de media of door Luo Si zelf. Het gaat om het objectieve feit van wat een tekst ergens over zegt, niks over hoe zich dat tot onze werkelijkheid verhoudt. En dat dan nog eens zonder sarcasme, ironie, woordspelingen, enz. enz. Maar voor heel veel toepassingen is dat voldoende. Binnen specifieke domeinen (bv. sport of het weer) heb je een sterk gelimiteerde woordenschat die je ook met heel primitieve NLP-regels kunt analyseren. "Computer begrijpt weerbericht even goed als mensen" had je 20 jaar geleden al kunnen koppen. ;)

Overigens is dat neerslagvoorbeeld iets uit het originele artikel dat de machine comprehension test heeft geïntroduceerd, zie Frenziefrenz in 'nieuws: Machinelearningmodellen Alibaba en Microsoft scoren ...
In meteorology, precipitation is any product
of the condensation of atmospheric water vapor
that falls under gravity. The main forms of pre-
cipitation include drizzle, rain, sleet, snow, grau-
pel and hail... Precipitation forms as smaller
droplets coalesce via collision with other rain
drops or ice crystals within a cloud. Short, in-
tense periods of rain in scattered locations are
called “showers”.

What causes precipitation to fall?
gravity

What is another main form of precipitation be-
sides drizzle, rain, snow, sleet and hail?
graupel

Where do water droplets collide with ice crystals
to form precipitation
"waardoor vallen regendruppels ?" lijkt me een geheel andere vraag dan de vraag "waarom regent het ?".
Zou ongetwijfeld kunnen dat de media hier de handel verhaspelt heeft, maar misschien dat AI dan voor mij de diverse artikelen dan weer recht kan breien.
Maw. was het een "open-boek-examen" of niet... zonder open-boek is de mens natuurlijk altijd beperkt door z'n geheugen maar het zou een slechte test zijn indien dit een invloed had wat mij betreft.
Het antwoord op mijn vraag zal te vinden zijn in https://arxiv.org/abs/1606.05250 (SQuAD: 100,000+ Questions for Machine Comprehension of Text), enigszins verborgen als link op https://rajpurkar.github.io/SQuAD-explorer/ De menselijke performance komt via Amazon Mechanical Turk. Een belangrijke kanttekening wat mij betreft. Het is altijd goed om te weten natuurlijk, net zoals het goed zal zijn om te weten wanneer OCR het beter doet dan Filipijnen bij de transcriptie van Middelnederlandse teksten. Maar net iets minder schokkend dan de headline. :P
Dus er is een representatieve groep mensen geweest die 100,000 vragen hebben beantwoord na het lezen van 500 artikelen?
Anoniem: 286576 @chielsen15 januari 2018 12:36
Er is zijn heel veel verschillende mensen geweest die af en toe een artikel gelezen hebben en een vraag hebben beantwoord (mss zelfs elke mens maar 1 of twee vragen).
De computer doet het gemiddeld beter dan de consensus uit deze verzameling mens-data.

[Reactie gewijzigd door Anoniem: 286576 op 25 juli 2024 07:10]

Ik heb gezocht maar kan daar niks over vinden. Heb je een bron?
Anoniem: 286576 @chielsen15 januari 2018 17:30
Los je wel eens captchas over verkeersborden op?

Zelfde principe, enkel met tekst.
Bij de test gaat het om een dataset met meer dan vijfhonderd Wikipedia-artikelen en ongeveer honderdduizend bijbehorende vragen

Geen enkel mens vult toch 100.000 vragen in. Is deze test dan wel betrouwbaar als er met meerdere mensen wordt gewerkt en dit als getal genomen wordt? De AI heeft niet telkens een ander denk niveau lijkt mij, terwil de mens met verschillende hersensen deze test doet.
Dat is toch net de essentie van kennis? Je geeft een tekst aan een klaslokaal en vraagt wat de les er uit was.

Als maar 80% van je klaslokaal goed is, maar je computer wel 85% zekerheid heeft heb je iets bijgeleerd over de mens of je pedagogisch vermogen bvb :p


Wat ik dus wil zeggen is dat het wel degelijk representatief is. Je vraagt consensus aan 200 leken, niet aan 200 pre-biased experts die meer contextuele kennis zouden hebben dan de vooropgestelde tekst.
Op zich logisch. Alibaba heeft een grote array aan bedrijven, apps en data tot hun beschikking voor het verfijnen van hun AI. Vrijwel iedereen gebruikt Taobao / Alipay waarin zowat elke CS door AI is vervangen, Heel Hangzhou en Shanghai hangt vol met CCTV met AI van Alibaba. AI devices (Amazon Echo varianten) worden ook goedkoop gepushed via Tmall. Al die data en live testcases zorgt ervoor dat Alibaba zijn AI snel kan developen.
Anoniem: 955831 15 januari 2018 11:58
Oneerlijk natuurlijk. Een machinelearningmodel heeft niet meer interesse in onderwerpen. Of een gebrek aan interesse.
Wat is daar dan oneerlijk aan?
Anoniem: 955831 @Brousant15 januari 2018 12:13
Een test die op voorhand niet te winnen is door 'de mens'
Maar hoe komt het dan dat het voor het eerst is dat de mens niet heeft gewonnen?

Het verschil zit natuurlijk in hoe een tekst is geschreven. Als de tekst in de stijl is "het antwoord op vraag A is B", dan kan je als mens nooit winnen. Idem met de stijl van vragen. Het is veel makkelijker om op de vraag "hoeveel" te antwoorden met een perfect geheugen of een rekenmachine voor handen, dan als je het uit het blote hoofd moet doen.

Maar wanneer je daarvan gaat afwijken (en er dus begrip en inzicht nodig is), wordt het plots wél moeilijker voor een machine. Een machine kan als de beste lezen en reproduceren wat er staat, maar interpreteren is niet altijd hetzelfde.
Als de tekst in de stijl is "het antwoord op vraag A is B", dan kan je als mens nooit winnen. Idem met de stijl van vragen.
Het ging om Wikipedia-artikelen, dat zijn teksten die door mensen zijn geschreven voor menselijke lezers, wat dat betreft zal AI geen voorsprong hebben bij het "begrijpend lezen".

Maar: de vragen waren automatisch gegenereerd uit diezelfde artikelen. Het lijkt me niet onwaarschijnlijk dat het daarvoor gebruikte algoritme niet gebaseerd is op diepgaand begrip van de tekst, en zich beperkt tot vragen over stukjes tekst waar het een eenduidige uitspraak in kan herkennen.

Dat een AI daarop goed presteert is dan een heel stuk minder indrukwekkend. Ik zou de score weleens willen weten als het gaat om vragen die een mens over een tekst zou stellen.
De vragen zijn wel door mensen gemaakt: "Stanford Question Answering Dataset (SQuAD), a new reading comprehension dataset consisting of 100,000+ questions posed by crowdworkers on a set of Wikipedia articles" hier te lezen

Hier wordt uitgelegd hoe de vragen (zouden moeten) worden gemaakt.
Oké, kennelijk zit het anders in elkaar dan ik veronderstelde. Ik heb nog gegoogeld op SQuAD en uit de eerste link die ik daarover vond maakte ik op dat de lijst automatisch was gemaakt. Maar ik kan dat zo niet meer terugvinden. Ik begin me nu af te vragen of er bij mij misschien iets misgegaan is op het punt van begrijpend lezen...

[Reactie gewijzigd door Brousant op 25 juli 2024 07:10]

Ik begin me nu af te vragen of er bij mij misschien iets misgegaan is op het punt van begrijpend lezen
:Y)
Bij de vraag? Hoeveel vingers heeft een mens was AI 100% fout en de mens maar 90%.
Als het zo is, heb je wel een punt natuurlijk. Ik had het niet zo in het artikel gelezen...
Als de tekst in de stijl is "het antwoord op vraag A is B", dan kan je als mens nooit winnen
Zoiets dus, en die zijn als mens best te maken ;)
Ja, maar kan je winnen :)

Wie bedenkt dit soort dingen...
Eerlijk gezegd denk ik van wel. Natuurlijk zijn dergelijke puzzels vrij gemakkelijk met een computer op te lossen, ook zonder het toepassen van logica en deductie (er zijn maar 520 mogelijke combinaties in dit specifieke geval dus het is te brute forcen). Het is echter de vraag of een AI zoals in het arikel besproken in staat is dergelijke vergaande deductie uit zichzelf toe te passen. Ik denk eerlijk gezegd dat ie dat niet doet, als hij al "begrijpt" wat de bedoeling is. Het zou een interessante casus zijn :).

Neem zoiets simpels als:
Q1: Het antwoord op deze vraag is
A) A
B) B
C) C

Q2: Het aantal vragen met antwoord A is
A) 0
B) 1
C) 2
Zou een AI hieruit kunnen afleiden dat het antwoord op Q1 dus A moet zijn?

[Reactie gewijzigd door .oisyn op 25 juli 2024 07:10]

Blijkbaar was de test jarenlang juist wél door de mens te winnen....

Geheugen heeft er niet zo veel mee te maken. Het gaat er hier juist om om een tekst te begrijpen, iets waar computers (tot voor kort) nog vrij veel moeite mee hadden.
Tot kortgeleden werd die test gewoon door 'de mens' gewonnen. Daarnaast het is geen wedstrijd of competitie, dus 'eerlijkheid' lijkt mij niet relevant.

Dit soort ontwikkelingen lijken mij heel handig bij het doorpluisen van bronnen voor artikelen of publicaties. Misschien zelfs nuttig voor het fact-checken van nieuwsartikelen.
Het lijkt me erg gevaarlijk om machine learning te laten factchecken. Als je een chatbot in een dag kunt leren racistische opmerkingen te maken kun je dat andere algoritme ook de verkeerde conclusie laten trekken door genoeg fake news te verspreiden.
Niet door de gemiddelde mens*

Sommige mensen scoren hier dan wel weer perfect op hoor ;)
Ook nuttig te vermelden dat de test nog steeds is opgesteld en onderzocht door mensen. Dus er zijn mensen die wel het perfecte antwoord hebben, sterker nog, de mens heeft het gemeten en de kennis neergeschreven en gedeeld met zowel de computer als de andere mensen.

Blijkbaar verstaat een computer ons nu beter dan een gemiddeld klaslokaal :)

[Reactie gewijzigd door Anoniem: 286576 op 25 juli 2024 07:10]

Zo kun je het idd zien. De vragen zijn ook vrij standaard. Neem je een complexere vraag dan is het nog maar de vraag wat het antwoord zal zijn.

Neem bijv over het regenwoud, vraag: wat is de invloed van ontbossing op lokaal en regionale neerslag en hoe zal dit gedurende de jaren veranderen.
Dat zijn 2 vragen zou ik antwoorden.
Wow een computer die bijdehante antwoorden geeft. ;)
Het heeft ook een veel hogere leessnelheid en 'perfect' geheugen.
Anoniem: 955831 @Origin6415 januari 2018 12:01
Inderdaad
Wat ook oneerlijk is de beste machines worden tegenovergesteld aan een gemiddelde mens,(en in intelligentie zit daar een zeer groot verschil tussen, en vele variabelen zoals leeftijd, studie, etc) dus niet tegen de slimste mens met een fotografisch geheugen.
Helemaal niet dus.

De ground truth is ook opgesteld door mensen. De beste mens haalt hier dus 100% op.

Het gaat erover dat de consensus in een groep van randoms slechter is dan de consensus van het algoritme. Dat is zeer leerrijk en goed voor het vermijden van repetitieve taken.

[Reactie gewijzigd door Anoniem: 286576 op 25 juli 2024 07:10]

Ik denk dat je het doel van dit soort ontwikkelingen verkeerd inschat als je het 'oneerlijk' vindt. Dit is geen wedstrijd, het doel is niet om te bepalen of de mens beter is dan de computer. Deze score is gewoon een belangrijke mijlpaal in de ontwikkeling van een gestaag voortschrijdende technologie.
Krijg meteen flashbacks naar Blade Runner en Almost Human. Hoop dat ik deze ontwikkelingen nog mee ga maken. :)
Je bent het al mee aan het maken. Hoe voelt dat?
In Blade Runner heeft Tyrell Corporation als motto More Human Than Human.
Daarom ben ik zo benieuwd of ik dat nog ga meemaken. Lijkt mij zeer cool. Heeft uiteraard ook zo zijn gevaarlijke kanten, maar dat heeft een auto ook.
Ik vind dit wel groundbreaking. Waarschijnlijk wordt de volgende stap op de juiste manier relaties leggen tussen verschillende onderwerpen en het belang zien.

En dan komt het ethische verhaal: Wat is belangrijk, het menselijk welzijn, welzijn van de wereld, etc.
ACM Software Architect @Mic200015 januari 2018 12:27
Volgens mij moeten ze al relaties kunnen leggen om het soort vragen te kunnen beantwoorden dat hier gesteld worden. Een vraag als 'Wat zorgt ervoor dat neerslag valt?' moet beantwoord kunnen worden met 'zwaartekracht' als ik de paper over de test (na 'm gescanned te hebben) goed begrijp.

Op dit item kan niet meer gereageerd worden.