Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 22 reacties
Bron: UCIrvine

Met behulp van een techniek genaamd 'text mining' zijn onderzoekers erin geslaagd om snel grote hoeveelheden ongestructureerde teksten te analyseren en de onderwerpen af te leiden. Text mining wordt op dit moment reeds toegepast door gespecialiseerde programmeurs en door veiligheidsexperts bij projecten als Echelon. De doorbraak bestaat eruit dat de onderzoekers een van de eerste demonstraties van de bruikbaarheid van de technologie hebben gegeven. Volgens computerwetenschapper David Newman heeft text mining een gigantische sprong voorwaarts gemaakt. Het experiment toont aan dat het begrijpen van grote hoeveelheden tekst sneller en makkelijker wordt, en binnen enkele jaren moet de techniek voor iedereen inzetbaar zijn, aldus Newman.

Text MiningNewman en zijn collega's van de Amerikaanse universiteit UCI hebben gebruik gemaakt van een text-miningtechniek genaamd 'topic modeling'. Topic modeling is in 2003 ontwikkeld aan de UC Berkeley in Amerika, maar voor dit experiment zijn enkele verbeteringen aangebracht. Bij topic modeling wordt gezocht naar woordpatronen die gezamenlijk voorkomen in een tekst. Deze woorden worden dan automatisch gecategoriseerd in onderwerpen. De informatie die geassocieerd wordt met deze onderwerpen, wordt gedurende langere tijd bijgehouden, en dit maakt het mogelijk om trends te ontdekken. Bij oudere text-miningtechnieken moet de gebruiker vaak eerst een verzameling categorieën aanmaken en voor elk categorie honderden tot duizenden voorbeeldteksten invoeren. In tegenstelling tot deze arbeidsintensieve methode van leren onder menselijk toezicht, zijn bij de nieuwe methode menselijke handelingen grotendeels overbodig.

Grote stapel documentenIn totaal zijn bij het experiment 330.000 artikelen van de New York Times doorgespit en de software distilleerde daar 400 onderwerpen uit zoals Tour de France, duiken in Hawaï en stemfraude. Een deel van deze onderwerpen kan voor adverteerders zeer interessant zijn, bijvoorbeeld de wetenschap dat de hoeveelheid artikelen over de Tour de France over de jaren afnam. In de toekomst zullen bijvoorbeeld medici, adverteerders, politici, juristen en vele anderen met behulp van deze techniek sneller links kunnen leggen met oudere artikelen en grote hoeveelheden informatie beter kunnen begrijpen. Hoewel het artikel geen melding maakt van de toepassing van topic modeling in zoekmachines, lijkt het voor de hand te liggen dat de technologie gerichter speuren mogelijk kan maken. Zoekopdracht 'Armstrong' in onderwerp Tour de France zou bijvoorbeeld alleen artikelen over de wielrenner opleveren en niet over de astronaut of musicus Armstrong en gelijknamige bedrijven.

Moderatie-faq Wijzig weergave

Reacties (22)

Laten we nou al jaren een bedrijf in nederland hebben die dit soort dingen doet, ook in Amerika. http://www.collexis.us/do...ase_Cockpit_22-5-2006.pdf
... bijvoorbeeld de wetenschap dat de hoeveelheid artikelen over de Tour de France over de jaren afnam.
hmm, ik vind die conclusies eraan verbinden wel een beetje gevaarlijk, omdat je feitelijk gewoon een bepaald textpatroon herkent en je hooguit kunt zeggen dat 'op die manier over dat onderwerp schrijven' afgenomen is...

In plaats daarvan kan het zijn dat de artikelen door een andere opzet opeens in een andere categorie ingedeeld worden, of het taalgeberuik kan veranderen door de jaren waardoor het misschien anders herkent is:
(denk bv een conclusie als zou het aantal artikelen over 'eredivisie' afgenomen zijn vanaf een bepaald tijdstip... als je dat nader zou bekijken zou dat tijdstip ook overeen komen met de naamswisseling en het gebruik vand e sponsornaam ervoor) ...

Juistd aardoor kan het zeer gevaarlijk zijn té specifiek te catgeorieren, moeten categoriseringen ook iets breder blijven: 'Armstrond' en 'Tour de France' lijkt me niet de juiste manier om alle artikelen over de wielrenner Armstrong te onderscheiden van de musicus of astronaut ...
Daarvoor lijkt me eerder de combinatie 'amrmstrong en 'wielrennen' beter geschikt...

Binnen het Web2.0 concept zijn zulke keywords, en categoriseringen vaak heel belangrijk, al worden die er dan door redacteuren of bij het invoeren toegevoegd, een geautomatiseerd systeem dat dit ook geautomatiseerd kan doen is natuurlijk zeer waardevol.
Het Belgische bedrijf i.Know ontwikkelt een nieuwe generatie zoekmachines die een antwoord bieden op de hier aangehaalde problemen.

Ze brengen de context van de informatie in rekening en kunnen zo de beschikbare informatie onderverdelen in semantische (sub)groepen. Bijvoorbeeld voor Mercury (Singer, Chemical Substance, Mythology, Astronomy)

Ook krijgen gebruikers relevante informatie waar het exacte trefwoord niet per se in staat als resultaat van hun zoekactie. Daarnaast zijn quotes en Booleaanse operatoren overbodig. De zoekmachines herkennen concepten als 1 geheel.

www.iknow.be
Ja, een zoekmachines herkent alleen de woorden die gebruikt worden op de pagina en eventuele tekst links die verwijzen naar de pagina.
Met deze technologie is het mogelijk om het onderwerp af te leiden aan de tekst. Dit onderwerp kan echter "wielrennen" zijn zonder dat het woord wielrennen in de tekst voorkomt.
IMHO is het verschil dat deze techniek onderwerpen uit ongestructureerde text distileert. (Bijv tour de france, stemfraude)
Een search engine zoekt "alleen" de stukken text op die aan je zoek criteria voldoet.

UIt ervaring vind ik dat blijkt dat het praktisch nut van test mining beperkt was tot nu toe. Omdat je er eerst te veel tijd in moest stoppen om het te leren hoe en wat te distileren.
(Dus eigenlijk moest je al een beetje weten wat er in al die text stond, het nieuwe/ombekende werd nooit gevonden)
Uit het bovenstaande begrijp ik dat daar nu juist een verbetering heeft plaats gevonden.

Benieuwd hoe snel dit ook commercieel bruikbaar wordt.
Hoewel ik op zich veel waarde hecht aan research naar text mining-technieken, vind ik dit bericht nogal non-nieuws.
  • Er zijn 400 onderwerpen gedistilleerd uit 330.000 artikelen. Dat kan ik ook, en wel binnen 5 minuten. Het gaat er natuurlijk om hoe de kwaliteit van die analyse is, m.a.w. is de indeling van de onderwerpen zinvol?
  • Het zoeken naar de wielrenner Armstrong is hier een goed voorbeeld van. Dit is iets wat met bestaande zoek-software al lang kan.
Al lang kan ja, maar zoals jij het doet niet, je hebt met jouw zoekopdracht minder dan de helft van de artikelen die Armstrong de fietser noemen te pakken. [url="http://www.google.nl/search?hl=nl&q=armstrong+cyclist+OR+%22tour+de+france%22+OR+lance+-cycling+site%3Anytimes.com&btnG=Zoeken&meta=""]Hier is de andere helft[/url]

Dit laat weer zien dat je veel moet weten over je onderwerp (voornaam, naam van fietstocht, variaties op woorden) voordat je alle informatie over een onderwerp kunt vinden. Het zou juist handig zijn als de computer het onderwerp al weet, zodat je alles kunt vinden zonder dat je alles al moet weten.
Voor de mensen die dit interessant vinden staat in de C'T van deze maand een heel artikel over deze techniek en programma's.
a) Er zijn weining zoekmachine's die enigzins in de buurt komen van "Text Mining"
b) Collexis is m.i. een grof aftreksel van Text Mining waarbij men nog steeds niet sematisch goed clustered.
c) Clustering komt in de buurt van het groeperen van relevante onderwerpen aan elkaar. Maar het resultaat eninszins overzichtelijk presenteren laat meestal te wensen over.

Conclusie: Text Mining met overzichtelijk Clustering in combi met (toch nog) handmatig op gebouwde index zou wellicht het 'Feel lucky" effect geven.
Apple heeft op dit gebied onlangs een patent aangevraagd. Samenvatting van dit patent is hier te lezen bij MacsimumNews
Snel een patent aanvragen op het automatisch genereren van een nieuws artikelen dat het best zou scoren voor een bepaalde reclame of boodschap van algemeen nut.
Ik begrijp nog niet zo heel goed waar dit nou nuttig voor is... Misschien alleen als je heeeeeeel veel teksten in eens gaat inlezen, maar hoevaak en wanneer komt dat nou voor? Het meeste gaat nog steeds beetje bij beetje, althans, ik kan me niet voorstellen dat een willekeurig persoon (of bedrijf/instantie etc) ineens aan zo'n enorme berg teksten komt dat hij er zelf t onderwerp niet bij kan zetten...
Alle artikelen uit de New York Times categoriseren lijkt me anders een knappe k*t-klus...

Dus dan is dergelijke software wel zo handig! Ik zie er wel meerwaarde in - maar denk dat het nog vele jaren zal duren voor deze techniek echt goed uitontwikkeld is. Er komt toch een stukje kunstmatige intelligentie bekijken om teksten goed te kunnen interpreteren - en juist daar zijn de hedendaagse computers nog niet echt een ster in...
is dit essentieel anders dan wat een zoekmachine doet?
Absoluut! Tekstzoeken is iets heel anders als datamining. Datamining gaat volumes data onderzoeken en patronen hierin zoeken. Aan de hand van deze patronen kan zelfs een ruwe sematische betekenis worden gegeven. De uitkomst is een soort indexering van de data, waarmee relaties tussen onderwerpen worden bijgehouden.

Zoekmachines doen een veredelde vorm van een brute full text search. Een zoekmachine kan gebruikt worden om in de resultaten van datamining te zoeken.
Err... de vraag was niet "is data- anders dan textmining", de vraag was "is dit anders dan een zoekmachine".

Daarop is het antwoord natuurlijk "nee, dit is per definitie een zoekmachine" -- de vraag is slecht gesteld. `Boner' wil eigenlijk weten: "is dit anders dan google nu werkt", daarop is het antwoord "ja" zoals hoger aangegeven.
Als ik het goed begrijp is dit o.a. een vorm van geautomatiseerd categoriseren, waarna gezocht kan worden binnen één of meerdere categoriën, hiermee veel relevantere resultaten leverend dan een zoekmachine die puur zoekt op basis van een combinatie van keywords in de hele brei.
Zoekopdracht 'Armstrong' in onderwerp Tour de France zou bijvoorbeeld alleen artikelen over de wielrenner opleveren en niet over de astronaut of musicus Armstrong en gelijknamige bedrijven.
Een zoekmachine probeert niet te interpreteren, veelal wordt dit handmatig gedaan.

Zoekmachines zoeken vaak op keywords, dus woorden die veel voorkomen of meta-tags.
Ja. Een zoekmachine kijkt (nog) niet naar context, maar onthoud gewoon 'domweg' welke woorden op welke pagina voorkomen. Wat het onderwerp van de onderliggende tekst is wordt niet bepaald.
Dit zorgt er dus ook voor dat je met een zoekopdracht 'Tour de France' momenteel geen pagina's zult vinden waar deze term niet in voorkomt (tenzij het in de keywords metatag van de pagina staat natuurlijk). Wellicht dat dit in de toekomst dus wel zal kunnen.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True