Hoofdcategorieën
Device Settings

Experiment met 'text mining' op NY Times succesvol

Door Thijs Terlouw, donderdag 27 juli 2006 10:49
Bron: UCIrvine, views: 15.182

Met behulp van een techniek genaamd 'text mining' zijn onderzoekers erin geslaagd om snel grote hoeveelheden ongestructureerde teksten te analyseren en de onderwerpen af te leiden. Text mining wordt op dit moment reeds toegepast door gespecialiseerde programmeurs en door veiligheidsexperts bij projecten als Echelon. De doorbraak bestaat eruit dat de onderzoekers een van de eerste demonstraties van de bruikbaarheid van de technologie hebben gegeven. Volgens computerwetenschapper David Newman heeft text mining een gigantische sprong voorwaarts gemaakt. Het experiment toont aan dat het begrijpen van grote hoeveelheden tekst sneller en makkelijker wordt, en binnen enkele jaren moet de techniek voor iedereen inzetbaar zijn, aldus Newman.

Text MiningNewman en zijn collega's van de Amerikaanse universiteit UCI hebben gebruik gemaakt van een text-miningtechniek genaamd 'topic modeling'. Topic modeling is in 2003 ontwikkeld aan de UC Berkeley in Amerika, maar voor dit experiment zijn enkele verbeteringen aangebracht. Bij topic modeling wordt gezocht naar woordpatronen die gezamenlijk voorkomen in een tekst. Deze woorden worden dan automatisch gecategoriseerd in onderwerpen. De informatie die geassocieerd wordt met deze onderwerpen, wordt gedurende langere tijd bijgehouden, en dit maakt het mogelijk om trends te ontdekken. Bij oudere text-miningtechnieken moet de gebruiker vaak eerst een verzameling categorieën aanmaken en voor elk categorie honderden tot duizenden voorbeeldteksten invoeren. In tegenstelling tot deze arbeidsintensieve methode van leren onder menselijk toezicht, zijn bij de nieuwe methode menselijke handelingen grotendeels overbodig.

Grote stapel documentenIn totaal zijn bij het experiment 330.000 artikelen van de New York Times doorgespit en de software distilleerde daar 400 onderwerpen uit zoals Tour de France, duiken in Hawaï en stemfraude. Een deel van deze onderwerpen kan voor adverteerders zeer interessant zijn, bijvoorbeeld de wetenschap dat de hoeveelheid artikelen over de Tour de France over de jaren afnam. In de toekomst zullen bijvoorbeeld medici, adverteerders, politici, juristen en vele anderen met behulp van deze techniek sneller links kunnen leggen met oudere artikelen en grote hoeveelheden informatie beter kunnen begrijpen. Hoewel het artikel geen melding maakt van de toepassing van topic modeling in zoekmachines, lijkt het voor de hand te liggen dat de technologie gerichter speuren mogelijk kan maken. Zoekopdracht 'Armstrong' in onderwerp Tour de France zou bijvoorbeeld alleen artikelen over de wielrenner opleveren en niet over de astronaut of musicus Armstrong en gelijknamige bedrijven.

Volgende 10:51 Gerucht: lancering Wii op 2 oktober
Vorige 10:36 Trojaans paard vermomt zich als Firefox-extensie
Advertentie

Reacties

«  1  2  »

is dit essentieel anders dan wat een zoekmachine doet?

Als ik het goed begrijp is dit o.a. een vorm van geautomatiseerd categoriseren, waarna gezocht kan worden binnen één of meerdere categoriën, hiermee veel relevantere resultaten leverend dan een zoekmachine die puur zoekt op basis van een combinatie van keywords in de hele brei.
Zoekopdracht 'Armstrong' in onderwerp Tour de France zou bijvoorbeeld alleen artikelen over de wielrenner opleveren en niet over de astronaut of musicus Armstrong en gelijknamige bedrijven.

Een zoekmachine probeert niet te interpreteren, veelal wordt dit handmatig gedaan.

Zoekmachines zoeken vaak op keywords, dus woorden die veel voorkomen of meta-tags.

Ja. Een zoekmachine kijkt (nog) niet naar context, maar onthoud gewoon 'domweg' welke woorden op welke pagina voorkomen. Wat het onderwerp van de onderliggende tekst is wordt niet bepaald.
Dit zorgt er dus ook voor dat je met een zoekopdracht 'Tour de France' momenteel geen pagina's zult vinden waar deze term niet in voorkomt (tenzij het in de keywords metatag van de pagina staat natuurlijk). Wellicht dat dit in de toekomst dus wel zal kunnen.

Absoluut! Tekstzoeken is iets heel anders als datamining. Datamining gaat volumes data onderzoeken en patronen hierin zoeken. Aan de hand van deze patronen kan zelfs een ruwe sematische betekenis worden gegeven. De uitkomst is een soort indexering van de data, waarmee relaties tussen onderwerpen worden bijgehouden.

Zoekmachines doen een veredelde vorm van een brute full text search. Een zoekmachine kan gebruikt worden om in de resultaten van datamining te zoeken.

Err... de vraag was niet "is data- anders dan textmining", de vraag was "is dit anders dan een zoekmachine".

Daarop is het antwoord natuurlijk "nee, dit is per definitie een zoekmachine" -- de vraag is slecht gesteld. `Boner' wil eigenlijk weten: "is dit anders dan google nu werkt", daarop is het antwoord "ja" zoals hoger aangegeven.

Ja, een zoekmachines herkent alleen de woorden die gebruikt worden op de pagina en eventuele tekst links die verwijzen naar de pagina.
Met deze technologie is het mogelijk om het onderwerp af te leiden aan de tekst. Dit onderwerp kan echter "wielrennen" zijn zonder dat het woord wielrennen in de tekst voorkomt.

IMHO is het verschil dat deze techniek onderwerpen uit ongestructureerde text distileert. (Bijv tour de france, stemfraude)
Een search engine zoekt "alleen" de stukken text op die aan je zoek criteria voldoet.

UIt ervaring vind ik dat blijkt dat het praktisch nut van test mining beperkt was tot nu toe. Omdat je er eerst te veel tijd in moest stoppen om het te leren hoe en wat te distileren.
(Dus eigenlijk moest je al een beetje weten wat er in al die text stond, het nieuwe/ombekende werd nooit gevonden)
Uit het bovenstaande begrijp ik dat daar nu juist een verbetering heeft plaats gevonden.

Benieuwd hoe snel dit ook commercieel bruikbaar wordt.

Laten we nou al jaren een bedrijf in nederland hebben die dit soort dingen doet, ook in Amerika. http://www.collexis.us/do...ase_Cockpit_22-5-2006.pdf

Voor de mensen die dit interessant vinden staat in de C'T van deze maand een heel artikel over deze techniek en programma's.

... bijvoorbeeld de wetenschap dat de hoeveelheid artikelen over de Tour de France over de jaren afnam.
hmm, ik vind die conclusies eraan verbinden wel een beetje gevaarlijk, omdat je feitelijk gewoon een bepaald textpatroon herkent en je hooguit kunt zeggen dat 'op die manier over dat onderwerp schrijven' afgenomen is...

In plaats daarvan kan het zijn dat de artikelen door een andere opzet opeens in een andere categorie ingedeeld worden, of het taalgeberuik kan veranderen door de jaren waardoor het misschien anders herkent is:
(denk bv een conclusie als zou het aantal artikelen over 'eredivisie' afgenomen zijn vanaf een bepaald tijdstip... als je dat nader zou bekijken zou dat tijdstip ook overeen komen met de naamswisseling en het gebruik vand e sponsornaam ervoor) ...

Juistd aardoor kan het zeer gevaarlijk zijn té specifiek te catgeorieren, moeten categoriseringen ook iets breder blijven: 'Armstrond' en 'Tour de France' lijkt me niet de juiste manier om alle artikelen over de wielrenner Armstrong te onderscheiden van de musicus of astronaut ...
Daarvoor lijkt me eerder de combinatie 'amrmstrong en 'wielrennen' beter geschikt...

Binnen het Web2.0 concept zijn zulke keywords, en categoriseringen vaak heel belangrijk, al worden die er dan door redacteuren of bij het invoeren toegevoegd, een geautomatiseerd systeem dat dit ook geautomatiseerd kan doen is natuurlijk zeer waardevol.

Ook handig voor het ordenen van je incoming mail. Als ie nog rekening houdt met spellingsfouten, dan krijg je gelijk je spam op soort georganiseerd (Medicijnen: Calis/Viagra; Geld; Stock/Hypotheken/Leningen/Bedelbrieven; Errors: Undeliverable/Bounce/MailboxFull).

Apple heeft op dit gebied onlangs een patent aangevraagd. Samenvatting van dit patent is hier te lezen bij MacsimumNews

Snel een patent aanvragen op het automatisch genereren van een nieuws artikelen dat het best zou scoren voor een bepaalde reclame of boodschap van algemeen nut.

a) Er zijn weining zoekmachine's die enigzins in de buurt komen van "Text Mining"
b) Collexis is m.i. een grof aftreksel van Text Mining waarbij men nog steeds niet sematisch goed clustered.
c) Clustering komt in de buurt van het groeperen van relevante onderwerpen aan elkaar. Maar het resultaat eninszins overzichtelijk presenteren laat meestal te wensen over.

Conclusie: Text Mining met overzichtelijk Clustering in combi met (toch nog) handmatig op gebouwde index zou wellicht het 'Feel lucky" effect geven.

Na de gigantische explosie aan informatie is dit natuurlijk superhandig om in die brij wat meer te kunnen doen, dan alleen op wat zoekterrmen op basis van zoekmachines wat vinden :D

Ik vraag me af hoe men aan die foto van mijn werkplek is gekomen!! :P
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 10:51 Gerucht: lancering Wii op 2 oktober
Vorige 10:36 Trojaans paard vermomt zich als Firefox-extensie
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011