Microsoft snoept dataminingpionier bij IBM weg

Dataminingpionier Rakesh Agrawal gaat van IBM naar Microsoft verhuizen, zo meldt C|Net. De expert op het gebied van patroonherkenning in grote hoeveelheden data droeg de titel van IBM-Fellow, de hoogste wetenschappelijke titel in het bedrijf. Agrawal was een van de eersten die algoritmes ontwierp om de enorme hoeveelheden data die bedrijven aanleggen efficiënt te benutten, zodat de gegevens gebruikt kunnen worden om voorspellingen over de toekomst te doen - zoals voorspellingen over het inkopen van de juiste hoeveelheden producten voor de juiste locatie op het juiste tijdstip. Agrawal schreef zijn eerste paper (pdf) over datamining in het begin van de negentiger jaren naar aanleiding van een gesprek bij het Britse warenhuis Marks & Spencer, dat allerhande data had verzameld maar niet wisten hoe ze de daarin opgeborgen kennis konden ontsluiten en benutten.

Rakesh Agrawal Bij IBM, een grote speler op datamininggebied, werkte Agrawal aan DB2 Intelligent Miner. Bij Microsoft wordt hij Technical Fellow bij Search Labs, wat mogelijkerwijs betekent dat hij zijn dataminingexpertise zal inzetten voor Microsofts Live Search. Zo zouden gegevens over zoekopdrachten in het verleden 'gemined' kunnen worden om beter te kunnen voorspellen waarnaar de gebruiker op zoek is. Wellicht is Agrawal aangenomen wegens zijn bijkomende kennis op het gebied van randomization, waarbij de - potentieel privacygevoelige - gegevens worden 'gescrambled' voor ze in de database verdwijnen. Andere potentiële werkterreinen voor Agrawal zijn Microsofts Data Analyzer, een onderdeel van de Office-familie, dat op dit moment nog geen volwaardig dataminingpakket te noemen is. Daarnaast biedt het bedrijf 'business intelligence'-oplossingen die met SQL Server samenwerken om in grote hoeveelheden data te spitten.

Door Mick de Neeve

16-05-2006 • 16:14

24

Bron: C|Net

Reacties (24)

24
22
11
2
0
4
Wijzig sortering
Het minen van data is erg moeilijk voor een zoekmachine lijkt mij. Immers denk eens aan de factoren waarmee rekening gehouden moet worden voor doeltreffende resultaten:
- Cultuur
- Nieuws (lokaal, Continent, Wereldwijd)
- Opleidingsniveau
- Sociale status
- etc
Al deze gegevens zijn natuurlijk wel beschikbaar, maar moet je dan gaan modelleren naar een zoekopdracht.

Voorbeeld: zoeken naar het overlijden van André Hazes zou een doodskistenleverancier kunnen opleveren omdat de zoekopdracht verkeerde gemodelleerd zou kunnen zijn.

Datamining zou dan niet alleen technisch maar ook sociale intelligentie moeten toepassen.

Machtig interessant om te volgen natuurlijk.
Mwa, natuurlijk zijn er een hoop zaken die moeilijk zijn te bepalen. Maar als je bemerkt dat als 40% van de Nederlanders die zoeken op het woord "Pickwick" doorklikken naar de Douwe Egberts site, is het logisch om die site in dat geval bovenaan te zetten.

Deze vorm van Datamining is dan misschien erg simplistisch, maar met iets ingewikkeldere regels kun je een eind komen. Absolute perfectie is tenslotte niet nodig.
wat houdt Dataminingpionier in? pioneer weet ik wel maar datamining? moet ik het zien als "mijnen" (valkuiles/fouten) in data weghalen? of is het een zoek methode?

als ik het artikel lees lijkt het voor mij een soort zoek en toekomst voorspel algoritme :S beetje uitleg iemand :) en niet www.google.com!! (ook niet .nl) schrijf het hier op zodat andere mensen die ook niet weten wat het is er hier iets meer wijs uit worden.

Thanx
Zoek naar OLAP, MDX en Analytical Server voor meer resultaten.

Met mijn werd niet zo een explosief ding bedoeld maar een industrie die in de grote dieptes waardevolle en nuttige objecten selecteerd.

Ik werk al 10 jaar in deze sector en kan het simpelweg beschrijven. Vaak is er zoveel data dat men tussen het bos de bomen niet meer kan vinden. Maar met datamining kun je dan wel de bomen vinden.

Een voorbeeld:
Bedrijf X heeft vele miljoenen transacties per periode. Het heeft ook enkele bedrijfs structuren zoals productie, marketing, managment en financiering. Verkoop is opgedeeld in [Wereld,Continenten,Landen,etc....]

Nu bouw je een hele inteligente data mijn (een slimme database) waar je alle gegevens (zowel de bedrijfs structuur als alle transacties) hyrarchies opslaat (zeer ingewikkeld maar al een hedendaagse realiteit in de kinderschoenen). Als je alle transacties koppelt met de bedrijfs structuren kun je nu snel het verband zien tussen bijvoorbeeld de verhouding tussen de netto winst van employee Y voor product Z die via verkoper A in locatie B via keten C is verkocht. En natuurlijk vergelijken we snel alle werknemers in verhouding met aller verkopers voor elke verschillende winkel. Dit van boven naar beneden in plaats van eerst alle transacties vinden en die dan in verband brengen met de vraag (alles is immers al in verband gebracht). Dit gaat bijvoorbeeld simple zoals in een pivot table in Excel. Je trekt gewoon de objecten waar je informatie van wil hebben naar je toe en klikt (delft) dan dieper en dieper tot dat je binnen enkele seconden ziet zoals je dat wil. In een oog opslag heb je een totaal overzicht van je hele bedrijf. Een dubbele klik hier en een muis beweging daar en je delft (vandaar data mining) de diepte in naar de kleinste details in de structuur zoals je die wenst. Dat is de doelstelling.

In de praktijk is dit heel ingewikkeld om zulke modellen op te bouwen. Maar als zo een model eenmaal goed is opgebouwd dan is het voor de eind gebruiker wat ik hierboven beschreven heb inderdaad heel simpel en echt kinderwerk.

Ik ken oude rotten in hun vak die hun bedrijf door en door kennen maar toch tot hun grote verbazing via data mining naar nieuwe bedrijfs kritische inzichten komen. En nogmaals > heel makkelijk en heel snel (ik zweet en zwoeg helaas wel om dat op te bouwen). En eenmaal opgebouwd blijft het intact en zie je snel alle veranderingen prakties 'online'.

Er is nog veel meer te zeggen maar ik hoop dat dit een enig idee geeft over data mining.

;)
Zoals ik het lees in het artikel, is datamining het analyseren van een hoop gegevens tot bruikbare resultaten, om zo een beter gerichte planning te doen.

Qua bedrijfsleven is dit, uit de data van verkoop en stock voorspellen hoeveel stock je nodig gaat hebben van product x etc ...

Qua zoekmachines, voorspellen, aan de hand van eerdere interesses en zoekopdrachten van deze user gecombineerd met populaire resultaten bij andere users uit de streek of doelgroep wat de beste resultaten zijn voor deze nieuwe zoekopdracht.
Het is en blijft een vicieuse cirkel.
Men gaat software maken die voorspeld wat er gaat gezocht worden.
Hierdoor worden mensen beinvloed in wat ze gaan zoeken.
Dus komt het er op neer dan men zoekt wat voorspelt is. En dus klopt de voorspelling dat men daar naar ging zoeken.
Alleen als iedereen zich zonder weerstand naar de slachtbank laat leiden natuurlijk. Kijk nou eens goed naar de concurrentie die Google opeens is voor MicroSoft, dat is allemaal omdat men het zat is dat MicroSoft ons vertelt wat we moeten (al is de halve wereld daar erg tweeslachtig in).

Dit soort 'zielige', pessimistische beweringen dat 'we' straks geleefd worden ontbreekt het altijd aan één ding: de eigenschap van de mens om zoveel mogelijk zélf twe kiezen wat men doet.
Dit gaat offtopic, maar Google is nooit concurrentie voor MS geweest, eerder andersom! Toen Google populair werd, was het concurrentie voor o.a. Altavista, MS-search bestond toen nog nauwelijks.
Google Search vs Microsoft Search
Gmail vs Hotmail
Google Talk vs MSN/Live Messenger

Zo uit de losse pols!
Hmm, ik weet niet of ik het hiermee eens kan zijn, in ieder geval persoonlijk. Als ik iets zoek met een zoekmachine heb ik meestal een goed idee van wat ik hoop te vinden, ookal weet ik niet altijd de juiste zoektermen om mijn doel te bereiken. Dan is zoiets erg handig.
Daarnaast, ervan uitgaande dat je weet wat je wil vinden, kan de zoekmachine wel leuk die resultaten bovenaan zetten waarvan hij denkt dat ze voor jouw relevant zijn, maar jij zal je er niet door laten beinvloeden in het geval dat niet zo is en ze gewoon negeren.
Ik weet niet of dit vicieuze cirkeltje wel helemaal rond is ;)
En dan heeft IBM alle licenties in handen van het werk wat deze man heeft gedaan.... en dan :?
De licenties zullen vrijwel zeker bij deze man's oude werkgever blijven. Die heeft er namelijk voor betaald (ondermeer z'n salaris) om ze te ontwikkelen.

Wat ze wel krijgen is alle kennis die deze al man heeft plus zijn vermogen om nieuwe uitvindingen te doen (die dan eigendom van MS worden).
Dan koop MS simpelweg een licentie van IBM.
en nu is het wachten tot de beste man overstapt naar Google :)

haal de stoelen maar vast uit het kantoor van Steve Balmer weg. :)
Ik ben wel benieuwd naar:

a> de reactie van IBM
b> de reactie van Google

Die zullen allebei niet blij zijn, ervan uitgaande dat de beste man inderdaad wonderen kan verrichten op zijn vakgebied....

Aan data is tegenwoordig geen tekort, maar meer aan kennis van wat de data te "vertellen" heeft.... en voorspellen en inspelen op de toekomst (ofwel: vooruitlopen op wat iemand mogelijk zou gaan kunnen opzoeken en daar aktie op ondernemen tegenover afwachten wat iemand daadwerkelijk op een bepaald moment opzoekt en daar dan achteraf wat mee doen) kon nog weleens de "cutting edge" worden in de zoekmachine-oorlog, voor zover die nog niet is beslecht natuurlijk....
Ik denk dat ze hem niet alleen voor zijn kennis hebben binnengehaald maar ook als soort van "legende" ter inspiratie van de andere medewerkers op hetzelfde gebied.
Zometeen hoef je niet eens meer iets in te typen in google.
Gewoon de zoek knop en je krijgt de resultaten waar naar je op zoek was.. dat is pas data minen :P
Ik vraag me af of deze persoon ook onder een no-disclosure-contract werkte. Als ik me de geschiedenis met MS vs. Google herinner, dan kan dit binnenkort misschien een mooie rechterlijke soap opleveren :Y)
wat een rare namen: ibm-fellow en technical fellow.

:7
Wat ik even mis hier: hoe zit het met concurrentiebeding?
De man mag toch niet zo maar bij de concurrent bepaalde kennis die bij IBM is opgedaan bij Microsoft gaan gebruiken? (waarschijnlijk wat Parasiet bedoelt).
Zelfs ik, simpele IT-er heb iets dergelijks in mijn contract.

Overigens weet ik wel dat een rechtzaak over iets dergelijks nog niet in NL gewonnen is in zo'n kwestie.
Weet niet hoe dat in de States is?
Iemand een idee?

@markg85 : je zou ook zelf datamining in google kunnen intypen ipv een post vol geklaag dat je het niet weet :)
http://www.google.nl/search?hl=nl&q=datamining&meta=

Had je even kunnen lezen en de rest kunnen informeren

Op dit item kan niet meer gereageerd worden.