IBM gaat UIMA-zoekplatform vrijgeven

Big Blue is van plan zijn Unstructured Information Management Architecture open te stellen voor bedrijven. Met behulp van deze technologie kan gezocht worden in grote hoeveelheden data, maar niet op de traditionele manier met sleutelwoorden die we kennen van Google en co. Vermoedelijk zal de UIMA-software tegen het einde van dit jaar via SourceForge open-source gemaakt worden. Met behulp van deze technologie moet het vooral voor bedrijven gemakkelijker worden te zoeken in e-mails, tekstbestanden en andere niet gestructureerde gegevens om daar vervolgens verbanden tussen te leggen. Zo is er op basis van deze technologie een systeem ontwikkeld dat het internet in de gaten houdt en afspeurt naar gebruikerservaringen van bepaalde producten, om vervolgens klachten op te sporen en met behulp van gegevens op het interne bedrijfsnetwerk eventuele kwaliteitsproblemen vroegtijdig op te sporen.

IBM logo (vrijstaand) Meer dan 15 bedrijven, waaronder ClearForest, Cognos, iPhrase, SAS en Factiva, hebben al aangegeven het UIMA-framework te ondersteunen voor zoekopdrachten en tekstanalyse. Hoewel databaseontwikkelaar Informix zo'n tien jaar geleden stelde dat het punt waarop men ongestructureerde data gemakkelijk zou kunnen interpreteren en doorzoeken niet veraf meer was, schatten analysten dat er vandaag nog steeds zowat 85 procent van de bedrijfsgegevens ongesorteerd opgeslagen zijn buiten databases.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Yoeri Lauwers

Eindredacteur

Feedback • 08-08-2005 10:21 10

08-08-2005 • 10:21

Bron: Reuters

Lees meer

Groei verwacht voor business intelligencesoftware Nieuws van 16 januari 2006

IBM ontwikkelt nieuwe zoektechnologie Nieuws van 28 december 2004

Software

Reacties (10)

-Moderatie-faq

Wijzig sortering

Terracotta 8 augustus 2005 10:26

Ik snap het niet, waarom sorteer je gewoon niet zelf? Het lijkt in het begin misschien meer werk, maar het zit dan vaak logischer ineen, in plaats van dat je voor elk document moet onthouden hoe het noemt

. lijkt me het gemakkelijker een structuur op te bouwen zodat je iets gemakkelijker terugvindt, en dan zitten gelijkaardige documenten nog bijeen. Iedereen is blijkbaar ineens zo zot van zoek-opdrachten

, moet zeggen dat ik het maar één of twee keer gebruikt heb. Buiten dan op internet, maar dat is iets anders, en zo super werken die dingen nu ook weer niet meer.

Garyu @Terracotta • 8 augustus 2005 10:32

Dan heb jij misschien nog nooit een bedrijfsnetwerk gebruikt? Grote kans namelijk dat jouw ideeen voor namen van bestanden en folders redelijk afwijken van die van je directe collega's, laat staan van de collega's waar je minder contact mee hebt. Wil je iets terugvinden in je eigen bestanden dan is dat meestal geen probleem.

Maar wat als je iets van je collega moet hebben? Dan kan je het hem elke keer vragen, maar het zou natuurlijk veel sneller gaan als je computer dat snel voor je uit kan vissen.

Koppel daaraan de enorme hoeveelheden data die je zelf zou moeten ordenen en doorzoeken om patronen te herkennen en zoals gezegd fouten en problemen op te sporen, en je bent uitermate blij met software die je daarbij kan helpen..

Gé Brander @Terracotta • 8 augustus 2005 10:29

Denk niet alleen aan sorteren, maar ook aan verbanden leggen tussen documenten. Je slaat volgens jou dan het document op een 'logische' plaats op, maar daarmee geef je niet het verband aan met andere documenten of raakvlakken.

Verwijderd @Terracotta • 8 augustus 2005 10:32

Soms is het gewoon ook niet te doen. Denk aan grote bedrijven die een enorme zooi documenten per dag produceren. Er zijn meerdere afdelingen met overlappende bezigheden en dan wil je het gesorteerd opslaan? Kun je een hele afdeling aan het werk zetten om dat te gaan doen....

n4m3l355 @Terracotta • 8 augustus 2005 10:34

dit soort praktijken zijn in NL en elders al vast gelegd via iso normen en zelfs dan nog mbv deze normen gaat het erg lastig. men moet erg consequent zijn, gigantisch veel opslagruimte hebben en iedereen met bekend ermee zijn. verder is in mijn ervaring het gebruik van dergelijke methodes erg omslachtig. data 'organiseren' is een stuk complexer dan het lijkt. je moet niet alleen denken aan plaatjes of tekst bestanden maar bv stukke code of in mijn geval cad/max files. het terug vinden en vooral de veranderingen tussen onderlinge tekeningen is vaak erg lastig te vinden.

Database freak 8 augustus 2005 13:15

Als over een paar jaar WinFS is ingeburged op fileservers, kan dit wel eens een handige techniek zijn, dat zit alle bestanden nl wel in een database en kunnen er indexen worden aangelegt. MS heeft een eigen oplossing hiervoor binnen WinFS, maar deze zou wel eens beter kunnen zijn.

kidde @Database freak • 8 augustus 2005 13:30

Je begrijpt het verkeerd volgens mij, voor deze techniek is juist geen database nodig!

Om IBM zelf te quoten:

UIM applications make use of a variety of analysis technologies, including statistical and rule-based Natural Language Processing (NLP), Information Retrieval (IR), machine learning, and ontologies.

Kortom, het gaat hier ook om semantische technieken (die 'kennis hebben van de eigenschappen van taal), en uit een stukje text filteren welke woorden belangrijk zijn. Dat een woord voorkomt in een text wil niet zeggen dat het woord in de text belangrijk is.
Alhoewel MS ook onderzoek doet naar semantisch zoeken heeft dit volgens mij weinig tot niks met WinFS te maken, omdat dit systeem geen database nodig heeft en gebruik maakt van taaleigenschappen.

Gé Brander @kidde • 8 augustus 2005 14:19

Die database maakt het echter wel een stuk sneller, omdat dan de belangrijke woorden in de database bijgehouden worden. Die woorden moet je dan wel opgeven bij het opslaan van het document. Dat gebeurt nu nog te weinig door gebruikers, maar dat zou ook automatisch kunnen gebeuren door het programma.

The Jester 8 augustus 2005 21:00

Hopla! Weer een mooi en succesvol project dat IBM open source maakt!

Grandioos van IBM

owisscha 9 augustus 2005 17:45

Heeft dit iets met 'Autonomy' te maken.
In 2000 stond er een interessant artikel over in Wired (http://www.wired.com/wired/archive/8.02/autonomy.html) maar daarna heb ik er nooit meer wat van gehoord.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (10)

Sorteer op:

Weergave: