Infovell doorzoekt het diepe web dankzij genonderzoek

Onderzoekers die voorheen verbonden waren aan het Human Genome Project, hebben een zoekmachine ontwikkeld op basis van technieken die voor genetisch onderzoek zijn gebruikt. Hiermee zou ook het 'diepe web' doorzocht kunnen worden.

Het zogenoemde diepe web - de verzameling webpagina's die voor gewone zoekmachines niet toegankelijk is - vormt het leeuwendeel van internet. Volgens een onderzoek van de universiteit van Californië zouden traditionele zoekmachines zelfs maar een schamele 0,2 procent van het totale web indexeren. De onderzoekers die de zoekmachine ontwikkelden, zeggen echter een manier gevonden te hebben om ook de pagina's te doorzoeken die achter logins verborgen zijn, net als sites die zelden bezocht of bijgewerkt worden. Het door hen opgerichte bedrijf Infovell demonstreerde de engine tijdens de Demofall08-bijeenkomst, die van 7 tot 9 september in San Diego wordt gehouden.

Infovell logo De zoektechnologie van Infovell wordt 'Keyphrase' genoemd. Hiermee is het mogelijk om niet alleen woorden, zinnen en paragrafen als zoekterm op te geven, maar ook bijvoorbeeld wiskundige of scheikundige formules. Ook kunnen complete documenten of zelfs meerdere documenten als zoekterm gebruikt worden, waarbij de grens op een query van 25.000 woorden ligt. Omdat de zoektechnologie is ontwikkeld op basis van methodes om databases met genetische code te doorzoeken, doet het er niet toe in welke taal gezocht wordt en ook vreemde karakters mogen worden gebruikt.

De zoekmachine is voornamelijk bedoeld voor onderzoekers die research willen doen. Infovell heeft dan ook toegang tot wetenschappelijke publicaties en andere gespecialiseerde bronnen. De zoekmachine kan dertig dagen lang gratis geprobeerd worden. Later dit jaar zou Infovell een openbare bèta zonder toegang tot enkele geavanceerde features uitbrengen.

IT-banen

Reacties (14)

Verwijderd 9 september 2008 16:42

Ik denk (of hoop) eigenlijk dat er niet data achter logins maar data achter zoekschermen bedoeld wordt. Dus bijvoorbeeld de vacatures van een vacaturebank die niet via een directe link maar alleen via een zoekformulier te vinden zijn. Dat soort database informatie is wel openbaar, maar wordt niet geïndexeerd door standaard zoekmachines.

En dat is heel veel informatie, zoals ook in het artikel staat.

Edit: nu ik nog 'ns kijk naar de de definitie van Deep Web: http://en.wikipedia.org/wiki/Deep_web denk ik dat zowel bovenstaande bedoeld wordt als pagina's achter CAPTCHA of login die vrij verkrijgbaar is na (gratis) registreren.

Dus niet de beveiligde pagina's van je bedrijf maar wel de resources van een registered users only forum en zo. Om de content te bekijken die je via die zoekmachine gevonden hebt zal je dan natuurlijk alsnog zelf moeten registreren, lijkt me.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 15:49]

mocean 9 september 2008 16:01

een manier gevonden te hebben om ook de pagina's te doorzoeken die achter logins verborgen zijn

Dat lijkt me vrij sterk eerlijk gezegd. Of ze moeten passwords gaan raden / hacken.

Amito @mocean • 9 september 2008 16:42

Ik zoek zelf vaak met www.c3k.net naar content op rapidshare.com. Daarbij kom ik vaak op fora's waarbij je eerst moet inloggen om het content te kunnen terwijl je dat bij de zoekresultaten wel ziet (deels). Kan zijn dat die sites niet goed beveiligd zijn, maar toch het kan dus wel m.i.

mocean @Amito • 9 september 2008 16:49

Dat zijn sites die de IP-adressen van Google (of zoekmachiens) wel toelaten. Of op basis van de User-agent toegang geven. In het artikel wordt het wel heel algemeen gesteld.

Wat ik me inderdaad kan voorstellen is dat de zoekmachine deals heeft met (wetenschappelijke) bronnen waar ze door kunnen zoeken. Maar dat is geen techniek maar gewoon een afspraak met de content leverancier.

GC-Martijn @mocean • 9 september 2008 16:14

dadelijk kunnen ze nog gewoon op alle servers kijken

en gewoon de /vol/www/ uitlezen...

edit :
hier meer informatie over een zoekmethode:
http://www.infovell.com/product_research_engine.shtml

[Reactie gewijzigd door GC-Martijn op 23 juli 2024 15:49]

CyBeRSPiN @mocean • 9 september 2008 16:18

Ik denk dat ze deals sluiten met de leveranciers van de content. Veel wetenschappelijke literatuur is niet publiekelijk toegankelijk, je hebt er abonnementen voor nodig. Mogelijk mogen ze deze content wel indexeren.

Auredium 9 september 2008 16:25

Sow, ik ruik een overname door Google.

Sylph-DS

@Auredium • 9 september 2008 16:32

Duidelijk niet. Google is een heel andere doelgroep. Al is het maar omdat Google gratis is en dit geld gaat kosten.

Siebsel @Sylph-DS • 9 september 2008 16:39

Da's onzin. Picasa en SketchUp waren ook ooit betaald (en nog een berg "Google programma's". En dat de zoekmachine voor genetische doeleinden gebruikt wordt, betekend niet dat het algoritme niet gebruikt kan worden voor andere doeleinden.

Vergeet niet dat de core-business van Google ooit (schrik niet) het doorzoeken van internet(!) was

smeaggie @Siebsel • 10 september 2008 09:47

Sterker nog: "Google's mission is to organize the world's information and make it universally accessible and useful." bron (google)

Volgens het mission statement van google zelf, voldoet het bedrijfje prima om in aanmerking te komen voor overname lijkt me.

Pozo @Sylph-DS • 9 september 2008 16:39

Na 30 jaar, in de tussentijd kan veel veranderen.

Rob Coops 9 september 2008 16:33

Ik denk niet dat ze echt de informatie acter logins kunnen doorzoeken, hoe zouden ze dat doen tenzij ze de logins van iemand krijgen kunnen ze daar niet bij.

Ik denk wat ze eigenlijk bedoelen te zeggen is dat ze een aantal logins hebben verkregen om zo ook achter de login schermen te zoeken.
Daarnaast is hun manier van doorzoeken natuurlijk voor wetenschappelijke informatie veel handiger dan bijvoorbeeld die van Google omdat ze niet kijken naar aantal links en de mogenlijkheid bieden hele documenten te gebruiken als zoek termen waardoor ze al snel heel veel relevantere resultaten zullen produceeren dan Google ooit kan doen met hun manier van zoeken.

Het is een nice markt natuurlijk, maar wel een waar veel geld zit omdat onderzoeker over het algemeen lui zijn dan wel zo veel werk hebben dat ze zich niet willen bezig houdenmet het zoeken naar publicaties op het internet, en dus als je ze iets kan bieden wat echt op hun zoek behoeften is toe gespitst dan zullen ze daar waarschijnlijk ook wel wat voor willen betalen

bigbadbull 9 september 2008 17:06

Hmm zoals ik hu pagina lees is het de registration needed pagina's dat hij ook bekijkt.
dus mijn fora bvb heeft 3 delen
1. publiek deel
2. super klein deeltje voor registred users
3. leden deel (met massas aan info) , ik moet de gebruikers zelf toegang geven hiertoe, na registratie.
Gesteld dat de security goed is zal hij dus 1 en 2 indexeren, maar aan 3 kan hij nog niet komen.

pagegeussing zit er nog niet in zoals ik onlangs las dat cuil zou doen.
maar wel kan hij ook proberen meer dan de index te lezen ook alle links proberen te doorlopen zoals een webgrabber dat doet.

leuk vind ik zo dat hij alle "opinies" weg laat. Zou wel een optie in google mogen zijn.
Als ik naar een nieuwe GSM zoek, enkel "echte" pagina's weergeven met info over dat toestel en niet 35 fora met "zever en meningen" die kunnen ook wel interresant zijn, maar soms zou ik die er graag van tussen hebben. Vandaar een optie zou wel leuk zijn.

roy-t @bigbadbull • 9 september 2008 17:13

Ik zou juist een anti verkoop zoekmachine willen, tegenwoordig als ik ergens informatie/specs over will en ik typ het product in kom ik eerst 5 pagina's niets zeggende internetwinkels bezig die nauwelijks informatie heeft.

helemaal erg is het als ik "review productX" in typ, dan kom ik nauwelijks op een site als tomshardware.com, echt ik zie alleen maar kelkoo dit etc.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (14)

Sorteer op:

Weergave: