Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 14 reacties

Onderzoekers die voorheen verbonden waren aan het Human Genome Project, hebben een zoekmachine ontwikkeld op basis van technieken die voor genetisch onderzoek zijn gebruikt. Hiermee zou ook het 'diepe web' doorzocht kunnen worden.

Het zogenoemde diepe web - de verzameling webpagina's die voor gewone zoekmachines niet toegankelijk is - vormt het leeuwendeel van internet. Volgens een onderzoek van de universiteit van Californië zouden traditionele zoekmachines zelfs maar een schamele 0,2 procent van het totale web indexeren. De onderzoekers die de zoekmachine ontwikkelden, zeggen echter een manier gevonden te hebben om ook de pagina's te doorzoeken die achter logins verborgen zijn, net als sites die zelden bezocht of bijgewerkt worden. Het door hen opgerichte bedrijf Infovell demonstreerde de engine tijdens de Demofall08-bijeenkomst, die van 7 tot 9 september in San Diego wordt gehouden.

Infovell logoDe zoektechnologie van Infovell wordt 'Keyphrase' genoemd. Hiermee is het mogelijk om niet alleen woorden, zinnen en paragrafen als zoekterm op te geven, maar ook bijvoorbeeld wiskundige of scheikundige formules. Ook kunnen complete documenten of zelfs meerdere documenten als zoekterm gebruikt worden, waarbij de grens op een query van 25.000 woorden ligt. Omdat de zoektechnologie is ontwikkeld op basis van methodes om databases met genetische code te doorzoeken, doet het er niet toe in welke taal gezocht wordt en ook vreemde karakters mogen worden gebruikt.

De zoekmachine is voornamelijk bedoeld voor onderzoekers die research willen doen. Infovell heeft dan ook toegang tot wetenschappelijke publicaties en andere gespecialiseerde bronnen. De zoekmachine kan dertig dagen lang gratis geprobeerd worden. Later dit jaar zou Infovell een openbare bčta zonder toegang tot enkele geavanceerde features uitbrengen.

Moderatie-faq Wijzig weergave

Reacties (14)

Ik denk (of hoop) eigenlijk dat er niet data achter logins maar data achter zoekschermen bedoeld wordt. Dus bijvoorbeeld de vacatures van een vacaturebank die niet via een directe link maar alleen via een zoekformulier te vinden zijn. Dat soort database informatie is wel openbaar, maar wordt niet geďndexeerd door standaard zoekmachines.

En dat is heel veel informatie, zoals ook in het artikel staat.

Edit: nu ik nog 'ns kijk naar de de definitie van Deep Web: http://en.wikipedia.org/wiki/Deep_web denk ik dat zowel bovenstaande bedoeld wordt als pagina's achter CAPTCHA of login die vrij verkrijgbaar is na (gratis) registreren.

Dus niet de beveiligde pagina's van je bedrijf maar wel de resources van een registered users only forum en zo. Om de content te bekijken die je via die zoekmachine gevonden hebt zal je dan natuurlijk alsnog zelf moeten registreren, lijkt me.

[Reactie gewijzigd door lapalazala op 9 september 2008 16:56]

een manier gevonden te hebben om ook de pagina's te doorzoeken die achter logins verborgen zijn
Dat lijkt me vrij sterk eerlijk gezegd. Of ze moeten passwords gaan raden / hacken.
Ik zoek zelf vaak met www.c3k.net naar content op rapidshare.com. Daarbij kom ik vaak op fora's waarbij je eerst moet inloggen om het content te kunnen terwijl je dat bij de zoekresultaten wel ziet (deels). Kan zijn dat die sites niet goed beveiligd zijn, maar toch het kan dus wel m.i.
Dat zijn sites die de IP-adressen van Google (of zoekmachiens) wel toelaten. Of op basis van de User-agent toegang geven. In het artikel wordt het wel heel algemeen gesteld.

Wat ik me inderdaad kan voorstellen is dat de zoekmachine deals heeft met (wetenschappelijke) bronnen waar ze door kunnen zoeken. Maar dat is geen techniek maar gewoon een afspraak met de content leverancier.
dadelijk kunnen ze nog gewoon op alle servers kijken :S en gewoon de /vol/www/ uitlezen...

edit :
hier meer informatie over een zoekmethode:
http://www.infovell.com/product_research_engine.shtml

[Reactie gewijzigd door GC-Martijn op 9 september 2008 16:24]

Ik denk dat ze deals sluiten met de leveranciers van de content. Veel wetenschappelijke literatuur is niet publiekelijk toegankelijk, je hebt er abonnementen voor nodig. Mogelijk mogen ze deze content wel indexeren.
Sow, ik ruik een overname door Google.
Duidelijk niet. Google is een heel andere doelgroep. Al is het maar omdat Google gratis is en dit geld gaat kosten.
Da's onzin. Picasa en SketchUp waren ook ooit betaald (en nog een berg "Google programma's". En dat de zoekmachine voor genetische doeleinden gebruikt wordt, betekend niet dat het algoritme niet gebruikt kan worden voor andere doeleinden.

Vergeet niet dat de core-business van Google ooit (schrik niet) het doorzoeken van internet(!) was ;)
Sterker nog: "Google's mission is to organize the world's information and make it universally accessible and useful." bron (google)

Volgens het mission statement van google zelf, voldoet het bedrijfje prima om in aanmerking te komen voor overname lijkt me.
Na 30 jaar, in de tussentijd kan veel veranderen.
Ik denk niet dat ze echt de informatie acter logins kunnen doorzoeken, hoe zouden ze dat doen tenzij ze de logins van iemand krijgen kunnen ze daar niet bij.

Ik denk wat ze eigenlijk bedoelen te zeggen is dat ze een aantal logins hebben verkregen om zo ook achter de login schermen te zoeken.
Daarnaast is hun manier van doorzoeken natuurlijk voor wetenschappelijke informatie veel handiger dan bijvoorbeeld die van Google omdat ze niet kijken naar aantal links en de mogenlijkheid bieden hele documenten te gebruiken als zoek termen waardoor ze al snel heel veel relevantere resultaten zullen produceeren dan Google ooit kan doen met hun manier van zoeken.

Het is een nice markt natuurlijk, maar wel een waar veel geld zit omdat onderzoeker over het algemeen lui zijn dan wel zo veel werk hebben dat ze zich niet willen bezig houdenmet het zoeken naar publicaties op het internet, en dus als je ze iets kan bieden wat echt op hun zoek behoeften is toe gespitst dan zullen ze daar waarschijnlijk ook wel wat voor willen betalen :)
Hmm zoals ik hu pagina lees is het de registration needed pagina's dat hij ook bekijkt.
dus mijn fora bvb heeft 3 delen
1. publiek deel
2. super klein deeltje voor registred users
3. leden deel (met massas aan info) , ik moet de gebruikers zelf toegang geven hiertoe, na registratie.
Gesteld dat de security goed is zal hij dus 1 en 2 indexeren, maar aan 3 kan hij nog niet komen.

pagegeussing zit er nog niet in zoals ik onlangs las dat cuil zou doen.
maar wel kan hij ook proberen meer dan de index te lezen ook alle links proberen te doorlopen zoals een webgrabber dat doet.

leuk vind ik zo dat hij alle "opinies" weg laat. Zou wel een optie in google mogen zijn.
Als ik naar een nieuwe GSM zoek, enkel "echte" pagina's weergeven met info over dat toestel en niet 35 fora met "zever en meningen" die kunnen ook wel interresant zijn, maar soms zou ik die er graag van tussen hebben. Vandaar een optie zou wel leuk zijn.
Ik zou juist een anti verkoop zoekmachine willen, tegenwoordig als ik ergens informatie/specs over will en ik typ het product in kom ik eerst 5 pagina's niets zeggende internetwinkels bezig die nauwelijks informatie heeft.

helemaal erg is het als ik "review productX" in typ, dan kom ik nauwelijks op een site als tomshardware.com, echt ik zie alleen maar kelkoo dit etc.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True