Hoofdcategorieën
Device Settings

Opensource zoekmachine moet nieuwe NOS-site verbeteren

Door Dimitri Reijerman, vrijdag 11 december 2009 15:17, views: 16.308

De NOS lanceert aanstaande maandag zijn vernieuwde website. De nadruk in het nieuwe ontwerp ligt op het ontsluiten van meer dan vijftigduizend video- en audiofragmenten met behulp van de opensource zoekmachine Solr.

De website van de NOS is met naar eigen zeggen 6,5 miljoen unieke bezoekers in november na Nu.nl en Telegraaf.nl de derde nieuwssite van Nederland. De publieke omroep heeft de afgelopen maanden druk aan het nieuwe ontwerp gesleuteld, waarbij het mogelijk moest zijn om 'journalistieke accenten' en meer mogelijkheden voor publieksreacties in de nieuwsstroom aan te brengen, naast het makkelijker toegankelijk maken van het video- en audioarchief van de omroep. Momenteel is de vernieuwde site nog in bèta te bekijken, maar vanaf maandag moet het nieuwe ontwerp het oude vervangen.

Om alle wensen van de nieuwsredactie mogelijk te maken, heeft het zeskoppige ontwikkelteam van de NOS onder andere veel tijd gestoken in het implementeren van de opensource zoekmachine Solr. Jan-Willem Eshuis, ontwikkelaar op de afdeling Nieuwe Media van de NOS, noemt Solr een 'zeer snelle zoekmachine' met algoritmes die gelijkenissen zouden vertonen met de zoekkunsten van Google. "Bovendien hebben we nu een geheel cleane database, waardoor de relevantie van de zoekresultaten hoger is dan bij het gebruik van MySQL-databases", aldus Eshuis. Ook de invoering van tags voor elk artikel zou aan een betere vindbaarheid hebben bijgedragen.

Een tweede vernieuwing van de NOS-site is een verbetering van de videokwaliteit. Recent materiaal wordt op de nieuwe site gestreamd met 1Mbps, waar de bitrate tot nog toe 800kbps bedraagt. Het overgrote deel wordt in een flashplayer getoond. Roeland Stekelenburg, hoofd nieuwe media van de NOS, laat echter weten dat er voor evenementen als de komende Olympische Winterspelen vanwege rechtenkwesties noodgedwongen naar Silverlight teruggegrepen zal moeten worden, omdat deze techniek in drm-beveiliging voorziet.

De NOS wil ten slotte op zijn nieuwe site meer ruimte maken voor reacties van het publiek. Op de oude website kon het publiek reageren op een weblog, maar bij bepaalde nieuwsverhalen kan de redactie voortaan aangeven dat bezoekers ook daar reacties kunnen achterlaten. Ook wil de omroep vaker oproepen plaatsen om foto's en video's van nieuwsgebeurtenissen in te sturen.

Nieuwe zoekmachine op NOS.nl

Volgende 15:44 Stalker: Call of Pripyat verschijnt in februari
Vorige 14:47 ECS toont zijn eerste moederbord met H55-chipset
Advertentie

Reacties

«  1  2  »

klasse dat ze niet mainstream met google's lokale single-site search mee waggelen, gewoon lekker innovatief; goed bezig

http://lucene.apache.org/

[Reactie gewijzigd door MelodyDeluxe op vrijdag 11 december 2009 15:24]


hm zoeken op google met 'tweakers site:nos.nl' levert veel meer dan 5 hits op:

Resultaten 1 - 10 van circa 645 van nos.nl voor tweakers. (0,12 seconden)

Waarvan het grootste gedeelte berichten op het forum zijn of verwijzingen naar het echte artikel...

Ik snap je opmerking alleen niet. Niemand heeft het over een vergelijking met Google site search (wat hier ook compleet niet van toepassing is).

[Reactie gewijzigd door Bosmonster op vrijdag 11 december 2009 15:27]


Ik snap zijn opmerking wel, het gaat er om dat de zoekmachine niet alles vind. Bijvoorbeeld het recente artikel over 'website van het jaar' ontbreekt. Google is dan vaak wel een goede manier om eens te kijken hoeveel die er vind.

Maar dat zal er wel mee te maken hebben dat de site in beta is, en waarschijnlijk niet alle nieuwsberichten heeft.

[Reactie gewijzigd door Kees op vrijdag 11 december 2009 15:29]


Ik ben echt helemaal klaar met Lucene.
Tegenwoordig native TSEARCH2 support in PostgreSQL.

Kun je ook nog wat onderbouwing geven? Lucene is imho een prima product, alleen wel aardig low-level. Je zult dus je eigen library eromheen moeten bouwen, of bijv. solr gebruiken zoals ze bij de NOS doen.

[Reactie gewijzigd door NetForce1 op vrijdag 11 december 2009 15:53]


Tsearch2 werkt uitstekend en gebruik ik graag, maar zou dit toch niet willen vergelijken met Lucene/solr. Ander doel, andere oplossing.

Vooral wat goedkoper! ;)

Single site search? Lijkt me geen optie voor een bedrijf als de NOS. Die hadden dan gewoon een Google Search Appliance of - Mini gekocht.

Enig idee wat die GSA's kosten? Enig idee hoe Google aan haar geld komt om al die 'gratis' diensten te ontwikkelen?

Zeker wel; een mini kost eenmalig ca. €3000,- voor een 100.000 documenten versie.

Ook iets voor t.net? gezien de huidige search (van forum) echt brak is :X
Google geeft een beter resultaat dan 'onze eigen' search :X

[Reactie gewijzigd door himlims_ op vrijdag 11 december 2009 15:37]


alles is beter idd - ik zoek meestal via google naar topics in het forum. Dat kan je bij de NOS natuurlijk ook wel blijven doen.
Echter geeft de nos video en audio resultaten en google ook de tekst resultaten lijkt mij. En dat is dan wel weer een verschil.

Het is niet gebruiksvriendelijk om te gebruiken, maar de resultaten van Xapian zijn over het algemeen wel goed relevant.

Er zitten nog wel wat bugjes in de search, en niet alle artikelen lijken te vinden te zijn op die site. Zo is het artikel 'Tweakers van dik in de prijzen' niet terug te vinden op de nieuwe site.

Als je zoekt op iets, en je zet per ongeluk een spatie erachter, dan wordt er ook op die spatie gezocht. Verder kun je wel zoeken op 'n' (6.5k resultaten) maar 'a' geeft 0 resultaten.

Verder ziet het er beter uit ;)

Dat laatste klinkt alsof ze het default engelse stopwords filter er nog in hebben zitten.

Hierbij wordt 'a' niet als geldige zoekterm wordt gezien en de 'n' wel :+

De letters 't' en 'u' zijn ook niet zoekbaar. Misschien is de letter 'a' gewoon ook veelvoorkomend in het Nederlands. 'the' en 'to' zijn wel gewoon te zoeken, als er een Engelse woordfilter in zat zou je verwachten dat deze geblokkeerd werden.

Beetje jammer dat spaties bijvoorbeeld dan wel worden meegenomen. Ik kan mij indenken dat tegenwoordig in de meeste programmeertalen wel een vorm van de functie trim() ingebakken zit, waarbij trailing en leading whitespace verwijderd wordt.

Het is ook helemaal niet de bedoleing om zoeken op een letter te permitteren met deze algos, vaak word er gekozen om in zoon geval een warning the laten zien "too generic, type something meaningful!"

Jongens, 't is een bèta en jullie gedragen je alsof de NOS het tegen Google trachten op te nemen. 8)7 't Is zeker een hele vooruitgang voor de NOS. Heldere opzet op deze manier.

Ik vind het nieuwe design er sowieso beter en helderder uitzien. Zeker een vooruitgang.

Ik wacht nog steeds op de NOS mobiel applicatie voor S60v5

De NOS is qua ICT rondom hun omroep zeeeer goed bezig. Ik hoop dat andere zender dit gaan volgen. Zo kan misschien ook heel het web uitzending gemist naar een hogere kwaliteit getrokken worden.

Uitzendinggemist wordt momenteel links en rechts ingehaald door de varianten van de commerciëlen. Als iets vernieuwd moet worden dan is dat het gedrocht Uitzendinggemist wel. De zoekfunctie daar is Frustratie gegarandeerd.

Zeer mee eens. Een tijd terug wilde ik naar de uitzending over 60 jaar China zoeken en kwam hier eigenlijk alleen maar bij doordat ik door Google gelinkt werd naar een artikel op de NOS site, die weer naar Uitzending gemist linkte.

Daarnaast komt het ook nog wel eens voor dat programma's er dubbel opstaan wanneer er bijvoorbeeld een seizoen gestopt is bij dit programma. Dat soort problemen vind ik dan persoonlijk erg slordig overkomen.

Ook mag de videokwaliteit wel omhoog naar een 1,5mbit per seconde vind ik, aangezien RTL daar bijvoorbeeld al mee voorloopt.

Roeland Stekelenburg, hoofd nieuwe media van de NOS, laat echter weten dat er voor evenementen als de komende Olympische Winterspelen vanwege rechtenkwesties noodgedwongen naar Silverlight teruggegrepen zal moeten worden, omdat deze techniek in drm-beveiliging voorziet.
Is er nou nog steeds geen enkele open(source) oplossing voor het aanbieden van multimedia mét drm? Hoe is het met het initiatief van Sony en Philips? W3C heeft hier wel ooit over gepraat, maar is er ook wat uitgekomen? En hoe zit het met wat nieuwe initiatieven van Sony en Project DReaM?

[Reactie gewijzigd door s463042 op vrijdag 11 december 2009 16:46]


"Bovendien hebben we nu een geheel cleane database, waardoor de relevantie van de zoekresultaten hoger is dan bij het gebruik van MySQL-databases", aldus Eshuis.
Dit snap ik niet echt. Wat heeft de relevantie van de zoekresultaten te maken met de onderliggende database?

Die zin raakt inderdaad kant nog wal, maar ik denk dat ze bedoelen dat de structuur van de nieuwe database veel beter geschikt is voor goede zoekacties en daardoor betere resultaten levert.

Eshuis is duidelijk een IT manager en geen uitvoerder... Die zouden dit niet over hun lippen kunnen krijgen...

Of hij is juist een manager die de werking van solr (en andere fulltext SE) begrijpt.
Die SEs hebben namelijk altijd alleen maar over relevantie, weight e.d. van zoekresultaten.

Dat werkt veel beter dan enkel op woord te zoeken, zoals bij normale databases.

Ik vermoed dat hij verwijst naar fulltext search in MySQL. Dat is nogal beperkt en dus kun je daar geen fatsoenlijke resultaten mee behalen. Er valt bij mijn weten al niets aan te configureren, je kunt het dan ook niet optimaliseren voor bv. nederlandse tekst.

Lucene is dan inderdaad wel een factor 1000 beter.

Je kunt in MySQL wel een stopwoordenlijst uit een andere taal gebruiken, maar configurabel is het inderdaad niet.

Zelf ben ik ook gecharmeerd van Sphinx search. Net even wat minder low-level dan Lucene, waardoor je het relatief snel in een site ingebouwd hebt. En de meeste dingen die je nodig hebt in een zoekindex zitten er standaard in tegen een meer dan acceptabele snelheid.

Xapian vind ik i.v.m. sphinx wel betere resultaten geven. Maar dat komt omdat je bij xapian kan aangeven welke onderdelen belangrijker zijn bij de weging.

Sphinx is wel duizendkeer makkelijker te gebruiken. Bij xapian zoek je het maar zelf uit. Nuttige documentaties en voorbeelden zijn er niet (de voorbeelden die ze mee gaven zijn ook nog eens verouderd).

ik zelf heb ook een grote Solr index opgezet met miljoenen records bij een groot persbureau, en ik moet zeggen dat ik echt onder de indruk ben van Solr. Hier kan geen Google Search Appliance tegenop!
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 15:44 Stalker: Call of Pripyat verschijnt in februari
Vorige 14:47 ECS toont zijn eerste moederbord met H55-chipset
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011