In de Pricewatch wordt bij diverse producten al geruime tijd een blokje met 'gerelateerde producten' getoond. Sinds de introductie van de vernieuwde Pricewatch is dat blokje zelfs wat prominenter geworden, maar het aanmaken ervan was tot dusverre handwerk, waardoor het maar weinig werd toegepast.
Om wat meer dynamiek in de Pricewatch te krijgen, om het handwerk weg te nemen, omdat het natuurlijk hartstikke Web 3.0 is en omdat we het lekker vinden om met ingewikkelde algoritmes te spelen, hebben we daarom het handmatig toevoegen van verwante producten vervangen door een blok met automatisch gegenereerde 'vergelijkbare producten'.
Het bepalen van deze vergelijkbare producten gaat in twee stappen. Voor elk product wordt er gezocht naar kandidaten uit dezelfde categorie die de meest vergelijkbare prijzen en specificaties hebben. Hierbij wordt naar alle specificaties gekeken, maar er wordt wel een weging toegepast om de belangrijkste specificaties meer invloed te geven. Vervolgens wordt bekeken in hoeverre Pricewatchbezoekers zowel het product als de gevonden kandidaten bezoeken.
Mocht je dit soort techniek interessant vinden en/of zelf ook willen toepassen, dan kan ik je van harte aanbevelen om een van deze twee boeken te lezen. Het gaat namelijk net iets te ver om hier te beschrijven hoe je tekstuele data kunt omzetten naar getallen, de resulterende data kan normaliseren en de vectoren kan vergelijken met behulp van Euclidische normen en afstanden.
De kans is wel aanwezig dat er af en toe heel rare vergelijkbare producten worden gevonden - dat horen we graag. Er zijn diverse redenen dat het algoritme niet altijd de juiste resultaten zal produceren. De belangrijkste is dat de specificaties van producten niet altijd helemaal in orde zullen zijn, en met onjuiste of onvolledige invoer zal het algoritme uiteraard geen geweldige uitvoer produceren. Ook kan het zijn dat specificaties wat minder goed bruikbaar zijn; er is bijvoorbeeld geen relatie tussen de diverse laptopprocessors, waardoor een iets snellere processor uit dezelfde serie laptops als een compleet andere kan worden gezien. Uiteraard kan het algoritme zelf ook nog fouten bevatten of hier en daar nog wat schaafwerk nodig hebben.
Kortom, vertel het ons als je gekke dingen vindt.