Software Architect

Feedback • 16-11-2012 14:00 127

Tweakers 7: waarom een eigen Java-back-end?

16-11-2012 • 14:00

Multipage-opmaak

Inleiding

Op 20 februari 2009 introduceerden we een snellere Pricewatch-engine, wat leidde tot aanzienlijke prestatieverbeteringen voor de overzichten van producten binnen een categorie. Dat was bij de introductie overigens ook de enige functie ervan. De nieuwe omgeving was in de vorm van een Java Servlet opgezet en werd via get-requests uitgelezen, vergelijkbaar met REST.

Naast en door die prestatieverbeteringen werd het ook mogelijk om de functionaliteit van de Pricewatch verder uit te breiden. Zo werden de intervallen bij de prijsfiltering gebruiksvriendelijker gemaakt en werd met Pricewatch 3.0 ook de zoekmachine voor producten erin overgebracht. Daarnaast kwamen toen ook de mooiere 'productspecificatiesamenvattingen' onder de productnaam en kwamen er 'berekende specificaties', zoals x euro per gigabyte bij harde schijven. Voor die laatste twee hebben we zelfs een dsl geïntroduceerd, zodat het beheer ervan bij onze contentmedewerkers kan blijven en niet door developers gedaan hoeft te worden.

Pricewatch-engine uitgebreid tot algemene engine

Tijdens het ontwerpen van Tweakers 7.0 werd besloten dat we de presentatie van lijsten zoals die van de Pricewatch overal zouden gaan doorvoeren. Alle lijsten, bijvoorbeeld van nieuws, reviews en video's, moesten voorzien worden van facetten en filters met de van de Pricewatch bekende, dynamische filteropties. Daarnaast wilden we graag de facetten uitbreiden met een indicatie van hoeveel resultaten eraan voldoen, zodat je als gebruiker minder hoeft te gokken. Bovendien moesten deze facetten hiërarchisch werken; als een redacteur het 'Crucial m4'-product koppelt aan zijn artikel, dan moeten bij de facetten ook het merk Crucial en de ssd-categorie getoond worden. En omgekeerd, als iemand het facet Crucial of ssd-categorie kiest, moet dat artikel er ook bij staan.

De techniek voor het samenstellen en afleiden van de facetten zat op dat moment uiteraard al in die Pricewatch-engine. Ook alle informatie voor die hiërarchische afleiding van facetten aan de hand van gekozen producten was daarin al voorhanden. Daarom kozen we er destijds voor om diezelfde aanpak, front-end in php en data/filter-back-end in Java, uit te breiden voor alle soorten informatie die we op een vergelijkbare manier wilden presenteren. Op enkele uitzonderingen na komt al onze content nu uit die engine. De meeste detailpagina's van artikelen en producten halen hun gegevens eruit, de meeste lijstjes van artikelen en producten komen ervandaan, zoekopdrachten worden erdoor uitgevoerd, enzovoort.

De engine faciliteert ook de directe en indirecte relaties tussen artikelen en onderwerpen. Als een redacteur een artikel bijvoorbeeld aan de Raptor-serie koppelt, dan weet de engine dat het ook over het merk Western Digital gaat.

Tweakbase hierarchy en relaties

Op het moment van schrijven is het Forum de belangrijkste uitzondering, maar ook die gaan we, in ieder geval gedeeltelijk, omzetten naar de nieuwe structuur. Dat heeft echter nogal wat voeten in aarde, waardoor we die stap niet gelijk hebben gemaakt. We wilden de introductie van Tweakers 7 niet ook daar nog van laten afhangen.

De keus om alles in een eigen Java-applicatie te bouwen leverde ons bij elke aankondiging weer nieuwe vragen op. Ook bij het artikel over Java-geheugengebruik werd er weer over gediscussieerd. Met dit artikel proberen we wat antwoorden op die vragen te geven.

Hoe werkt die engine dan?

Zonder dat je weet wat het doel van de engine is, is het uiteraard niet mogelijk om alternatieven te bespreken. Het beschrijven van alle details, performancetrucjes en algoritmes zou dit artikel veel te lang maken, maar hier volgt een samenvatting.

Doel van onze engine

In de praktijk ondersteunt de engine veel van de pagina's in Tweakers 7. Zo wordt de categorieboom die je op de portal van de Pricewatch ziet staan op veel pagina's intern gebruikt. Het gaat dus niet alleen om gegevens die uiteindelijk voor gebruikers zichtbaar worden. In algemene zin geldt dat de engine vooral gebruikt wordt voor het teruggeven van 'item'-lijstjes volgens specifieke criteria, sortering en paginering. Items zijn in deze context bijvoorbeeld onze nieuwsartikelen, reviews, producten of merken. Daarnaast kan de engine informatie afleiden van de in ram opgeslagen items, en daar nieuwe lijstjes en samenvattingen van teruggeven.

Zo'n lijstje kan ook slechts één item bevatten, zodat het gebruikt kan worden voor een detailpagina van een artikel, bijvoorbeeld de pagina die je nu leest. Een lijstje items is echter vaker een zoekopdracht die al dan niet binnen een specifieke context moet plaatsvinden. Denk aan een zoekopdracht voor alle V&A-advertenties met de tekst 'Asus' in de tabletcategorie, waarbij de vraagprijs lager dan 400 euro is. Andere voorbeelden zijn op veel plaatsen te vinden, zoals de nieuwsberichten, reviews, V&A-advertenties en producten. Ook de lijstjes producten en gerelateerde artikelen naast een nieuwsbericht zijn voorbeelden.

Veel pagina's worden opgebouwd uit verschillende engine calls, per lijstje een. Op het moment van schrijven werden er op de reviewportal 11 engine calls gedaan, op de V&A-portal 5 en op de hierboven gelinkte productentab 2. Ook op de pagina die je nu voor je ziet, werden diverse calls gedaan. Onder andere voor het ophalen van het artikel zelf, de categorieboom, de gerelateerde onderwerpen en de gerelateerde artikelen.

In de afbeelding hieronder zie je waar de engine calls op de reviewportal worden gedaan. Iedere aanroep levert genoeg informatie op voor de php-code om zich vooral op de weergave te kunnen richten.

Enginecalls voor de review-portal

Naast lijstjes van items worden ook stukken afgeleide informatie verzameld en teruggegeven. De afgeleide informatie is bijvoorbeeld de informatie die nodig is om te bepalen welke categorieën we moeten tonen in een 'categoriekiezer'. Je wilt tenslotte niet dat er in de V&A-categoriekiezer een categorie wordt getoond die geen advertenties bevat. Ook de populaire onderwerpen onder aan de pagina zijn een vorm van die afgeleide informatie.

Opzet van de engine

De engine is effectief een in-memory objectdatabase die specifiek ontwikkeld is om (veel van) de informatie die je op Tweakers tegenkomt te filteren, sorteren en klaarstomen voor presentatie en om facetten van de resultaten te onttrekken. Bij die informatie horen ook de relaties tussen artikelen onderling en met de tweakbase-entiteiten zoals Categorie, Merk, Serie en Tag.

De engine doet al dat werk zo veel mogelijk op een manier die aansluit bij wat de php-code verwacht en hoe de desbetreffende lijstjes werken. Het is overigens niet de bedoeling dat de engine zich bezighoudt met de presentatie van informatie; dat laten we zo veel mogelijk over aan de php-code.

De informatie op Tweakers is in diverse databronnen opgeslagen. De meeste data zit uiteindelijk in MySQL, de informatie van je bezoekerssessie zit in MongoDB en de multimediabestanden staan op de harde schijf. Om die data efficiënt te kunnen gebruiken wordt sommige informatie in Memcached gecached of wordt bij het opslaan gebruikgemaakt van een Message Queue via ActiveMQ.

Tweakers services schema

Daarnaast speelt onze engine uiteraard een belangrijke rol bij het efficiënt ophalen en verwerken van gegevens. Uiteindelijk haalt de engine die gegevens echter weer domweg uit MySQL en bewaart hij een kopie van die data in 'native' Java-objecten in zijn ram-geheugen. De engine draait als een Servlet binnen Tomcat; het toeval wil dat we met de overstap naar Tweakers 7 ook overgingen op Java 7 en Tomcat 7

De engines houden die data synchroon met wat er in MySQL staat. Dit doen ze zowel door zelf periodiek, bijvoorbeeld elke vijf minuten, de gegevens te verversen én door te 'luisteren' op verschillende JMS-Topics in ActiveMQ. Bij wijzigingen worden daar dan vanuit php berichten naartoe gestuurd, zodat het voor de php-code niet nodig is om te weten hoeveel engines er draaien en of die wel of niet geïnteresseerd zijn in informatie over de specifieke wijziging.

We draaien momenteel namelijk zes instanties, op iedere webserver een, zodat de communicatie daarmee lekker snel verloopt, met het tcp-verkeer over lokale netwerkpoorten. Dat zou zonder die JMS-Topics echter ook betekenen dat de php-code dan naar zes instanties moet verbinden om te melden dat er wat veranderd is. ActiveMQ kan dat een stuk efficiënter en zorgt ervoor dat de php-code kan doorgaan ten behoeve van de bezoeker die op dat moment zit te wachten.

Een pageview komt uiteraard binnen op een van onze loadbalancers. Wordt daarna meestal doorgestuurd naar een Varnish reverse proxy en die stuurt hem dan, als hij niet in zijn eigen cache zit, door naar Apache. De php-code die binnen Apache de request afhandelt, vergaart vervolgens alle benodigde gegevens uit MongoDB, Memcached, MySQL en de engine, en genereert daarmee de html die, via Varnish en de loadbalancer, wordt teruggestuurd naar je browser.

Tweakers NewRelic service map

Sinds de introductie van Tweakers 7 doen we voor alle pageviews samen gemiddeld 4,8 queries per pageview op onze databases (zowel MySQL en MongoDB), 3,8 queries op Memcached en 3,9 engine calls. De meeste van die 4,8 queries gaan naar MongoDB om je sessie-informatie op te halen en bij te werken. Memcached wordt veel gebruikt voor eenvoudige stukjes informatie, zoals het aantal reacties op een artikel, en de engine uiteindelijk voor de belangrijkste stukken informatie op een pagina.

Een engine call is domweg een REST-operatie (nou ja, we doen alleen http get) met diverse parameters om aan te geven op welke manier de gegevens moeten worden opgezocht, gefilterd, gesorteerd en gepagineerd. Om het werk van de engine zo efficiënt mogelijk te doen wordt de lijst met mogelijke artikelen gesorteerd bewaard, vertaald in bitsets en alleen opnieuw gesorteerd als sortering relevant was en/of anders dan de standaardsortering. De engine handelt voor de meeste calls deze stappen af:

vertaal get-parameters in een filtersettings-object;
bepaal basisbitset voor de objecten, bijvoorbeeld een zoekopdracht, alle producten in een categorie of alle objecten uit een lijstje met id's;
pas overige filtering/facetten toe, bijvoorbeeld alleen producten onder de 400 euro en van het merk Scythe;
indien nodig, verzamel beschikbare facetten en aantallen per filter met in achtneming van and- of or-instructie;
sorteer het resultaat voor als niet de standaardsortering gebruikt moet worden;
pagineer het resultaat voor zover nodig;
vertaal Java-objecten in php-serialized of php's igbinary encoding;
verstuur het resultaat naar de php-kant.

De stappen 2, 3 en eventueel 4 zijn dingen die je misschien van Lucene of Solr herkent. De werking is ook vergelijkbaar, met dien verstande dat onze aanpak uiteraard specifiek voor Tweakers is geschreven. Bovendien worden onze objecten niet in 'documenten' vertaald, wat een reeks vertaalslagen tussen allerlei stukken geheugen bespaart.

Doordat de stappen 1 tot en met 6 doorgaans snel klaar zijn, zit in de praktijk de meeste tijd in de stappen 7 en 8. Voor veel requests loopt dat op tot 90% van de tijd. Gelukkig kunnen we die tijden nog steeds in enkele milliseconden uitdrukken, maar het genereren van alle binaire of tekstuele output om de serialized representatie van php-objecten te genereren is helaas niet gratis. De alternatieven zijn echter niet beter; het is in de praktijk veel sneller dan bijvoorbeeld het generen van xml en nauwelijks trager dan er Json of vergelijkbare compacte datarepresentaties van te maken. Bovendien is het aan de php-zijde terugvertalen van xml, Json of andere opties een stuk duurder dan domweg unserialize aan te kunnen roepen. In de praktijk bleek dat we beter een beetje meer werk aan de Java-zijde konden doen dan php opzadelen met een complexe vertaalslag.

Waarom niet oplossing X?

De belangrijkste vraag die we krijgen, is waarom we eigenlijk de moeite hebben genomen een eigen omgeving te schrijven. Er worden daarbij allerlei moderne platforms genoemd, maar er wordt vergeten dat toen we met dit project begonnen het landschap van complexe zoekplatforms er heel anders uitzag.

Dat kan toch gewoon in SQL?

Een van de eerste vragen is iets in de geest van: "Dat kan toch gewoon in SQL?" Het korte antwoord is: "Volgens ons niet." Het uitvoeren van de filtering op zichzelf (prijs > 100 euro en < 1000 euro, enzovoort) bestaat in de basis uit set-operaties en is daarmee perfect naar SQL-statements te vertalen. De hoeveelheid gegevens waar het om gaat en de aantallen facetten waarmee het moet werken zijn echter niet erg geschikt voor SQL.

Je kan uiteraard werken met temporary tables voor het opslaan van tussenresultaten, maar uiteindelijk gaat de complexiteit van de statements ten koste van de performance. Bovendien was MySQL 5.1 in die tijd net uit, wat betekent dat we nog op 5.0 draaiden en die stond niet bekend om zijn performance met complexe queries en queries met subqueries. Met zaken als de parent-childrelaties van categorieën en 'natural order'-sortering wordt het allemaal nog spannender.

Waarom geen Solr of ElasticSearch?

Twee veel genoemde platforms zijn Solr en ElasticSearch. In februari 2009 was Solr 1.3 echter nog maar net uit en ElasticSearch lijkt pas voor het eerst publiekelijk te zijn aangekondigd in februari 2010. Ook andere moderne 'NoSQL'-omgevingen stonden toen in hun kinderschoenen of waren nog niet publiekelijk aangekondigd. Bovendien geldt voor een omgeving die is aangekondigd nog niet dat wij die ook kennen

Ook toen we konden kiezen tussen uitbreiding van onze eigen omgeving voor de Pricewatch naar een generiek platform of het compleet vervangen ervan door een 'off-the-shelf'-product, kozen we voor het eerste. Tegen die tijd hadden we allerlei features ingebouwd waarvan we geen praktisch equivalent zagen in, met name, Solr.

Nadelen van het documentmodel

Behalve dat ze functionaliteit missen, zijn de meeste NoSQL-omgevingen en zoekmachines volgens het document-storage-model opgebouwd. Dat betekent dat alle informatie gedenormaliseerd opgeslagen wordt, alle informatie die relevant is voor een document wordt bij dat document opgeslagen. En het is doorgaans ook niet mogelijk of eenvoudig om informatie uit andere of andere typen documenten erbij te betrekken.

In het schema hieronder zie je een nieuwsbericht met een aantal van de relaties in een eenvoudige object graph en een vergelijkbaar gedenormaliseerd document. Hierbij zijn de losse documenten voor de producten, serie, merken en categorieën nog weggelaten. In de praktijk kan er natuurlijk ook gekozen worden om niet de namen te kopiëren, maar om die via een nieuwe document-look-up los op te halen.

Objectmodel vs Documentmodel

Dat maakt het opzoeken van documenten eenvoudig; alle relevante informatie is tenslotte direct voorhanden. Zodra er echter iets bijgewerkt moet worden, is dat een ander verhaal. Dan moet je alle plekken waar die informatie gekopieerd was ook aanpassen. Als bijvoorbeeld de categorie Games een nieuwe naam krijgt, zouden alle producten, nieuwsberichten en reviews aangepast moeten worden om die nieuwe naam actief te krijgen. In het objectmodel hoeft alleen dat ene object aangepast te worden.

Daarnaast betekent het documentmodel bij Solr, ElasticSearch en andere dat je, als er ook maar één elementje verandert, het hele document opnieuw moet opbouwen, de oude elementen moet verwijderen en de nieuwe moet invoegen. En dat kan een nieuwe reeks pijnpunten opleveren.

In ons geval is de sortering op populariteit een goed voorbeeld. Om op populariteit te kunnen sorteren moet er ergens een cijfertje bestaan dat aangeeft hoe populair een item is. Bij het documentmodel moet dat in het document opgeslagen zijn, maar de informatie over de populariteit verandert uiteraard doorlopend. In onze SQL-database werken we die informatie elke tien minuten bij en daar is het dan een eenvoudig update-statement per tabel dat slechts één kolom hoeft aan te passen. In onze engine is het ook simpelweg voldoende om van alle relevante objecten één veld aan te passen en de waarde van een integerveld aanpassen is zo'n beetje het snelste wat er is in een computer.

Bij Solr zou je alle documenten opnieuw moeten indexeren, alleen maar om de populariteitsindicatie bij te werken. Met meer dan 500.000 documenten is dat iets wat je graag voorkomt, want het zou minuten kosten.

Waarom niet oplossing X?

Het komt erop neer dat veel off the shelf-alternatieven uiteindelijk niet (automatisch) beter zijn. Ze leveren zelfs niet per se minder werk op. Als we met Solr of ElasticSearch aan de slag hadden gewild, hadden we alsnog een groot deel zelf moeten programmeren, maar dan in de vorm van 'custom search components', 'custom analyzers' en al dat soort aspecten. Hoewel we nu veel in een Java-laag hebben, zouden we het dan wellicht meer in onze php-code hebben verwerkt. Is zo'n oplossing dan beter of slechter? Dat kun je niet zomaar zeggen; het is vooral anders. Er zijn in elk geval nieuwe voor- en nadelen, waardoor het niet domweg als verbetering kan worden gezien.

Daarnaast betekent het feit dat iemand nu aan oplossing X denkt niet dat wij die oplossing destijds ook kenden. Sterker, veel van dergelijke oplossingen bestonden nog niet toen wij met de eerste versie van de engine begonnen en waren gedurende de tijd van Tweakers 7 nog niet bekend of compleet. Verder geldt voor bijna al het niet-maatwerk dat je alsnog een deel maatwerk moet ontwikkelen. Is het niet om een en ander met elkaar samen te laten werken, dan is het wel omdat we alsnog specifieke eisen moeten invullen. De techniek moet immers het vervullen van de wensen zo min mogelijk in de weg staan.

Waarom in Java?

Behalve over onze keuze voor een oplossing, krijgen we ook vragen over het gekozen platform. We hebben gekozen voor een Servlet in Java. In 2008 was dat een prima en gebruikelijke oplossing om een REST-achtige omgeving op te zetten en wat ons betreft is het dat nog steeds. Uiteraard zijn er allerlei andere platforms en talen waarin hetzelfde had gekund, maar is dat ook beter of alleen anders?

Waarom niet gewoon in php zelf?

Zoals gezegd waren we in 2008 begonnen met de engine voor de Pricewatch. Destijds was ons duidelijk dat de php-code niet overweg kon met de hoeveelheid data die nodig was om een uitgebreide categorielisting te filteren, sorteren en samen met zijn facetten te presenteren. Het belangrijkste probleem zat hem in de complexiteit van die stappen samen; daardoor leek een pure SQL-oplossing onhaalbaar.

Met de eerste versie van de Pricewatch, met los instelbare specificaties per product, werd ons duidelijk dat de php-code behoorlijk wat gegevens moest ophalen. Die gegevens werden uit de database opgehaald en vertaald naar objecten, en dat kostte veel tijd. Om die tijd te besparen werden de objecten in Memcached opgeslagen. Ook het opslaan van objectbomen in Memcached bracht echter problemen met zich mee; veel van die data was namelijk groter dan 2MB, meer dan de maximale bucketgrootte van Memcached. Bovendien werd de objectboom, na unserialization, in php alsnog enorm. We zaten makkelijk over de 70MB aan ram-gebruik voor een paar duizend producten en dan hadden we nog niets gefilterd of gesorteerd.

Tweakers Pricewatch Engine prestatiewinst bij Laptops

Al met al kostten dergelijke handelingen na veelvuldig tunen nog altijd vaak meer dan een seconde, veel te lang voor onze eisen. Wij streven ernaar om de volledige pagina binnen 0,1 seconde te genereren!

Kortom, php viel af. Het belangrijkste knelpunt was dat er geen praktische manier was om de gegevens die uit de database of Memcached kwamen in ram vast te houden. Uiteindelijk bleek de Java-versie van diezelfde code zo veel sneller dat die inclusief de benodigde http-communicatie nog altijd veel minder tijd nodig had.

Waarom niet in taal X, die is toch veel beter dan Java?

Java is niet alleen een taal, het is een platform met diverse handige mogelijkheden. Zo is Tomcat een uitstekende Java Servlet-engine, terwijl de Servlet-technologie erg geschikt is voor onze toepassing. Daarnaast brengt de keuze voor Java een grote hoeveelheid bibliotheken met zich mee, zoals Lucene, Antlr, BCEL en Spring. Wat de taalkeuze op zich betreft komen we bovendien terug op de vraag die we ook stelden bij alternatieve oplossingen en databases: was het er al in 2008? En als het er al was, was het destijds net zo bekend en uitgebreid als het nu is? Kortom: was het in 2008 ook een goed alternatief?

Veel alternatieven beloven een betere productiviteit dan Java, maar als je het gebruik van een goede IDE meerekent, zijn de productiviteitsvoordelen van het alternatieve platform dan nog relevant? Een groot deel van het typewerk dat je in Java meer moet doen dan in andere platforms op de JVM valt immers weg door allerlei gradaties van autocompletion, code generation en short-keys. Denk daarbij aan het automatisch genereren van getters en setters, en het automatisch plaatsen van import-statements op het moment dat je het voorstel van de autocompletion accepteert.

Een ander sterk punt dat vaak genoemd wordt, bijvoorbeeld bij NodeJS en Scala, is de eenvoudige schaalbaarheid doordat allerlei werk asynchroon wordt gedaan. Dat levert echter vooral horizontale schaalbaarheid op, terwijl ook met de verticale schaalbaarheid rekening gehouden moet worden. Anders gezegd: als het alternatief wel meer requests tegelijk aankan (hogere concurrency), maar de performance vervolgens per stuk langzamer is (hogere latency en/of lagere througput) is het voor ons nog steeds geen goede oplossing.

Ironisch genoeg hadden we bij de introductie van Tweakers 7 inderdaad een schaalbaarheidsprobleem, dat echter niet door Tomcat 7 of Java kwam. We openden zo veel tcp-sockets naar de interne REST-service dat we uiteindelijk over de standaardgrens gingen van het aantal adressen dat Linux kan alloceren. Onze php-code noch onze Tomcat was dus de bottleneck en een asynchrone omgeving had hier geen winst opgeleverd.

Wat ons betreft was Java destijds een prima keus. Sterker, als we nu opnieuw moesten beginnen zou Java alsnog veel kans maken. We hebben nu eenmaal Java-kennis in huis en het is een uitgebreid platform met een scala aan bibliotheken en tools. Denk bijvoorbeeld aan de uitgebreide ide's en profilers die voor Java bestaan. Zijn er vergelijkbare tools voor de alternatieve platforms?

Nog een laatste punt: kan het alternatieve platform overweg met een paar gigabyte aan gegevens in ram? En als je dat op je platform hebt gestart, blijft het dan ook maandenlang stabiel draaien? Dat is namelijk wel onze ervaring met de Java-omgeving die we binnen Tomcat hebben draaien

De engine in de toekomst

Onze site, code en engine kunnen altijd beter. De belangrijkste toepassing die nog niet gerealiseerd was bij de release van Tweakers 7, was de integratie van het forum. We willen namelijk dezelfde techniek gaan gebruiken om lijstjes forumtopics te kunnen presenteren, bijvoorbeeld als tab binnen een merkpagina. Die toont dan alle forumtopics die gekoppeld zijn aan het merk Kingston of producten van dat merk. Bovendien moet de zoektechniek die we voor veel andere onderdelen van de site hebben geïntroduceerd ook voor het forum gebruikt gaan worden. Omdat het hier gaat over tientallen gigabytes aan informatie, hebben we dit niet gelijk geprobeerd te integreren.

Dbadmin disk-grootte voor Topics en Messages

Op deze manier konden we eerst de basisideeën van de techniek goed in de praktijk testen. Bovendien zou het integreren van die functionaliteit onze overstapdatum weer weken of zelfs maanden uitgesteld hebben. Het is natuurlijk jammer voor degenen die al heel lang wachten op een betere zoekmachine in het forum, maar hij is eindelijk in ontwikkeling. Op het moment van schrijven is er zelfs al een goed werkende opzet, die we nu verder uitwerken

Daarnaast is het de bedoeling dat je de forumtopics ook bij de algemene zoekresultaten gaat vinden. Ook dit is geen triviale uitbreiding; dus ga er maar vanuit dat we de nieuwe forumzoekmachine eerst in gebruik nemen en dat we de geïntegreerde zoekfunctie pas in een latere iteratie uitbreiden.

Verder zullen we natuurlijk nog kijken naar andere onderdelen van de site die hier nog niet in opgenomen zijn en daar wel baat bij hebben. Momenteel vallen onder andere de Meuktracker, onze banensectie en wat andere kleinere delen nog (deels) buiten de boot. Ook die stonden eerder wel op het programma, maar zijn uiteindelijk uitgesteld om het Tweakers 7-project een gezonde einddatum te kunnen geven.

4. Waarom in Java?
5. De engine in de toekomst
127Reacties

Multipage-opmaak

Lees meer

Welkom op het nieuwe Tweakers Video van 18 oktober 2012

Tweakers.net introduceert Pricewatch 3.0 .Plan van 12 oktober 2009

Tweakers.net introduceert snellere Pricewatch-engine .Plan van 20 februari 2009

Software development Tweakers Java

IT-banen

Meer vacatures

Reacties (127)

-Moderatie-faq

127

122

Wijzig sortering

johnbetonschaar 16 november 2012 14:36

Interessant om te lezen hoe het Tweakers.net platform werkt, er is duidelijk goed over nagedacht en serieus werk van gemaakt. Zeker geen speelgoed site dus. Het geeft ook maar weer eens aan dat er meerdere wegen zijn die naar Rome leiden.

Desondanks zou ik zelf toch andere keuzes gemaakt hebben. Niet omdat jullie keuzes verkeerd zijn of niet goed werken, maar omdat ik sterk het vermoeden heb dat je dezelfde performance, functionaliteit en schaalbaarheid waarschijnlijk ook kunt bereiken met een veel eenvoudigere setup, met veel minder hardware, en (misschien wel het belangrijkste): met veel minder eigen code. De beweegredenen om voor de huidige oplossing te kiezen zijn helder, en ingegeven door wat er tijdens de eerste ontwikkeling beschikbaar was, maar vandaag de dag kun je met een goed opgezette tiered technology stack denk ik hetzelfde bereiken met veel minder. Ik zit dan specifiek te denken aan een engine geschreven in een Python web-app framework, hosted via een wSGI server container, achter een nginx proxy, MongoDB+memcached voor je database. Dit zou prima horizontaal en verticaal moeten kunnen schalen, omdat je op elke laag van de database via de webapp, de wsgi server en de proxy met slechts configuratie (zonder code te hoeven schrijven) kunt kiezen hoeveel instantiaties je van elke laag wilt hebben, en hoeveel resources je per instantie wilt toekennen. Mits goed uitgewerkt (REST interface die gebruik maakt van alle beschikbare HTTP protocol features) zou slechts een klein deel van je requests daadwerkelijk in de Python web-app terecht hoeven te komen, en kan veruit het grootste deel als statische content of uit cache geserved kunnen worden via nginx.

Maargoed wat jullie nu hebben blijkt ook prima te werken, ik zou zelf alleen geen zin hebben om al die Java code te schrijven en onderhouden, ik vind het echt zo'n beetje de meest frustrerende en omslachtige programmeertaal die er is.

Een kleine opmerking nog over NoSQL/MongoDB: het is inderdaad zo dat je vaak gedenormaliseerde data in een NoSQL database opslaat, omdat dat ook vaak een prima oplossing met veel voordelen (geen complexe queries nodig, snel) en weinig nadelen (duplicatie, lastige updates) is. Er is echter geen enkele reden om sommige data niet genormaliseerd op te slaan zoals in een SQL database! Dit is een vaak gehoorde klacht van mensen die uit de SQL wereld komen en NoSQL maar niks vinden, maar niemand verbiedt je om delen van je database net zo op te slaan als je in SQL zou doen, wanneer dat beter past op de access patterns e.d. Je kunt dan misschien niet via joins in 1x dezelfde complex queries doen als met SQL, en zult af en toe je queries moeten splitsen, maar dat is een trade-off die meestal wel te verantwoorden is, omdat gemiddeld genomen het overgrote deel van je data write-once/read-only is, en dus heel prettig in een NoSQL database past.

silentsnake @johnbetonschaar • 16 november 2012 15:44

Hoewel je post wel meer een Python verkoop praatje is zit er wel een kern van waarheid in - wat is er gebeurd met het KISS concept? Als je er als buitenstaander nuchter naar kijkt dan was mijn eerste ingeving: Waarom zo complex? Geen wonder dat hier al een aantal jaar aan gesleuteld wordt.

Ik denk wat mijn bovenbuurman ook probeert te zeggen: Sluit jezelf niet op in een tunnelvisie maar kijk ook naar het grotere plaatje. Misschien kan je vandaag de dag veel meer oplossen met een NoSQL oplossing dan je denkt. Maar aan de andere kant is 50GB aan DB data nou ook niet echt heel veel, dus heb je dat eigenlijk wel nodig? Daarnaast, T.net is niet de enige prijsvergelijker op deze wereld dus er zijn vast wel andere mensen die jullie problemen ook in zekere zin hebben gehad, en wellicht ook al opgelost hebben.

Ongeacht wat er gekozen wordt kiest is er sowieso al wat gewonnen - er is nu veel Java kennis in huis en je hebt als het goed is geleerd van de fouten die gemaakt zijn in het verleden. Het lijkt mij ook een logische stap om daar mee verder te gaan.

Voor de rest prima artikel en laat ze vaker zien!

Auteur

ACM Software Architect @silentsnake • 16 november 2012 20:18

50GB is inderdaad niet per se "veel". De datasets in deze java-omgeving zijn overigens tientallen tot honderden MB's, die 50GB is een voorbeeld van eentje die weer wat extra gradaties aan complexititeit toevoegt.

Maar zulk soort aantallen kunnen wel degelijk behoorlijk veel blijken te zijn in een context waarvan je soms complexe resultaten (denk aan de facetten met aantallen van de overgebleven hoeveelheid resultaten in de pricewatch) moet zien te produceren in een voor het web acceptabele hoeveelheid tijd...

En wij willen onze pagina's bij voorkeur binnen 100ms klaar hebben. Dan kan de webbrowser tenminste vlot aan de slag met het ophalen van allerlei aanvullende informatie en uiteindelijk het renderen van de pagina.

Als je de ruimte hebt om 10 - 20 seconden over je antwoord te doen... ja dan is zo'n omgeving mogelijk overkill. Dan zou het misschien allemaal nog wel in SQL-storage gezeten met de ingebouwde full-text search of eventueel daar dan een plugin voor (sphinx in mysql bijvoorbeeld)

[Reactie gewijzigd door ACM op 22 juli 2024 17:54]

silentsnake @ACM • 18 november 2012 12:58

Ik ga even selectief quoten:

Maar zulk soort aantallen kunnen wel degelijk behoorlijk veel blijken te zijn in een context waarvan je soms complexe resultaten (denk aan de facetten met aantallen van de overgebleven hoeveelheid resultaten in de pricewatch) moet zien te produceren in een voor het web acceptabele hoeveelheid tijd...

Valide punt. Zeker i.c.m. een "standaard" SQL backend voorzie ik hier wel de mogelijke problemen mee ja. NoSQL kan je hier zeker helpen, mits je geen bergen relaties nodig hebt.

En wij willen onze pagina's bij voorkeur binnen 100ms klaar hebben

Maar tegen welke prijs? Als je je code en / of omgeving beter kan onderhouden door in 2 seconden ipv 100ms klaar te zijn dan is dat naar mijn mening zeker wel een sterk argument. Hoeveel users zullen T.net niet meer gebruiken omdat ze iets langer moeten wachten? Tientallen? Honderd? Lijkt mij niet echt spannend als daar (veel) minder onderhoud tegenover staat.

TheGhostInc @johnbetonschaar • 16 november 2012 17:26

met veel minder hardware [...] maar vandaag de dag kun je met een goed opgezette tiered technology stack denk ik hetzelfde bereiken met veel minder. Ik zit dan specifiek te denken aan een engine geschreven in een Python web-app framework, hosted via een wSGI server container, achter een nginx proxy, MongoDB+memcached voor je database.

Hoewel ik zeker geen tegenstander ben van Python denk ik dat je als bedrijf 2x (of misschien wel 3x) moet nadenken of Python wel de juiste route is.
Als hardware het probleem is, dan bel je HP, Dell of elke andere hardware fabrikant en krui je zo nieuwe spullen naar binnen.
Als mensen het probleem is, praktisch elke IT-er heeft JAVA (of .NET) kennis in huis, opleidingen zijn geen probleem en de talen zijn eenvoudig te begrijpen. Je trekt zo een blik JAVA of .NET specialisten open.

Met Python begeef je je echter op glad ijs. Bijna geen enkele IT-er heeft Python kennis, opleidingen zijn vaak introductiecursussen en de taal heeft een steile leercurve. De code zelf kan ook nog eens op allerlei manieren worden opgebouwd en is daarmee dus veel 'programmeur' afhankelijker.

Python is leuk als Google of ZZP-er, maar als Python je core-business ondersteunt neem je zeker een risico.

Kajel @TheGhostInc • 16 november 2012 18:20

Python heeft helemaal geen stijle leercurve! De taal is in veel opzichten simpeler dan Java (zeg ik als Java gecertificeerde, die van beroep Java ontwikkelaar is). Ook begrijp ik niet helemaal waar jouw idee vandaan komt dat Python enkel gebruikt wordt bij Google of door ZZP-ers. Veel high-profile sites en/of services en ook apps en games zijn m.b.v. Python gemaakt: Yahoo Maps, Yahoo Groups, Instagram website, Eve Online, stukken van Battlefield 3 etc.

johnbetonschaar @TheGhostInc • 16 november 2012 18:50

Python krijgt steeds meer tractie, ook binnen grote bedrijven, dus dat probleem zie ik niet echt. Ook omdat tweakers.net hun systeem zelf ontwikkelt en beheert.

Ik ben zelf niet erg gevoelig voor argumenten als 'er zijn veel meer Java ontwikkelaars en/of consultants', een beetje ontwikkelaar is flexibel genoeg om zichzelf vlot in te werken in elke ontwikkel taal-, en omgeving, als het onder de knie krijgen van zoiets als Python een groter probleem is dan het onder de knie krijgen van de business logic van het systeem zelf, dan praat je over een ontwikkelaar die ik zelf toch al liever niet aan mijn code zou laten werken. Je moet gewoon de beste tools voor de toepassing kiezen, en mensen die capabel genoeg zijn om zich snel in te werken. Heel het idee van zoiets als een Python web app framework is sowieso dat je zo min mogelijk code hoeft te kloppen, en minder code = minder kans op bugs, en minder complexiteit, dus makkelijker te onderhouden en uit te breiden. Als ik naar de ellende kijk die door de gemiddelde Java programmeurs bij ons op het werk wordt geschreven, dan wordt ik daar echt heel erg treurig van. Leuk dat je makkelijk aan 10 Java prutsers kan komen, maar als je die vervolgens 5 jaar nodig hebt om de troep die ze hebben geproduceerd draaiend te houden, terwijl 5 goede ontwikkelaars die zich in elke ontwikkelomgeving kunnen inwerken het in 1 jaar goed doen, dan weet ik wel wat er goedkoper is. Het probleem met Java ontwikkelaars is juist dat er zoveel van zijn waardoor de slechte het verpesten voor de goede, en dat de meeste matige Java ontwikkelaars helemaal gebrainwashed zijn om overal lagen van complexiteit te introduceren en alles in termen van architecturen en objecten te proberen te vatten, omdat dat nu eenmaal is wat ze geleerd hebben. Juist zoiets als een web applicatie kan heel erg gebaat zijn bij oplossingen die een hybride zijn van object-georiënteerd en functioneel programmeren.

Overigens hoef je nog niet eens van een Python framework uit te gaan, dat was slechts het meest voor de hand liggende voorbeeld waar momenteel ook de meeste nieuwe ontwikkeling aan moderne web technologie plaatsvindt. Met PHP, Ruby of node.js kun je ook hele mooie dingen maken, hoewel ik zelf van mening ben dat Python de meest gebalanceerde optie is voor web toepassingen.

[Reactie gewijzigd door johnbetonschaar op 22 juli 2024 17:54]

flowerp

Java

@johnbetonschaar • 17 november 2012 10:19

Heel het idee van zoiets als een Python web app framework is sowieso dat je zo min mogelijk code hoeft te kloppen, en minder code = minder kans op bugs, en minder complexiteit,

Dat geldt niet altijd. Voor kleine scriptjes is Python leuk, maar zodra je een bepaalde grote bereikt wordt Python juist steeds minder snel om in te programmeren en op een gegeven moment wordt het juist flink langzamer.

Dit komt omdat in Python je niet weet welk type waar gebruikt wordt. Maak je een change, good luck dat niet in een of andere obscure functie hier een aanname over word gedaan die pas live ontdekt wordt als gebruiker X actie Y doet waar je nooit had bedacht een test voor te maken.

In Java pak je zulke dingen er VEEL sneller uit, zodat bij iets grotere software Java velen malen sneller werkt.

Vergeet ook niet dat Python traag is. Niet gewoon een beetje traag, nee, echt HEEL ERG traag. Sommige dingen die in C, C++, Java, C# of Scala een seconde kosten, hooguit twee seconde, kosten in Python makkelijk een minuut of meer.

Alweer, voor kleine scriptjes maakt dat niet uit. Voor een web app met veel visitors is dat killing.

En moet ik over de GIL beginnen in Python? Liever niet he, want je weet wel hoe laat het dan is...

YopY

Software development

@flowerp • 19 november 2012 16:45

Dit komt omdat in Python je niet weet welk type waar gebruikt wordt. Maak je een change, good luck dat niet in een of andere obscure functie hier een aanname over word gedaan die pas live ontdekt wordt als gebruiker X actie Y doet waar je nooit had bedacht een test voor te maken.

Dat heeft weinig te maken met het feit dat python een getypeerde taal is of niet, en meer over je programmeerstijl, discipline, en tests. Desnoods ga je defensief programmeren en assertions voor elke publieke functie hangen.

flowerp

Java

@YopY • 21 november 2012 13:45

Blerghhh... daar gaat dan je zogenaamde winst in sneller programmeren

sys64738 Moderator F&V @johnbetonschaar • 18 november 2012 18:05

Ben het eens met je dat de architectuur zoals die er nu ligt wat complex is maar vooral ook ten koste gaat van de performance.

Zo zou ik persoonlijk nooit kiezen voor den REST interface voor interne communicatie. Een REST interface voor externe partijen is prima maar tussen je back en frontend juist niet. Zo blijf je vertalen. Eerst uit je database naar Java objecten (hopelijk via een orm) en daarna van java objecten weer naar je rest-formaat (JSON of XML) en daarna moet php weer je rest berichten parsen. Daarnaast krijg je, zoals het artikel ook al aangaf, enorm veel onderlinge koppelingen.

Waarom niet gewoon een complete Java oplossing. Zowel front als backend in Java en dan heb je al die problemen niet. Java kent genoeg prima frontend frameworks zoals Play die hier prima geschikt voor zijn en waarmee je heel snel frontends kunt ontwikkelen. Deze oplossing schaalt ook prima (zowel horizontaal als verticaal) en kent slecht 1 vertaalmoment bij het ophalen of opslaan van de data in je database.

Maar de oplossing die ik hier beschrijf kan ook prima in bv python of .net gerealiseerd worden.

@YopY: Tja, JSP. Dan heb je al aardig wat jaartjes geen Java frontend meer gedaan, neem ik aan. JSP was hell maar Play of Grails zijn super en werkt echt veel lekkerder dan PHP.

[Reactie gewijzigd door sys64738 op 22 juli 2024 17:54]

YopY

Software development

@sys64738 • 19 november 2012 16:46

Waarschijnlijk zijn ze niet voor een volledige rewrite gegaan vanwege de al grote bestaande PHP codebase. En eerlijk is eerlijk: front-end Java is verre van prettig, in mijn beperkte ervaring (JSP en co). Ik weet niet of bijv. Play dat iets prettiger gemaakt heeft ondertussen.

flowerp

Java

@YopY • 21 november 2012 13:48

En eerlijk is eerlijk: front-end Java is verre van prettig, in mijn beperkte ervaring (JSP en co). Ik weet niet of bijv. Play dat iets prettiger gemaakt heeft ondertussen.

JavaServer Faces (JSF) heeft dat ondertussen een heel stuk prettiger gemaakt.

Dat komt met name door libraries die je met JSF gebruikt zoals PrimeFaces (components) en OmniFaces (soort Guave voor JSF).

Jeroenneman 16 november 2012 15:02

Ik vind de nieuwe Pricewatch anders niet fijner werken.

Sorteren op criteria werkt alleen maar als je via het hoofd Pricewatch menu begint.

Begin je via de homepage, en zoek je dan via de "universal content bar", dan kom ik wel uit bij Dominator geheugen, maar op die pagina kan ik dan niet meer sorteren op criteria als "grootte", modules etc.

Wordt dit nog eens aangepakt?

Auteur

ACM Software Architect @Jeroenneman • 17 november 2012 11:02

Ik bedenk me dit nu pas trouwens: je klacht over "de nieuwe pricewatch" is onterecht. Het gedrag dat je beschrijft is namelijk niets anders dan met tweakers 6 al het geval was.

Toen kon je ook alleen maar op specificaties van producten filteren en sorteren als je via de categorie naar een lijstje producten was gegaan. Maar niet als je via de zoekbox bovenaan de pricewatch-portal ging.

De algemene zoekomgeving wordt ook aardig complex als we zouden proberen de specificaties van producten er tussen te stoppen. Wat doe je als er producten uit twee verschillende categorieen staan? Stel je zoekt op "sony" (en ja, mensen doen dat), verwacht je dan dat alle specificaties van Sony-producten bij elkaar staan of juist alleen degenen die gedeeld worden door alle producten. Waarbij in dat geval waarschijnlijk dus geen specificatiefilters overblijven... Hooguit iets als garantie.
Met jouw "dominator"-zoekopdracht gebeurt zelfs al zoiets, er staan naast geheugenmodules tenslotte ook een processorkoeler, een ventilator, drie games en iets uit de overclocking-categorie tussen...

Ik geloof dat er wel plannen zijn om dit beter te onderzoeken. Maar hoewel het een eenvoudig probleem is om te beschrijven ("er staan geen specificatiefilters") is het een vrij lastig probleem om op te lossen

Auteur

ACM Software Architect @Jeroenneman • 16 november 2012 15:54

Je zult in je klacht onderscheid moeten maken tussen de onderliggende techniek en de uiteindelijke inzet en presentatie ervan. Die laatste zijn waar je klachten over lijken te gaan (en alle andere die hier genoemd worden) terwijl dit artikel over de eerste gaat

Jeroenneman @ACM • 16 november 2012 17:28

Wat heb ik aan een uitstekende techniek als er minder mee kan dan vroeger met andere techniek?

Leuk hoor die productgroepen, maar echt handig? Nee.

Auteur

ACM Software Architect @Jeroenneman • 16 november 2012 20:11

Voor gebruikers is natuurlijk de presentatie en bruikbaarheid veel belangrijker, maar als dat dan ook nog eens gehinderd zou worden door beperkingen in de onderliggende techniek... dan wordt het alleen maar nog erger.
Het voordeel van een krachtige ondergrond hebben is dat we relatief eenvoudig aan de "buitenkant" kunnen sleutelen, zonder alles wat daar onder zit weer aan te moeten passen.

We zijn echt niet met de release van "tweakers 7" gestopt met bijschaven. Maar net als dat "tweakers 6" heel veel bijgeschaafd is in de loop de jaren, zal dat ook met 7 gebeuren. 't Feit dat we ondertussen alweer iets van 500 "tickets" opgelost hebben sinds de lancering onderschrijft dat alleen maar.

Sterker nog, ik ga er van uit dat als er een "tweakers 8" komt dat daar weer het hele bijschaaf-proces van voorafaan begint. En dat is niet omdat we er niks van leren, maar omdat de projecten van dusdanige grootte zijn dat zelfs uitvoerig testen lang niet alle verkeerde interpretaties van bezoekersgedrag en -voorkeuren zal vinden. En daarnaast worden er uiteraard ook altijd wel bugs gemaakt (niet dat we dat expres doen... maarja

)

Ventieldopje @Jeroenneman • 16 november 2012 15:05

Er missen inderdaad nog aardig wat criteria en soms zelfs product groepen (terwijl die producten wel in de pricewatch staan).

Hoop dat hier inderdaad nog verandering in gaat komen

xzaz 16 november 2012 16:33

Waarom nog steeds Apache, alles wijst tegenwoordig naar Nginx vooral als je goed wilt cachen en zeker voor grote websites.

Ik moet zeggen dat wij voor een Applicatie ook Java gebruiken qua server-side kant en dat gaat uitstekend. Voor mij is Java iig geen rare keuze.

Auteur

ACM Software Architect @xzaz • 16 november 2012 20:03

In onze ervaring is de combinatie van Apache + PHP nog altijd aanzienlijk krachtiger dan Nginx + "allerlei lijmwerk" + php. En bovendien... het caching-deel (en dus de statische resources) hebben we al helemaal uitbesteedt aan Varnish, dus uiteindelijk blijven alleen de pure php-requests over voor de webservers.
In onze benchmarks was Apache daar zelfs sneller mee dan Nginx.
Verder scheelt het in gebruik houden van Apache dat we onze jarenlange ervaring en op maat gemaakte configuraties niet hoeven te herschrijven naar Nginx zonder dat het echt noemenswaardige voordelen heeft.

Kortom: Apache is gewoon behoorlijk stabiel en erg flexibel zonder door allerlei hoepels te hoeven springen om met PHP te mogen werken. Dat laatste is iets dat (tot voor kort?) met Nginx zeker nog wel het geval was/is.

xzaz @ACM • 18 november 2012 22:32

Goede argumenten!

Beatboxx 18 november 2012 01:01

Waarom maken jullie niet (delen) hiervan open source/community based? Ik denk dat er erg veel tweakers zijn die, in ruil voor een mooie badge naast hun naam, graag hun steentje bijdragen aan een beter Tweakers

Auteur

ACM Software Architect @Beatboxx • 18 november 2012 11:53

Ook dit is een van die vragen die we vaker terugzien

Het OS maken van (delen van) de software van Tweakers is een ingewikkelde situatie met erg veel afwegingen om te maken. Er zijn tenslotte allerlei commerciele belangen naast de belangen van de community.
Daarnaast vereist het ook nog een aanzienlijke inspanning van het bedrijf en dan vooral de developers eracher.

Commercieel gezien werkt OS natuurlijk vooral als het niet (het deel van) de software is waar je je geld door verdient, danwel als je software je niet op voorsprong zet ten op zichte van de concurrentie.
Vanuit het perspectief van een website: de gegevens achter je website moeten - bij voorkeur samen met de bezoekers/community - zo'n unieke formule opleveren, dat niemand met dezelfde software jouw positie noemenswaardig in gevaar kan brengen. Bijvoorbeeld door een directe concurrent van je te worden of als bestaande concurrent het product te verbeteren.

Hoewel er allerlei stukken software binnen tweakers geschreven zijn die daaraan voldoen, denk ik dat we juist met de pricewatch toch wel moeten oppassen... Voorbeeld van delen die daar beter op aansluiten zijn bijvoorbeeld forumsoftware en een reactiesysteem. Dat zie je dan ook op het internet, Reddit en Slashdot zijn gebaseerd op open source websitesoftware. Maar ik denk niet dat er veel concurrenten zullen zijn ontstaan door simpelweg dezelfde software ergens anders op te starten. En reeds bestaande concurrenten hebben doorgaans al vergelijkbare software in gebruik of bezoekers die het niet erg vinden dat het wat anders werkt.

Maar naast commerciele belangen zijn er ook nog andere dingen om mee op te passen. Zodra je commiters toelaat moet je sowieso alle commits die binnenkomen nakijken. In een perfecte wereld zou natuurlijk elke commit aan je eigen kwaliteitsstandaarden voldoen, maar in werkelijkheid valt dat waarschijnlijk tegen. Sowieso loop je een risico dat een externe committer bij zijn commit helemaal niet stil gestaan heeft bij gevolgen elders in de code.
Denk aan een wijziging in css waarbij ineens op een ander deel van de site een tabel ineens heel lelijk wordt.
Verder verwacht ik dat een OS-traject alleen succesvol wordt als we ook daadwerkelijk tijd hebben om de commits te verwerken in de productie-site. Als we er geen tijd voor hebben of alleen maar commits binnen krijgen waar we niet op zitten te wachten - en dus afwijzen - zullen de committers snel geirriteerd raken.
Dat betekent in ieder geval dat de commits relatief eenvoudig voor de committer en bezoekers zichtbaar moeten worden. Deze Engine is nou niet bepaald een zichtbaar deel. Sterker nog, om er uberhaupt wat mee te kunnen heb je zowel een goed gevulde database als een zinvolle frontend nodig...
Van alle bugs die gemeld worden zit dan ook het merendeel juist niet in deze code, hooguit in er tegenaan liggende php-code voor de verwerking van resultaten. Maar vaak nog wat laagjes/stapjes ervandaan.

Kortom: ik denk niet dat met name dit project in ons belang is (commercieel gezien) om aan de wereld vrij te geven. Verder heeft dit deel zodanige afhankelijkheden dat we veel moeite moeten steken in een testfrontend danwel (delen van) onze huidige frontend ook vrij moeten geven en vooral dat we ook een forse testdataset moeten gaan aanbieden.

Daarnaast durf ik persoonlijk in ieder geval niet te garanderen dat we de tijd hebben (of van ons management mogen maken) om naar commits te kijken, vragen te beantwoorden, bugfixes te testen en naar de nieuw geintroduceerde bugs te zoeken... Het is natuurlijk maar sterk de vraag of die tijd opweegt tegen domweg zelf met de code bezig zijn

[Reactie gewijzigd door ACM op 22 juli 2024 17:54]

wever338 16 november 2012 14:15

Ze moeten bouwen wat ze willen als de gebruiker maar tevreden is over het resultaat. En hoewel de storm is gaan liggen heb ik nog niemand gehoord in mijn omgeving die tevreden is over de nieuwe site incl pricewatch.

De site zelf is dramatisch om te zien op een desktop pc en is puur gemaakt voor op een tablet of telefoon, helaas na een maand nog geen echte verbetering op dat punt gezien. Bij de pricewatch moet je tegenwoordig helemaal terug naar de hoofdpagina van pricewatch als je binnen een catogorie naar een andere wil.

Custom je site aanpassen vind ik geen optie, de hoofdsite moet al normaal bruikbaar zijn.

Wat gelukkig wel blijft zijn de vele relevante nieuwsitems maar helaas zie ik hier ook steeds meer een verschuiving naar zaken die weinig tot niets met it te maken hebben bv de witgoed afdeling in pricewatch, en de soms advertentieachtige artikelen zoals steeds vaker lijkt voor te komen vooral bij Apple en Samsung.

Daniel @wever338 • 16 november 2012 14:30

Wij zijn er in de T7 versie van de Pricewatch van uit gegaan dat een goede zoekfunctie een veel snellere en efficientere manier is om bij een product te komen is dan door een categorieboom klikken. Op elk punt in de Pricewatch kun je via de search direct naar een ander product of een andere categorie springen zonder via de homepage te gaan. Zo'n categorieboom is aardig als de structuur niet zo complex is maar het bleek af en toe behoorlijk lastig om obscure categorieën ergens kwijt te kunnen. Bovendien waren ook in die situatie veel productcategorieën niet direct vanaf de homepage toegankelijk: zo moest je maar net weten dat 'beamers & projectoren' als subcategorie was weggestopt onder 'overige randapparatuur' - en dat was uit de oude Pricewatch home op geen enkele manier af te leiden.

In de praktijk blijkt echter dat flink wat mensen zo gewend zijn aan het browsen door die boom - mede door de beroerde search in de oude site - dat het gebruiken van de search niet bij ze opkomt, of het bladeren op zich al prima beviel.

Wil je perse via een categorie bladeren dan is de huidige category browser in combinatie met het ontbreken van een echte breadcrumb inderdaad niet bepaald handig. De behoefte daaraan hebben we onderschat. We zijn aan het kijken of we een goede oplossing kunnen vinden om een categorieview terug te brengen. Probleem daarbij is dat de hoeveelheid categorieën nogal groot is (Pricewatch Unsorted geeft een aardige indicatie: http://tweakers.net/pricewatch/unsorted/) dus je krijgt een enorme lijst waarbij een groot deel standaard buiten beeld staat.

wever338 @Daniel • 16 november 2012 15:07

Blij te horen dat er aan de breadcrums gewerkt wordt deze vind ik erg waardevol in de PW.

GlowMouse @Daniel • 16 november 2012 15:53

Gisteren zocht ik naar monitoren, staan die onder "Computers" of onder "Beeld en geluid"? De zoekfunctie werkt inderdaad heel makkelijk. Maar wat je als gebruiker niet verwacht is dat je daarmee ook naar categorieën kunt zoeken, daar kwam ik net pas achter. Je zou dit kunnen voorkomen door de hele zoekboom niet te tonen.

bhartman @Daniel • 16 november 2012 16:15

En dat is dus precies het probleem: wanneer je met je muis aan het klikken bent, wil je niet even via je toetsenbord een categorie in het zoekvenster intoesten. Je wilt gewoon met je muis klikken.

Volgens mij is hier dus echt niet over nagedacht.....

huntedjohan @bhartman • 17 november 2012 21:19

dus omdat jij "te lui"ben om je toetsenbord te gebruiken moet tweakers dat maar mee nemen in hun idee over hoe ze een pricewatch beter kunnen laten werken? we kunnen misschien ook gewoon vaker de poging proberen te nemen om onze gewenning een beetje aan de kant te gooien ipv alleen maar alles af te kraken.

Thc_Nbl @Daniel • 16 november 2012 17:01

quote: Wij zijn er in de T7 versie van de Pricewatch van uit gegaan...

Hmm, je weet toch wel dat elke aanname het begin van alle ellende is...

Persoonlijk vind ik het (nog) geen verbetering, ik geeft het nog even de tijd.
Is er ergens de optie om de oude layout terug te zetten dat zou ik erg fijn vinden.

SirBlade 16 november 2012 14:16

Bovendien was MySQL 5.1 in die tijd net uit, wat betekent dat we nog op 5.0 draaiden en die stond niet bekend om zijn performance met complexe queries en queries met subqueries

Waarom dan niet een DB-platform gebruiken dat daar wel goed mee om kan gaan?

AW_Bos

@SirBlade • 16 november 2012 14:19

Ik denk omdat je anders dan de hele site kan verbouwen voor zoiets, omdat een groot deel van Tweakers op MySQL draait. Niet een geweldige goede oplossing.

[Reactie gewijzigd door AW_Bos op 22 juli 2024 17:54]

Junketsu @AW_Bos • 16 november 2012 14:27

Dat probleem heb je alleen als je geen abstractielaag tussen de data access en de DBMS (MySql in dit geval) hebt geplaatst. Ik mag hopen dat ze in hun Java-engine niet SQL (nog nog erger: MySQL specifieke instructies) gebruiken om tegen MySql te praten. Dat is toch niet echt een net design...

Onno @Junketsu • 16 november 2012 14:34

Zodra je een beetje geavanceerde SQL-features wilt gebruiken (denk aan dingen als recursieve queries) zul je zelfs met een abstractielaag toch snel op database-specifieke SQL uitkomen.

Dat kun je wel een lelijk ontwerp vinden, maar in omgevingen waar performance (en/of andere eigenschappen die je met database-specifieke SQL beter kunt behalen dan zonder) belangrijk is kan het toch een goede keus zijn dat te gebruiken.

Feanathiel @Onno • 16 november 2012 17:50

Zolang je geen dynamische queries (lees: opbouwen vanuit code) gebruikt, kun je deze prima wegmoffelen achter een stored procedure. Daardoor heb je geen specifieke (My)SQL code in je back-end staan, waardoor je net even wat losser tegen je database implementatie aan leunt. Het wordt er ook iets wat sneller op doordat niet telkens de query hoeft te worden overgebracht naar de database server.

Auteur

ACM Software Architect @Feanathiel • 16 november 2012 22:48

Onze code en toepassing van MySQL is van voor dat ze stored procedures ondersteunden... we hebben daarbij domweg teveel code om zomaar even over te stappen op een compleet andere manier van werken.
Dat zou uiteraard gradueel kunnen, maar ik ben niet echt een fan van het in de database opslaan van functionaliteit (wat SP's effectief zijn), die scheiding bijt je altijd wel ergens weer (het niet scheiden natuurlijk ook).

joepP

@Feanathiel • 17 november 2012 16:00

Met ACM. Daarbij komt nog dat SPs vanuit het oogpunt van versiebeheer en deployen/rollbacken van functionaliteit een hell zijn. Ik heb ze in een grijs verleden weleens gebruikt (lees: misbruikt), maar ben daar keihard van teruggekomen.

cariolive23 @joepP • 18 november 2012 10:50

Hoezo is versiebeheer een hell? Uiteindelijk is het gewoon plain text en dat kun je prima in versiebeheer zetten.

rollback is ook prima te doen, mits je een database gebruikt die transactional DDL ondersteunt. Dan kun je namelijk ook je verificatie tests binnen de transactie (dus deployment) opnemen en afhankelijk van de resultaten een commit of rollback uitvoeren.

MySQL kent deze opties niet, maar in PostgreSQL (of bv. Oracle) is het geen enkel probleem.

Wij doen niet anders en beheren hier een database van een paar TB met ongeveer een miljoen unieke bezoekers per dag, ~800 transacties per seconde, goed voor ~20.000 (eenvoudige en zeer complexe) queries per seconde. High performance is hier het allerbelangrijkste, dat is ook de reden dat we voor stored procedures hebben gekozen: logica héél dicht op data zodat er zo min mogelijk data uitgewisseld hoeft te worden. En dat werkt, gemiddelde tijd per transactie (die dus meerdere queries bevat) is minder dan 10ms, ondanks dat we ~200 concurrent users van data moeten voorzien. Stored procedures kunnen dus prima werken.

Junketsu @Onno • 16 november 2012 14:54

Wat recursive queries betreft, dit kan MySQL juist niet dus dit is eigenlijk een gek voorbeeld, maar ik snap wat je bedoelt

Wat ik in mijn post als reactie aan BlackHawkDesign al aangeef, ook al gebruik je DBMS specifieke SQL-instructies of features, dan kan een abstractielaag als Hibernate hier alsnog bij helpen.

BlackHawkDesign @AW_Bos • 16 november 2012 14:30

Volgens mij inderdaad door de history, het is ooit begonnen met PHP en dan ga je inderdaad niet een volledige website opnieuw opbouwen. Zeker niet een site van deze omvang.

Junketsu @BlackHawkDesign • 16 november 2012 14:40

Als ze toendertijd ANSI-SQL in de PHP laag gebruikte en dus geen DBMS specifieke SQL-instructies, zou hier eenvoudig een abstractielaag tussen kunnen worden gezet.

In het geval dat ze SQL-instructies van MySQL hadden gebruikt, zullen andere DBMS'n met dezelfde doelgroep ook deze functionaliteit beschikbaar hebben gehad. Een voorbeeld is de SQL instructie "TOP" van Microsoft Sql Server en "LIMIT" van MySQL:
dba.stackexchange.com/questions/1115/top-x-of-sql-server-in-mysql-analog

Om dit te voorkomen kon bijvoorbeeld Hibernate worden gebruikt:
http://en.wikipedia.org/wiki/Hibernate_(Java)

Onno @SirBlade • 16 november 2012 14:38

Waarom dan niet een DB-platform gebruiken dat daar wel goed mee om kan gaan?

De andere genoemde redenen gelden voor andere databases net zo lijkt me: erg veel data met erg veel condities met SQL bij elkaar harken is gewoon niet zo efficiënt.

(los daarvan zijn er natuurlijk nog steeds wel goede redenen te bedenken om een andere database te gebruiken)

R4gnax @Onno • 16 november 2012 19:55

De andere genoemde redenen gelden voor andere databases net zo lijkt me: erg veel data met erg veel condities met SQL bij elkaar harken is gewoon niet zo efficiënt.

Daarom is er ook een markt voor een speciaal soort database dat specialiseert in de zogenaamde faceted search.

Endeca (nu aangekocht door Oracle) is er zo een. Veel van de sites die wij afleveren binnen de reisbranche draaien hun zoeksysteem daar op en dat zijn zeker geen kleine databases.

Postius 16 november 2012 14:06

Interesant (voor mij) om is wat meer te weten over de techniek achter tweakers.net. Ook zullen er hopelijk wat mensen de omzet nu beter begrijpen. Artikel was voor mij wat te technisch (geen enkele java kennis hiero!) maar zoals aangehaald is het wel is leuk om te zien hoe het er achter de schermen aan toe gaat, voor mij als normale gebruiker.

Hopelijk zullen mensen nu ook wat beter begrijpen wat de beweegredenen waren voor t.net. Dat scheelt vaak veel in kritiek en commentaar.

_{En nu we het er toch over hebben, wanneer gaat al dat wit weg?}

_{Edit:spelfoutje}

[Reactie gewijzigd door Postius op 22 juli 2024 17:54]

HKLM_ @Postius • 16 november 2012 14:14

Dat kan je al aanpassen hoor, rechts boven in twee de icon

wassen42 @HKLM_ • 16 november 2012 14:32

Volgens mij wordt er bedoeld dat er behalve een klein veld bovenin de website wat van licht naar donker (en andersom) kan worden veranderd, de hoeveelheid wit tussen de nieuwsberichten op de frontpage, in de nieuwsberichten zelf en de comments het wit niet aan te passen is van licht naar donker.

Freakster86 @HKLM_ • 16 november 2012 18:43

Zelfs op z'n donkerst is de site nog te wit. Het doet gewoon pijn aan je ogen.

Kevinp @Postius • 16 november 2012 15:26

Een deel van je comentaar slaat natuurlijk nergens op.

Wanneer er software matig verkeerde keuzes gemaakt worden (zoals bv bij de nieuwe tNet waar nog niks aan gedaan is) dan moet je niet de techniek de schuld geven. Er zijn (gezien alle reacties) fouten gemaakt.

Daarbij vind ik deze artiekelen zeker interessant en ik hoop dat er meer van dit soort artiekelen komen. Daarvoor leest de "oude" tweaker toch tweakers.

Verwijderd @Postius • 16 november 2012 22:47

@ wimdezoveelste.
Om jou gerust te stellen, dat wit gaat voorlopig niet weg.
Als ik naar T7 kijk, heb ik het idee dat het een beetje voor portable devices is gemaakt/geoptimaliseerd.
Pak maar een TFT panel en zet er geen data op maar wel CCFL (verlichting) dan zul je zien dat je scherm wit is.
Toch wel slim bekeken, houdt je accu het misschien wel tien minuten langer vol...

[Reactie gewijzigd door Verwijderd op 22 juli 2024 17:54]

GTX660TIGamer @Postius • 16 november 2012 14:07

Ik stoor me totaal niet aan het wit. Het ziet er juist fris uit.

wimdezoveelste @GTX660TIGamer • 16 november 2012 16:43

Ik stoor me er dus wel aan, hoop dat ze hier snel iets aan gaan doen....

djunicron @wimdezoveelste • 16 november 2012 17:04

Er is toch al een nieuwe slider voor de side-bars van de site en een "padding" slider om meer text / cm^2 op je beeld te krijgen?

Persoonlijk zou ik nog wel meer tekst in beeld willen, nu is ongeveer 1/3 van het scherm in gebruik bij mij, dat mag best 1/2e worden. Ook het grijs is nu op z'n donkerst nog nét niet donker genoeg.

Wel typisch trouwens, ik klik op een link over T.nets backend, en ik krijg tot 2x toe:

Ooops
Er ging iets mis met het ophalen van deze pagina, probeer het zo nog een keer. (503 Service Unavailable 42065847)

wimdezoveelste @djunicron • 16 november 2012 17:26

Ok, ik heb die optie net pas gevindt, wist nog niet dat die optie er was, bedankt voor de tip

Verwijderd @wimdezoveelste • 17 november 2012 11:12

Zou het niet mogelijk zijn dat je bij de pricewatch een bestellijst kan ingeven

(bv voor camer'a een specifieke lens + een specifieke body, en nog wat accesoires
of vr computers een behuizing + geheugen + moederbord + ...)

en dat de pricewatch de goedkoopste leverancier vindt voor het volledige lijstje, want nu moet je het soms bij tien firma's bestellen.

"t is maar een idee...

9man @Verwijderd • 17 november 2012 11:33

Dit is al mogelijk, je kunt een wensenlijst opstellen en daar kiezen bij hoeveel leveranciers je wilt bestellen.

OT: zeker interessant om dit te lezen, lijkt me prettig als het forum geintegreerd wordt in de zoekresultaten.

melgers 16 november 2012 14:49

Leuk om te lezen hoe jullie tot een architectuur plaatje gekomen zijn.

Zelf het afgelopen jaar een framework ontworpen en gebouwd op basis van cassandra en elastic search en herken zeker wel een aantal van de limitaties die m.b.t. genoemde producten genoemd worden. Eerst gebruikten we solr maar daar worden de queries trager als er gelijktijdig ook een index wordt geupdate. Elastic search heeft hier minder last van.

Hebben jullie i.p.v. activemq (Waarom niet RabbitMQ

) ook overwogen om Hazelcast of Terracotta te gebruiken om cached objecten over de verschillend jvms te delen?

Auteur

ACM Software Architect @melgers • 16 november 2012 15:53

't Informeren gebeurt vanuit PHP naar Java, dus een puur-java oplossing voor synchronisatie is niet heel zinvol dan

Op zich is iets als Terracotta wel interessant zodra het buiten de reikwijdte van 1 machine gaat, maar de totale actieve dataset waarmee gewerkt wordt zit onder rond de 3GB. Dus dan zijn inspanningen voor een "extra grote VM" wat overbodig

flowerp

Java

@ACM • 17 november 2012 10:21

't Informeren gebeurt vanuit PHP naar Java,

Misschien een stomme vraag, maar waarom op termijn dan ook niet voor de web layer Java gebruiken?

Je hebt het nagenoeg identieke JSP (html markup met fragmenten code ertussen), of heel goede meer high-level frameworks zoals bijvoorbeeld JSF (JavaServer Faces).

Auteur

ACM Software Architect @flowerp • 17 november 2012 10:50

Er zijn diverse redenen voor op te noemen, ik zie het in ieder geval niet gebeuren. Denk aan:
- Het is enorm veel werk, we komen in de buurt van de 400k regels php-code...
- We hebben nog steeds meer php-kennis in huis dan java (en zeker dan jsp en de frameworks voor de presentatielaag)
- Het biedt weinig meerwaarde, het brengt eventueel die back- en frontend dichter bij elkaar, maar een scheiding in dergelijke verantwoordelijkheden is alsnog geen gek idee.

En dat dus verder nog afgezien van eventuele voorkeuren voor het ene of het andere platform en/of nadelen vs voordelen die met het platform samenhangen.

Dus kortweg: het biedt in mijn ogen domweg te weinig voordelen ten op zichte van de inspanning en kosten die ervoor zijn vereist. Alle voordelen zullen bijna automatisch in het niet vallen tegen het nadeel van een rewrite van de complete code-base naar java/jsp...

[Reactie gewijzigd door ACM op 22 juli 2024 17:54]

flowerp

Java

@ACM • 17 november 2012 11:59

Ik snap de nadelen en dan met name de hoeveelheid werk die natuurlijk aanzienlijk is. Het lijkt me ook niet realistisch om in 1 klap de hele frontend/weblayer te gaan herschrijven, maar stukje voor stukje is er een hoop mogelijk.

Qua de kennis moet je natuurlijk ook niet vergeten dat je nu een hele back-end in Java hebt, dus dat de kennis van Java steeds verder zal toenemen.

een scheiding in dergelijke verantwoordelijkheden is alsnog geen gek idee.

Het klinkt ook als een goed idee, maar bedenk wel dat ook bij het gebruik van dezelfde taal deze scheiding te realiseren is. De voordelen van een gemeenschappelijk taal is wel dat het uitwisselen van programmeurs tussen beide lagen makkelijker maakt, en dat het ook code re-use (bedenkt models/entities die je nu op 2 plekken defineert waarschijnlijk) makkelijker maakt.

Nu hoeft zeker niet altijd een applicatie volledig op 1 platform te draaien. Als er echt redenen zijn dat 1 onderdeel in een andere taal is omdat die taal beter is voor dat onderdeel, dan is het natuurlijk een goede keuze.

Echter, PHP is niet noodzakelijkerwijs 'beter'. Het is alleen een toevallige (legacy) situatie.

Persoonlijk heb ik bij een aantal projecten ook deze setup gezien, en het veroorzaakte toch problemen en spanningen. Misschien dat het bij jullie wel goed gaat, maar just my 2 cents

gimbal 16 november 2012 22:10

Goed om te zien dat de devs bij tweakers.net het begrip architectuur tenminste begrijpen en toe durven passen - dat gaat veel programmeurs toch echt te ver. Om de frontend met PHP te maken vind ik dan wel weer een spannende keus, ik had dan zelf voor Play framework gekozen met Scala als voertaal om wat meer in het Java platform hoekje te blijven zonder de lasten ervan te ondervinden.

Auteur

ACM Software Architect @gimbal • 17 november 2012 09:24

Die PHP-frontend was er ruimschoots voor de Java-backend he? Dus dat was niet zozeer een gewaagde keuze, als eentje die al lang en breed gemaakt was. Je moet het meer zien dat we een complexe "ProductService"-klasse, met een uitgebreide verzameling aan ondersteunende klassen, in de PHP-code vervangen hebben door een nieuwe simpele klasse die domweg alle gekozen opties vertaald naar GET-parameters, de boel doorstuurt naar de Java-omgeving en het resultaat afwacht.

YopY

Software development

@gimbal • 19 november 2012 16:52

Zowel Play als Scala waren nog niet bekend of stabiel ten tijde dat deze engine opgezet werden. Daarnaast, Scala is leuk maar het heeft twee nogal zwaarwegende nadelen:

* Lange compile-tijd (minuutje voor tien files als je pech hebt)
* Niet snel (single-core; het is horizontaal schaalbaar, maar dat gaat ten koste van snelheid) (afhankelijk van toepassingen)

Begrijp me niet verkeerd, ik ben fan van Scala, maar ik kan goed begrijpen waarom ze die hier niet gebruikt hebben. Daar komt nog bij dat 'hardcore' Scala toch van een iets hoger niveau is dan 'gewoon' Java, denk DSLs en functioneel programmeren en dergelijke. Waar je in java 10 manieren hebt om een probleem op te lossen, heb je in Scala 100 manieren - minstens.

[Reactie gewijzigd door YopY op 22 juli 2024 17:54]

Tjeerd 16 november 2012 15:16

Voor de mensen die Java-twijfels hebben en uit de PHP-hoek komen, misschien is het interessant om eens te kijken naar SpringSource Grails, onder de motorkap wordt Spring MVC en Hibernate gebruikt, is Jetty als servlet-engine geintegreerd en aan de achterkant kun je in puur Java/Groovy ontwikkelen. Dit maakt de overstap naar de Java/Spring/Hibernate-taal erg interessant voor mensen die nieuwsgierig zijn, maar denken dat het allemaal 'eng' is in Java. Grails bewijst het tegendeel. Zie www.grails.org. In combinatie met de InteliJ IDE is dit erg productief.

[Reactie gewijzigd door Tjeerd op 22 juli 2024 17:54]

xzaz @Tjeerd • 16 november 2012 16:37

Hibernate is leuk maar een erg zwaar systeem. Backends wil je zo veel mogelijk clean houden.

Verwijderd @xzaz • 16 november 2012 16:42

Onzin. Als je het goed configureert is Hibernate echt niet zwaar hoor.

xzaz @Verwijderd • 16 november 2012 16:47

- Afhankelijkheid
- Ondersteuning
- 1+N
- Minder controle op collections
- enz

Om een pakket te implementeren zeker op schalen zoals hier op Tweakers.net zal ik wel 10x nadenken om zo'n pakket te implementeren.

Tjeerd @xzaz • 16 november 2012 18:02

Het probleem en verhaal dat Hibernate slecht zou presteren is maar deels waar, het is wel belangrijk om een goed genormaliseerd datamodel te hebben. Verder kun je kiezen om alles over te laten aan Hibernate of om queries zelf te schrijven. Je kunt daar zelf een balans in zoeken. Momenteel zit ik bij een bedrijf waar alles lowlevel in JDBC en insertqueries gebeurt en handmatig verbindingen worden opgebouwd en gesloten. Dat werkt prima, maar het kost zoveel extra tijd en verhoogt de kans op transactieproblemen, verbindingen die niet goed worden afgesloten enzovoorts. Lazy (geen relaties van records ophalen) en eager fetching (wel kinderen/gerelateerde records ophalen) is wel iets om mee uit te kijken bij Hibernate omdat het nogal gulzig data kan gaan ophalen. Daarbij het feit dat een taal als Grails dynamic finders heeft, zodat je data ophaalt dmv User.getByName(...), zonder dat je een regel SQL hoeft te schrijven. Resultaat is dat het gemiddelde bedrijf heel snel wat op poten heeft gezet.

@ACM: JdbcTemplate is een prima stuk techniek uit Spring om mee te werken idd, als je geen Hibernate (ORM) wil gebruiken.

[Reactie gewijzigd door Tjeerd op 22 juli 2024 17:54]

Auteur

ACM Software Architect @Tjeerd • 16 november 2012 19:57

Er zijn uiteraard allerlei mates van ingewikkeldheid. Omdat wij SQL zelf al hadden afgeschreven voor dit project (in de tijd dat we de SQL nog vanuit php uitvoerden) werden de benodigde queries ineens vrij simpel. Maar wel een vrij belangrijke eis werd dat objecten efficient in geheugen moesten kunnen blijven.

Hoedanook, uiteindelijk gebruiken wij Spring's (Simple)JdbcTemplate's om het gros van de Pooling- en JDBC-overhead voor ons af te handelen, maar schrijven we wel zelf de paar SQL-statements en de bijbehorende RowMappers. Dat gaat dan in de orde van 1 a 2 queries per objecttype, vaak alleen een "fetch all"-equivalent om bij het opstarten het geheugen te vullen, soms een "get all modified since"-statement en verder nog een "get by id"-query om de vernieuwde data op te halen.
Dat kan vast ook in Hibernate, maar zodra je van CRUD alleen maar de R nodig hebt is het uiteindelijk misschien wel minder werk om domweg zelf je queries te schrijven dan om via Hibernate alle mappings te moeten regelen

Op dit item kan niet meer gereageerd worden.

Inleiding

Pricewatch-engine uitgebreid tot algemene engine

Hoe werkt die engine dan?

Doel van onze engine

Opzet van de engine

Waarom niet oplossing X?

Dat kan toch gewoon in SQL?

Waarom geen Solr of ElasticSearch?

Nadelen van het documentmodel

Waarom niet oplossing X?

Waarom in Java?

Waarom niet gewoon in php zelf?

Waarom niet in taal X, die is toch veel beter dan Java?

De engine in de toekomst

Inhoudsopgave

Lees meer

Tweakers' serverpark anno 2013

Tweakers 7: wat is nieuw?

Praktisch geheugenbeheer in Java bij Tweakers.net

IT-banen

Reacties (127)

Sorteer op:

Weergave: