Door Robert Bouma

Scrum Master

Development-round-up - Iteratie #16

08-05-2012 • 11:39

19 Linkedin

En toen zat er alweer een iteratie op; deze keer hebben we onze tanden gezet in #16. Deze iteratie duurde weer eens ouderwets drie weken… Minus één dag dan, omdat we, net als de rest van Nederland, ook de verjaardag van onze koningin hebben gevierd. In de resterende tijd wisten we 104 tickets weg te werken en ook nu weer ging het overgrote deel van de tijd in Tweakers 7.0 zitten.

Zo veel tijd zelfs dat we eigenlijk maar een mager lijstje aan releasenotes voor de reguliere release kunnen presenteren. Naast wat kleine bugfixjes en tweaks hebben we onze aanpak van leechers iets beter afgesteld. Al een tijdje wordt geprobeerd om via het Tor netwerk onze Pricewatch te scrapen en in plaats van steeds meer exitnodes te blocken en daarmee bonafide gebruikers te duperen, hebben we onze strategie aangepast. Als normale gebruiker die via Tor surft, zul je hier geen last van hebben, maar we kunnen malafide gebruikers nu makkelijker onderscheppen.

Project Phoenix

Vorige keer waren we al begonnen om een deel van ons verkeer over de nieuwe loadbalancers en webservers te laten lopen. Intussen loopt ook de rest van het verkeer via deze machines; we draaien nu dus geheel op ons vernieuwde serverpark! Ook hebben we in de afgelopen weken onze backup-locatie al wat meer kunnen inzetten, zodat we zeker weten dat we geen vreemde dingen tegenkomen als die nodig is.

Tweakers 7.0

De afgelopen iteraties stonden, evenals de komende, vrijwel volledig in het teken van Tweakers 7.0 en hoewel we nog niets (willen) laten zien, kunnen we wel wat vertellen over de stand van zaken. In deze iteratie hebben we weer goede stappen gezet. Zo hebben we gewerkt aan de frontpage en begint deze al aardig vorm te krijgen. Daarnaast hebben we een goede start gemaakt met de site wide search en hebben we in de Pricewatch bijna het Telecom-gedeelte afgerond.

In totaal hebben we ondertussen de meeste listings heel aardig op orde en ook de Pricewatch is een eind op weg. Natuurlijk is er nog meer dan genoeg te doen, maar het begint nu ergens op te lijken ;)

Overig

Verder kunnen we meedelen dat inmiddels alle developervacatures zijn vervuld en we dus op volle sterkte zijn; op 1 mei is Ray Burgemeestre begonnen als devver en ook Wouter de Wild, onze stagiair, blijft na zijn stage nog even hangen om ons team te versterken. Welkom beiden!

Reacties (19)

Wijzig sortering
Al een tijdje wordt geprobeerd om via het Tor netwerk onze Pricewatch te scrapen en in plaats van steeds meer exitnodes te blocken en daarmee bonafide gebruikers te duperen, hebben we onze strategie aangepast. Als normale gebruiker die via Tor surft, zul je hier geen last van hebben, maar we kunnen malafide gebruikers nu makkelijker onderscheppen.
Voor mensen die net zoals ik niet weten wat scrapen precies inhoud, klik dan hier.
Web scraping (also called web harvesting or web data extraction) is a computer software technique of extracting information from websites. Usually, such software programs simulate human exploration of the World Wide Web by either implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully-fledged web browser, such as Internet Explorer or Mozilla Firefox.
Verder weer leuk om te horen dat er veel gedaan is aan tweakers 7.0 en net zoals bij de vorige iteratie ga ik het nu ook weer zeggen; ik word nieuwsgierig! ;)

[Reactie gewijzigd door Perkouw op 8 mei 2012 15:01]

Vrij vertaald: iemand probeert een aanzienlijk deel van / een zo groot mogelijk deel van / de hele PW database te pakken te krijgen. Wat ie daar mee wii is een tweede, maar ik kan me voorstellen dat er partijen zijn die dat zeer interessante informatie vinden.
Als je binnen dit en een paar maanden ergens een nieuwe prijsvergelijker ziet opduiken die start met een goedgevulde database hoef je niet al te ver te zoeken...
Da's veel te opvallend; niemand is zo stom om dat te proberen. Ik zou eerder verwachten dat iemand "onder de tafel" webshops een abonnement aanbiedt op alerts als een concurrent onder hun prijs duikt of dat soort grapjes.
Dit zijn meesteal webshops die de prijzen van de concurrenten in de gaten houden.
Voor de grap is een paar populaire producten op 2 € zetten en kijken welke shops eronder duiken? O-) Nuja iemand zal er wel wat mee aankunnen. Deze gegevens zijn letterlijk goud waard.

Kan je met een betaald Pricewatch abonnement overigens prijzen van concurrenten opvragen / larts krijgen als er iemand onder je prijs gaat?
Dus de hit-ratio voor TOR-nodes ligt zeker lager dan een IP buiten TOR, zodat TOR-gebruikers bij veel hits eerder een (tijdelijke?) IP-ban krijgen...?

[Reactie gewijzigd door AW_Bos op 8 mei 2012 12:58]

Via deze URL kan je bekijken welke Tor exit nodes Tweakers.net kunnen bereiken:
https://check.torproject....List.py?ip=213.239.154.20

Dat zijn er, op het moment van schrijven, 784. Ik heb alleen geen idee hoeveel mensen nu echt Tor gebruiken, maar als dat 20 000 views per minuut zijn (ik heb echt geen idee of dat veel is) zijn het er zo'n 25 per minuut per exit node. Dat lijken me niet erg veel, in ieder geval niet genoeg om standaard te bannen.

Stel nu dat er een scraper is die 20 pagina's per seconde (1200/m) op kan halen om te scrapen, zijn dat maar <2 views per minuut per node extra. Daar kan je dus geen nodes om bannen.

Een alternatief zou het preventief bannen van anoniem pricewatchen kunnen zijn. IP's van Tor exit nodes kunnen dan niet de Pricewatch in, tenzij ze ingelogd zijn. Dat zal sowieso al deze problemen oplossen, maar dan worden er ook normale users gedupeerd. Voor iemand die Tweakers nog niet kent, en Tor gebruikt, kan de drempel om de Pricewatch te gebruiken dan groter worden.
Google heeft mij al enkele keren gevraagd een captcha in te vullen als ik een paar keer iets te snel zoek. Dat zou ook kunnen voor deze Tor-gebruikers. Als ze veel request doen een captcha sturen met uitleg waarom.
Deze manier was eenvoudiger uit te rollen en lijkt vooralsnog aardig effectief. Als ik de cijfertjes goed interpreteer zitten we nu op 0,01667% false positives en die konden - voor zover ik kon zien - "allemaal" met een refresh gewoon verder want blijkbaar was domweg hun sessie tussen twee bezoeken in verlopen geraakt.

[Reactie gewijzigd door ACM op 9 mei 2012 21:19]

Zijn er daadwerkelijk mensen die sites als t.net via Tor bezoeken dan?

Begrijp me niet verkeerd: ik snap best dat Tor nuttig kan zijn in sommige situaties, maar ik kan me eigenlijk geen situatie bedenken waarin je een hele normale site als t.net via Tor zou willen bezoeken.
Ja, er komen ook legitieme gebruikers via Tor. Zelfs de enkeling die het een tijdje probeert (of vergat het daarna uit te zetten) willen we liever niet onnodig bannen.
Mja, m'n browser (en enkele andere data-gevoelige apps) op m'n telefoon draait via orbot omdat ik geen behoefte heb mijn surfgedrag unencrypted de wereld in te slingeren. Op deze manier ben ik ook niet afhankelijk van mogelijk zwak geschreven apps die inlogdata onversleuteld communiceren.

Ik loste het Tweakers 'probleem' tot nu toe op door de Tweaker app te gebruiken en deze niet via de TOR proxy te laten lopen. Maar GoT kon ik dus niet bereiken, nu wel weer hopelijk, dank daarvoor! :D

[Reactie gewijzigd door Radiodurans op 9 mei 2012 23:11]

Echt geen kans dat we een heeeeeel klein tipje van de sluier opgelicht krijgen mbt tweakers7.0? Hoe dan ook; weer lekker bezig met 104 tickets en ik ben erg benieuwd naar de nieuwe look en backend.
Al een tijdje wordt geprobeerd om via het Tor netwerk onze Pricewatch te scrapen en in plaats van steeds meer exitnodes te blocken en daarmee bonafide gebruikers te duperen, hebben we onze strategie aangepast. Als normale gebruiker die via Tor surft, zul je hier geen last van hebben, maar we kunnen malafide gebruikers nu makkelijker onderscheppen.
http://gathering.tweakers...message/35625795#35625795 O-) :P
Tweakers 7.0 op welke dag komt die ongeveer live?

Op dit item kan niet meer gereageerd worden.


Google Pixel 7 Sony WH-1000XM5 Apple iPhone 14 Samsung Galaxy Watch5, 44mm Sonic Frontiers Samsung Galaxy Z Fold4 Insta360 X3 Nintendo Switch Lite

Tweakers is samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer onderdeel van DPG Media B.V.
Alle rechten voorbehouden © 1998 - 2022 Hosting door True

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee