Adobe helpt zoekmachines om dynamische flashcontent te indexeren

Adobe heeft aangekondigd dat het met Google en Yahoo gaat samenwerken om flashcontent op websites en in rich internet applications beter te indexeren. Google heeft de technologie al in gebruik genomen.

Macromedia Flash-logoFlashcontent op dynamische websites blijkt door zoekmachines lastig te indexeren, met als gevolg dat dergelijke informatie moeilijk of niet vindbaar is. Rich internet applications hebben te kampen met hetzelfde euvel. Adobe heeft nu 'geoptimaliseerde' versies van zijn flashtechnologie aan Google en Yahoo geleverd om dit probleem aan te pakken.

De software, bestaande uit een serie api's, is een aanvulling op de Google-spidersoftware met als doel om swf-bestanden beter te kunnen doorzoeken. De huidige spiders kunnen weliswaar statische informatie als tekst en hyperlinks uit flashcontent destilleren, maar dynamische content bleef tot nu toe onzichtbaar voor de webcrawlers. Een geëmuleerde browsersessie, waarbij dynamische flashcontent wordt ingeladen, moet de content voor de spiders toegankelijk maken.

Adobe heeft laten weten dat ontwikkelaars van flashcontent en rich internet applications niets aan hun code hoeven te veranderen. Google zal naar verwachting al deze week de vers geïndexeerde flashcontent voor het grote publiek doorzoekbaar maken. Yahoo zal de Adobe-technologie in een toekomstige versie van zijn zoekmachine gaan verwerken. Adobe heeft overigens nog geen overeenkomst met Microsoft kunnen sluiten en de techniek zal voorlopig dan ook niet in de Live Search-zoekmachine opduiken.

Door Dimitri Reijerman

Redacteur

01-07-2008 • 12:56

42

Reacties (42)

42
42
11
11
0
0
Wijzig sortering
Dit is niet erg goed nieuws voor visueel gehandicapten. Als Google Flash gaat indexeren is er minder nut voor een écht toegankelijke HTML-versie, en raken de visueel gehandicapten de dupe hiervan. Hopelijk komt Adobe ook met hulp voor developers van screen readers. Ik vermoed echter van niet, want commercieel is dat veel minder interessant.
Flash ondersteunt gewoon de verschillende Accessibility interfaces voor de browsers. Tja, als de ontwikkelaar hier niks mee doet... Maar ja, dat probleem heb je bij html applicaties ook als ze niet aangeven wat/wel niet een knop is e.d.

[Reactie gewijzigd door alienfruit op 23 juli 2024 21:21]

Anoniem: 227825 @Blaise1 juli 2008 16:21
juist niet, want wat de zoekrobot doet is eig een soort van 'extract' van de dynamische content uit de flash applicatie, wat voorheen dus niet mogelijk was.
Google zou dus makkelijk een link 'bekijk de HTML-variant' kunnen voorzien bij zijn hits, iets wat het nu al doet voor doc en pdf bestanden.
Ik ben erg benieuwd hoe ze dit voor elkaar spelen. Zal de "browser" de dynamische content ophalen doormiddel van het klikken op regionen en dan te kijken wat er veranderd in het geheugen? Of zou die (net als een programma als fidler) als proxy tussen de flash app en het internet fungeren om zo de responses uit te lezen

Ik kan me niet voorstellen dat iedere site namelijk even makkelijk te indexeren is. Stel je hebt 10 knoppen die iets doen naast elkaar (menu) dan kan ik me voorstellen dat ie die allemaal aanklikt. Maar een site als b.v. Dance valley (net gezien, erg mooi) lijkt me al een stuk lastiger..

Verder ben ik ook benieuwd, indien ze bijvoorbeeld de scritps uitlezen (welke frames worden aangeroepen en die dan afsprelen), in hoevere "afgesloten" content dan niet perongeluk naar voren komt.


Oh nog wel 1tje... ok stel hij vind de resultaten, hoe zorgt google dan dat je bij het aanklikken op het juiste deel terecht komt? Of moet je dan zelf eerst de hele rits aanknoppen moeten afklikken om het te vinden...

[Reactie gewijzigd door ultimasnake op 23 juli 2024 21:21]

Voor zover ik weet is het (gelukkig) onmogelijk om muiskliks via een URL door te geven. Hij zal je dus waarschijnlijk naar de goede hoofdpagina leiden, zo dicht mogelijk bij je resultaat.
Technisch gesproken is het een 'headless' FlashPlayer die de content niet rendert naar een scherm maar via APIs toegankelijk maakt. Als je hier gebruik van wil maken is het belangrijkste dat je nadenkt over accessibility. Net zoals bij HTML kan content die accessible is het eenvoudigste / beste geindexeerd worden (en dan kan je ook meteen deeplinks aanbieden naar specifieke delen van de content).
Ik ben erg benieuwd hoe ze dit voor elkaar spelen.
De flash player weet toch ook waar er geklikt moet worden en wat hij dan moet doen?
Aangezien de api's van Adobe zelf komen veronderstel ik dat Google nu lowlevel kan inhaken en rechtstreeks de code kan gaan uitvoeren zoals deze door de flash player zou uitgevoerd worden.
Verder ben ik ook benieuwd [...] in hoevere "afgesloten" content dan niet perongeluk naar voren komt.
Als de afgesloten content in de frames zelf zit dan is hij niet afgesloten (en zelfs niet dynamisch)...

Verder ga ik er wel van uit dat Google op dezelfde manier te werk zal gaan als bij gewone pagina's. Je hebt een entry point en van daaruit 'klikt' hij verder. Als er geen enkele 'weg' naar bepaalde frames bestaat heeft ook geen zin om deze te indexeren.

Hoewel dit in tegenstelling tot klassieke websites wel mogelijk zou zijn, je bent nl. perfect op de hoogte van welke frames er bestaan (in tegenstelling tot pagina's van een website).
Ik ben benieuwd of dit tot een verandering in opstelling van met name Google leidt. Een aantal jaren geleden waren Flash websites enorm populair vanwege de mogelijkheden, die het gaf voor wat betreft vormgeving en dynamiek.

Google heeft om wat voor reden dan ook deze websites links laten liggen, waardoor deze niet of nauwelijks vindbaar bleken (ik spreek hier uit eigen ervaring). Hierdoor is Flash geleidelijk weer gedegradeerd tot veredelde plaatjes. Heel jammer. Ik zou het persoonlijk toejuichen als de weg terug wordt ingeslagen. Flash is een prachtig stuk gereedschap, dat zijn plaats verdient tussen alle andere webtechnieken.
Zolang het nog niet volledig open is, blijft het een stukje vendor lock-in, en zie ik flash het liefst beperkt tot spelletjes, videoplayers en sites voor breezahs, zoals nu. Personen en bedrijven die een iets serieuzere site willen, zullen eerder standaard browser technieken gebruiken zoals javascript (/ajax) of xhtml, aangezien iedereen die kan openen, en niet alleen mensen met een niet standaard meegeleverde plugin.
Anoniem: 213481 @Bryne2 juli 2008 00:04
Google heeft om wat voor reden dan ook deze websites links laten liggen
Die reden was dan ook, dat het niet of nauwelijks mogelijk was om zulke websites te indexeren, waar dus nu wel een oplossing voor is.
Dit gaat waaschijnlijk wel een impuls geven aan Flex. Aan de ene kant mooi omdat Flex best een mooi product is, maar aan de andere kant hoop ik dat Sun opschiet met JavaFX en nog op tijd is om goede concurrentie te gaan bieden aan Adobe. Rich internet applications zullen we namelijk steeds meer gaan zien en ik hoop dus dat een goed en open formaat de standaard gaat worden. Wat Flash/Flex op het moment niet is.
Ik ben blij dat er ten minste iemand Flex vernoemt. Flex is inderdaad best een mooi product. Ik heb er voor mijn stage een community mee gebouwd, en het heeft zijn nadelen, maar er kunnen echt wel mooie websites mee gebouwd worden.
Ik zie hier toch een behoorlijk groot probleem.

Als Google nu via een API alle content doorgespeeld krijgt van Adobe hoe kan Google dan nagaan of de content daadwerkelijk relevant is voor die applicatie en of er ook echt een (virtuele) pagina voor bestaat?

De API van Adobe moet het dus mogelijk maken om duidelijke cloaking technieken (bijv. witte tekst op een witte background) visueel te maken via de API, en dit moet zowel met gewone timeline sites werken als met actionscript heavy sites die extern data binnen halen en dan bijv. dynamisch teksten etc. veranderen. Misschien dat Google dat dan per klik gaat bekijken, maar dan krijg je weer het probleem dat je na de klik de hele stage kan laten veranderen na bijv. een halve minuut oid, en dat moet Google maar net allemaal zien af te vangen.

Ik ben dus bang dat dit een hoop vervelende figuren de kracht geeft om Google flink om de tuin te leiden en dat dit de index flink zal kunnen gaan vervuilen met nutteloze spam sites.

Ik had liever gezien dat Adobe een meer constructieve oplossing zou ontwikkelen.

Ze zouden bijvoorbeeld een standaard object kunnen maken wat altijd bestaat en waar aangegeven kan worden binnen flash of iets als een (virtuele) pagina gezien kan worden en dan per pagina kan aangegeven worden wat de titel, description en (what the hell) keywords zijn en hoe je daar moet komen (als browser zijnde ;-) ).

Natuurlijk kan daar nog veel mees informatie aan meegegeven worden om te voorkomen dat iemand een login window kan bypassen bijvoorbeeld, maar dit zou de basis zijn.

Degene die oplet ziet de vergelijking met HTML, en dat klopt, want dat is wat Flash vaak mist, structuur en specificatie. Als die structuur en specificatie er dan wel is in goede Flash sites dan is die elke keer weer anders omdat Adobe geen standaard heeft gemaakt.

Dus ik zou graag zeggen, Adobe kijk alsjeblieft even naar HTML5 en de kant dat die jongens opgaan, want dat is echt een stap vooruit!
Aan de ene kant lijkt mij dit een goede ontwikkeling: het indexeren van meer pagina's betekent een betere zoekdatabase van het internet. Aan de andere kant vraag ik me af of het crawlen van deze bestanden voor goede informatie zorgt voor de zoekdatabase en of dit niet gaat leiden tot het grootschaliger gebruik van Flash (waar ik op tegen ben aangezien veel mensen via Flash de website nodeloos ingewikkeld maken voor internetleken). Misschien dat dit tweede nog wel op zich laat wachten gezien er maar twee zoekmachines zijn die deze techniek ondersteunen.

[Reactie gewijzigd door Xirt op 23 juli 2024 21:21]

Ik denk niet dat het meteen zo'n vaart zal lopen.

Het blijft volgens mij onmogelijk om met flash een complexe relatie tussen content op te bouwen, wat wel eenvoudig kan met een html website.

Overigens lijkt het mij ook moeilijk om de gebruiker naar de juiste content binnen een flash app te leiden, zeker zonder aanpassingen.

Of ze moeten je al een 'walkthrough' meeleveren, iets in de zin van "Klik eerst op die knop, dan op deze knop in het nieuwe scherm etc..". Zinloos :z
http://www.neuroproductions.be

Als je naar deze website kijkt en er een beetje in navigeert, zal je misschien opvallen dat de URLbalk verandert en er een nieuwe url in komt te staan. Deze website is dusdanig aangepast (dmv van swfObject, iets met javascript e.d.), dat hij google-vriendelijk is. Je kunt dus ook worden doorgelinkt naar een beepald deel van de website, terwijl hij toch in flash is gemaakt. Dit vereist dus duidelijk wat moeite, maar mij lijkt het wel mogelijk dat het proces zo ongeveer wordt omgekeerd, zodat niet de developer de code hoeft aan te passen, maar dat de google-engine op een andere manier zoekt (wat nu dus ook zo lijkt te zijn).

Wat bedoel je trouwens met "Het blijft volgens mij onmogelijk om met flash een complexe relatie tussen content op te bouwen, wat wel eenvoudig kan met een html website."?
het is een trucje waarmee ze de 'location'-balk aanpassen en eigenlijk niet eens de 'request' die naar een eventuele server verstuurd wordt ..

namelijk door het 'hash' teken te gebruiken ('#') deze staat normaal voor 'anchorlinks' binnen een pagina, en de content die na de 'hash' komt wordt niet daadwerkelijk naar een server verstuurd maar enkel clientside gebruikt (Flash zal er echter wel toegang toe hebben aangezien dat clientside draait; evenals javascript).

nadeel is imho wel dat het voor juist zoekmachine spiders niets uitmaakt, aangezien die juist 'hash-links' niet indexeren omdat ze geen 'serverside' waarde hebben..
het biedt wel een mogelijkheid om bv content te bookmakren waardoor de gebruiksvriendelijkheid wel toeneemt.

Overigens is dat ook een punt voor zoekmachine's... indexeren zal mogelijk wel gaan, maar zodra je geen direkte 'link-naar-content' krijgt van een zoekmachine is het weinig gebruiksvriendelijk...
hooguit wijst de zoekmachine je er nu op dat er 'ergens' in die flashsite de door jou gezochtte content staat, maar daarheen moet je dan zelf op zoek gaan, zonder voorheen te weten _hoe_ er te komen, wat nog wel een behoorlijke zoektocht kan blijken te zijn, als je ziet hoe sommige flash-sites qua usability in elkaar steken.

[Reactie gewijzigd door RM-rf op 23 juli 2024 21:21]

Hij doet het wel degelijk goed hoor, al komen de anchorlinks er idd niet bij kijken.

Google

of directe link:
http://www.neuroproductions.be/portfolio/illustrations/nurse

Probeer de site een keer te openen zonder javascript (zoals Google dat dus doet), dan zal je merken hoe de indexatie verloopt. Het is gewoon plain html, maar met js wordt alles ingeladen in flash.
dat is gewoon het aanbieden van alternatieve content specifiek voor indexering...
dat heeft niet direkt te maken met he 'indexeren' van flash-content, maar is een trucje dat nu al mogelijk is om ervoor te zorgen dat flashcontent goed vindbaar is met zoekmachine's...
dat vergt echter altijd wat meer voorbereiding (en SEO)

overigens lijkt juist het bookmarken dmv van die '#'-truc niet te werken... dmv die bookmarks zijn pagina's niet meer terug te vinden, hij hangt op een standaard 'view-pagina' waarbinnen geen content getoond wordt .. is dat niet een bugje? in theorie moet dat wel kunnen werken.

'overigens die link hoef je niet de hele tijd te posten hoor, die is volgens mij al prima door google geindexeert :) ;)
Anoniem: 227825 @RM-rf1 juli 2008 14:09
Ik vind dit dan ook een terechte uitdaging voor de zoekmachines en niet voor de Flash sitebuilder. Rich interfaces zijn ontstaan uit een nood, noem het desnoods een verlangen, naar een aparte / aangenamere / duidelijkere presentatie van content. We horen hun bestaan eigenlijk niet in vraag te stellen, enkel te erkennen.
Beschouw eens even de usability van de gemiddelde html site 10 jaar terug, dat was ook om te huilen.
Het probleem is dan ook geheel analoog met toen. Iedereen dacht een html site in mekaar te kunnen flansen, nu denkt iedereen dat te kunnen met Flash.

Quote van UniCatcher:
Het blijft volgens mij onmogelijk om met flash een complexe relatie tussen content op te bouwen, wat wel eenvoudig kan met een html website.
html --> xml --> niets minder maar ook niets meer dan een hierarchische structuur. Mbv Flash valt er wel wat meer te 'simuleren' als je het mij vraagt.

[Reactie gewijzigd door Anoniem: 227825 op 23 juli 2024 21:21]

het verschil tussen HTML en XML is dan ook dat XML hooguit structuur biedt, maar geen enkele declaratie van die structuur ....
HTML doet dat wél; definieert of tekst gestructurerd is in alinea's, headers, ordererd of unordered List e.d.... onderling gelinked dmv hyperlinks...

na het 'mislukken' van XHTML (omdat de meerwaarde tov HTML4.01 praktisch gezien vrijwel nihil was) is juist dàt dat ook de verdere ontwikkeling die men voor HTML5 voorzien heeft, namelijk et uitbouwen van specifiek die declaratieve waarde van HTML tov een 'puur' structureel data-format als XML.
Op zich betwist ik ook niet efficiëntie van het indexeren van flash applicaties zonder aanpassingen in de applicatie zelf.
Maar direct linken naar bepaalde content zal enkel kunnen als de applicatie hierop voorzien is.

Jou voorbeeld bevestigt enkel mijn stelling.

Ik vraag me dus af wat het nut van deze manier indexeren is.
Je weet dat de site (mogelijk) de content bevat die jij zoekt, maar wat ben je ermee als je binnenkomt op het introfilmpje en dan randomnly moet gaan rondklikken..
Ik denk niet dat er veel web developers zijn die er echt voor kiezen Flash niet te gebruiken omdat het door zoekmachines niet opgenomen wordt, dit zal er dus niet voor zorgen dat Flash meer wordt gebruikt. Sowieso vind ik dat je altijd een statische versie van je website moet maken voor mensen zonder Flash plugin.
Er zijn genoeg webdevelopers die ervoor kiezen Flash niet te gebruiken en dit is een van de vele redenen daarvoor. Andere redenen (zoals al genoemd op deze pagina) zijn: lange laadtijd, vervelende muziekjes / animaties, slechte navagatie. etc.
Nu alleen nog indexeren voor RIA gebaseerd op HTML/JavaScript. De helft van die webapplicaties worden ook niet lekker geindexeerd. Overigens kunnen oplossingen zoals Roundcube (webmail client) of GMail ook bijzonder traag zijn.

[Reactie gewijzigd door alienfruit op 23 juli 2024 21:21]

Die webpagina voro niet flash niet javascript bestaat meestal uit een pagina die instucites geeft een browser met javascript en/of flash te gebruiken.

ervaring hiermee: zet de noscript extensie aan in firefox en zie hoe arm interet wordt zonder javascript en flash.
Als je website niet werkt zonder JavaScript doe je gewoon iets verkeerd.
Anoniem: 254433 @leuk_he1 juli 2008 16:49
ervaring hiermee: zet de noscript extensie aan in firefox en zie hoe arm interet wordt zonder javascript en flash.
Onzin, het internet werkt prachtig zonder JS en flash. Nauwelijks ads, heerlijk snel, en als je dan toch een van de twee wilt gebruiken zet je ze even aan.

Ik ben zelf ook erg tegen flash-sites. Ze zijn langzaam, chaotisch en je kunt nooit vinden wat je zoekt. Maarja dat zal wel weer aan mij liggen ofzo :z
Correctie: het hoort prachtig te werken maar veel developers zijn te lui of te onkundig om het geheel met en zonder javascript te laten werken. Zelf zorg ik ervoor dat de website functioneert zonder Javascript, het Javascript voegt alleen extra opties toe welke niet noodzakelijk zijn voor het gebruik van de website. Waar nodig wordt het Javavascript indien het uitstaat vervangen door PHP (bijvoorbeeld bij het versturen van een contactformulier).
Anoniem: 167912 @Xirt1 juli 2008 13:17
waar ik op tegen ben aangezien veel mensen via Flash de website nodeloos ingewikkeld maken voor internetleken
ge zijt tegen flash omdat veel ontwikkelaars er brakke sites mee maken?
die redenering volgend, moet ge dan ook tegen html zijn en bij uitbreiding tegen ALLES. Er zijn altijd mensen die iets niet naar behoren kunnen/willen gebruiken
Nee, hij zegt dat gebruik van flash moeilijk is voor internet-leken omdat ze dan een plugin moeten installeren (volgens mij, eventueel ook omdat flash-sites vaak wat moeilijker/sneller in elkaar zitten (en met sneller bedoel ik dan dat er veel animaties e.d. inzitten waardoor leken het overzicht kwijtraken)).
En behalve dat kan een browser met html zelf accessibility functies implementeren. Screenreaders, andere style (voor mensen met slecht zicht), font aanpassingen, etc etc. Met flash gaat dat niet, dat ziet er precies zo uit als de maker het gemaakt heeft, zonder enige vorm van faciliteiten voor mensen met gebreken (tenzij de maker van de site er rekening mee gehouden heeft, en die zijn zeldzaam).
Ik zag dit artikel ook op een ander forum, en kon het niet laten om te zeggen dat dit helemaal geen nieuwe techniek/moeilijk is.

Als je een beetje computer kennis hebt (lees python) kent kun je zo een flash bestand inlezen.

Zo heb ik bijv. een website http://www.2dgames.eu waarvan ik via python website's scan op gratis flash games, daarna scan ik de swf op teksten om deze vervolgens te scannen op inhoud. (om erachter te komen naar: type spel, copyrights etc.)
Heel vaak staat de maker van het spel er namelijk ook in.

Het enige nadeel is trouwens wel adventure games, dan zie je namelijk de hele inhoud.
Als je even had gelezen had je gezien dat Google dat ook al doet. Het gaat er juist om dat ook dingen die niet zo even makkelijk uit de source van je flash te lezen zijn geindexeerd gaan worden, door de flash als ware in de spider te runnen. Zo kan google bijvoorbeeld zien dat twee teksten die op heel andere plaatsen in de source van je flash staan toch naast/bij elkaar uitkomen in de presentatie. Dat is belangrijk voor de indexering.
Je kan wel door SWF's gaan en alles wat in de SWF staat indexeren, dat kon ook al.

Het gaat nu juist om dynamische content, die bijvoorbeeld door Flash wordt ingeladen met een losse call naar de server (andere Swf, XML, etc). Dus alle content gegenereerd door scripting en niet aanwezig in de .swf zelf.

Lijkt me sterk dat je dat al hebt geimplementeerd.
mmm op die manier, dus als iemand in een swf met bijv. action script een ander swf aanroept (die dan weer ergens anders staat)

dat heb ik inderdaad niet.

-- nu ik erover nadenk is dat niet eens zo moeilijk, een action script kan ik nu ook al opvangen. Alleen zie je heel vaak dat men tegenwoordig een swf 'encrypt' om bijv. niet een action code te stelen.

[Reactie gewijzigd door GC-Martijn op 23 juli 2024 21:21]

is dit dan niet gevoelig voor misbruik als er rich content uit databases oid gevist kan worden door google?

moet je dat dan nu beter gaan beveiligen bij het schrijven van je applicaties?

niet dat beveiliging anders maar half hoeft te zijn, maar hiermee lijkt het me makkelijker om ïn te breken"in zulke applicaties.
Anoniem: 227825 @engelbertus1 juli 2008 14:18
how how, er wordt helemaal geen content uit de DB 'gevist'. Waar staat dat ergens ?

Er wordt een browsersessie geëmuleerd, maw er wordt doorheen de flash applicatie 'geklikt' om enige gebruikersinteractie te simuleren. Er wordt vervolgens gekeken wat er als dynamische content wordt teruggestuurd naar de client.
Zie dat 'doorheen de app klikken' echter niet als een logisch surfgedrag, maar eerder als een 'brute force' op al wat clickable is. In die zin zou je je zorgen kunnen maken, maar dan ben je wel een slechte sitebuilder :-P

Doorheen een login raakt dit ding niet hoor :-)
jammer dat ze niet gewoon een open plugin van hebben gemaakt zodat er meerdere zoekmachines aan kunnen haken.
Dan was het mogelijk geweest om ook bv. in sharepoint flash te kunnen indexeren.
Adobe heeft overigens nog geen overeenkomst met Microsoft kunnen sluiten en de techniek zal voorlopig dan ook niet in de Live Search-zoekmachine opduiken.
Wat zou de reden zijn: het lage marktaandeel van Live Search of de concurrentie met Microsoft tussen Flash en Silverlight en andere producten. Het zou mij niks verbazen als het laatste geldt. Ze hebben het indexeren van Flash zo lang uitgesteld en de concurrentie van Silverlight begint nu een beetje op te komen (ik ben al een aantal pagina's tegengekomen waarbij Silverlight werd vereist) dat het me niks zou verbazen dat ze er nu mee zijn gekomen om hun grote marktaandeel te behouden.

Op dit item kan niet meer gereageerd worden.