Microsoft maakt binaire Office-formaten toegankelijker

Microsoft start met een opensource-project om Office-bestanden te kunnen vertalen naar het ooxml-formaat. Daarnaast wordt de documentatie van de binaire Office-bestandsformaten beter beschikbaar gemaakt.

Eind februari wordt hernieuwd gestemd over de fasttrack-procedure voor ISO-standaardisering van het ooxml-formaat. Om de stemming positief te beïnvloeden doet Microsoft twee voorstellen, zo is te lezen op de blog van Office-ontwikkelaar Brian Jones.

Ten eerste start Microsoft met een opensource-project op Sourceforge dat gereedschap moet opleveren voor het converteren van binaire Office-bestanden zoals .doc en .xls naar het ooxml-formaat. Het 'Translator'-project start op 15 februari 2008 en de resulterende broncode wordt onder de BSD-licentie uitgegeven. Vanuit de nationale standaardisatiecomités was namelijk kritiek geuit op het ontbreken van de volledige specificaties van oudere Office-formaten.

Daarnaast wordt het makkelijker om de documentatie van de binaire formaten aan te vragen. Voorheen was de documentatie al gratis te verkrijgen, maar moest deze speciaal aangevraagd worden bij Microsoft. Microsoft heeft nu besloten om deze als directe download aan te bieden op zijn website. Naast de Rand-Z licentie zal de documentatie van de Office-bestandsformaten ook beschikbaar worden gemaakt onder Microsofts Open Specification Promise-licentie.

Door Pieter Molenaar

17-01-2008 • 18:32

38

Submitter: Anoniem: 80466

Reacties (38)

38
35
18
5
0
0
Wijzig sortering
Tja, wordt tijd, ze hebben 't bestandsformaat jaren lang "dicht" gehouden - uit strategisch oogpunt; blijkbaar liggen de belangen nu anders ;) Uiteindelijk zijn de gebruikers en OS community toch de winnaars en de 3th party component ontwikkelaars de verliezers ...
Nee, die belangen zijn niet anders. Als het je voordeel oplevert om de boel dicht te houden doe je dat, als je markt kan veroveren door de boel deels open te gooien doe je dat. Het komt Microsoft hoe dan ook goed uit.

Dit heeft Microsoft ook vaker gedaan. De documentatie van het MSN protcol, het RTF formaat , vorige Office XML formaten en het SMB protocol (ja voor samba!) zijn allemaal een tijdje opengeweest. Hierdoor gaat iedereen als een gek zijn ondersteuning voor deze formaten toevoegen aan zijn software, met als gevolg dat het een de-facto standaard wordt.

Aangezien Microsoft deze formaten zelf implementeerd zullen ze altijd een voorsprong houden. RTF is bijvoorbeeld min of meer een feature-dump van Word. Ofwel, bij iedere nieuwe Word versie is er ook - goh verrassing - een nieuwe versie van RTF uit. Als je dus echte compatibiliteit wilt, zul je alsnog Microsoft's Office draaien. ;) en daar gaat het allemaal om.

@m00se: ik doel niet op de recente ontwikkelingen. heel vroeger was het smb protocol open. net als versie 1.0 van het msn protocol open geweest is. Hiermee heeft Microsoft aan AOL een steek uitgedeeld omdat iedereen support voor het msn netwerk ging toevoegen aan hun software. Toen AOL "verslagen" was ging het msn protocol op slot om concurrentie buiten te houden.

[Reactie gewijzigd door YaPP op 26 juli 2024 14:04]

Anoniem: 82404 @YaPP17 januari 2008 21:23
het SMB protocol
Ahum, dat was geen liefde-werk-oud-papier, ze zijn hier onder druk van de Europese Unie toe gedwongen:
Developers of open-source Samba software will find their work a little easier thanks to an agreement with Microsoft, signed last week, that will give them access to previously secret data on how the Windows operating system works.

Microsoft was compelled to make this information available following a March 24, 2004, European Commission antitrust ruling against the company. In July 2006, the EU fined Microsoft €280.5 million (US$338.6 million at that time) for failing to provide documentation on Windows protocols to its rivals. Microsoft lost an appeal of that decision in September, setting the stage for the deal.
Bron: http://www.pcworld.com/ar...ntitrustcase/article.html

Voor die tijd werd het SMB protocol gewoon reverse engineered (niet onverdienstelijk trouwens, in sommige gevallen was de perfomance van de opensource variant beter dan die van Windows eigen protocol).

[Reactie gewijzigd door Anoniem: 82404 op 26 juli 2024 14:04]

Nee, die belangen zijn niet anders. Als het je voordeel oplevert om de boel dicht te houden doe je dat, als je markt kan veroveren door de boel deels open te gooien doe je dat. Het komt Microsoft hoe dan ook goed uit.
Dat is nou precies wat ik zeg; dat het "belang van MS" van "dicht" naar "open" gegaan is. ;)
Overig is MS niet de enige hierin, de meeste grote (en dan vooral IT/electronica) bedrijven kunnen er wat van ...
Het zou helpen dat er een update zou worden uitgebracht (bovenop het bovenstaande) waardoor Office 2003 en 2007 'native' saven met het ooxml formaat.
Zoiets als dit bedoel je? :)
Microsoft Office Compatibility Pack for Word, Excel, and PowerPoint 2007 File Formats
Date Published: 11/19/2007
Als je dat installeert kunnen oudere Office versies (2000, XP en 2003) native docx bestanden openen en wegschrijven. Het gaat wel wat langzamer dan bij Office 2007, je ziet dat er een tussenstap gedaan wordt.
MSOffice 2007 saved volgens mij al native in een soort* OOXML formaat, dat is nog al regelmatig problematisch als men in MSOffice 2007 een document aanmaakt en deze door laten we zeggen MSOffice2003 gelezen moet worden - dat gaat dus niet.

*: Ik zeg bewust 'soort' OOXML formaat, omdat OOXML nog helemaal geen standaard is, het zou dus best kunnen dat als OOXML aangenomen wordt er een service-pack voor MSOffice 2007 uitkomt die er voor zorgt dat MSOffice 2007 naast het nu bestaande docx-formaat ook ooxml formaat kan gaan saven...
Dat zijn inderdaad de .docx-, .xlsx- en .pptx- bestanden. Onder Ubuntu 7.10 worden die bestanden gewoon gezien als een .zip archief, wat het in feite ook gewoon zijn: een zip- archief met een zwikkie xml-bestanden, dus geen binair bestand meer.

Die bestanden zijn trouwens wel te openen in Office 2003, met behulp van een plugin: http://www.microsoft.com/...bb74cd1466&displaylang=en
Hoe kunnen ze nu opnieuw stemmen over de fasttrack procedure? Het lijkt me toch dat als besloten is om het niet via de snelle weg een standaard te laten worden, ze daarbij moeten blijven? Het was niet in een keer goed genoeg dus volgen ze de lange weg maar. Vind het heel raar als dit anders zou gaan.
Anoniem: 80466 @MadEgg18 januari 2008 10:10
Een Fasttrack procedure bestaat uit drie fasen:

* 30 dagen contradictions fase
Is de standaard niet in tegenspraak met bestaande ISO standaarden.
* 4-8 weken tussenperiode waarin JCT1 de contradictions bevindingen kan boordelenen eventueel de standaaidsatie kan afgelasten of continueren

* 6 maanden ballot fase
Hierin kunnen technische en edittorial bevindingen op de specificatie gedaan worden en een stem worden afgegeven. Als je blokkerende technische bevinding hebt dan moet je tegenstemmen). Als er veel commentaren zijn en/of een beperkt aantal tegenstemmen dan volgt er een volgende fase om de in de ballot fase gevonden problemen op te lossen.

* Ballot resolutie fase (=huidige fase).
De indiener van de specificatie krijgt de mogelijkheid om te reageren op de gedane bevindingen en zelfs wijzigingen aan de specificatie voor te stellen die de bevindingen oplossen. Ecma heeft deze reacties op 14 januari opgeleverd.
Nadat de indiener de reactie heeft gegeven dan volgt er een ballot resolutie bijeenkomst (eind februari). Daarin worden de door de indiener (Ecma) voorgestelde wijzigingen besproken en eventueel nog aangepast naar de wensen van de ISO leden.
Na de bijeenkomst ligt er dus een specificatie met daarbij door de ISO leden geakkoordeerde wijzigingen en daar kunnen de leden die in de ballot fase gestemd hebben en bevindingen hebben ingediend nog 30 dagen hun stem aanpassen bijvoorbeeld als zij oordelen dat de door hen ingediende bevindingen naar behoren zijn opgelost.

Bijvoorbeeld het Tjechische committee heeft een overzichtje geplaatst waarin 90% van de issues die zij hadden ingediend waren door Ecma tijdens de ballot fase volledig waren opgelost en de overige grotendeels gedeeltelijk waren opgelost en slechts 1 (tekstueel) issue niet was opgelost.

[Reactie gewijzigd door Anoniem: 80466 op 26 juli 2024 14:04]

Er wordt echter voor de open source omgeving één ding wezenlijk ding over het hoofd gezien. Iedereen die nu vijf (5) regels code schrijft die toevallig ook terug zijn te vinden in wat Microsoft heeft vrijgegeven pleegt plagiaat. Voorheen kon je aanvoeren dat je deze code onmogelijk kon weten dus dat het je eigen geesteskind was.

Hierdoor zullen er in meerdere software projecten mensen er op moeten gaan letten dat ze geen code schrijven die te sterk overeenkomt met Microsoft code. De kans dat dit namelijk gebeurt is redelijk groot aangezien je exact hetzelfde binaire resultaat wilt bereiken als dat de originele code van Microsoft deed.

Ik denk niet dat dit een rede is waarom Microsoft dit gedaan heeft maar voor hun is dit wel een leuk bijeffect.
De documentatie die Microsoft vrijgeeft zal geen code bevatten, alleen uitleggen hoe de handel in elkaar zit. Het sourceforge project wat gestart wordt zal worden vrijgegeven onder de BSD-licentie wat inhoud dat iedereen het zonder problemen mag gebruiken (commercieel of niet).
Iedereen die nu vijf (5) regels code schrijft die toevallig ook terug zijn te vinden in wat Microsoft heeft vrijgegeven pleegt plagiaat. Voorheen kon je aanvoeren dat je deze code onmogelijk kon weten dus dat het je eigen geesteskind was.
Er is een verschil tussen source code en een formaat specificatie.
Als je code schrijft op basis van een formaat specificatie dan krijge je op die code zelf eigen auteursrechten en die kan je dan weer met een open source licentie uitgeven.
Vraag:

Bevat de 'documentatie' die genoemd wordt in de tekst alles over het binaire .DOC formaat (zoals het exact geïmplementeerd wordt in de producten van Microsoft zelf)? Of alleen maar de details die Microsoft wil vrijgeven?

In het laatste geval kan je het nog steeds niet 100% compatible maken. :/

[Reactie gewijzigd door The Zep Man op 26 juli 2024 14:04]

Het zou een "vertaaltool" moeten worden maw elk willekeurig geldig .doc bestand moet goed geconverteerd worden. Ik denk dat het dan toch de volledige specificaties betreffen.

Iets meer offtopic: Ik denk dat Openoffice.org hier wel bij kan varen, het kan op dit moment nl. nog wel voorkomen dat MS .doc bestanden die geopend worden in Openoffice.org niet helemaal goed worden weergegeven. Toegegeven, je krijgt gelijk een melding dat het niet helemaal 10% goed wordt weergegeven, maar het probleem bestaat ook in de andere richting (openoffice.org bestanden in MS word openen bijv.) en dan krijg je geen waarschuwing afaik.
Ik denk dat Openoffice.org hier wel bij kan varen, het kan op dit moment nl. nog wel voorkomen dat MS .doc bestanden die geopend worden in Openoffice.org niet helemaal goed worden weergegeven.
Het niet correct weergeven van MSWord documenten hoeft natuurlijk niet alleen veroorzaakt te worden door het gebrek aan documentatie van het MSWord formaat.

Het is natuurlijk evengoed mogelijk dat OpenOffice.org Writer bepaald features van MSWord gewoon simpelweg niet heeft - dan zal zo'n feature toch echt eerst ingebouwd moeten worden voor dat het inlezen hiervan correct zal kunnen gaan werken.
Microsoft is lekker bezig met het vrijgeven van intellectuele eigendommen :)
Dit is natuurlijk mooi voor de kleine ontwikkelaar welke nu snel en makkelijke deze documentatie kan gebruiken. (De grote zullen deze wel al een tijdje hebben opgevraagd ;) )
Ze doen het enkel maar als het hen goed uitkomt. De binaire formaten zijn in feite verouderd en op deze manier hoopt men de stemming te beïnvloeden.
Waarom zeg je dat binaire formaten verouderd zijn? Binaire formaten zijn veel compacter, efficienter, sneller. En wanneer jij een licentie hebt voor de spects (en dus de documentatie) kan je ze prima lezen en schrijven. Dus waarom niet?
Anoniem: 125126 @Cobalt17 januari 2008 20:43
Ik ben zelf MS-fan tot in de treure maar ben het niet eens met wat je zegt.

Er zijn verschillende overheden en organen die als policy hebben dat nieuwe software aankopen open formaten moeten hanteren (bijv. State of Massachussets, BECTA) en dat wil feitelijk zeggen dat het (ISO) standaarden zou moeten zijn. Dat is MS nog niet gelukt omdat er problemen met OOXML zijn (zie wikipedia)

Wat ik wil zeggen is dat het op lange termijn veel belangrijker is dat MS de OOXML standaard wat beter beschrijft (geen inconsistenties en geen verwijzingen naar "ZoalsInWord95".) Wat nog "opener" zou zijn is dat MS ODF toelaat als standaard filter (wat je dus kan installen als standaard formaat.) Momenteel sponsort MS een ODF import/export project (zie ref hieronder), maar dat is geen natuurlijke oplossing omdat het een import/export is, geen filter, die bovendien niet goed werkt volgens mijn tests.

Btw ook Sun werkt aan een set Office ODF plugins (zie ref hieronder) voor Office 2007. Het Word'07 filter is volledig geintegreerd, maar het Excel en PPT filter zijn slechts import/export functies en die werken wat mij betreft onhandig en niet goed.

MS wordt meer en meer gedwongen om "open" te zijn, of ze raken grote orders kwijt. Volgens mij moeten ze kiezen tuseen schaak of schaakmat. Dat wordt dus schaak, maar wel zo slecht moegelijk voor de tegenstander.
Binaire formaten zijn veel compacter, efficienter, sneller
Onzin, OOXML is zip gecompressed, wat in de vorm van text zeker weten kleiner is. Ik heb hier de OpenGL programming guide, 2.4MB in Word'97 formaat, 1.1MB in Word'07 formaat.
prima lezen en schrijven
Het is een onredelijke aanname om te veronderstellen dat je met de spec even snel een filterje kan schrijven, dat kost zeker nog maanden, en is dus feitelijk duur. Er zijn toch wel redenen om te geloven dat het formaat erg complex is. En dan nog. Investeren in dit filter heeft slechts een beperkte waarde omdat het Office'97 formaat momenteel door OOXML en ODF wordt vervangen.

http://localauthorities.b...tcode=la_pub_01&rid=14637
http://en.wikipedia.org/wiki/Office_Open_XML
http://sourceforge.net/projects/odf-converter
http://www.sun.com/software/star/odf_plugin/index.jsp

[Reactie gewijzigd door Anoniem: 125126 op 26 juli 2024 14:04]

Binaire formaten zijn zeker niet compacter. Doe maar eens de test met Office 2007. Een docx bestand bijvoorbeeld (het nieuwe microsoft xml formaat) is eigenlijk een zip bestand dat bestaat uit xml files en eventueel andere resources. Door dit in een zip bestand te plaatsen en dus te compresseren is het uiteindelijke resultaat kleiner dan indien we het in het oude doc formaat zouden opslaan.
uhm zip eens je oude doc bestand...
Dan wordt het onbruikbaar, waarmee die mogelijk niet van toepassing is
Ja, in dit geval, omdat Office geen compressed doc formaat ondersteund.
Maar Cobalt heeft gewoon gelijk dat binaire formaten compacter zijn dan xml formaten.
Beide kun je plain, of compressed gebruiken.
Maar vergelijk dan niet de compressed xml met een uncompressed doc omdat Microsoft dat zo heeft geimplementeerd.
Sjongejonge wat een MS bashing weer:
Als ze gesloten formaten hebben is het niet goed (klopt)
Als ze de documentatie beter beschikbaar stellen is het niet goed (zitten wat ogen aan)
Als ze een behoorlijk open formaat ontwikkelen en introduceren is het niet goed (vanwege behoud oude binaire formaten)
Als ze functionaliteit maken voor het lezen en schrijven van opendocument is het niet goed (want het is niet standaard)
Als ze het openxml commentaar verwerken is het niet goed
Als ze een converter maken voor binair nar openxml is het niet goed
Als ze de documentatie van de oude formaten nog beter beschikbaar maken is het niet goed.

Je kunt ook niet van MS verwachten dat ze office opensource maken en implentaties gaan schrijven voor openoffice, koffice, abiword en consorten...
Anoniem: 28557 @dtech17 januari 2008 22:13
Waarom is alles wat negatief is altijd gelijk "MS-bashing". Het is gewoon een feit dat MS jarenlang dit heeft tegengehouden omdat ze ook wel weten dat vendor-lockin een hele belangrijke reden is dat mensen veel van hun producten blijven gebruiken. Nu hun marktaandeel in gevaar komt omdat veel overheden dreigen MS producten niet meer te gebruiken omdat het geen open standaarden gebruikt, gaat MS plotseling een "open" standaard ontwikkelen, wat in feite een proprietary standaard is waar een deel van de specs bekend worden gemaakt - en ja, dat is een belangrijk verschil. Al met al is er verschrikkelijk weinig reden om aan te nemen dat MS dit doet omdat ze plotseling het belang van eerlijke concurrentie inzien.
Is natuurlijk wel zo. Toen WordPerfect de dominante tekstverwerker was, klaagde M$ niet maar maakte zelf een implementatie van het wp* formaat. Iedereen kon toen converteren van WP* naar DOC. Tegenwoordig is het voor elk ICT-bedrijf haast gewoonte geworden om bij de EU te klagen en mevrouw Kroes voor hun karretje proberen te spannen. Ook wordt M$ regelmatig verweten dat het geen PDF export implementatie in Office bouwde, terwijl de eigenaar van het PDF formaat (Adobe) dit M$ jarenlang met rechtzaken verboden heeft.
En ook die conversie was niet perfect, daarnaast was WP Corp. geen veroordeelde monopolist.

Omdat Adobe "verkeerde" dingen doet is het ineens niet meer erg dat MS ze ook doet? Adobe is bijna net zo erg als MS, maar nog geen monopolist en PDF is tenminste een echt open standaard.
Er zijn twee sub document standaards van PDF. Het PDF formaat zelf is nog geen standaard zie ook http://tweakers.net/nieuw...iso-stempel-voor-pdf.html
Wat een flauwekul. Een beetje open standaarden ondersteunen moet niet zo moeilijk zijn en daar gaat het juist om, die keuze is er gewoon niet. En eigenlijk nog steeds niet echt omdat Microsoft steeds kleine dingen op aanpast.

Ik wil echt niet bashen ofzo hoor. Ben zeer tevreden met het MS spul wat ik hier heb, maar het gaat allemaal maar erg moeizaam. Te moeizaam naar mijn idee.
In de OOXML standaard wordt nog al regelmatig naar gedrag uit oude MSOffice suites verwezen, het vrijgeven van de specificaties van de binaire formaten kan het maken van een 3rd party implementatie wellicht gemakkelijker maken.

In hoeverre dit ook echt de stemming zal beïnvloeden dat is de vraag natuurlijk, het voegt verder weinig tot niets toe aan de OOXML standaard...
Je draait nu de zaak om. Microsoft start dit project omdat de ISO er min of meer om gevraagd heeft. Heb je het artikel wel gelezen?

Speciaal voor jouw uit het artikel:
Vanuit de nationale standaardisatiecomités was namelijk kritiek geuit op het ontbreken van de volledige specificaties van oudere Office-formaten.
En omdat het een oudere specificatie betreft, is het inderdaad eenvoudiger voor Microsoft om deze vrij te geven. En om het voor al de negatievelingen nog eenvoudiger te maken, gaan ze zelfs een converter tool schrijven.

@babyxl. Ben je ook op de hoogte dat Microsoft zeer lang buiten ODF is gehouden? Dat mede daardoor een aantal mogelijkheden uit Office niet mogelijk zijn in ODF en dat daarom Microsoft een eigen standaard is gaan ontwikkelen.

Eigenlijk het zelfde verhaal als Microsoft vs Sun en hun Java. Had Microsoft die paar optimalisaties en een aanvullende API mogen toevoegen aan de Microsoft JVM. Sun was tegen, dus Microsoft ontwikkelt .NET.

Adobe heeft via rechtzaken afgedwongen dat MS Office geen PDF export mag hebben. Geen probleem zegt Microsoft, dan ontwikkelen we toch een eigen document formaat, en voila XPS (Xml Paper Specification) is geboren.

Misschien als wat meer bedrijven wat minder moeite doen om Microsoft buiten de deur te houden, hoeft Microsoft ook minder vaak met 'hun' alternatieven te komen.

Los daarvan. Een verzameling regels noemen een standaard als de verzameling bij een derde partij is neergelegd en iedereen de verzameling regels kan volgen. Een standaard sluit niet een andere standaard uit, zelfs niet als deze vrijwel hetzelfde doel heeft. Doordat iedereen welke de standaard gebruikt daarmaa dezelfde regels volgt, ontstaat er compabiliteit. In Nederlands: Als applicatie X een ODF document maakt, dan kun je dit inlezen in applicatie Y als deze ODF ondersteund. Maar applicatie Y kan ook eenvoudig de OpenXML standard volgen.
Misschien als microsoft wat minder moeite deed om zichzelf formaten van anderen toe te eigenen door het zogenaamde 'te supporten', maar er ondertussen een eigen draai aangeven, dat ze wat vaker welkom zijn om ze te gebruiken.
Als Sun die JVM extensies niet tegen had gehouden, dan was java nu een windows-only programmeertaal geweest, aangezien je die extensies alleen op windows beschikbaar hebt en de hele cross-platform ondersteuning weg is. Zo'n zelfde soort probleem zal je met PDF en ODF hebben gehad als MS z'n zin kreeg.
XPS wordt toch niks. Ze proberen een gevestigde standaard (PDF), die iedereen kan lezen, te vervangen door iets wat alleen op vista werkt en niemand gebruikt. Denk niet dat er veel mensen zijn die voordelen zien in deze migratie...
Ben je ook op de hoogte dat Microsoft zeer lang buiten ODF is gehouden? Dat mede daardoor een aantal mogelijkheden uit Office niet mogelijk zijn in ODF en dat daarom Microsoft een eigen standaard is gaan ontwikkelen.
Bron?

Ik heb namelijk het idee dat ODF open geweest is. Meerdere office suites hebben er aan meegewerkt (zoals KOffice) waardoor ODF geen 1-op-1 feature-dump van OpenOffice geworden is.

Door de samenwerking door KOffice zijn er aan het formaat voor text functies toegevoegd die mogelijkheden DTP-achtige toepassingen open houden. Als er een formaat is waarin je goed tekstdocumenten kan opslaan is dat juist ODF.
Als iedereen toch altijd zoveel te vitten heeft op MS en Office waarom stappen jullie dan niet allemaal lekker over naar TeX of LaTeX. Das open werkt goed met grote bestanden. Vergt een beetje nadenken. Maar dat moest je in het begin ook met MS Office. En als het eenmaal meer gebruikt wordt komt er vast wel een WYSIWYG editor voor. natuurlijk wel met de optie om de source nog te schrijven.. Anders heb je alsnog MS office of OOffice of een van die andere...

Op dit item kan niet meer gereageerd worden.