| předchozí | obsah DP | home | následující |

3. XML

3.1. Co je XML?

eXtensible Markup Language
Je to značkovací jazyk. Popisuje logický význam částí stránky a jejich vazby. Odvozen z jazyka SGML - Standard Generalized Markup Language. Umožňuje definovat vlastní DTD - Definition Type Document. Kontrola formátu programem parser. Kombinace různých znakových sad. Využití v mnoha oblastech. Jazyk, který umožňuje označit význam jednotlivých částí textu, a ne jejich vzhled - značkovací jazyky (markup language). [15]

3.2. Vývoj XML

převzato z [16]
Asi prvním známým značkovacím jazykem byl GML (Generalized Markup Language), který vytvořili pánové Goldfarb, Mosher a Lorie při práci na systému pro uchovávání a následné využití právních textů pro IBM. Museli se tehdy vypořádat s nekompatibilitou jednotlivých systémů a programů a nejsnazší cesta vedla právě přes vytvoření nějakého obecného značkovacího jazyka.
Princip GML se osvědčil a v 80. letech začala na základě GML vyvíjet standardizační organizace ANSI jazyk, který umožňoval definici vlastních značkovacích jazyků - uživatel si dle potřeb mohl vytvořit vlastní sadu značek vhodnou pro daný druh dokumentů. Tou dobou se sdružení GCA (Graphics Communications Association) snažilo vytvořit standardní formátovací jazyk GenCode použitelný na širokém spektru zařízení. Mnohé cíle obou projektů byly podobné, a proto se obě aktivity spojily. Výsledkem byl jazyk SGML (Standard Generalized Markup Language), který je definován v ISO normě 8879 z roku 1986.
Jazyk SGML [17] je skutečně hodně obecný - samozřejmě umožňoval definici vlastních značkovacích jazyků (sad značek a jejich vzájemných vztahů) pomocí tzv. definic typu dokumentu (DTD). Navíc měl spoustu volitelných parametrů - počínaje maximální délkou názvů značek a konče určením znaků použitelných jako oddělovače značek od textu. Komplexnost standardu SGML poněkud zbrzdila jeho praktické využívání. Velkou podporou pro SGML bylo americké ministerstvo obrany, které od svých dodavatelů vyžadovalo dokumentaci k výrobkům právě ve formátu SGML. Důvod byl zřejmý - bylo třeba, aby byla dokumentace použitelná v poměrně dlouhém období. Nešlo tedy použít nějaký proprietární formát textového procesoru, který se každých pár let mění.
Asi nejznámější aplikací SGML je jazyk HTML (Hypertext Markup Language), který se používá pro tvorbu webových stránek. To, jaké značky můžeme na stránkách používat, určuje příslušné DTD, které je pro každou verzi HTML trošku jiné.
V polovině 90. let došlo k paradoxní situaci. Jazyk HTML si získal velkou oblibu díky své jednoduchosti, která byla v ostrém kontrastu s komplexností SGML. Ukázalo se však, že pevně daná skupina značek, které HTML používá, už nestačí. Pro účely vyhledávání a vůbec efektivnější výměny dat by bylo lepší mít možnost používání vlastních značek, které by přesně vymezily význam textu. Požadavek by tedy mohl bez problémů splnit jazyk SGML.
Standard SGML je dost komplexní a jeho úplná implementace velice náročná. Přitom se během deseti let používání SGML ukázalo, že se v praxi používá stejně jen část jeho možností. Tato nejdůležitější podmnožina SGML proto byla vybrána jako nový jazyk, který dovede Web do třetího tisíciletí. Nový jazyk dostal jméno XML. Jedná se o podmnožinu SGML, která si zachovává možnost definování vlastních DTD, a tedy značek pro jednotlivé skupiny dokumentů. Narozdíl od SGML je mnoho parametrů předem určeno a nelze je měnit - délka názvů značek, použité oddělovače a speciální znaky atd. XML už rovnou počítá s podporou všech možných jazyků, takže není tak úzce svázáno s angličtinou jako většina předchozích počítačových technologií. Navíc je syntaxe zápisu dokumentů v XML oproti SGML poměrně přísná, což umožní mnohem snazší a levnější vývoj aplikací, které umožňují s XML pracovat. XML pochází z oblasti, která se zaměřuje na uchovávání a zpracování textových dokumentů. Pro tyto účely se XML výborně hodí. Elektronické publikování dokumentů však není jedinou doménou XML. Značky umožňují v dokumentu zachytit důležité informace o struktuře a významu.

3.3. Krátký popis struktury


DTD - Definition Type Document. DTD je jazyk pro definici nových jazyků, které základní syntaxí vycházejí z XML. DTD umožňuje definovat: elementy použitelné v dokumentu, jejich přípustné vztahy, atributy použitelné u jednotlivých elementů a jejich typ. Je v něm definován obsah podřízeného XML dokumentu.
parser - Parser je program, který kontroluje syntaktickou správnost dokumentu. Některé parsery umějí dokument kontrolovat vzhledem k DTD nebo schématu. Parser je zabudován i ve všech prohlížečích s podporou XML. Mezi nejznámější parsery patří Xerces, MSXML4, System.Xml, XSV.
element - Oficiální název pro tag. Počáteční tag a ukončovací tag, případně nepárový ve formátu
. Celé XML schéma obaluje kořenový element. Vlastnosti elementu se rozšiřují pomocí atributů.
atribut (attlist) - Rozšiřuje elementy. Má svůj název a hodnotu v uvozovkách. (více lze najít v [18])
| předchozí | obsah DP | home | následující |