OAI-PMH: Porovnání verzí

 
(Není zobrazeno 6 mezilehlých verzí od 4 dalších uživatelů.)
Řádek 1: Řádek 1:
[[Kategorie: Informační studia a knihovnictví]][[Kategorie:Hesla ke zpracování UISK]]
+
'''The Open Archives Initiative Protocol for Metadata Harvesting''' (OAI-PMH) je jeden z nejběžnějších protokolů používaných pro '''sklízení metadat''', tedy automatického agregování [[metadata|metadatových záznamů]] z různých zdrojů do jednoho systému.  
'''OAI-PMH''' (Open Archives Initiative Protocol for Metadata Harvesting) je rámec pro podporu komunikace mezi informačními systémy na principu sklízení dokumentových metadat.  
+
<br/>OAI-PMH byl vytvořen organizací Open Archive Initiative jako jednoduchý nízkoprahový mechanismus pro snadnou interoperabilitu mezi [[Digitální repozitář|repozitáři]], tedy schopnost digitálních úložišť spolupracovat mezi sebou a vyměňovat si [[informace]] s co možná nejmenší ztrátou. Protokol je založen na běžných standardech používaných na webu – HTTP a XML. <ref> Open Archives Initiative Protocol for Metadata Harvesting: Interoperability through Metadata Exchange. ''Open Archives Initiative Protocol for Metadata Harvesting'' [online]. [cit. 2018-12-19]. Dostupné z: https://www.openarchives.org/pmh/</ref> <ref name="discovery"> CORRADO, Edward M. ''Discovery Products and the Open Archives Initiative Protocol for Metadata Harvesting'' [online]. 2018, 50(1), 47-53 [cit. 2018-12-19]. DOI: 10.1080/10572317.2017.1422905. ISSN 1057-2317. Dostupné z: https://www.tandfonline.com/doi/full/10.1080/10572317.2017.1422905 </ref>
OAI-PMH je vhodným nástrojem pro repozitáře k aktualizaci a doplnění záznamů o dokumentech.
 
Protokol je vázán licencí [[Creative Commons]] (CC), je tedy možné ho šířit i upravovat dle vlastních požadavků.
 
<ref name=wiki=>Protocol for Metadata Harvesting. Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001-. Dostupné také z: https://en.wikipedia.org/wiki/Protocol_for_Metadata_Harvesting</ref>
 
<ref name=knih>Open Archives Initiative. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001- [cit. 2017-11-01]. Dostupné z: http://wiki.knihovna.cz/index.php/OAI-PMH</ref>
 
  
==Koncept protokolu==
+
==Hlavní myšlenka==
Komunikace mezi informačními systémy probíhá na principu klient-server, kdy služba sklízení (Harvester) je klientem a server je představován repozitářem.  
+
S exponenciálně rostoucím množstvím vytvářených digitálních [[Dokument, informační pramen a informační zdroj|dokumentů]] roste poptávka koncových uživatelů po jednoduchém a efektivním řešení umožňujícím nacházet relevantní zdroje těchto dokumentů. Open Archive Initiative se proto zaměřila na vytvoření rámce, který by umožňoval transportování [[Metadata|metadat]] z velkého množství digitálních [[Digitální repozitář|repozitářů]] do centralizovaného systému. Výsledkem tohoto sklízení metadat je [[databáze]], která obsahuje metadatové záznamy o zdrojích umístěných v mnoha různých repozitářích. Tyto záznamy bývají často doplněny i odkazem do konkrétního repozitáře, kde se původní zdroj nachází. Uživatel tak může získat i snadný přístup k plnému textu daného dokumentu. <ref name="understand">BREEDING, Marshall. Understanding the Protocol for Metadata Harvesting of the Open Archives Initiative. ''Computers in Libraries'' [online]. Nashville, TN: Information Today, 2002, 2002, 22(8), 24-29 [cit. 2018-12-19]. ISSN 1041-7915. Dostupné z: https://librarytechnology.org/document/9944</ref>  
Celého procesu se účastní '''Data provider''' a '''Service providers'''.<ref name=prir>The Open Archives Initiative Protocol for Metadata Harvesting. Openarchives.org [online]. openarchives, 2015 [cit. 2017-11-01]. Dostupné z: https://www.openarchives.org/OAI/openarchivesprotocol.html</ref>
 
  
==Repozitář (Data providers)==
+
===Vznik===
Repozitář je administrovaný uspořádaný systém, který podporuje protokol OAI-PMH jako sběrače metadat. 
+
OAI vznikla v roce 1999 v Santa Fe v Novém Mexiku, rok poté byla představena první verze protokolu. Po krátkém fungování byla provedena revize a s přihlédnutím k názorům a zkušenostem prvotních institucí, které OAI-PMH využily, byla v roce 2002 vydána verze 2.0, která je aktuální dodnes.  
Repozitář obsahuje jednoznačně identifikované objekty. Tyto objekty jsou identifikovány pomocí identifikátorů a dalších metadat především v podobě [[Dublin Core]].<ref name=prir />
 
Zpřístupnění pro službu sklízení je zajišťováno třemi hlavními metadatovými entitami.
 
* zdroj (resource)
 
Tato položka předává informaci o umístění dokumentu (tj. zda je uložen přímo v repozitáři nebo repozitářem pouze zpřístupněn) a o jeho formátu (digitální/fyzický)
 
* jednotka (item)
 
Jednotkou je myšlena složka, kde jsou uskladněna  popisná metadata. Metadata mohou být uložena přímo v repozitáři nebo dynamicky vytvořena z vnějšího zdroje. Každá jednotka je určena pomocí [Unikátního identifikátoru]
 
  
===Unikátní identifikátor===
+
PMH je navržen tak, aby byl co možná nejjednodušší, jeho implementace byla snadná a vyžadovala jen minimum programátorských znalostí. Většina institucí, které PMH zavedly, byla schopná systém zprovoznit v řádu hodin. <ref name="understand"/>
Unikátní identifikátor je přiřazován jednotlivým jednotkám (item) uvnitř repozitáře. Používá se při provádění OAI-PMH požadavku na stažení metadat.
 
Formát unikátního identifikátoru musí korespondovat s normou pro URI (Uniform Resource Identifier).
 
Identifikátor plní v protokolu roli odpovědi (ListIdentifiers, ListRecords) i požadavku (GetRecord)
 
  
===Záznam===
+
===OAI-PMH v České republice===
Záznam je odpovědí na OAI-PMH požadavek ve formátu XML. XML soubor je organizován do následujících částí:
+
V České republice umožňuje jednotlivým knihovnám dodávat data cestou OAI-PMH například Souborný katalog ČR. SKČR sklízí data z knihoven, které se do projektu dobrovolně zapojily, s týdenní nebo měsíční periodicitou. Metadata jsou sbírána ve formátu marc21. <ref>Využití protokolu OAI-PMH. ''Souborný katalog ČR - Portál CASLIN ''[online]. 2017 [cit. 2018-12-19]. Dostupné z: http://www.caslin.cz/caslin/spoluprace/jak-prispivat-do-sk-cr/dodavani-dat/vyuziti-protokolu-oai-pmh</ref>
====Hlavička====
 
Obsahuje prioritní informace, tedy unikátní identifikátor, časovou známku, informace o zařazení do setu a případně informace o statusu (deleted).
 
====Metadata====
 
Reprezentace metadat připojených ke konkrétní jednotce repozitáře. Metadata musí být dostupné ve formátu Dublin Core a případně v dalších podporovaných metadatových formátech.  
 
  
===Sety===
+
==Princip fungování==
Set je nepoviný konstrukt repozitáře. Jedná se o strukturální organizaci jednotlivých objektů. Sety dokumentů se využívají převážně při ''selektivní sklizni dat''.
+
[[File:fungováníOAIPMH_o.png|500px|náhled|vpravo|schéma fungování OAI-PMH; zdroj vlastní]]
 +
OAI-PMH rozeznává dva druhy účastníků procesu sklízení metadat – '''Data Providers''' (zprostředkovatelé dat) představované repozitáři, které zpřístupňují PMH metadata svých položek, a '''Service Providers''' (zprostředkovatele služeb), kteří tyto metadata sklízejí, přenáší do své centralizované databáze a používají pro vytvoření služby s přidanou hodnotou, se kterou může pracovat koncový uživatel. <ref name="protokol">The Open Archives Initiative Protocol for Metadata Harvesting: Protocol Version 2.0. ''The Open Archives Initiative Protocol for Metadata Harvesting'' [online]. 2015, 01.08.2015 [cit. 2018-12-19]. Dostupné z: http://www.openarchives.org/OAI/openarchivesprotocol.html</ref>
  
==Sběr dat (Service providers)==
+
Metadata jsou mezi Data Providers a Service Providers přenášena jako XML dokumenty přes HTTP.<br/> HTTP je protokol fungující na principu dotaz-odpověď (request-response protocol) mezi clientem a serverem. Dotazujícím je v případě OAI-PMH Service Provider, dotazovaným serverem Data Provider. <ref name="sharing">DEVARAKONDA, Ranjeet, Giri PALANISAMY, James M. GREEN a Bruce E. WILSON. Data sharing and retrieval using OAI-PMH. ''Earth Science Informatics'' [online]. 2011, 4(1), 1-5 [cit. 2018-12-19]. DOI: 10.1007/s12145-010-0073-0. ISSN 1865-0473. Dostupné z: http://link.springer.com/10.1007/s12145-010-0073-0</ref>
Poskytovatel služeb, který od data providerů sklízí metadata, obvykle je shlukuje a dále popisuje.
 
Na základě sklizených dat poskytuje svým uživatelům přidané služby (např. vyhledávací).<ref name=prir />
 
  
==Použití protokolu==
+
===Entity===
Sběr dat probíhá pomocí příkazů (request), které se v protokolu označují jako ''verb''. Příkazy jsou zadávány v podobě HTTP Request Format, který podporuje php metody GET, či POST.
+
Ve spojení s metadaty přístupnými pro PMH jsou rozlišovány tři entity: <ref name="protokol"/>  
Syntax příkazu se skládá z adresy HTTP, která představuje ''repozitář'', ''klíčové slovo'' (verb) a jeho ''hodnotu'', která předtavuje samotný OAI-PMH požadavek doplněný o ''proměnné''.<br />
 
'''Obecný syntax:'''
 
repozitář/oai?
 
verb=OAI-PMH požadavek&proměnné
 
  
===Typy OAI-PMH požadavku===
+
*'''Zdroj (Resource)'''
====Get Record====
+
**objekt nebo „věc“, o které daná metadata jsou.  
Tento typ požadavku se používá pro sběr dat právě o jedné jednotce repozitáře.
+
**OAI-PMH se zdrojem nijak nepracuje
''Povinými atributy'' jsou tedy unikátní identifikátor jednotky (unique identifier) a metadataPrefix (určení formátu záznamu).<br />
+
*'''Jednotka (Item)'''
Příklad: http://www.manuscriptorium.com/oai?verb=GetRecord&metadataPrefix=qdc&identifier=AIPDIG-BUW___41_E_51A____0YO48RB-cs
+
**součást repozitáře, ze které mohou být uvolněna metadata o zdrojích.  
====Identify====
+
**jednotka většinou obsahuje metadata o jednom zdroji v několika formátech.  
Požadavek, který získává popisné informace o repozitáři. Nemá žádné poviné atributy.<br />
+
**každá jednotka má svůj identifikátor, který ji přesně označuje v rámci daného repozitáře.  
Příklad: http://www.manuscriptorium.com/oai?verb=Identify
+
**unikátní identifikátor používá OAI-PMH při požadavku o extrakci metadat z jednotky.
====ListIdentifiers====
+
*'''Záznam (record)'''
Požadavek pro výpis identifikátorů jednotek uložených v repozitáři. Nemá poviné atributy, ale efektivního využití nabývá především ve spojení s atributy ''from'' nebo ''until'', které definují čas uložení jednotky do repozitáře.<br />
+
**metadata vyjádřená ve specifickém metadatovém formátu
Příklad: http://www.manuscriptorium.com/oai?verb=ListIdentifiers&metadataPrefix=qdc
 
====ListMetadataFormats====
 
Požadavek pro výpis podporovaných metadatových formátů.<br />
 
Příklad: http://www.manuscriptorium.com/oai?verb=ListMetada**taFormats
 
====ListRecords====
 
Požadavek pro sběr záznamů z repozitáře. Podobně jako u ListIdentifiers se používá ve spojení s atributy ''from'' nebo ''until''.<br />
 
Příklad: http://www.manuscriptorium.com/oai?verb=ListRecords&metadataPrefix=qdc&set=digitized-xr
 
====ListSets====
 
Požadavek pro sběr záznamů na základě struktury repozitáře (setů)
 
<br />
 
Příklad: http://www.manuscriptorium.com/oai?verb=ListSets
 
  
==Využití OAI-PMH v ČR==
+
===Přenos metadat===
OAI-PMH protokol je v České republice využíván knihovnami, které touto cestou můžou ze souborného katalogu ČR získávat záznamy pro vlastní použití.<br/>
+
Pro přenos záznamů (records) specifikuje PMH „požadavky“ a „odpovědi“ („requests“ a „responses“). Využívá při tom existujících protokolů, které jsou široce uplatňovány na [[World Wide Web|webu]]. Požadavky a Odpovědi slouží k identifikaci a stažení metadatových záznamů, ne však k selekci záznamů dle autora, tématu, nebo dalších kvantifikátorů běžně používaných při vyhledávání. Metadata nebývají většinou stahována jednotlivě, nýbrž hromadně.
Tato forma spolupráce funguje od roku 2008. <br/>
 
Souborný katalog ČR poskytuje úplné záznamy ve formátu marc21 a kódování UTF-8.<br/>
 
Sklizeň dat je automatizovaná a probíhá s předem nastavenou periodicitou (týden/měsíc).<br/>
 
Tento program zajišťuje stahování záznamů určitého setu a vytvořené nebo aktualizované od data poslední sklizně. Po ukončení sklizně jsou knihovny informovány emailem o jejím průběhu (kolik záznamů bylo staženo).<ref name=SK>Využití protokolu OAI-PMH. Http://www.caslin.cz [online]. Praha: Souborný katalog ČR, 2017 [cit. 2018-01-02]. Dostupné z: http://www.caslin.cz/caslin/spoluprace/jak-prispivat-do-sk-cr/dodavani-dat/vyuziti-protokolu-oai-pmh</ref>
 
  
== Odkazy==
+
PMH specifikuje 6 Dotazů, které umožňují interakce mezi '''repozitáři''' (data providers) poskytujícími metadata a zprostředkovateli služeb (service providers), kteří metadata sklízejí. Zprostředkovatelé služeb sklízející metadata jsou nazýváni '''harversters''' (ve volném překladu kombajny). <ref name="understand"/>
=== Reference ===
 
  
 +
*'''GetRecord:''' požadavek na přenos určitého záznamu od repozitáře ke harvesteru
 +
*'''Identify:''' harvester se dotazuje repozitáře na identifikační informaci 
 +
*'''ListIdentifiers:''' harvester žádá od repozitáře seznam hlaviček (headrů) záznamů
 +
*'''ListMetadataFormats:''' harvester zjišťuje metadatové formáty, které repozitář podporuje
 +
*'''ListRecords:''' používá se pro sklízení metadat z repozitáře, přičemž harvester může specifikovat sety a další podmínky pro selektivní sklízení.
 +
*'''ListSets:''' harvester žádá sety dat, které jsou uspořádány v rámci daného repozitáře
 +
 +
==Formát metadat==
 +
OAI-PMH je agnostický vůči metadatovému schématu, může tedy přenášet metadata v jakémkoli formátu, pokud je možné zapsat je v XML (eXtensible Markup Language). Protože běžné repozitáře ale nejsou formátově agnostické, vyžaduje OAI-PMH, aby měla každá jednotka, kromě svých vlastních – často specifických metadat, také data ve formátu unqualified [[Co jsou metadata a charakterizujte vybrané reprezentanty metadatových specifikací a schémat pro elektronické informační zdroje (Dublin Core, RDF aj.)|Dublin Core]]. Tím je zajištěn alespoň základní stupeň interoperability v centralizované databázi. <ref name="discovery"/>
 +
 +
Unqualified [[Co jsou metadata a charakterizujte vybrané reprezentanty metadatových specifikací a schémat pro elektronické informační zdroje (Dublin Core, RDF aj.)|Dublin Core]] obsahuje základní sadu 15 prvků (DCMES – Dublin Core Metadata Element Set). Jsou to: název, tvůrce, předmět, popis, vydavatel, přispěvatel, datum, typ, formát, identifikátor, zdroj, jazyk, vztah, pokrytí a práva. <ref> Termíny metadat DCMI. ''Dublin Core Czech'' [online]. 2006, 20. listopadu 2006 [cit. 2018-12-19]. Dostupné z: http://webserver.ics.muni.cz/dublin_core/terms.html</ref>
 +
 +
===Struktura záznamu===
 +
Záznam (record) jsou metadata vyjádřená v určitém formátu. Záznam je vracen jako XML dokument v návaznosti na dotaz OAI-PMH o extrakci metadat z jednotky v repozitáři. Jednoznačnou identifikaci záznamu umožňuje kombinace unikátního identifikátoru jednotky, metadatové předpony (metadataPrefix) a časové známky (datestamp), která označuje datum poslední modifikace.
 +
 +
Záznam je zakódován v XML a organizován do třech částí <ref name="protokol"/>:
 +
*'''Header:''' obsahuje unikátní identifikátor položky, časovou známku, případně ještě elementy setSpec používané pro selektivní sklízení
 +
*'''Metadata:''' část dokumentu, která obsahuje metadatové záznamy položky
 +
*'''About:''' nepovinná součást dokumentu, která může popisovat metadata nebo část záznamu. Běžně je například používána pro deklarace autorských práv
 +
 +
====Příklad XML záznamu====
 +
 +
<div style="border:1px dotted black; background-color:lightgray;">
 +
<pre><header>
 +
  <identifier>oai:arXiv:cs/0112017</identifier>
 +
  <datestamp>2002-02-28</datestamp>
 +
  <setSpec>cs</setSpec>
 +
  <setSpec>math</setSpec>
 +
</header>
 +
<metadata>
 +
<oai_dc:dc
 +
    xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
 +
    xmlns:dc="http://purl.org/dc/elements/1.1/"
 +
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 +
    xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/
 +
    http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
 +
  <dc:title>Using Structural Metadata to Localize Experience of Digital
 +
            Content</dc:title>
 +
  <dc:creator>Dushay, Naomi</dc:creator>
 +
  <dc:subject>Digital Libraries</dc:subject>
 +
  <dc:description>With the increasing technical sophistication of both
 +
    information consumers and providers, there is increasing demand for
 +
    more meaningful experiences of digital information. We present a
 +
    framework that separates digital object experience, or rendering,
 +
    from digital object storage and manipulation, so the
 +
    rendering can be tailored to particular communities of users.
 +
  </dc:description>
 +
  <dc:description>Comment: 23 pages including 2 appendices,
 +
                  8 figures</dc:description>
 +
  <dc:date>2001-12-14</dc:date>
 +
  <dc:type>e-print</dc:type>
 +
  <dc:identifier>http://arXiv.org/abs/cs/0112017</dc:identifier>
 +
</oai_dc:dc>
 +
</metadata>
 +
<about>
 +
  <provenance
 +
      xmlns="http://www.openarchives.org/OAI/2.0/provenance"
 +
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 +
      xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance
 +
      http://www.openarchives.org/OAI/2.0/provenance.xsd">
 +
    <originDescription harvestDate="2002-02-02T14:10:02Z" altered="true">
 +
      <baseURL>http://the.oa.org</baseURL>
 +
      <identifier>oai:r2:klik001</identifier>
 +
      <datestamp>2002-01-01</datestamp>
 +
      <metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace>
 +
    </originDescription>
 +
  </provenance>
 +
</about></pre>
 +
 +
 +
</div>
 +
<ref name="protokol"/>
 +
 +
==Odkazy==
 +
===Reference===
 
<references/>
 
<references/>
  
===Použitá literatura===
+
===Související články===
 +
* [[Metadata]]
 +
* [[World Wide Web]]
 +
* [[Opac, veřejně přístupné katalogy (discovery systémy)]]
 +
* [[Databáze]]
 +
* [[Digitální repozitář]]
 +
* [[Digitální knihovna]]
 +
* [[Vyhledávače, vyhledávací nástroje]]
 +
 
 +
===Klíčová slova===
 +
metadata, sklízení metadat, discovery systémy, Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)
  
  
===Klíčová slova===
+
[[Kategorie:Informační studia a knihovnictví]]

Aktuální verze z 22. 1. 2019, 15:06

The Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) je jeden z nejběžnějších protokolů používaných pro sklízení metadat, tedy automatického agregování metadatových záznamů z různých zdrojů do jednoho systému.
OAI-PMH byl vytvořen organizací Open Archive Initiative jako jednoduchý nízkoprahový mechanismus pro snadnou interoperabilitu mezi repozitáři, tedy schopnost digitálních úložišť spolupracovat mezi sebou a vyměňovat si informace s co možná nejmenší ztrátou. Protokol je založen na běžných standardech používaných na webu – HTTP a XML. [1] [2]

Hlavní myšlenka

S exponenciálně rostoucím množstvím vytvářených digitálních dokumentů roste poptávka koncových uživatelů po jednoduchém a efektivním řešení umožňujícím nacházet relevantní zdroje těchto dokumentů. Open Archive Initiative se proto zaměřila na vytvoření rámce, který by umožňoval transportování metadat z velkého množství digitálních repozitářů do centralizovaného systému. Výsledkem tohoto sklízení metadat je databáze, která obsahuje metadatové záznamy o zdrojích umístěných v mnoha různých repozitářích. Tyto záznamy bývají často doplněny i odkazem do konkrétního repozitáře, kde se původní zdroj nachází. Uživatel tak může získat i snadný přístup k plnému textu daného dokumentu. [3]

Vznik

OAI vznikla v roce 1999 v Santa Fe v Novém Mexiku, rok poté byla představena první verze protokolu. Po krátkém fungování byla provedena revize a s přihlédnutím k názorům a zkušenostem prvotních institucí, které OAI-PMH využily, byla v roce 2002 vydána verze 2.0, která je aktuální dodnes.

PMH je navržen tak, aby byl co možná nejjednodušší, jeho implementace byla snadná a vyžadovala jen minimum programátorských znalostí. Většina institucí, které PMH zavedly, byla schopná systém zprovoznit v řádu hodin. [3]

OAI-PMH v České republice

V České republice umožňuje jednotlivým knihovnám dodávat data cestou OAI-PMH například Souborný katalog ČR. SKČR sklízí data z knihoven, které se do projektu dobrovolně zapojily, s týdenní nebo měsíční periodicitou. Metadata jsou sbírána ve formátu marc21. [4]

Princip fungování

schéma fungování OAI-PMH; zdroj vlastní

OAI-PMH rozeznává dva druhy účastníků procesu sklízení metadat – Data Providers (zprostředkovatelé dat) představované repozitáři, které zpřístupňují PMH metadata svých položek, a Service Providers (zprostředkovatele služeb), kteří tyto metadata sklízejí, přenáší do své centralizované databáze a používají pro vytvoření služby s přidanou hodnotou, se kterou může pracovat koncový uživatel. [5]

Metadata jsou mezi Data Providers a Service Providers přenášena jako XML dokumenty přes HTTP.
HTTP je protokol fungující na principu dotaz-odpověď (request-response protocol) mezi clientem a serverem. Dotazujícím je v případě OAI-PMH Service Provider, dotazovaným serverem Data Provider. [6]

Entity

Ve spojení s metadaty přístupnými pro PMH jsou rozlišovány tři entity: [5]

  • Zdroj (Resource)
    • objekt nebo „věc“, o které daná metadata jsou.
    • OAI-PMH se zdrojem nijak nepracuje
  • Jednotka (Item)
    • součást repozitáře, ze které mohou být uvolněna metadata o zdrojích.
    • jednotka většinou obsahuje metadata o jednom zdroji v několika formátech.
    • každá jednotka má svůj identifikátor, který ji přesně označuje v rámci daného repozitáře.
    • unikátní identifikátor používá OAI-PMH při požadavku o extrakci metadat z jednotky.
  • Záznam (record)
    • metadata vyjádřená ve specifickém metadatovém formátu

Přenos metadat

Pro přenos záznamů (records) specifikuje PMH „požadavky“ a „odpovědi“ („requests“ a „responses“). Využívá při tom existujících protokolů, které jsou široce uplatňovány na webu. Požadavky a Odpovědi slouží k identifikaci a stažení metadatových záznamů, ne však k selekci záznamů dle autora, tématu, nebo dalších kvantifikátorů běžně používaných při vyhledávání. Metadata nebývají většinou stahována jednotlivě, nýbrž hromadně.

PMH specifikuje 6 Dotazů, které umožňují interakce mezi repozitáři (data providers) poskytujícími metadata a zprostředkovateli služeb (service providers), kteří metadata sklízejí. Zprostředkovatelé služeb sklízející metadata jsou nazýváni harversters (ve volném překladu kombajny). [3]

  • GetRecord: požadavek na přenos určitého záznamu od repozitáře ke harvesteru
  • Identify: harvester se dotazuje repozitáře na identifikační informaci
  • ListIdentifiers: harvester žádá od repozitáře seznam hlaviček (headrů) záznamů
  • ListMetadataFormats: harvester zjišťuje metadatové formáty, které repozitář podporuje
  • ListRecords: používá se pro sklízení metadat z repozitáře, přičemž harvester může specifikovat sety a další podmínky pro selektivní sklízení.
  • ListSets: harvester žádá sety dat, které jsou uspořádány v rámci daného repozitáře

Formát metadat

OAI-PMH je agnostický vůči metadatovému schématu, může tedy přenášet metadata v jakémkoli formátu, pokud je možné zapsat je v XML (eXtensible Markup Language). Protože běžné repozitáře ale nejsou formátově agnostické, vyžaduje OAI-PMH, aby měla každá jednotka, kromě svých vlastních – často specifických metadat, také data ve formátu unqualified Dublin Core. Tím je zajištěn alespoň základní stupeň interoperability v centralizované databázi. [2]

Unqualified Dublin Core obsahuje základní sadu 15 prvků (DCMES – Dublin Core Metadata Element Set). Jsou to: název, tvůrce, předmět, popis, vydavatel, přispěvatel, datum, typ, formát, identifikátor, zdroj, jazyk, vztah, pokrytí a práva. [7]

Struktura záznamu

Záznam (record) jsou metadata vyjádřená v určitém formátu. Záznam je vracen jako XML dokument v návaznosti na dotaz OAI-PMH o extrakci metadat z jednotky v repozitáři. Jednoznačnou identifikaci záznamu umožňuje kombinace unikátního identifikátoru jednotky, metadatové předpony (metadataPrefix) a časové známky (datestamp), která označuje datum poslední modifikace.

Záznam je zakódován v XML a organizován do třech částí [5]:

  • Header: obsahuje unikátní identifikátor položky, časovou známku, případně ještě elementy setSpec používané pro selektivní sklízení
  • Metadata: část dokumentu, která obsahuje metadatové záznamy položky
  • About: nepovinná součást dokumentu, která může popisovat metadata nebo část záznamu. Běžně je například používána pro deklarace autorských práv

Příklad XML záznamu

<header>
  <identifier>oai:arXiv:cs/0112017</identifier>
  <datestamp>2002-02-28</datestamp>
  <setSpec>cs</setSpec>
  <setSpec>math</setSpec>
</header>
<metadata>
 <oai_dc:dc 
     xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" 
     xmlns:dc="http://purl.org/dc/elements/1.1/" 
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ 
     http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
   <dc:title>Using Structural Metadata to Localize Experience of Digital 
             Content</dc:title>
   <dc:creator>Dushay, Naomi</dc:creator>
   <dc:subject>Digital Libraries</dc:subject>
   <dc:description>With the increasing technical sophistication of both 
    information consumers and providers, there is increasing demand for 
    more meaningful experiences of digital information. We present a 
    framework that separates digital object experience, or rendering, 
    from digital object storage and manipulation, so the
    rendering can be tailored to particular communities of users. 
   </dc:description>
   <dc:description>Comment: 23 pages including 2 appendices, 
                   8 figures</dc:description>
   <dc:date>2001-12-14</dc:date>
   <dc:type>e-print</dc:type>
   <dc:identifier>http://arXiv.org/abs/cs/0112017</dc:identifier>
 </oai_dc:dc>
</metadata>
<about> 
  <provenance
      xmlns="http://www.openarchives.org/OAI/2.0/provenance" 
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance
      http://www.openarchives.org/OAI/2.0/provenance.xsd">
    <originDescription harvestDate="2002-02-02T14:10:02Z" altered="true">
      <baseURL>http://the.oa.org</baseURL>
      <identifier>oai:r2:klik001</identifier>
      <datestamp>2002-01-01</datestamp>
      <metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace>
    </originDescription>
  </provenance>
</about>


[5]

Odkazy

Reference

  1. Open Archives Initiative Protocol for Metadata Harvesting: Interoperability through Metadata Exchange. Open Archives Initiative Protocol for Metadata Harvesting [online]. [cit. 2018-12-19]. Dostupné z: https://www.openarchives.org/pmh/
  2. 2,0 2,1 CORRADO, Edward M. Discovery Products and the Open Archives Initiative Protocol for Metadata Harvesting [online]. 2018, 50(1), 47-53 [cit. 2018-12-19]. DOI: 10.1080/10572317.2017.1422905. ISSN 1057-2317. Dostupné z: https://www.tandfonline.com/doi/full/10.1080/10572317.2017.1422905
  3. 3,0 3,1 3,2 BREEDING, Marshall. Understanding the Protocol for Metadata Harvesting of the Open Archives Initiative. Computers in Libraries [online]. Nashville, TN: Information Today, 2002, 2002, 22(8), 24-29 [cit. 2018-12-19]. ISSN 1041-7915. Dostupné z: https://librarytechnology.org/document/9944
  4. Využití protokolu OAI-PMH. Souborný katalog ČR - Portál CASLIN [online]. 2017 [cit. 2018-12-19]. Dostupné z: http://www.caslin.cz/caslin/spoluprace/jak-prispivat-do-sk-cr/dodavani-dat/vyuziti-protokolu-oai-pmh
  5. 5,0 5,1 5,2 5,3 The Open Archives Initiative Protocol for Metadata Harvesting: Protocol Version 2.0. The Open Archives Initiative Protocol for Metadata Harvesting [online]. 2015, 01.08.2015 [cit. 2018-12-19]. Dostupné z: http://www.openarchives.org/OAI/openarchivesprotocol.html
  6. DEVARAKONDA, Ranjeet, Giri PALANISAMY, James M. GREEN a Bruce E. WILSON. Data sharing and retrieval using OAI-PMH. Earth Science Informatics [online]. 2011, 4(1), 1-5 [cit. 2018-12-19]. DOI: 10.1007/s12145-010-0073-0. ISSN 1865-0473. Dostupné z: http://link.springer.com/10.1007/s12145-010-0073-0
  7. Termíny metadat DCMI. Dublin Core Czech [online]. 2006, 20. listopadu 2006 [cit. 2018-12-19]. Dostupné z: http://webserver.ics.muni.cz/dublin_core/terms.html

Související články

Klíčová slova

metadata, sklízení metadat, discovery systémy, Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)