OAI-PMH
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) je rámec pro podporu komunikace mezi informačními systémy na principu sklízení dokumentových metadat. OAI-PMH je vhodným nástrojem pro repozitáře k aktualizaci a doplnění záznamů o dokumentech. Protokol je vázán licencí Creative Commons (CC), je tedy možné ho šířit i upravovat dle vlastních požadavků. [1] [2]
Obsah
Koncept protokolu
Komunikace mezi informačními systémy probíhá na principu klient-server, kdy služba sklízení (Harvester) je klientem a server je představován repozitářem. Celého procesu se účastní Data provider a Service providers.[3]
Repozitář (Data providers)
Repozitář je administrovaný uspořádaný systém, který podporuje protokol OAI-PMH jako sběrače metadat. Repozitář obsahuje jednoznačně identifikované objekty. Tyto objekty jsou identifikovány pomocí identifikátorů a dalších metadat především v podobě Dublin Core.[3] Zpřístupnění pro službu sklízení je zajišťováno třemi hlavními metadatovými entitami.
- zdroj (resource)
Tato položka předává informaci o umístění dokumentu (tj. zda je uložen přímo v repozitáři nebo repozitářem pouze zpřístupněn) a o jeho formátu (digitální/fyzický)
- jednotka (item)
Jednotkou je myšlena složka, kde jsou uskladněna popisná metadata. Metadata mohou být uložena přímo v repozitáři nebo dynamicky vytvořena z vnějšího zdroje. Každá jednotka je určena pomocí [Unikátního identifikátoru]
Unikátní identifikátor
Unikátní identifikátor je přiřazován jednotlivým jednotkám (item) uvnitř repozitáře. Používá se při provádění OAI-PMH požadavku na stažení metadat. Formát unikátního identifikátoru musí korespondovat s normou pro URI (Uniform Resource Identifier). Identifikátor plní v protokolu roli odpovědi (ListIdentifiers, ListRecords) i požadavku (GetRecord)
Záznam
Záznam je odpovědí na OAI-PMH požadavek ve formátu XML. XML soubor je organizován do následujících částí:
Hlavička
Obsahuje prioritní informace, tedy unikátní identifikátor, časovou známku, informace o zařazení do setu a případně informace o statusu (deleted).
Metadata
Reprezentace metadat připojených ke konkrétní jednotce repozitáře. Metadata musí být dostupné ve formátu Dublin Core a případně v dalších podporovaných metadatových formátech.
Sety
Set je nepoviný konstrukt repozitáře. Jedná se o strukturální organizaci jednotlivých objektů. Sety dokumentů se využívají převážně při selektivní sklizni dat.
Sběr dat (Service providers)
Poskytovatel služeb, který od data providerů sklízí metadata, obvykle je shlukuje a dále popisuje. Na základě sklizených dat poskytuje svým uživatelům přidané služby (např. vyhledávací).[3]
Použití protokolu
Sběr dat probíhá pomocí příkazů (request), které se v protokolu označují jako verb. Příkazy jsou zadávány v podobě HTTP Request Format, který podporuje php metody GET, či POST.
Syntax příkazu se skládá z adresy HTTP, která představuje repozitář, klíčové slovo (verb) a jeho hodnotu, která předtavuje samotný OAI-PMH požadavek doplněný o proměnné.
Obecný syntax:
repozitář/oai?
verb=OAI-PMH požadavek&proměnné
Typy OAI-PMH požadavku
Get Record
Tento typ požadavku se používá pro sběr dat právě o jedné jednotce repozitáře.
Povinými atributy jsou tedy unikátní identifikátor jednotky (unique identifier) a metadataPrefix (určení formátu záznamu).
Příklad: http://www.manuscriptorium.com/oai?verb=GetRecord&metadataPrefix=qdc&identifier=AIPDIG-BUW___41_E_51A____0YO48RB-cs
Identify
Požadavek, který získává popisné informace o repozitáři. Nemá žádné poviné atributy.
Příklad: http://www.manuscriptorium.com/oai?verb=Identify
ListIdentifiers
Požadavek pro výpis identifikátorů jednotek uložených v repozitáři. Nemá poviné atributy, ale efektivního využití nabývá především ve spojení s atributy from nebo until, které definují čas uložení jednotky do repozitáře.
Příklad: http://www.manuscriptorium.com/oai?verb=ListIdentifiers&metadataPrefix=qdc
ListMetadataFormats
Požadavek pro výpis podporovaných metadatových formátů.
Příklad: http://www.manuscriptorium.com/oai?verb=ListMetada**taFormats
ListRecords
Požadavek pro sběr záznamů z repozitáře. Podobně jako u ListIdentifiers se používá ve spojení s atributy from nebo until.
Příklad: http://www.manuscriptorium.com/oai?verb=ListRecords&metadataPrefix=qdc&set=digitized-xr
ListSets
Požadavek pro sběr záznamů na základě struktury repozitáře (setů)
Příklad: http://www.manuscriptorium.com/oai?verb=ListSets
Využití OAI-PMH v ČR
OAI-PMH protokol je v České republice využíván knihovnami, které touto cestou můžou ze souborného katalogu ČR získávat záznamy pro vlastní použití.
Tato forma spolupráce funguje od roku 2008.
Souborný katalog ČR poskytuje úplné záznamy ve formátu marc21 a kódování UTF-8.
Sklizeň dat je automatizovaná a probíhá s předem nastavenou periodicitou (týden/měsíc).
Tento program zajišťuje stahování záznamů určitého setu a vytvořené nebo aktualizované od data poslední sklizně. Po ukončení sklizně jsou knihovny informovány emailem o jejím průběhu (kolik záznamů bylo staženo).[4]
Odkazy
Reference
- ↑ Protocol for Metadata Harvesting. Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001-. Dostupné také z: https://en.wikipedia.org/wiki/Protocol_for_Metadata_Harvesting
- ↑ Open Archives Initiative. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001- [cit. 2017-11-01]. Dostupné z: http://wiki.knihovna.cz/index.php/OAI-PMH
- ↑ 3,0 3,1 3,2 The Open Archives Initiative Protocol for Metadata Harvesting. Openarchives.org [online]. openarchives, 2015 [cit. 2017-11-01]. Dostupné z: https://www.openarchives.org/OAI/openarchivesprotocol.html
- ↑ Využití protokolu OAI-PMH. Http://www.caslin.cz [online]. Praha: Souborný katalog ČR, 2017 [cit. 2018-01-02]. Dostupné z: http://www.caslin.cz/caslin/spoluprace/jak-prispivat-do-sk-cr/dodavani-dat/vyuziti-protokolu-oai-pmh