Om Dublin Core og metadata

En kort innføring

av Leif Hansen

Som bibliotekmenesker er vi vant til å søke i bibliotekkataloger, etter bøker som er registrert etter aksepterte systemer, og vi kan søke på forfatter og tittel, mellom mye annet. Bibliotekenes gamle kortkataloger og dagens databaserte søkesystemer er metadata - data om data.

Når vi så skal søke etter informasjon på internett, så opplever vi det ofte frustrerende. Mulighetene til å avgrense søk er svært begrenset i forhold til søk i de fleste bibliotekskataloger. Du kan f.eks. ikke begrense et til forfatter av et web-dokument.

Det har lenge eksistert såkalte meta-data i HTML-spesifikasjonene:
    <META NAME="description" CONTENT="">
    <META NAME="keywords" CONTENT="">
kan brukes til henholdsvis å spesifisere hva dokumentet handler om og sette «emneord» på dokumentene.

Feltet «description» kan være en tag beskrivende setning om hva dokumentet handler om, f.eks.
<META NAME="description" CONTENT="Hvordan dokumenter på internett kan beskrives ved ... osv">,

Feltet «keywords» er en streng med emneord, f.eks.
<META NAME="keywords" CONTENT="internett, indeksering, emneord, gjenfinning">
- med andre ord begreper du tror interesserte vil søke på dersom de er ute etter materiale i et dokument av denne typen.

Disse elementene er ikke synlige ved visning av et internett-dokument. Metataggene har vært brukt av søkemaskinene til å vekte dokumentene ved indeksering. Ord som forekommer i disse to feltene tillegges (ofte) mer vekt enn de som kommer lenger nede i dokumentet - og som igjen vil bringe dokumentet høyere opp på en treffliste. Følgelig har det vært spekulert en del i bruken av disse, noe som igjen fører til at en del søkemotorer ikke tar hensyn til dem i det hele tatt.

Description-feltet ble ofte tidligere brukt ved visning i en treffliste - i dag ser det ut til at de fleste søkemaskinene heller bruker de par første linjene i dokumentet.

Det er helt fritt opp til den enkelte forfatter å bruke disse metataggene. En kjapp sjekk på hjemmesidene til fylkesbibliotekene i Norge viser at 4 av 19 hjemmesider har tatt dette helt eller delvis i bruk. Av disse har Rogaland fylkesbibliotek like gjerne har tatt i bruk Dublin Core!

Og det bringer oss over på Dublin Core.

Dublin Core har sitt utspring etter et møte i Dublin, Ohio i mars 1996. I desember 1996 ble det publisert 12 elementer, siden 13 og idag 15 forskjellige elementer som kan brukes. Flere skal det ikke bli. Det har vært noe uklarhet i forbindelse med bruken av enkelte elementer, og fram til nå har enkelte vært av eksperimentell og varierende karakter.

  1. Ingen av elementene er obligatoriske. Du kan foreta et utvalg av det du selv synes er nødvendig.
  2. Alle elementene kan gjentas.

Disse 15 elementene settes inn i html-dokumentet mellom <HEAD> og </HEAD>.
Syntaksen er litt forskjellig avhengig av hvilken versjon av HTML du bruker. Eksemplene under er vist slik det blir brukt i 4.0. Bruker du HTML 2.0 eller 3.2 vil syntaksen ved bruk av kvalifikatorerer være noe annerledes.

Elementbeskrivelser i Dublin Core

1. Tittel
Label: title
Det navnet som er gitt dokumentet (eller ressursen, om du vil) av opphavsmann eller utgiver.
Eksempel:
<META NAME="DC.Title" 
      CONTENT="Om Dublin Core og metadata">
2. Forfatter eller opphavsmann
Label: creator
Den person eller institusjon som er hovedansvarlig for dokumentets intellektuelle innhold. Eksempel: Forfatter når det dreier seg om et skrevet dokument; artist, fotograf eller illustratør når det dreier seg om et visuelt dokument. Anbefales registrert i invertert form (etternavn, fornavn).
Eksempel:
<META NAME="DC.Creator" 
      CONTENT="Hansen, Leif">
<META NAME="DC.Creator.PersonalName" 
      CONTENT="Hansen, Leif">
3. Emne
Label: subject
Det dokumentet handler om. Emnet kan enten angis med enkeltord eller med fraser som beskriver dokumentets emne eller innhold. Det oppfordres til å bruke kontrollerte vokabularer (f. eks. emneordsregister) og formelle klassifikasjonskjema.
Eksempel:
<META NAME="DC.Subject" 
      CONTENT="Dublin Core, hjemmesider, katalogisering, metadata">
4. Beskrivelse
Label: description
En beskrivelse av dokumentets innhold, som f.eks. sammendrag av dokumentlignende objekter, eller innholdsbeskrivelse av visuelle ressurser.
Eksempel:
<META NAME="DC.Description" 
      CONTENT="Om bruk av Dublin Core for katalogisering og gjenfinning av websider">
5. Utgiver
Label: publisher
Den instans som er ansvarlig for å gjøre dokumentet tilgjengelig i den aktuelle formen, som f.eks. et forlag, et bibliotek eller annen institusjon.
Eksempel:
<META NAME="DC.Publisher" 
      CONTENT="Porsgrunn bibliotek">
6. Annen bidragsyter
Label: contributors
Person eller institusjon som har gitt betydelig intellektuelt bidrag til dokument, men som ikke er oppgitt som opphavsmann og som er sekundær i forhold til denne (f.eks. redaktør, oversetter, illustratør).
Eksempel:
<META NAME="DC.Contributor.CorporateName" 
      CONTENT="Porsgrunn bibliotek">
<META NAME="DC.Contributor.PersonalName" 
      CONTENT="NN">
7. Dato
Label: date
Dato som angir når dokument ble gjort tilgjengelig i dette formatet. Det anbefales å bruke dato i formen YYYY-MM-DD. Datoelementet 2000-11-05 angir her 5. november 2000.
Eksempel:
<META NAME="DC.Date" 
      CONTENT="2000-11-05">
8. Type
Label: type
Ressursens form eller sjanger, som f.eks. hjemmeside, roman, dikt, arbeidsdokument, teknisk rapport, essay, ordbok. Bør velges fra en spesifisert liste over verdier.
Eksempel:
<META NAME="DC.Type" 
      CONTENT="Text.Artikkel">
9. Format
Label: format
Ressursens "data-format", som kan brukes til å identifisere hvilken programvare (og muligens maskinvare) som trengs for å frambringe eller bruke dokumentet. Bør velges fra en spesifisert liste over verdier. For elektroniske ressurser bør en bruke såkalt MIME-type
Eksempel:
<META NAME="DC.Format" 
      SCHEME="IMT" 
      CONTENT="text/html">
10. Identifikator
Label: identifier
Tekststreng eller nummer som entydig identifiserer dokumentet. For nettressurser kan dette være en URL eller en URN.
Andre globalt entydige identifikatorer, som f.eks. ISBN eller andre formaliserte navn, kan også brukes for ressurser som ikke er på nettet.
Eksempel:
<META NAME="DC.Identifier" 
      SCHEME="URI"
      LCONTENT=http://www.porsgrunn.folkebibl.no/prosjekt/om_DC.html">
<META NAME="DC.Identifier" 
      SCHEME="URN" 
      CONTENT="URN:NBN:se-d199811234">
11. Kilde
Label: source
Identifikator (tekststreng eller nummer) som entydig identifiserer det verket som dette dokumentet stammer fra. ISBN-nummeret til den trykte boka som den digitale versjonen stammer fra (om det ikke passer inn i relasjon-elementet (se nr. 13).
Eksempel:
<META NAME="DC.Source" 
      CONTENT="Finn C. Knudsen: Eidanger - Porsgrund">
<META NAME="DC.Source" 
      SCHEME="ISBN" 
      CONTENT="82-992469-0-3">
12. Språk
Label: language
Det (eller de) språk som er brukt i dokumentets innhold. Om mulig bør betegnelsene i dette feltet hentes fra RFC 1766 (2-bokstavs landekode).
Eksempel:
<META NAME="DC.Language" 
      SCHEME="ISO639-1" 
      CONTENT="no">
<META NAME="DC.Language" 
      SCHEME="Z39.53" 
      CONTENT="NOR">
13. Relasjon
Label: relation
Relasjonen dette dokumentet har til andre ressurser. Hensikten er å uttrykke relasjoner mellom ressurser som har innbyrdes formelle relasjoner, men som samtidig eksisterer som frittstående ressurser. Eksempler: bilder i et dokument, kapitler i ei bok, objekter i en samling.
Formelle spesifikasjoner for relasjon er under utarbeidelse. Bruken av dette elementet er foreløpig å oppfatte som eksperimentell.
Eksempel:
<META NAME="DC.Relation" 
      SCHEME="URL"
      CONTENT="http://www.porsgrunn.folkebibl.no/bok/fck/ep/index.html>
<META NAME="DC.Relation" 
      CONTENT="IsPartOf Finn C. Knudsen: Eidanger - Porsgrund">
14. Dekning
Label: coverage
Angivelser av geografiske eller tidsmessige aspekter ved dokumentet.
Formelle spesifikasjoner for dekning er under utarbeidelse. Bruken av dette elementet er foreløpig å oppfatte som eksperimentell.
Eksempel:
<META NAME="DC.Coverage" 
      CONTENT="Norge">
15. Rettigheter
Label: rights
Referanse (lenke) til en opphavsrettsformulering, eller til en tjeneste som kan formidle informasjon om betingelsene for å få tilgang til dokumentet.
Formelle spesifikasjoner for rettigheter er under utarbeidelse. Bruken av dette elementet er foreløpig å oppfatte som eksperimentell.
Eksempel: <>

Nummereringen er min, og kun brukt for å skape en enklere oversikt over feltene.

Dublin Core kan brukes i to "versjoner": en enkel Dublin Core og en med qualifiers. I eksemplene over er det begge deler, for å vise fleksibiliteten i Dublin Core. Eksemplene over med SCHEME="" er DC brukt med qualifiers

Forholdet Dublin Core - Marcformatet

De fleste feltene i Dublin Core kan sammenlignes med marc-tagger i MARC-formatet. Knut Hegna har (i en annen sammenheng) satt sammen nedenstående liste. Dublin Core er rimeligvis ikke så detaljert som MARC-formatet, og vil naturligvis gi tilsvarende dårligere søkemuligheter i så henseende.

Marcfelt Beskrivelse Dublin Core
008 Koder (språk, land etc)
020 ISBN-nummer IDENTIFIER
041 Språk (se 0088/35-37 LANGUAGE
043 Geografisk kode COVERAGE
082 Dewey-klassifikasjonsnummer SUBJECT
100 Forfatter CREATOR
110 Korporasjon som ordningsord CREATOR
111 Konferanse CREATOR (??)
130 Standardtittel TITLE
245 Tittel TITLE
250 Utgavebemerkning  
260 Utgivelse (sted, forlag, år) PUBLISHER
300 Fysisk beskrivelse (sidetall m.m.)
440 Serie autorisert RELATION
490 Serie autorisert RELATION
500 Generell note DESCRIPTION
504 Bibliogaifinote DESCRIPTION
505 Bind eller kapittelangivelse DESCRIPTION
520 Innholdsnote DESCRIPTION
553 Opptrykksnote RELATION (?)
600 Personnavn som emne SUBJECT
610 Korporasjon som emne SUBJECT
630 Verktittel som emne SUBJECT
650 Emneord SUBJECT
651 Geografisk emneord SUBJECT
653 Frie ukontrollerte emneord SUBJECT
655 Sjanger som emne SUBJECT
700 Biinførsel personnavn CONTRIBUTOR
710 Biinførsel på korporasjon CONTRIBUTOR
730 Standardtittel som biinførsel SUBJECT
740 Biinførsel på tittel TITLE
810 Serietitel under korporasjon RELATION
830 Tittel på overordnet verk RELATION

Bibsys har laget en d2m : Dublin Core to MARC converter som produserte dette MARC-formatet ut fra Dublin Core-elementene brukt i dette dokumentet.

008000906s2000                        NOR  
245  $a Om Dublin Core og metadata
631  $a Dublin Core, hjemmesider, katalogisering, metadata
082  $a 025.32
504  $a Om bruk av Dublin Core og metadata for katalogisering og gjenfinning av websider
260  $b Porsgrunn bibliotek
     $c 2000
505  $a Text.Article
041  $a NOR
559  $a http://purl.org/metadata/dublin_core_elements
856  $u http://www.porsgrunn.folkebibl.no/prosjekt/om_DC.html
     $q text/html

Framtida

Internett endres hele tiden og endringer skjer fort. Ny teknologi og nye standarder tas raskt i bruk når nytteeffekten er tilstede. Dublin Core metadata element set har vært på banen siden 1996, og til denne dag har bruken vært minimal. Når det ikke har hatt større gjennomslagskraft, så skyldes det trolig i første rekke at de store søkemotorene ikke tar hensyn til metadata. Når bruken av metadata er frivillig, det har ingen praktisk nytte, hvorfor da legge inn ekstra arbeide når ingen drar nytte av det?

De fleste editorer gir deg ikke engang uten videre anledning til å skrive dette inn. Inntil utviklerne av de mest populære editorene legger registering av metadata inn som en enkel løsning i sine editorer, vil bruken av DC neppe bli benyttet av andre enn de som er pålagt det.

Og det er i første rekke innen offentlig administrasjon i enkelte land og organisasjoner DC har vært tatt i bruk (eller det finnes planer om det). Slike nettsted har da installert egen søkemotor for sitt nettsted som tar hensyn til metadataene. På slike nettsteder kan man da lettere finne den informasjon man er ute etter da det kan være mulig å foreta mer presise søk.

Den norske katalogkomite har behandlet Dublin Core i møte 16. mars 2001: Komitéen går inn for å oversette DC-formatet til norsk og i tillegg å utarbeide retningslinjer for hvordan opplysningene skal registreres og beskrivelse av hvordan metadataene knyttes til dokumentet. De vil da legge til grunn den oversettelsen som er utarbeidet av Ole Husby og Knut Hegna.

Tilslutt: det finnes flere metadata-formater, men Dublin Core er nok det mest kjente av disse, ikke minst i bibliotekkretser.

Kilder

  1. Dette er hjemmesida: Dublin Core Home Page. Mye stoff der, se spesielt selve spesifikasjonene
    Dublin Core Metadata Element Set: Reference description og DCMI Frequently Asked Questions (FAQ) og ikke minst Diane Hillmann: Using Dublin Core
  2. Ole Husby: Metadata. Foredrag ved Kunnskapsorganisasjonsdagene 1997, Høgskolen i Oslo
  3. Ole Husby: Dublin Core Metadata Element Set: Norsk referansedokument - versjon av 1997-10-22
  4. Ole Husby og Knut Hegna: Dublin Core Metadata Element Set: Norsk referansedokument - utkast av 1999-07-04
  5. The Nordic Metadata Projects. De har også en "DC-generator", http://www.lub.lu.se/cgi-bin/nmdc.pl, et skjema du fyller ut og som generer Dublin Core elementer som kan limes inn i dokumentet.
    De kan også dele ut URN'er, se URN creation tool, Nordic Metadata Project
  6. Preben Hansen: User Guidelines for Dublin Core Creation
  7. Bibsys har en side om Metadata
  8. Knut Hegna: [Nasjonal] Bibliografisk kontroll og Dublin Core
  9. World Wide Web Consortium: W3C om metadata
  10. RFC 2731: Encoding Dublin Core Metadata in HTML

Du kan sjekke hvordan Dublin Core elementer er brukt for denne artikkelen.

Sist endret: 29. april 2001
Leif Hansen