Unikalne identyfikatory w archiwach i bibliotekach

W zamierzchłych czasach, kiedy żyliśmy w wioskach, kontekst wystarczał do rozwikłania niejednoznaczności w języku, a w szczególności homonimów. Słowa takie jak zamek, bałwan, para, bal albo rakieta muszą być użyte w kontekscie aby były zrozumiałe (jaki obiekt przychodzi Ci na myśl, kiedy głośno wypowiesz słowo “zamek”?). Globalizacja informacji, szczególnie po powstaniu Internetu, wymaga szczególnej staranności w definiowaniu kontekstu. W powieści “Tajemniczy ogród” Frances Hodgson Burnett, występuje ptaszek, “robin”, albo po polsku rudzik. W USA “robin”, to zupełnie inny ptak, drozd wędrowny i wszyscy czytelnicy tej książki w Stanach Zjednoczonych są wprowadzeni w błąd. Użycie słowa “football” na określenie zupełnie różnych sportów w różnych częsciach świata prowadzić może tylko do śmiesznych nieporozumień, użycie słowa bilion, które czasem znaczy tysiąc milionów, a czasem milion milionów (zależnie do miejsca i czasu) może prowadzić do poważnych już konsekwencji, szczególnie finansowych.

W języku naturalnym niejednoznaczność jest przyprawą, smakiem – bez niej nie było by insynuacji, niedopowiedzeń, podtekstów, poezji. Ale w naukach, zarówno ścisłych jak i humanistycznych, niejednoznaczność jest trucizną wiedzy, i musi być bardzo starannie unikana. W roku 1735 Karol Linneusz opublikował “Systema Naturae”, pierwszą sytematyczną próbę wprowadzenia jednolitego nazewnictwa w biologii. W roku 1782 Louis-Bernard Guyton de Morveau opublikował rekomendacje jednolitego nazewnictwa chemicznego. Obie te publikacje były tylko początkiem bardzo złożonych (i ciągle ulepszanych), działajacych obecnie systemów nazewnictwa w biologii i w chemii. Podstawowym językiem – lingua franca – tych systemów jest łacina w przypadku klasyfikacji biologicznej i angielski w chemii, a nazwy w innych językach sa tylko (mniej lub bardziej jednoznacznymi) tłumaczeniami.

Czytaj dalej „Unikalne identyfikatory w archiwach i bibliotekach”

Dlaczego cyfrowo?

Fragment jedenastej tabliczki Eposu o Gilgameszu. Based on derivative work: Frédéric GilgameshTablet.jpg: Babylonian [Public domai], via Wikimedia Commons

Dlaczego ważne są technologie cyfrowe, skanowanie i digitalizacja dokumentów i książek i innych obiektów? Jakie jest uzasadnienie ogromnego wysiłku przekształcania spuścizny kulturowej w postać cyfrową? Często słyszę takie pytania – od historyków, którzy preferują zapach i dotyk oryginalnych dokumentów lub archiwistów, którzy twierdzą, że mikrofilmy są wystarczająco dobre. Czy cyfryzacja to tylko moda, która wkrótce przejdzie, czy też ma to głębsze uzasadnienie?

“Cyfrowe” jest ważne – dla archiwów, bibliotek, muzeów (GLAM) oraz dla wszystkich producentów i konsumentów dóbr kultury. Omówimy tu trzy powody przechodzenia do cyfrowego przetwarzania informacji: Zabezpieczanie, Znajdywalność (discoverablity) i Dostęp.

Zabezpieczanie

Układ cyfrowy jest tylko jedną z wielu implementacji dyskretnych systemów przechowywania i obróbki informacji. Większość sygnałów, które docierają do naszych zmysłów, np. widok tęczy, symfonia lub zapach róży, można uznać za analogowe. Sygnał analogowy może przyjąć dowolną wartość, na przykład dźwięku lub koloru. Zakres jest zazwyczaj ograniczony jedynie możliwościami naszych zmysłów – nie widzimy podczerwieni, ani słyszymy ultradźwięków itp. Ale sygnał optyczny, po tym jak wpadnie do naszego oka lub kamery cyfrowej, nie jest dalej przetwarzany jako sygnał ciągły. Czujniki światła w siatkówce (czopki i pręciki) działają na zasadzie “wszystko albo nic”, podobnie dzieje się w kamerze gdzie każdy element czujnika rozkłada światło na ograniczoną liczbę poziomów. Sygnał zostaje zmieniony w informację – wkraczamy tu w sferę dyskretności. W układzie dyskretnym tylko ograniczona, przeliczalna liczba stanów jest dozwolona, nie ma nic pomiędzy. W nowoczesnych komputerach cyfrowych podstawową jednostką informacyjną jest bit, który może posiąść tylko dwa stany (zwyczajowo zwane 0 i 1). Matematyczna teoria informacji, po raz pierwszy zaproponowana przez Claude E. Shannona, również używa jako jednostki binarnego bitu, z implikacją, że informacja w naturze swojej jest dyskretna. W komputerach, pojedyncze bity są zazwyczaj ułożone w grupy: 8 bitów w określonej kolejności nazywa się bajtem. W celu utrzymania ogólnego charakteru dyskusji, najmniejsza jednostkę systemu dyskretnego będziemy dalej nazywać znakiem, a ciąg znaków słowem.

Czytaj dalej „Dlaczego cyfrowo?”

Wikipedia w Instytucie Piłsudskiego

Wikipedysta – Rezydent Piotr Puchalski na szkoleniu w Instytucie Piłsudskiego prowadzonym przez Dorothy Howard (po prawej), wikipedystkę z Metropolitan Library Council.

Wikipedia jest dziś największym źródłem wiedzy o charakterze encyklopedycznym, dostępnym w sposób otwarty dla każdego. Od naukowców do uczniów w szkole, wszyscy posługują się Wikipedią. Wikipedia ma miliony odsłon dziennie, ponad 250 wersji językowych i zawiera ponad 20 milionów artykułów. Polska Wikipedia ma ponad milion artykułów i jest jedną z największych Wikipedii, obecnie na imponującym 9 miejscu na świecie.

Synergia pomiędzy Wikipedią a Instytutem Piłsudskiego nie podlega wątpliwości. Zadaniem Wikipedii jest rozpowszechnianie wiedzy; Instytut, z racji swoich zasobów, archiwalnych, muzealnych, bibliotecznych i innych, stanowi bezcenne tej wiedzy zródło, ktore chce udostępnić jak najszerzej. Niedawno pisałem o GLAM i znaczeniu instytucji w tym sektorze dla udostępniania wiedzy. Dziś więcej o inicjatywach Instytutu związanych z Wikipedią.

Czym jest Wikipedia?

Jest to otwarta encyklopedia dostępna elektronicznie, którą tworzą i edytują wolontariusze na całym świecie. Każdy może wziąć udział w tworzeniu artykułów, nie potrzeba do tego żadnego zezwolenia ani przynależności do jakiejś organizacji (wskazane, ale niekonieczne jest zalogowanie się). Wikipedia powstała w 2001 i niedługo będzie obchodzić 15 lecie. Jest jedną z rosnącej grupy inicjatyw jej macierzystej instytucji – Wikipedia Foundation. Działanie Wikipedii opiera się na trzech podstawowych zasadach:

Czytaj dalej „Wikipedia w Instytucie Piłsudskiego”

Iza, Zosia i Atom odwiedzają archiwa

Seminarium pod tytułem “ZoSIA vs. AtoM. Dwa systemy do zarządzania zasobem archiwalnym” które odbyło się w Warszawie w dniach 23 i 24 stycznia 2013 jest ciekawym dla obserwatora z zewnątrz spojrzeniem na ewolucyjną drogę, jaka idą archiwa w komputeryzacji katalogów zasobów archiwalnych. W odróżnieniu od biblioteki, która posługuje się standardowymi narzędziami komputerowymi od ponad 40 lat, archiwum dopiero względnie niedawno weszło na drogę standaryzacji. Potrzeba zmusiła organizacje archiwalne do tworzenia narzędzi, wczesne ich użycie pozwoliło na szybką komputeryzacje procesu inwentaryzacji zasobów, a szerokie użycie utrudnia do dziś zmiany i ewolucje. Tak powstały programy SEZAM i IZA które z dużym powodzeniem służyły archiwstom. Nie oparte na standardach wymiany danych (takich jak EAD) i oparte na przestarzałą juz dziś technologie, spełniły jednak bardzo ważna funkcję wprowadzenia dość jednolitego systemu do polskiej archiwistyki (i przez przedłużenie do tych archiwów polonijnych które zdecydowały sie na komputeryzację).

Czytaj dalej „Iza, Zosia i Atom odwiedzają archiwa”

Czy jesteś GLAM?

GLAM to akronim (skrótowiec) od “Galleries, Libraries, Archiwes and Museums”. Po polsku zapewne byłby GMAB, gdyby taki skrót był używany. Nie ma ciała ani organizacji o nazwie GLAM, skrót ten odnosi sie do agregacji instytucji które maja coś ze sobą wspólnego: są repozytoriami dziedzictwa kulturowego człowieka.

Istnieją instytucje, które zrzeszają muzea, archiwa, biblioteki itp. albo udzielają im wsparcia finansowego czy logistycznego, np. Institute of Museum and Library Services (ILMS) w Waszyngtonie, Museums, Libraries and Archives Council w Wielkiej Brytanii czy Norwegian Archive, Library and Museum Authority. Te instytucje nie roszczą sobie jednak przynależności do GLAM ani nie używają tego skrótu.

Czym więc jest GLAM? Jest to idea, zgodnie z którą instytucje których zadaniem jest gromadzenie i udostępnianie dóbr kultury zyskają na szerokim udostępnieniu tych dóbr. Najlepiej ilustrują ideę GLAM dwie inicjatywy, OpenGLAM i GLAM-Wiki.

Czytaj dalej „Czy jesteś GLAM?”

Rozdzielczośc i mit DPI

David by Michelangelo; dithered by User:Gerbrant using own software (cropped from Image:Dithering algorithms.png) [Public domain], via Wikimedia Commons

Niezbyt dawno, w czasie rozmowy z archiwistą z Londynu, mieliśmy okazje sprzeczać się na temat dpi plików cyfrowych. Wydawało mi się wtedy, że to zwykłe nieporozumienie, aż do chwili, kiedy inny archiwista z dużej instytucji w Polsce zaczął przekonywać mnie, że filmy 35 mm (negatywy) skanuje się z rozdzielczością 600 dpi. Ponieważ dałoby to skan podobny do rastrowych zdjęć w starych gazetach (używano tam procesu zwanego dithering) – patrz obraz po prawej, byłem nieco zaskoczony. Dało to impuls do napisania tego blogu o dość powszechnej, jak widać, mitologii dpi. O skanie tego negatywu będzie nieco dalej, na początek wstęp o rozdzielczości.

Rozdzielczość

Rozdzielczość optyczna jest pojęciem o ustalonej reputacji pochodzącym z optyki, i w ogólności definiuje, dla danego systemu optycznego, jak daleko muszą być odległe od siebie dwa obiekty (np. dwie równoległe linie), aby dało się je odróżnić – jeśli są za blisko, zmyją się w jeden. Rozdzielczość obiektywów zależy od jakości soczewek i od średnicy soczewki, rozdzielczość błony filmowej od wielkości ziarna itp. Rozdzielczość optyczną wyraża się często w liniach na centymetr. Przy digitalizacji rozdzielczość optyczna jest podstawym parametrem, gdyż określa, jak drobne szczegóły oryginału będą wiernie oddane w zapisie cyfrowym.

Czytaj dalej „Rozdzielczośc i mit DPI”

Tydzień praw autorskich

Niedawno (w tygodniu 13-18 stycznia 2014) Electronic Frontier Foundation (EFF) zorganizowała “Tydzień praw autorskich”, aby przypomnieć nam, jak złożony jest to problem oraz co możemy i powinniśmy zrobić w sprawie praw autorskich. Dla każdego z sześciu tematów (po jednym na dzień), uczestniczące instytucje wniosły swój wkład w postaci blogów, artykułów i innych inicjatyw. Jest to fascynująca lektura, z którą warto się zapoznać. Poniżej krótkie omówienie zilustrowane cytatami z wybranych tekstów:

Czytaj dalej „Tydzień praw autorskich”

Standardy metadanych: Dublin Core

Przy opisie jakiegoś zasobu – książki, kolekcji medali, dokumentu, obrazu – mamy w zasadzie dwie możliwości. Dokonać opisu w postaci narracji (zwykle sięgamy do tego, co jest pod ręką, czyli w dobie komputerów po procesor tekstu). Albo dokonać opisu w postaci struktury – na przykład w tabeli arkusza rozliczeniowego. Opis w postaci narracji pozwala na pełna ekspresję intencji badacza, i jednocześnie prawie uniemożliwia dalsza automatyczną przeróbkę danych. W Instytucie Piłsudskiego mamy doskonale zrobiony przez doświadczonego fachowca opis kolekcji falerystycznej, który ma postac narracji. Poszczególne elementy opisu (nazwa odznaki, jej twórca, miejsce stworzenia, daty itp.) są graficznie uwydatnione- np przez użycie czcionki wytłuszczonej, kursywy, przez oddzielanie elementów przecinkami, średnikami itp. Jednocześnie, jeśli jakiejś informacji brak, po przecinku znajdzie się już inny element opisu. Setki stron takiego tekstu wymagają wielu dni a nawet tygodni pracy aby zrobić prostą tabelkę którą można wyświetlić na stronie internetowej, gdyż zautomatyzowanie konwersji jest prawie niemożliwe.

Nawet prosta tabela w arkuszu rozliczeniowym daje strukturę – tytuł bedzie zawsze np. w kolumnie trzciej a data w siódmej itp. Jeśli więc użyliśmy jakiejś struktury, i nie mieszalismy np. miejsca z datą, mamy podstawy do użycia danych w różny sposób, taki, jakiego w danym momencie potrzebuje projektant wystawy, witryny internetowej czy inwentarza. Przy użyciu standardów metadanych najważniejszą decyzją jest użycie struktury adekwatnej do opisywanego zasobu. Przetłumaczenie tej struktury na taki czy inny standard metadanych jest wtedy zajęciem trywialnym. Mówiąc trywialnym mam na myśli to, że da się zautomatyzować – kiedy raz stworzymy algorytm konwersji, przeróbka 100 czy 100 tysięcy rekordów to tylko sprawa zapuszczenia komputera na sekundy albo godziny pracy.

Czytaj dalej „Standardy metadanych: Dublin Core”

Doroczna konferencja METRO 2014

W środę, 15 stycznia 2014 odbyła się w Nowym Jorku doroczna konferencja Metropolitan New York Library Council (METRO). Konferencja, która miała miejsce w nowoczesnym budynku Baruch College (CUNY), zgromadziła ponad dwustu przedstawicieli bibliotek archiwów, uczelni i innych instytucji z Nowego Jorku i okolic. Uczestnicy mieli do wyboru 25 prezentacji i wykładów przedstawiających różne aspekty pracy, możliwości i osiągnięć szeroko rozumianego środowiska bibliotekarskiego. Do przyjętych do prezentacji projektów zakwalifikował się referat przedstawicieli Instytutu Piłsudskiego: Dr Marka Zielińskiego i Dr Iwony Korga p.t. Digitization of Polish History 1918-1923 opisujący projekt digitalizacji i przedstawiający wybrane materiały, technikę opracowania danych, prezentację online i wykorzystanie danych przez Internautów.

Konferencja rozpoczęła się od wykładu znanej w środowisku amerykańskim bibliotekarki i blogerki Jessamyn West, która w wykładzie p.t. Open, Now! opowiedziała o możliwościach otwartego dostępu (open access) dającego nieskrępowany, bezpłatny dostęp do szeroko rozumianej informacji internetowej. Mówiła o projektach Google, Digital Public Library of America i o problemach prawnych związanych z takim dostępem.

Czytaj dalej „Doroczna konferencja METRO 2014”

Projekty digitalizacji

“A ona sama różaną barwą na twarzy rozlaną i wdzięcznymi a jasnymi oczyma serce swe smutne i zbytnią bojaźnią ściśnione pokrywała.” – Ksiega Estery z Codex Sinaiaticus 4:17m – 5:2 – ks. 9 rozdz. 5

Odpowiedzi na pytanie “Czym jest digitalizacja?” są tak różnorodne, jak różne są zasoby które są zamieniane w postać elektroniczną i jak różne są instytucje, które podejmują się tego zadania. Istnieją projekty, które zajmują się tylko jednym dokumentem, inne opisują z dużą szczegółowością jakieś wydarzenie lub twórczość jednej osoby, jeszcze inne dostarczają dostępu do wirtualnego archiwum historii. Są projekty które wykazują się nowatorskimi rozwiązaniami technicznymi, połączeniem różnych technik i źródeł informacji, sposobami odszukania i przeglądania zasobów. Instytucje posiadające bogate zbiory opracowują wystawy wybranych kolekcji, podczas gdy inne opierają się na współpracy wielu instytucji aby pokazać wspólnie jeden zasób. Oto garść przykładów ilustrujących tę różnorodność:

Codex Sinaiaticus to powstały w połowie czwartego wieku manuskrypt zawierający tekst Biblii po grecku, z najstarszą kompletną kopią Nowego Testamentu. Do połowy 19 wieku manuskrypt ten był przechowywany w klasztorze Świętej Katarzyny, najstarszym istniejącym dziś klasztorze chrześcijańskim, położonym u stóp góry Synaj (Góry Mojżesza) w Egipcie. Dziś fragmenty tego rękopisu znajdują się w czterech instytucjach: oprócz Klasztoru Świętej Katarzyny także w Bibliotece Brytyjskiej w Londynie, Bibliotece Uniwersytetu w Lipsku i w Rosyjskiej Narodowej Bibliotece w Petersburgu. Strona powstała jako wynik współpracy tych czterech instytucji. Jest nadzwyczaj starannie opracowana i zawiera wszystkie arkusze i ocalałe fragmenty kodeksu. Oprócz skanu oryginału strony podana jest transkrypcja w języku greckim, a dla niektórych stron również tłumaczenie na inne języki (angielski, niemiecki, rosyjski). Linki umożliwiają zlokalizowanie transkrypcji fragmentów tekstu po kliknięciu w oryginał.

Czytaj dalej „Projekty digitalizacji”