Linked Data cz. 2: gdzie są dane?

linked-data280

Fragment diagramu Linked Data z portalu LinkedData.org

Linked Data jest stosunkowo nowym zjawiskiem w sieci WWW, ideą dostępu do danych strukturalnych. Co to są dane strukturalne? WWW jest uniwersalnym nośnikiem informacji czytelnej dla człowieka – wszystkie strony internetowe, artykuły, aplikacje dają nam informacje, które możemy odczytać i zinterpretować, na przykład pytanie: „kiedy przyjedzie następny tramwaj?” i odpowiedź; “za 10 minut”. Takie pytanie i odpowiedź nie są jednak łatwe do odczytania przez komputery, które potrzebują informacji w ścisłej strukturze: (“Numer przystanku: 4398, linia tramwajowa: 11, odległość od przystanku: 0.8 km, itp.)

Informacja jest zwykle zapisana w bazach danych, które po wielu latach udoskonalania są bardzo wydajne w przechowywaniu i wyszukiwaniu danych, ale fatalne w wymianie informacji. Każda baza danych zawiera wiele kolumn, nazywanych raczej dowolnie i tylko lokalny system komputerowy umie z niej wyciągnąć dane. Nowy koncept, Linked Data, przybywa tutaj z pomocą. Schemat metadanych Linked Data, o nazwie  RDF (Resource Description Framework, struktura opisu zasobów), wymaga, aby dane nie były prezentowane w trudnych do odcyfrowania tabelach, ale w prostych zdaniach, składający się z podmiotu, orzeczenia i dopełnienia. Zamiast wymyślonych nazw kolumn używamy nazw standardowych, a zamiast nazwy podmiotu używamy jego identyfikator URI (Universal Resource Identifier, uniwersalny identyfikator zasobu). Przykładowo, trywialna dla człowieka informacja o tytule tego blogu (przecież możemy przeczytać go powyżej, prawda?) zamienia się w zdanie albo “trójkę” w slangu RDF [1) www.archiwa.net/index.php?option=com_content&view=article&id=593&catid=95:blog&Itemid=42, 2)  dc:title, 3) „Linked Data cz. 2: gdzie są dane?”]. Pierwsza część to adres URI jednoznacznie wskazujący na ten artykuł, druga to „tytuł” w konkretnym standardzie metadanych (Dublin Core), a trzecia część to tekst tytułu.

Czytaj dalej „Linked Data cz. 2: gdzie są dane?”

Unikalne identyfikatory w archiwach i bibliotekach

W zamierzchłych czasach, kiedy żyliśmy w wioskach, kontekst wystarczał do rozwikłania niejednoznaczności w języku, a w szczególności homonimów. Słowa takie jak zamek, bałwan, para, bal albo rakieta muszą być użyte w kontekscie aby były zrozumiałe (jaki obiekt przychodzi Ci na myśl, kiedy głośno wypowiesz słowo “zamek”?). Globalizacja informacji, szczególnie po powstaniu Internetu, wymaga szczególnej staranności w definiowaniu kontekstu. W powieści “Tajemniczy ogród” Frances Hodgson Burnett, występuje ptaszek, “robin”, albo po polsku rudzik. W USA “robin”, to zupełnie inny ptak, drozd wędrowny i wszyscy czytelnicy tej książki w Stanach Zjednoczonych są wprowadzeni w błąd. Użycie słowa “football” na określenie zupełnie różnych sportów w różnych częsciach świata prowadzić może tylko do śmiesznych nieporozumień, użycie słowa bilion, które czasem znaczy tysiąc milionów, a czasem milion milionów (zależnie do miejsca i czasu) może prowadzić do poważnych już konsekwencji, szczególnie finansowych.

W języku naturalnym niejednoznaczność jest przyprawą, smakiem – bez niej nie było by insynuacji, niedopowiedzeń, podtekstów, poezji. Ale w naukach, zarówno ścisłych jak i humanistycznych, niejednoznaczność jest trucizną wiedzy, i musi być bardzo starannie unikana. W roku 1735 Karol Linneusz opublikował “Systema Naturae”, pierwszą sytematyczną próbę wprowadzenia jednolitego nazewnictwa w biologii. W roku 1782 Louis-Bernard Guyton de Morveau opublikował rekomendacje jednolitego nazewnictwa chemicznego. Obie te publikacje były tylko początkiem bardzo złożonych (i ciągle ulepszanych), działajacych obecnie systemów nazewnictwa w biologii i w chemii. Podstawowym językiem – lingua franca – tych systemów jest łacina w przypadku klasyfikacji biologicznej i angielski w chemii, a nazwy w innych językach sa tylko (mniej lub bardziej jednoznacznymi) tłumaczeniami.

Czytaj dalej „Unikalne identyfikatory w archiwach i bibliotekach”

Wstęp do Linked Data

(In English)

 

regime_entailment_basic-260

Przykład schematu RDF Linked Data (reifikacja) – autor Karima Rafes (własne dzieło) [CC-BY-SA-3.0], via Wikimedia Commons)

Linked Data to mechanizm którym posługuje się Semantic Web albo “Web 3.0 w budowie”. Te powiązane ze sobą określenia są tak nowe, że nie maja jeszcze ‘oficjalnego’ polskiego tłumaczenia. Na czym polega Semantic Web? Wszyscy używamy World Wide Web (www). Podstawowym składnikiem www sa tak zwane hiperłącza (hiperlink), odnośniki albo odsyłacze do innych stron, źródeł informacji. Kliknięcie w taki odsyłacz (ma w nazwie http) powoduje otwarcie w przeglądarce internetowej nowej strony pozwalającej na rozszerzenie naszej wiedzy lub dalsze zaspokojenie ciekawości. Www została stworzona dla naszej konsumpcji, i jak język naturalny, jest rozumiana przez ludzi.

Jak pisałem poprzednio, komputery są w porównaniu z nami bardzo mało rozgarnięte. Trzeba im wszystko przedstawiać kawa na ławę, metodą łopatologiczną. Ale są za to bardzo szybkie, a przede wszystkim potrafią ogarnąć o wiele więcej danych na raz niż my. A to znaczy, że odszukają w petabajtach informacji to, czego właśnie potrzebujemy. Aby to było możliwe, musimy być dużo bardziej precyzyjni, mieć wiarygodne źródła informacji i system który to wszystko połączy. Tym systemem jest właśnie Linked Data. 

Czytaj dalej „Wstęp do Linked Data”