Schlagwortarchiv für: Linked-Data

Basisregister und Normdaten als Wegbereiter für Linked Data

Basisregister sind zentrale Bestandteile eines Linked-Data-Ökosystems. Zusammen mit gemeinsam verwendeten Datenmodellen bzw. Ontologien sorgen sie dafür, dass Datenbestände auch über Organisationsgrenzen hinweg miteinander verknüpft werden können. Ohne sie wäre “Linked Data” nicht möglich. Ausgehend von einem laufenden Projekt, welches zum Ziel hat, die Publikation von Linked Open Data durch Schweizer Behörden voranzubringen, beschreiben wir den Status Quo und die geplanten Massnahmen, um die Publikation von relevanten Basisregistern und Vokabularen systematisch zu fördern.

Wie in einem früheren Artikel beschrieben (Estermann 2019), sollen im Rahmen eines Projekts im Auftrag von E-Government Schweiz jene Datenbestände identifiziert werden, die im Zusammenhang mit der Publikation von Linked Open Data (LOD) durch Schweizer Behörden als Basisregister oder als zentrale Vokabulare dienen können. Ihre zeitnahe Publikation als Linked Open Data würde der Verlinkung von Behördendaten Vorschub leisten. Dass die Publikation von Basisregistern oder zentralen Vokabularen in der Schweiz ein sehr wichtiges Thema ist, hat sich auch an der anfangs Juli durchgeführten  Unconference Opendata.ch/2019 gezeigt: Die Frage, welche Basisregister und Vokabulare Schweizer Behörden als LOD publizieren sollten, wurde von den Teilnehmenden als eine der wichtigsten Fragen eingestuft und in einem Workshop behandelt.

Um jene Basisregister und Vokabulare zu identifizieren, denen im Kontext von Schweizer Behördendaten das grösste Nutzungspotenzial zukommt, führte die Berner Fachhochschule im Rahmen eines Projekts von E-Government-Schweiz ein erstes Screening von Datenbeständen durch. Dabei wurden parallel zwei Ansätze verfolgt:

  • Screening von existierenden Datenbeständen von Schweizer Behörden im Hinblick auf ihre Eignung als Basisregister oder Vokabulare.
  • Screening von Wikidata bezüglich Eignung als Basisregister oder Vokabular im Zusammenhang mit der Datenpublikation durch Schweizer Behörden.

Ergänzt wurde das Screening durch die Befragung von Schweizer Behörden, welche bereits heute Daten als Linked Data publizieren oder dies in naher Zukunft vorhaben. Dabei wurden speziell im Bereich der Archive und Bibliotheken noch weitere Daten aus dem Bereich der Gedächtnisinstitutionen und der Digital Humanities identifiziert.

Nachstehend werden die Vor- und Nachteile dieser verschiedenen Arten von Datenquellen kurz erörtert und erste Shortlists präsentiert, welche anschliessend von der Schweizer LOD-Community in einem offenen Prozess kommentiert und ergänzt werden sollen.

Datenbestände von Schweizer Behörden

Die meisten Datenbestände der Schweizer Behörden werden aufgrund eines gesetzlichen Auftrages erstellt und gepflegt. Deshalb kann nicht nur davon ausgegangen werden, dass die Daten von hoher Qualität sind, sondern dass auch die Kontinuität der Datenpublikation gewährleistet ist, dass also die Daten auch in Zukunft gepflegt und verfügbar gemacht werden. Dabei gilt es allerdings zu bedenken, dass die Tatsache allein, dass die Daten von Behörden bereitgestellt werden, noch kein Garant für die Datenqualität ist. Datenqualität ist als Prozess zu denken und wird erst im Zusammenhang mit konkreten Anwendungen fassbar. Eine vielfältige und häufige Verwendung der Daten erhöht im Allgemeinen die Datenqualität, da Fehler und Unzulänglichkeiten der Daten oft erst bei deren Nutzung entdeckt werden. Bei etlichen Behördendaten (z.B. Handelsregister, Gemeindeverzeichnis) kann davon ausgegangen werden, dass sie regelmässig und in unterschiedlichen Kontexten verwendet werden; bei anderen bleiben der bisherige Verwendungskontext und die Verwendungshäufigkeit weitgehend im Dunkeln (z.B. kantonale Denkmallisten).

Leider werden heute erst wenige Datensätze der öffentlichen Verwaltung als Linked Open Data publiziert, und die Machbarkeit und Bereitschaft der verschiedenen Datenhalter im Hinblick auf eine solche Publikation muss in der Regel erst noch geklärt werden.

Basierend auf dem Screening und dem Ergebnis des oben erwähnten Workshops haben wir eine erste Shortlist von Datenbeständen von Schweizer Behörden erstellt, welche im Zusammenhang mit der Publikation von Schweizer Behördendaten als Linked Open Data als Basisregister oder als kontrollierte Vokabulare dienen könnten:

Bezeichnung Verantwortliche Behörde Kurzbeschrieb
UID-Register BFS Im UID-Register werden alle in der Schweiz tätigen Unternehmen geführt. Die Informationen zu den Unternehmen sind der Verwaltung (UID-Stellen), dem Unternehmen selbst und teilweise der Öffentlichkeit zugänglich.
Handelsregister Kantonale Handelsregisterämter In der Schweiz sind die Handelsregister dezentral organisiert und werden von den Kantonen geführt. Die Handelsregister sind öffentlich und dienen der Konstituierung und der Identifikation von Unternehmen. Sie bezwecken die Erfassung und Offenlegung handels- und gesellschaftsrechtlich relevanter Tatsachen und tragen dadurch zur Gewährleistung der Rechtssicherheit sowie zum Schutz von Dritten bei.
TERMDAT Bundeskanzlei (BK) TERMDAT ist die mehrsprachige Terminologie-Datenbank der schweizerischen Bundesverwaltung und enthält u.a. auch die offiziellen Namen aller Bundesämter. Prototypisch wurde eine Teilumsetzung als Linked Data bereits realisiert.
Nomenklaturen BFS Die Nomenklaturen des BFS umfassen insbesondere:

  • Gemeindeverzeichnis,
  • Historisiertes Gemeindeverzeichnis,
  • PLZ-Verzeichnis.

Ausserdem wäre ein versionierter Abgleich zwischen PLZ und BFS Gemeindenummern wünschenswert.

Amtliches Ortschaften- verzeichnis  swisstopo Amtliches Ortschaftenverzeichnis mit Postleitzahl und Perimeter.
Eidg. Gebäude- und Wohnungs- register (GWR) BFS Erfasst die wichtigsten Grunddaten zu den Gebäuden und Wohnungen der Schweiz für statistische und administrative Zwecke.
NOGA BFS Die “allgemeine Systematik der Wirtschaftszweige” (Nomenclature générale des activités économiques) dient zur konsistenten Verwendung von Branchennamen bei statistischen Auswertungen.
ISCO BFS Internationale Berufsnomenklatur (International Standard Classification of Occupations) zur konsistenten Verwendung von Berufsnamen bei statistischen Auswertungen.

Diese Liste ist als Vorschlag zu verstehen, welche bestehenden Datensätze aus Nutzungsperspektive mit höchster Priorität als Linked Open Data publiziert werden sollten.

Wikidata

Datenbestände in Wikidata haben den Vorteil, dass sie aufgrund des Crowdsourcing-Ansatzes einen teilweise sehr guten Abdeckungsgrad haben, und fehlende Daten unkompliziert erstellt bzw. ergänzt werden können. Ausserdem ist bei Daten aus Wikidata eine sofortige Integration mit einer weltweiten Linked-Data-Cloud gegeben, da die Rekonzilierung mit anderen Datenbeständen gleich beim Dateningest erfolgt, und nicht erst nach der Datenpublikation, wie es bei anderen Datensätzen oft der Fall ist.

Der Crowdsourcing-Ansatz führt aber auch zu gewissen Problemen, insbesondere hinsichtlich der Datenqualität. Diese lässt sich nur mit zusätzlichem Aufwand sicherstellen, z.B. durch die Identifikation von und Einschränkung auf verlässliche Quellen. Ausserdem besteht in diversen Bereichen ein beträchtlicher Bedarf hinsichtlich Datenbereinigung sowie Harmonisierung der Modellierungspraxis.

Auch hier haben wir basierend auf dem Screening eine erste Shortlist von Datenbeständen in Wikidata erstellt, welche im Zusammenhang mit der LOD-Publikation von Schweizer Behördendaten als Basisregister oder als kontrollierte Vokabulare dienen könnten:

Bezeichnung Wikidata-Query Anz. Einträge 

(Juni 2019)

Verwaltungseinheiten der Schweiz https://w.wiki/53U 5139
Schweizer Organisationen https://w.wiki/53x 12596
Schweizer Gedächtnisinstitutionen https://w.wiki/5Gm 2169
Menschen, die in der Schweiz geboren sind https://w.wiki/53V 24537
Menschen, die in der Schweiz gestorben sind https://w.wiki/53X 13396
Menschen mit Schweizer Nationalität https://w.wiki/53Z 31006
Menschen mit Schweizbezug (Bürgerrecht, Geburts- oder Sterbeort, Arbeitsort oder Wohnsitz) https://w.wiki/53c 40549
Bauwerke in der Schweiz https://w.wiki/53f 20147
Schweizer Kulturgüter von nationaler oder regionaler Bedeutung (KGS-Inventar) https://w.wiki/53j 13121
Sprachen https://w.wiki/53m 12987
Taxons https://w.wiki/53o 2549556
Gewässer in der Schweiz https://w.wiki/53q 2942
Berge in der Schweiz https://w.wiki/53r 7965
Chemische Verbindungen https://w.wiki/53$ 162545
Menschliches Geschlecht oder Gender (Vokabular) https://w.wiki/546 10+
Stoffe, aus denen Objekte gefertigt werden (Vokabular) https://w.wiki/548 3318
Farben, die dazu verwendet werden, um Objekte zu identifizieren (Vokabular) https://w.wiki/54D 61
Farben https://w.wiki/54C 191

Interessant könnte es auch sein, offizielle Behördendaten direkt in Wikidata zu publizieren. Das hätte den Vorteil, dass damit direkt ein hohes Nutzungspotential im internationalen Kontext erschlossen werden kann, da die Daten einfacher mit Daten aus anderen Ländern kombiniert werden können. Besonders sinnvoll ist ein solches Vorgehen bei Themen, die auch im Rahmen von Wikipedia-Artikeln abgehandelt werden sollen. Um die semantische Interoperabilität der Daten über die Ländergrenzen hinweg zu gewährleisten, bedarf es einer entsprechenden Koordination zwischen den datenpublizierenden Stellen. Falls diese nicht schon anderweitig erfolgt, kann diese Koordination direkt im Rahmen der Wikidata-Community stattfinden.

Daten aus dem Bereich der Gedächtnisinstitutionen und der Digital Humanities

Seitens der Nationalbibliothek und der beiden befragten Archive wurde zudem auf die Bedeutung von internationalen Normdaten und Vokabularen hingewiesen. Dazu gehören beispielsweise die Gemeinsamen Normdatei (GND), welche von der Deutschen Nationalbibliothek und den deutschsprachigen Bibliotheksverbünden kooperativ geführt wird, sowie das Virtual Internet Authority File (VIAF) und die Dewey Decimal Classification, welche beide vom US-amerikanischen Online Computer Library Center (OCLC) betrieben werden.

Im Hinblick auf die Vernetzung von Schweizer Beständen spielen zudem weitere Normdaten und Verzeichnisse eine Rolle, die sich speziell auf die Schweiz beziehen:

Bezeichnung Betreiber Kurzbeschrieb
Gemeinsame Normdatei (GND) Deutsche Nationalbibliothek Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel, die vor allem zur Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch von Archiven, Museen, Projekten und in Web-Anwendungen genutzt wird.
Virtual International Authority File (VIAF) OCLC Virtuelle internationale Normdatei, welche 25 nationale Normdateien über eine Konkordanzdatei verlinkt.
Dewey Decimal Classification OCLC Online Computer Library Center Die international am weitesten verbreitete Klassifikation für die inhaltliche Erschliessung von Bibliotheksbeständen. Sie wird hauptsächlich im anglo-amerikanischen Sprachraum eingesetzt..
Fotografie-Metadaten Foto CH Metadaten zu Schweizer Fotografen und Fotografiebeständen (Fotografen, Arbeitsorte, Institutionen, Bestände, Ausstellungen).
Inventar der Forschungsbibliotheken der Schweiz Swissbib/UB Basel Daten zu den rund 900 Schweizer Forschungsbibliotheken, die an den Bibliotheks-Metakatalog von Swissbib angeschlossen sind.
Authority files on Swiss history histHub Named Entities (Personen, Orte), Typologien (Berufe, Ortstypen) und Vokabulare (Vornamen, Konzepte), die im Zusammenhang mit historischen Beständen zur Schweiz von Relevanz sind. Einige davon befinden sich noch im Aufbau.
Metadaten des Historischen Lexikons der Schweiz HLS Metadaten zu den Einträgen im Historischen Lexikon der Schweiz (Koordinaten, Personen, Organisationen, Verlinkung auf GND und VIAF).
Metagrid SAGW / Dodis Konkordanz-Datei für historische Normdaten mit Schweiz-Bezug.

Historisierte Datenbestände als grosse Herausforderung

Eine besondere Herausforderung stellt die Verfügbarkeit und Nutzung von historisierten Datenbeständen dar. Dieses Thema wird in Gesprächen über die Publikation von Open Government Data als Linked Data immer wieder hervorgehoben, so auch am oben erwähnten Workshop. Dabei geht es nicht nur um die Verfügbarkeit an sich, die heute noch unvollständig ist (zum Beispiel Gemeindeperimeter). Sondern es geht auch darum, wie verschiedene historisierte Datenbestände verknüpft werden können: Dies ist heute oft nicht einfach, da bei der Historisierung der verschiedenen Datenbestände unterschiedliche Historisierungsansätze verfolgt wurden.

Nutzungsszenarien

Wie aus der Befragung von Schweizer Behörden hervorgeht, welche bereits heute Daten als Linked Data publizieren oder dies in naher Zukunft vorhaben, wird der zusätzliche Aufwand, der in die Aufbereitung und die Verknüpfung der Daten mit anderen Beständen gesteckt wird, damit motiviert, dass damit:

  1. künftig eine verbesserte Suche in den Beständen angeboten werden kann (z.B. mehrsprachige Suche in historischen Beständen des Bundesarchivs; geolokalisierte Suche in Beständen des Staatsarchivs Basel-Stadt);
  2. neue Erkenntnisse generiert werden können (z.B. Verknüpfung von Datenbeständen des BAFU oder der Angaben aus dem Handelsregister mit statistischen Kennzahlen des BFS; Integration von semantisch angereicherten Archivkatalogen in Forschungsumgebungen); und
  3. die Transparenz erhöht wird (z.B. Tarif der Schweizer Stromversorger; Daten aus der Strommarkt-Überwachung).

Nächste Schritte

Die oben aufgeführten Tabellen reflektieren den aktuellen Stand bezüglich der Basisregister und Vokabulare, die aus Nutzerperspektive mit höchster Priorität als Linked Data verfügbar gemacht werden sollten. In den nächsten Wochen werden wir weitere Inputs seitens der Schweizer LOD-Community einholen, um die Tabellen und die Auflistung möglicher Nutzungsszenarien zu ergänzen, so dass wir am Ende über eine breit abgestützte und priorisierte Liste von Basisregistern und Vokabularen verfügen.

In einem nächsten Schritt werden wir diese Liste im Dialog mit den Datenhaltern abarbeiten, um neben der Dimension des Nutzungspotenzials auch den Bewertungskriterien der “Machbarkeit” und der “Bereitschaft des Datenhalters” (siehe Estermann 2019) Rechnung zu tragen. Ergebnis dieses nächsten Schrittes werden mehrere zu LOD aufbereitete Datensätze sein, wie auch eine Analyse zu den Herausforderungen und Hürden im Hinblick auf die Konversion weiterer Datenbestände zu Linked Data. Basierend auf dieser Analyse sollen anschliessend Empfehlungen zum weiteren Vorgehen formuliert werden.

Der erste Teil des Artikel ist bereits erschienen.


Bibliographie

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

June-July: Special Issue focused on Missing Links

Today, Open Data is an imperative. Government data, research data, and data from various other fields must be freely accessible and reusable – of course within the limits of legitimate interests of privacy and secrecy. Open Data provides value for democracy and for the economy: Open Data furthers participation, increases transparency, opens up new business opportunities, helps facilitate decision making and drives the app we use every day. To be open, data must be findable, interoperable, accessible and reusable. Free reuse implies that there are no legal, economic or technical barriers to free access – the totality of a dataset needs to be available for download or accessible through an API.

Government and research data are the result of administrative or research activities that are completely or often largely financed by public funds. They deal with issues of public interest. It therefore seems legitimate to open the resulting datasets to the public, so that the data can be exploited in new, fruitful ways that were not originally envisioned. As datasets are non-rivalrous goods, multiple usages do not diminish their value, quite to the contrary!

With these multiple usages of data in mind, Tim Berners-Lee has devised his five-star maturity model that posits that the most valuable form of open data is linked open data. Linked data allows data users to concentrate their efforts on the analysis and the exploitation of the data by greatly reducing the effort required to re-capture and to re-aggregate the data for every new purpose. Thus, linked data is a modest extra investment made by data producers or data holders for the greater benefit of all potential and real data users.

As data can be put to a variety of uses, it is impossible to foresee or plan for them from the outset. New questions trigger creative reuses of existing data, and serendipity leads to data being exploited in novel ways. However, data are typically created with a particular intention and for a specific purpose. And the context of their original production matters; data cannot be combined at will, for if we do, we risk misguided interpretations and erroneous applications.

It is therefore crucial to make data available in a form that preserves enough information about their original context, permitting informed re-use by third parties. Furthermore, it is indispensable that the data be made available in a form that facilitates their combination. Linked open data is the state-of-the-art approach to achieve this. However, to fully exploit its potential, we need to foster cooperation across organizations and sectors even in areas where collaboration has rarely taken place. Besides aligning data models and providing the technical infrastructure, coordination is needed in various areas to help organizations acquire the necessary capacity and to foster the required skills among their workforce.

In order to close these gaps, the opendata.ch association has created a linked open data working group. It is open to everyone who is willing to support concerted efforts to promote linked data in Switzerland, not only by calling upon data providers to make an extra effort to facilitate the re-use of their data, but also by enabling cooperation among various stakeholders, and by empowering people interested in using linked open data. Each of the articles of this thematic issue of SocietyByte illustrates one or several of the “missing links” in the world of the semantic web that need our attention if we want to create a flourishing linked data ecosystem.

We wish you an exciting and insightful reading.

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

The Linked Data Service of the Federal Spatial Data Infrastructure

In this article we provide some insights and lessons learned acquired with the realization and the maintenance of the Linked Data Service of the Federal Spatial Data Infrastructure (FSDI) geo.admin.ch. We also try to identify pitfalls and areas where engagement and investments are needed in order to facilitate unlocking the potential of the Geographic Information and bringing it on the Web.

Geographic Information and the Web

The Geographic Information (GI) and the Web appear to be good friends: GI is pervasive on the Web and Web technologies are used by the GI community to provide access to geodata. In August 1991 Tim Berners-Lee announced the WWW Project on the newsgroup alt-hypertext; the Xeroc Parc Map Viewer was one of the first Web applications and went online in 1993. Since then the GI community has evolved around the concept of spatial data infrastructures (SDIs) with the main idea to use the Web in order to connect isolated GI Systems and exchange GI. The implementation of SDIs has been supported by an international, top down and highly centralized standardization effort driven by organizations like the Open Geospatial Consortium (OGC) and ISO Technical Committee 211.

The Web has instead moved with a complete different approach, more agile, decentralized and bottom up. Just consider, for example, that the GeoJSON (a geospatial data interchange format based on JSON) and the JSON-Schema (the vocabulary to annotate JSON documents) specifications sum up to some fifty pages, while the OGC standard GML (an xml-based modeling language and interchange format) is about four hundred pages.

At the end of the story, the Web is today mostly agnostic about SDIs. The discovery of information resources in SDIs is delegated to catalog services providing access to metadata and users generally cannot simply follow links to access data. OGC Web services do not address indexing of the resources by general purposes search engines.
To address this and other related issues, OCG and the W3C have teamed up to advise on best practices for the publication of spatial data on the Web based on Linked Data.

The Linked Data Service of geo.admin.ch

With these considerations in mind, we at swisstopo started to consider the possibility to publish geodata as Linked Data in 2016. We launched a project with the objective to publish a selection of geodata: the result is the Linked Data Service of geo.admin.ch, the Federal Geoportal. The service is operational since March 2017 and we publish so far two main datasets: swissBOUNDARIES3D (administrative units versioned since 2016) of swisstopo and the Public Transport Stops of the Federal Office of Transport.
We use a standard process for the publication of data according to the Linked Data principles, implying the serialization of the data in RDF (here we use the GeoSPARQL standard), the storage of the triples in a triple store and the setup of a Linked Data Frontend.
We use the Virtuoso Open Source Edition as triple store and the open source product Trifid as Linked Data frontend for URI dereferencing and content negotiation.

Both software components are dockerized: we use Rancher as composer.

The good

Providing geodata as Linked Data results in a mutual exchange of benefits between the GI community and the Linked Data / Web community. The GI community brings new ways of querying data: the GeoSPARQL standard is in fact not just a vocabulary for encoding geodata in RDF, since it provides above all extensions to the SPARQL language, enabling to query resources based on their spatial relations. Queries like “Find all resources of type A (with a point geometry) within the resource of type B (with a polygon geometry)” or “Find all resources of type A within a distance of X kilometers from point C” are simply not possible with standard SPARQL.

On the other hand the Linked Data / RDF approach to data modeling can ease the burden of communicating data semantics. Data modeling within the GI domain is based on the “model driven approach”, where data semantics resides in (complex) conceptual and database schemas and has been traditionally very hard to share.

Linked Data users do not need to understand / know all this complexity to adequately use the data, since data semantics is in the data itself. Here not only objects (resources) are on the Web but also objects properties (what we call attributes in the GI domain and predicates in RDF) are first class objects and are on the Web: objects types and predicates are described via web-accessible open agile vocabulary definitions and this definitions are reusable.

The bad

The bad news is that Virtuoso Open Source does so far not support GeoSPARQL (there are plans to support it according to this tweet). It actually supports spatial queries but these are based on built-in spatial functions instead of using those defined by the GeoSPARQL standard. Within the open source community we don’t see so far a valuable alternative to Virtuoso, on the other hand the interest about GeoSPARQL is  growing more and more and commercial solutions exist, that start to support it. GraphDB for example has a good support and so should the new Stardog version (to be tested).

We argue that the standard approach to Linked Data publication built around a triple store is not very adequate when:

  • A data publication pipeline is already in place, as is the case for the FSDI. Here one has to deal with data redundancy and synchronicity;
  • Data to be published is somehow massive and dynamic, meaning there is a high update frequency (daily, hourly).

To address these issues we are investigating alternative solutions based on virtual graphs. The idea here is to have a proxy on top of the main data storage and let the proxy provide RDF serialization at runtime.

Again the problem is that open source solutions are very few: D2RQ, a reference system for accessing relational databases as virtual RDF graphs, is a very old technology and does not seem adequate for a production environment; ontop seems a promising technology but does not support so far GeoSPARQL (there are plans to support it according to this post).

One more issue about usage: we are monitoring the service and the statistics do not show so far big numbers. We will have to work in this sense maybe by supporting showcases and make developers aware of the power of the Linked Data approach: one simple data model (RDF) with enough semantics enabling easy understanding of the data and a unique interface (SPARQL).

The ugly

When we started our project, one of the objectives was to try to improve the indexing of our data by the main search engines: Linked Data is an easy and valuable way to bring geodata to the Web and to improve geodata visibility and cross-domain interoperability.
We were aware that we had to work with the schema.org vocabulary and we spent some time in trying to debug our RDF serialization with the Google structure data tools. We eventually had to realize that Google does not really follow the “open world assumption” to Linked Data publication: the structured data tool have an issue with mixed vocabularies, simply said they only recognize schema.org definitions, while definitions from other vocabularies produce errors.

Now schema.org is simply not sufficient to describe geodata. Let us make a simple example: to tag a resource of type “administrative units” one can use the schema.org type “AdministrativeArea” but there is no possibility to specify the level of the administrative unit (is it a Municipality or a Canton?). Schema.org fails on one of the main Linked Data principles: reuse. It just does not care about existing standards and vocabularies.

Google has recently launched a new “Dataset Search” service with a bit more “openness”, since here they also support the “Data Catalog Vocabulary” (DCAT) from the W3C beside schema.org.

Amazon has also recently launched its “Registry of Open Data on AWS” for discovery and sharing of datasets available as AWS resources.

The Frictionless Data initiative from Open Knowledge International is yet a further approach to data publication and sharing.
In the quest for unlocking the potential of (geo)data, data providers have to navigate on sight in a sea full of alternative and competing «same-but-different» solutions.

We argue that the Linked Data approach is the one with the higher, yet unexplored potential.

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Wie Linked Data die Zugheizung startet

Die SBB ist nicht nur die grösste Eisenbahn in der Schweiz, sie betreibt auch eine Anwendungslandschaft mit mehr als 1000 Anwendungen. Jede dieser Anwendungen benötigt Daten für ihren reibungslosen Betrieb. Werden diese miteinander verknüpft, können sie beispielsweise bei jedem Wetter die richtige Temperatur im Zugabteil garantieren.

 In der Anwendungslandschaft der SBB sind diese Anwendungen historisch unabhängig voneinander entwickelt worden und nicht immer wird Gleiches gleich dargestellt. So kommt es, dass in verschiedenen Anwendungen Schlüssel oder Formate nicht auf einander passen.

Bei der Entwicklung von neuen Anwendungen muss die SBB oft Daten von mehreren bestehenden Anwendungen verknüpfen. Damit schnell mit richtigen Daten gearbeitet werden kann, ohne dass aufwändige Schnittstellen gebaut werden müssen, exportieren die Anwendungen Daten.

Hier kommen nun die Linked Data ins Spiel. Die Datenexporte werden analysiert und eine entsprechende Ontologie erstellt. Diese Analyse ermöglicht gleichzeitig den Aufbau des Domänenwissens und die Dokumentation desselben für die zukünftigen Nutzer. Der Bestimmung der URI (Unified Ressource Identifikator) kommt in diesem Schritt grosse Bedeutung zu. Soll doch mit dieser URI in der späteren Nutzung des Datenexports die Anreicherung mit Daten aus anderen Anwendungen möglich werden.

Mit der Überführung des Datenexports in RDF – Tripels in der definierten Ontologie ist man dann schon beinahe am «Integrationsziel» angelangt. Sind die Tripels einmal im Tripelstore drin, ist es einfach möglich die verschiedenen Graphen zu verknüpfen.

Mehrere Akteure spielen zusammen

Die SBB hat in der Studie «Meteobasiertes Vorheizen von Zügen» diese Art von Datenintegration versucht. In der Zürcher S-Bahn setzt die SBB zu Hauptverkehrszeit zusätzliche Züge ein. Diese Doppelstockzüge müssen vor dem Einsatz geheizt werden, so dass für die Passagiere eine angenehme Temperatur herrscht. Dieses Vorheizen ist soweit automatisiert, dass der Zug 90 Minuten vor dem ersten fahrplanmässigen Einsatz beginnt zu heizen. Diese 90 Minuten stellen sicher, dass der Zug niemals zu kalt ist. Es stand die Hypothese im Raum, dass man diese Zeit reduzieren kann und durch den Einbezug von Wetterparametern sicherstellt, dass es immer noch ausreichend warm im Zug ist.

Verschiedene Organisationen (Zazuko GmbH, HEVS) haben unabhängig voneinander die Daten die Daten exportiert und die Triples in den Tripelstore von LINDAS importiert. Eine dritte Organisation (Universität Bern, Forschungsstelle Digitale Nachhaltigkeit) hat dann die Steuerung basierend auf den Graphen implementiert. Durch diese Entkopplung und der Selbstdokumentation von Linked Data war die Universität Bern rasch in der Lage, eine funktionsfähige Steuerung zu implementieren.

Aus der Rollmaterialplanung werden alle 30 Minuten die aktuellen Formationen (Reihung der Wagen) exportiert, von MeteoSchweiz werden alle 6 Stunden die Wetterprognosen (Temperatur, Globalstrahlung) geladen. Die Anwendung der Universität Bern berechnet dann basierend auf dem Depotstandort des Zuges, des voraussichtlichen Temperaturverlaufs, der eintreffenden Globalstrahlung und dem nächsten Einsatz des Zuges den optimalen Zeitpunkt, um die Heizung einzuschalten. In der Übergangszeit konnte so die standardmässige Vorheizzeit deutlich reduziert werden und ansehnliche Mengen Energie eingespart werden. Somit konnte durch die Studie die Hypothese unterstützt werden. Um die Ergebnisse einer breiteren Leserschaft bekannt zu machen, wurde zusätzlich eine Visualisierung erstellt. Hier hat sich nochmals gezeigt, dass durch die einfache Verfügbarkeit der Daten rasch eine lauffähige Visualisierung geschaffen werden kann. Da alle Daten (inkl. der Logs) im Tripelstore vorlagen, konnten alle wichtigen Daten mit einem Query zusammen geholt und visualisiert werden.

Schlussfolgerung

Bei der Entwicklung von Prototypen mit Daten aus verschiedenen (teils Legacy-)Systemen ist die Verwendung von Linked Data eine Hilfe. Nicht nur, weil die Implementierung des Prototypens auf Basis der Linked Data relativ einfach ist, sondern auch, da viel implizites Wissen, welches in der Programm-Logik der zu integrierenden Systemen steckt, explizit gemacht wird. Diese Studie hat aber auch aufgezeigt, dass grosse Datenmengen, wie es die Wetterdaten sind, heute noch Optimierungsschritte brauchen, damit sie effizient in den Tripelstore geladen werden können.

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Oktoberausgabe: Digitalisierung ist eine ur-mathematische Disziplin

Ich wurde kürzlich mit der Idee konfrontiert, Digitalisierung ohne Mathematik zu unterrichten. Die Meinung war: weil Mathematik so schwierig ist, sollte man den überforderten Studierenden nur die nicht-mathematischen Digital Skills beibringen. Also Data Science ohne Statistik, Optimierung der Entscheidungsprozesse im Alltag ohne Wahrscheinlichkeitstheorie, künstlich intelligente Roboter ohne Algorithmen, Cybersecurity ohne Verschlüsselung und zwangsläufig: Finanzwirtschaft, die dem emotionalen Fühlen folgt und nicht den Zahlen.

Die Idee einer Digitalisierung, die sich an sozialen Werten orientiert, ist faszinierend und wurde auch am Swiss Digital Summit 2018 (am 27. September an der ETH in Zürich) diskutiert. Nur auch dort war klar: gerade wenn es um gesellschaftliche Werte geht, braucht es viel Mathematik. Ohne Mathematik keine digitale Aufklärung.

Meine Aufzählung der skurrilen Konsequenzen einer Digitalisierung ohne Mathematik enthält einen scheinbar nicht ganz überzeugenden Punkt: die algorithmenfreien künstlich intelligenten Roboter. Eine Zeitlang war in Teilen der KI-Community die Idee populär, dass die Intelligenz im Material liege. Das war eine kluge Idee: Man kann gutes Engineering einsetzen, um den Rechenbedarf von Computer massiv zu reduzieren. Das Ergebnis guten Engineerings hat Anteil an der resultierenden sensomotorischen Intelligenz. Der Grund ist simpel, Ingenieure arbeiten mit viel Mathematik.

Um eine lange Geschichte kurz zu machen: Mathematik ist zentral für die Digitalisierung. Nur dass es sich dabei meist nicht um die klassische Mathematik mit Papier und Bleistift handelt, sondern um eine Kombination von Denken in mathematischen Modellen und Rechnen mit mathematikbasierten Software-Werkzeugen.

Schlimmer noch: Es ist eine Illusion, zu hoffen, dass die mühsame Mathematik mit Papier und Bleistift gänzlich überflüssig werden wird. Sie ist fast zwingend notwendig, um jene Präzision des Denkens zu entwickeln, die man braucht, um beispielsweise mit Blockchains wirklich coole Dinge zu tun. Smart Contracts zu nutzen, ohne sie zu verstehen, das ist wie einen Vertrag zu unterschreiben, der in einer Sprache abgefasst ist, die man nicht beherrscht.

Durch den Verzicht auf Mathematikunterricht nimmt man jungen Menschen weitgehend die Chance, bei der Digitalisierung mithalten zu können. Man «disabled» sie. Das kann nicht unser Ziel sein! Darum müssen wir als Gesellschaft die weit verbreitete Ablehnung der Mathematik überwinden. Nur wenn die Mathematik zu einer populären Disziplin wird, hat die Schweiz eine Chance, ihren Digitalisierungsrückstand aufzuholen und vielleicht sogar ein Digitalisierungsleader zu werden.

Genniessen Sie diese Ausgabe zu Big, Open und Linked Data und denken Sie dabei daran: Ohne Mathematik ist das alles recht wenig bis nichts.

Herzlichst, Ihr Reinhard Riedl

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Hacken erwünscht

In Archiven, Bibliotheken und Museen schlummern grosse Datenschätze, die im digitalen Zeitalter aus ihrem Dornröschenschlaf geweckt werden. Wie aus den alten Daten neue Anwendungen entstehen, zeigten Programmiererinnen und Programmierer am „#ZACK – Zürcher Archiv Hackday“. Dafür stellten die beteiligten Archive umfangreiches Text- und Bildmaterial zur Verfügung.

Seit Jahrhunderten sammeln Menschen Akten, Unterlagen, Bilder und andere Artefakte, welche ihr Leben und die Welt um sie herum dokumentieren. Diese Daten und Artefakte werden in Gedächtnisinstitutionen für die kommenden Generationen aufbewahrt und dem interessierten Publikum zugänglich gemacht. Die OpenGLAM-Bewegung engagiert sich im Sinne der Open-Data-Philosophie dafür, dass die Daten und digitalisierten Artefakte aus Gedächtnisinstitutionen („GLAM“ ist Englisch und steht für „Galleries, Libraries, Archives and Museums“) soweit wie möglich im Internet frei verfügbar gemacht werden, damit sie von interessierten Nutzern für diverse Zwecke weiter­verwendet werden können. Am Schweizer Archivtag am 9. Juni  öffneten die Zürcher Archive daher nicht nur ihre Türen, sondern auch gleich einen Teil ihrer Daten und luden Software Programmierer, Digital Humanists, Wikipedianer und andere Geschichts- und Kulturinteressierte dazu ein, diese in unterschiedlichsten Formen weiterzuverwenden. Daneben stellten die Archive im Rahmen einer Vortragsserie verschiedene Pilotprojekte vor.

Dass diese Öffnung der Bestände leider noch nicht überall Common Sense ist, zeigte Beat Estermann, stellvertretender Leiter des Forschungsschwerpunkts Open & Linked Data am E-Government-Institut der Berner Fachhochschule und Gründer der OpenGLAM-Arbeitsgruppe Schweiz. Auf der Basis einer Umfrage bei Gedächtnisinstitutionen in neun Ländern untersuchte er, inwieweit die Gedächtnisinstitutionen ihre Daten und Digitalisate heute bereits zur freien Weiterverwendung bereitstellen. Die Unterschiede zwischen den einzelnen Ländern sind zum Teil beträchtlich, wobei die Niederlande generell die Nase vorn hat, während sich die Schweiz im hinteren Mittelfeld tummelt. Allerdings ist der Anteil an Inhalten, die durch Dritte frei genutzt werden dürfen, im Vergleich zu den Gesamtbeständen heute in allen Ländern noch gering. Binnen der nächsten fünf Jahre werde sich diese Situation jedoch grundlegend ändern, ist sich Estermann sicher, denn viele Archive gäben an, künftig einen substantiellen Teil ihrer Bestände für die Weiterverwendung freigeben zu wollen.

Er formuliert fünf Prinzipien, die Institutionen erfüllen müssten, damit OpenGLAM funktioniert:

  1. Metadaten sollen ohne Nutzungsbeschränkungen online veröffentlicht werden.
  2. Auch bei gemeinfreien Werke, welche online publiziert werden, sollen keine Nutzungsbeschränkungen geltend gemacht werden.
  3. Bei der Publikation von urheberrechtlich geschützten Inhalten soll mittels standardisierter Lizenzen deutlich gemacht werden, wie die Inhalte weiterverwendet werden dürfen.
  4. Um die Weiterverwendung zu erleichtern, sind Daten und Inhalte in maschinenlesbarer Form und in Open-Source-Dateiformaten zu veröffentlichen.
  5. Die neuen Partizipationsmöglichkeiten, die sich durch das Internet ergeben, sollen gefördert werden.

Als Hauptgründe, weshalb sich viele Institutionen bei der Freigabe von digitalisierten Inhalten im Netz noch etwas zurückhalten, nennt Estermann das Urheberrecht, den Extraaufwand und die technischen Voraussetzungen, die es erfordert, analoge Dokumente zu digitalisieren, sowie die Angst vor dem Kontrollverlust seitens der Institutionen.

Eine Vorreiterrolle, wenn es um die Verbreitung der Open-Data-Philosophie in der öffentlichen Verwaltung geht, nimmt Open Data Zürich ein. Die Dienststelle ist bei der Stadt Zürich für die Umsetzung von Open Government Data zuständig und macht seit einigen Jahren einen wachsenden Teil von Daten der Zürcher Stadtverwaltung unter offenen Lizenzen zugänglich und unterstützt auch immer wieder Hackathons, um deren Nutzung zu fördern. „Wir verfügen über grosse Datenmengen über die Bürgerinnen und Bürger der Stadt Zürich, von den Beförderungszahlen der Zürcher Verkehrsbetriebe über Eheschliessungen und Taufen bis hin zu den registrierten Hunden und wie sie heissen“, sagt Marco Sieber, Projektleiter Statistik bei der Stadt Zürich. Er gab in seiner Präsentation einen anschaulichen Einblick über den Datenschatz. Zudem veröffentlichte Open Data Zürich eigens für den Hackday Datensätze, darunter die Ehe- und Taufbücher des Grossmünsters von 1708 bis 1732, das Bildarchiv des Schweizerischen Arbeiterhilfswerks sowie Fahrpläne der Tösstalbahn.

Auch andere Archive und Initiativen wie Histhub oder TOPOterm stellten ihre Projekte und Daten vor. Dodis verfügt etwa über die Diplomatischen Dokumente der Schweiz und stellt diese in gedruckter und digitalisierter Form zur Verfügung. Eine Teilnehmerin des letztjährigen Schweizer Kulturhackathons stellte zudem eine Online-Applikation mit Daten des Verbandes Schweizerischer jüdischer Fürsorgen VSJF aus dem Archiv für Zeitgeschichte vor, welche die Bewegungen jüdischer Flüchtlinge in der Schweiz im Laufe des 20. Jahrhunderts visualisiert.

Die meisten Institutionen besitzen Originaldokumente und suchen nach einer technischen Lösung, wie sie diese in geeignete Dateiformate umwandeln können. Ein besonders kniffeliges Beispiel, die Handschriftenerkennung beim Projekt READ (Recognition and Enrichment of Archival Documents), stellte Tobial Hodel vom Staatsarchiv Zürich vor. Mittels Software werden historische Aufzeichnungen wie gedruckte Texte eingelesen und in Dateien umgewandelt. Dabei setzen die Forscher auf neuronale Netzwerke. „Allerdings müssen die Maschinen noch viel lernen; neu gibt es eine Software, die Frakturschrift erkennen kann“, erläuterte Hodel. Derzeit sei die Fehlerquote noch relativ hoch, sinke aber, je länger die Texte seien: Bei 150 Seiten liege die Quote bei 10 Prozent, bei 1000 Seiten um 3 Prozent. Das Problem sei, dass handschriftliche Texte meist keinen gleichbleibenden Schemen folgten. Randnotizen und Fussnoten erschweren die Erkennung weiter. Als Beispiel zeigte Hodel einen Brief des Dichters Rainer Maria Rilke, den der Algorithmus in eine Datei umwandelte – der Text war aufgrund der vielen Erkennungsfehler jedoch unlesbar.

Das Staatsarchiv stellte denn auch einen Datensatz von Rilkes Aufzeichnungen zur Verfügung, an dem ein Hackerteam arbeitete und die dazugehörigen Metadaten anreicherte und visualisierte. Andere Teams programmierten unter anderem ein Tool, das die Eheschliessungen in Zürich visualisiert, welche grafisch einer Spinne ähnlich sehen. Thomas Weibel, Multimediaproduzent an der BFH  und an der HTW Chur, verwandelte Fotos des Usterner Unternehmers und Fotografen Julius Guyer (1893-1909) in den Prototypen eines Memorys.

Hintergrund:

Der Zürcher Hackday ist ein Gemeinschaftsprojekt von Deutschschweizer Archiven, der Arbeitsgruppe OpenGLAM des Vereins opendata.ch und Wikimedia CH. Organisiert wurde der Anlass von Tobias Hodel vom Staatsarchiv Zürich  und Karin Beck vom Stadtarchiv Zürich in Zusammenarbeit mit Vertretern von vier weiteren Archiven (Sozialarchiv, Stadtarchiv Uster, Stadtarchiv Winterthur, Schweizerisches Literaturarchiv), welche für den Anlass eigene Daten bereitstellten. Der Hackday ist einer der Pre-Events zum Swiss-Open-Cultural-Data-Hackathon, der am 15.-16. September an der Universität Lausanne stattfindet.

 

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.