5 ★ オープンデータ

Webの発明者でありLinked Dataの創始者でもあるティム・バーナーズ=リーは,オープンデータのための5つ星スキームを提案しています.ここでは,各段階の星の例と,それに伴うコストや利益について説明します.

5-star steps by example

例示 …

以下に,ティムの5つ星オープンデータ計画における各レベルの例を示します.この文章を通して使われるデータ例は’今後3日間における東京 (日本) の気温予報‘です.:

    • (どんな形式でも良いので) あなたのデータをオープンライセンスでWeb上に公開しましょう1
    • 例 …
  • ★★
    • データを構造化データとして公開しましょう (例: 表のスキャン画像よりもExcel)2
    • 例 …
  • ★★★
    • 非独占の形式を使いましょう (例: ExcelよりもCSV)3
    • 例 …
  • ★★★★
    • 物事を示すのにURIを使いましょう,そうすることで他の人々があなたのデータにリンクすることができます4
    • 例 …
  • ★★★★★
    • あなたのデータのコンテキストを提供するために他のデータへリンクしましょう5
    • 例 …

コストと利益 …

Webデータのコストと利益は何でしょうか?

消費者として …

  • ✔ 見ることができます.
  • ✔ 印刷することができます.
  • ✔ ローカル (ハードディスクやUSBメモリ上) に保存できます.
  • ✔ データを他のシステムに入力できます.
  • ✔ 望むようにデータを変更できます.
  • ✔ 好きなように他人とデータを共有できます.

公開者として …

  • ✔ 簡単に公開できます.
  • ✔ あなたのデータが使用可能であるということを消費者に繰り返し説明する必要がありません.

“(PDDLODC-byCC0 のような) オープンライセンスのもとでWeb上にデータを公開するのは素晴らしいことです.しかしながら,そのデータは文書内に閉じ込められています.お手製のスクレイパーを書かないと,文書からデータを取り出すのは難しいです.”

★★ Webデータのコストと利益は何でしょうか?

消費者として, Webデータでできることは全て可能です.それに加えて,

  • ✔ 独占的なソフトウェアを使うことで,データの集約,計算,可視化等を直接処理できます.
  • ✔ 他の(構造化)形式として書き出せます.

公開者として …

  • ✔ まだ簡単に公開できます.

“素晴らしい! そのデータは構造化された方法 (すなわち,機械可読可能な形式)で Web上でアクセス可能となっています.しかしながら,データは依然として文書内に閉じ込められています.データを文書から取り出すには独占的なソフトウェアが必要です.”

★★★ Webデータのコストと利益は何でしょうか?

消費者として,★★ Webデータでできることは全て可能です.それに加えて:

  • ✔ 特定のソフトウェアの機能に限定されることなく,あなたの好きな方法でデータを操作できます.

公開者として …

  • ⚠ 独占的な形式からデータを書き出すためには,コンバーターやプラグインが必要になるかもしれません.
  • ✔ まだまだ公開するのは簡単です.

“完璧です! そのデータはWebを通して公開されているだけではなく,誰もが簡単にデータを使うことができます.一方で,データはまだWeb上に置いてある (data on the Web) だけであり,Webの中にあるデータ (data in the Web)ではありません.”

★★★★ Webデータのコストと利益は何でしょうか?

消費者として★★★ Webデータでできることは全て可能です.それに加えて,

  • ✔ (Web上やローカルの) 他の場所からデータにリンクすることができます.
  • ✔ ブックマークできます.
  • ✔ データの一部を再利用できます.
  • ✔ 公開者が使用しているパターンの一部を理解するだけで,既存のツールやライブラリを再利用できるかもしれません.
  • ⚠ データのRDF “グラフ” 構造を理解するのは,表データ (Excel/CSV) や木構造データ (XML/JSON) よりも多くの努力が必要でしょう.
  • ✔ 他のデータと安全に組み合わせることができます.URIはグローバルなスキームなので,もし2つの事物に同じURIが存在する場合は,それは故意です.もしそうなっているのであれば,それは適切な5つ星データへの道です!

公開者として …

  • ✔ データ項目へのきめ細かい制御で消費者のアクセスを最適化できます (ロード・バランシング,キャッシング等).
  • ✔ 他のデータ公開者があなたのデータにリンクすることができます.それを5つ星に昇格してください!
  • ⚠ 通常は,データを細切れにして分析するために時間を費やします.
  • ⚠ データ項目にURIを割り当てたり,データの表現方法について考える必要があるでしょう.
  • ⚠ 再利用するための既存パターンを見つけるか,あるいは自分なりの方法を作る必要があります.

“凄い! 今,データはWebのにあります.(最も大切な)データ項目にはURIがあり,Web上で共有することができます.データを表現するための自然な方法は,RDFを使うことです.しかしながら,Atomのような他の形式は必要であれば変換することができます.”

★★★★★ Webデータのコストと利益は何でしょうか?

消費者として,★★★★ Webデータでできることは全部できます.それに加えて,

  • ✔ データを消費する時により多くの(関係ある)データを発見できます.
  • ✔ データスキーマについて直接学べます.
  • ⚠ Webページでの404エラーのように,これからは壊れたデータリンクを取り扱わなければなりません.
  • ⚠ 実際,任意のリンクからのデータを表示するのは,あなたのページでいかなるウェブサイトからのコンテンツを含ませるのと同様に危険です.注意,信頼,常識が依然として必要とされます.

公開者は …

  • ✔ あなたのデータを発見可能にできます.
  • ✔ あなたのデータの価値が増大します.
  • ✔ あなたの組織は消費者と同様にリンクから利益を得ます.
  • ⚠ あなたのデータをWeb上の他のデータにリンクするためにリソースを投資する必要があるでしょう.
  • ⚠ 壊れた,あるいは正しくないリンクを修正する必要があるかもしれません.

“見事です! これでWebのにあり,他のデータへリンクするデータとなりました.消費者と公開者共に,ネットワーク外部性の利益を得ます.”

参照

賛辞: Andy Seaborne はCSVバグを指摘してくれました.Kerstin Forsberg は4/5つ星の例での’データハイライト’を提案してくれました.Vassilios Peristeras は’何を’だけでなく’何故’を説明すべきだと提案してくれました.Egon Willighagen はより詳細な1つ星の利益を提供してくれました.Christopher Gutteridgeからの追加の貢献もありました.The background picture of Tim Berners-Lee was taken by Paul Clarke and licensed under the Creative Commons Attribution-Share Alike 4.0 International license. このサイトはthe EC FP7 Support Action LOD-Around-The-Clock (LATC) の提供で運営されています.This site is now brought to you independently by James G. Kim and Michael Hausenblas.