5 ★ 오픈 데이터

웹과 링크드 데이터의 창시자 팀 버너스-리는 별점을 이용한 오픈 데이터의 다섯 단계 배포 계획을 제안하였다. 이 사이트는 별점의 각 단계에 대한 예제를 제공하고, 그 비용과 효과에 대해 설명한다.

예제로 보는 다섯 단계

예제로 보기 …

다음은 팀 버너스-리가 제안한 별점 5 오픈 데이터 계획의 단계별 예제이다. 아래에서 사용되는 예제 데이터는 ‘서울의 3일간 기온 예보‘이다.

    • 데이터를 웹 상에 오픈 라이선스로 (포맷에 상관없이) 공개1
    • 예제 …
  • ★★
    • 구조화된 데이터로 제공(예, 표를 스캔한 이미지 대신 엑셀)2
    • 예제 …
  • ★★★
    • 비독점적 오픈 포맷으로도 제공(예, 엑셀은 물론 CSV)3
    • 예제 …
  • ★★★★
    • 사람들이 가리킬 수 있도록 개체를 나타내기 위해 URI를 사용4
    • 예제 …
  • ★★★★★
    • 데이터의 문맥과 배경을 제공하기 위해 다른 데이터와 링크5
    • 예제 …

비용과 효과 …

웹 데이터의 비용과 효과는 무엇일까?

소비자로서 …

  • ✔ 볼 수 있다.
  • ✔ 인쇄할 수 있다.
  • ✔ 로컬에(하드 드라이브나 USB 메모리 스틱에) 저장할 수 있다.
  • ✔ 다른 시스템에 데이터를 입력할 수 있다.
  • ✔ 원하는 대로 데이터를 수정할 수 있다.
  • ✔ 원하는 사람과 데이터를 공유할 수 있다.

공급자로서 …

  • ✔ 제공하기 쉽다.
  • ✔ 데이터를 사용해도 된다고 사람들에게 반복해 설명할 필요가 없다.

“오픈 라이선스(PDDL, ODC-by, CC0 등)로 공개된 데이터가 웹 상에 존재하는 것은 매우 멋진 일이다. 하지만 데이터는 문서에 갇혀 있고, 맞춤형 스크레이퍼의 작성 없이 문서에서 데이터를 추출하기는 어렵다.”

★★ 웹 데이터의 비용과 효과는 무엇일까?

소비자로서 웹 데이터로 할 수 있는 것 외에 다음을 추가로 할 수 있다.

  • ✔ 데이터 수집, 계산, 시각화 등 독점 소프트웨어를 사용해 데이터를 직접 처리할 수 있다.
  • ✔ 다른 (구조화된) 포맷으로 데이터를 내보낼 수 있다.

공급자로서 …

  • ✔ 여전히 제공하기 쉽다.

“훌륭하다! 웹 상에서 구조화된(즉, 기계가 읽을 수 있는) 방법으로 데이터에 접근할 수 있다. 하지만 데이터는 여전히 문서에 갇혀있다. 문서에서 데이터를 추출하기 위해서는 독점 소프트웨어에 의존해야 한다.”

★★★ 웹 데이터의 비용과 효과는 무엇일까?

소비자로서 ★★ 웹 데이터로 할 수 있는 것 외에 다음을 추가로 할 수 있다.

  • ✔ 어떤 독점 소프트웨어 패키지도 소유할 필요 없이 자신이 원하는 방법으로 데이터를 다룰 수 있다.

공금자로서 …

  • ⚠ 독점 포맷의 데이터를 내보내기 위해서 변환기나 플러그인이 필요할지도 모른다.
  • ✔ 여전히 비교적 제공하기 쉽다.

“놀랍다! 웹을 통해 데이터에 접근할 수 있을 뿐만 아니라 누구나 쉽게 사용할 수 있다. 그러나 이는 여전히 웹 상의 데이터이지 웹 안의 데이터가 아니다.”

★★★★ 웹 데이터의 비용과 효과는 무엇일까?

소비자로서 ★★★ 웹 데이터로 할 수 있는 것 외에 다음을 추가로 할 수 있다.

  • ✔ 어떤 곳(로컬이나 웹 상)에서라도 링크할 수 있다.
  • ✔ 북마크할 수 있다.
  • ✔ 데이터 일부를 재사용할 수 있다.
  • ✔ 기존 도구나 라이브러리가 공급자가 사용한 패턴 중 일부만 이해하더라도 이를 재사용할 수 있을 것이다.
  • ⚠ 데이터의 RDF “그래프” 구조를 이해하기 위해서는 표(엑셀/CSV)나 트리(XML/JSON) 형태의 데이터보다 더 많은 노력이 필요할 수 있다.
  • ✔ 데이터를 다른 데이터와 안전하게 결합할 수 있다. URI는 전역적 구조를 갖기 때문에 만약 두 가지가 같은 URI를 갖는다면 이는 의도적이며, 별점 5 데이터를 향해 잘 나아가고 있는 것이다!

공급자로서 …

  • ✔ 데이터 항목에 대한 정교한 제어가 가능하고, 접근을 최적화(로드 발란싱, 캐싱 등)할 수 있다.
  • ✔ 이제 다른 데이터 공급자가 데이터 내부에 링크할 수 있고, 이를 통해 별점 5가 될 수 있다!
  • ⚠ 데이터를 더 작은 단위로 나누기 위해 일반적으로 어느 정도의 시간을 투자하게 된다.
  • ⚠ 데이터 항목에 URI를 부여해야 하고, 데이터를 표현하는 방법도 생각해야 한다.
  • ⚠ 재사용하기 위한 기존 패턴을 찾거나 자신의 것을 만들어야 한다.

“대단하다! 이제 웹 의 데이터이다. (가장 중요한) 데이터 항목들이 URI를 가지며, 웹 상에서 공유될 수 있다. 데이터를 표현하기 위한 가장 자연스러운 방법은 RDF를 사용하는 것이다. 하지만 필요한 경우 Atom과 같은 다른 포맷도 변환 또는 매핑될 수 있다.”

★★★★★ 웹 데이터의 비용과 효과는 무엇일까?

소비자로서 ★★★★ 웹 데이터로 할 수 있는 것 외에 다음을 추가로 할 수 있다.

  • ✔ 데이터를 소비하며 더 많은 (관련) 데이터를 발견할 수 있다.
  • ✔ 데이터 스키마에 대해 직접 배울 수 있다.
  • ⚠ 이제 깨진 데이터 링크를 웹 페이지의 404 오류처럼 다룰 수 있다.
  • ⚠ 임의의 링크에서 얻은 데이터를 사실로 제시하는 것은 웹사이트에서 얻은 정보를 글에 포함하는 것만큼 위험하다. 주의, 신뢰와 상식은 여전히 필요하다.

공급자로서 …

  • ✔ 데이터가 발견될 수 있게 한다.
  • ✔ 데이터의 가치를 높인다.
  • ✔ 자신의 조직도 링크로부터 소비자와 같은 효과를 얻게 될 것이다.
  • ⚠ 웹 상의 다른 데이터와 링크하기 위해서 자원의 투자가 필요해진다.
  • ⚠ 깨지거나 잘못된 링크를 고쳐야 할 수도 있다.

“환상적이다! 이제 다른 데이터에 연결된의 데이터이다. 소비자와 공급자는 모두 네트워크 효과를 통한 이익을 얻는다.”

더 보기

CSV 버그를 알려준 앤디 시본, 별점 4/5 예제에 ‘데이터 하이라이팅’을 제안해 준 커스틴 포스버그, ‘무엇’뿐 아니라 ‘왜’도 설명하라고 제안한 바실리오스 페리스테라에게 영광을 돌린다. 별점 1 데이터에 대한 더 자세한 설명을 제공해준 이곤 윌리가겐크리스토퍼 거터리지의 추가적인 기여에 감사한다. 팀 버너스-리의 배경 사진은 폴 클라크가 찍었고, 크리에이티브커먼즈 저작자표시-동일조건변경허락 4.0 국제 라이선스로 공개되었다. 이 사이트는 처음에 EC FP7 지원 활동 LOD-Around-The-Clock (LATC)에 의해 제공되었고, 현재는 김보람마이클 하우젠블라스에 의해 독립적으로 제공된다.