User Tools

Linked Data (鍊結資料)

Linked Data (鍊結資料)是Tim Berners-Lee 語義網理想的一種展現。在 2008年以後的社會網路風潮中,Linked Data 的理想更進一步被重視。

語義網原本的理想

Linked Data可以從它的前身,語義網,來理解。

Tim BL 早期推動的網際網路(WWW)是一個以文件互連的網路,但是他理想的語義網希望達到的是讓「資料互連的網路」。但是這個理想並不是一開始的版本;Tim BL 一開始的理想是完成自動語義推論的資訊搜尋工作。因此,早期 Tim BL 推動的語義網主要在建立 RDF, OWL 這類能讓電腦辨識資料的標準。

「電腦與網路的工作,是讓使用全球資訊網的人,能透過資訊空間來溝通。但是如果能進一步加重電腦的角色,善用它們的分析能力,來幫助我們瞭解全球資訊網上大量的資訊與人類話語,這樣不是更好嗎?」「首先,要把全球資訊網上的資料,組織或轉換成電腦能自然理解的資料型態。所得到的結果是一個機器能直接或間接處理的資料網路,我稱作語意網(Semantic Web)。」(一千零一網,頁215) Tim BL 會有這樣的理想,相當主要是因為要解決資訊檢索的問題。與上述理想的同一頁,Tim BL說道:
「我們透過全球資訊網從機器得到的幫助想其實相當有限。但搜尋引擎已能快速過濾大量的索引,找出冷僻的文件,效果良好;可是也可以反過來說,搜尋引擎一點用處也沒有,因為它們根本無法判斷文件的品質,搜尋的結果總是一大堆垃圾。問題在於搜尋引擎通常是以關鍵字在文件中的出現次數為搜尋標準,但關鍵字重複的出現跟文件真正要講的內容往往沒有多大關連」(一千零一網,頁215)。

對稍稍理解今日網路搜尋引擎技術的人來說,Tim BL 對搜尋引擎的理解似乎沒有趕上時代。搜尋引擎的相關性品質的確是不能透過單純透過詞頻來解決的,但也沒有當代的搜尋引擎是僅僅靠詞頻就能處理的。但是 Tim BL認為這個問題,是需要透過「能夠進行邏輯推論的搜尋引擎」才能解決的。為了發展推論引擎為前提,Tim BL 建立了RDF與語義網的基礎。

但是,長期的努力,也建立了許多「本體知識集(ontologies)」,但是遠遠無法達到 Tim BL 的理想境界。Tim BL 也坦承過去許多技術計畫並不成功「在過去數年許多語義網技術的研究與評估計畫產生了許多本體知識集,與許多的資料集;但是這些資料,都埋葬在以zip格式封存的某處,而不能成為被鍊結的資料在網路上被取用」。 更有甚者,Tim BL 在2006備忘錄中沒有提到的是,在 2006 年以前的語義網技術與標準發展,有如侏儸紀恐龍一樣,標準一個一個的湧現,又一個比另一個複雜。 2004 提出的 OWL 2,正代表這樣的複雜度到達另一個高峰。

2006 備忘錄

因此,這份 2006 文件可以顯示出 Tim BL 的思想轉換。他想要「簡單」,提到「正是這些意外的重新利用資訊,使得網路增長」,但這些都是早期語義網技術發展所欠缺的。 他希望讓資料回復到「簡單」「容易被利用」「能放在網路上公開」這樣的方向上。

  • 語義網不只是將資料放在網路上。而是製造連結,使一個人或機器可以探索網路上的資料。因為有互相鍊結的資料,當你有了一些資料,你就能找到其他相關資料。
  • 就像是超文本網路,資料網路也是由網路上的文件所建構的。然而,與超文本網路不同的是,超文本文件中的連結關係是寫在HTML的關係錨點上,而在任意事物間的資料是透過RDF建立連結。並透過 URI 標示物件或概念。但不論是 HTML 或 RDF,相同的期望都是使網路增長。
  • 連結資料的四項規則
    1. 使用 URI 作為事物的名稱
    2. 使用 HTTP 的 URI ,讓人們可以找到這些名稱。
    3. 當有人查找一個 URI 時,提供有用的資訊,使用標準(RDF, SPARQL) 。
    4. 包含連結到其他的 URI。使他們能夠找到更多的事物。
  • Tim BL 認為,是因為這四項規則(環節)中出了一些問題,導致在 2006 當時無法實現語義網資料彼此互連的理想。
    • 文中後續的批評認為第三、四兩項做的不好。
  • 第三項的批評:(1)因為某些原因,網路上主要的資料集不採用 Tim BL 的本體知識結構;(2)採用Tim BL 本體知識結構的資料集不開放。但 Tim BL 並沒有細究導致這兩點的原因為何?
    • 第三項規則,網路上的一個資訊應該有一個 URI,在 2006 被大多數的本體知識所遵循,但是,因為某些原因,並沒有被主要的資料集採用。在一般情況下,人們能夠查找資料中的屬性與類別,並由 RDF, RDFS, 與 OWL 本體知識中獲得資訊,包括在知識本體中的關係資訊。
    • 在過去數年,許多語義網技術的研究與評估計畫產生了許多本體知識集,與許多的資料集;但是這些資料,都埋葬在以zip格式封存的某處,而不能成為被鍊結的資料在網路上被取用。Biopax計畫,計算機科學研究人員與專案的 CSAktive 資料是兩個例子。[CSAktive 資料現在(2007)已經可以是可連結資料了]
  • 第四項規則,Tim 認為大多數語義網技術都忽略了網路的真正價值「你所擁的資訊的價值不只取決於網頁的內容,也取決於它能連到哪裡。在語義網中也是一樣的」。
  • 一個小訣竅:當 Tim BL 說「我們」的時候,是講「已經做到或被認為是對的事情」。而用到「你」或「你們」的時候,是在講現在「應該作而沒有做到的事情」。由此來看,上一句對鍊結資料第四規則的說明實際是對當時所有語義網計畫的責難。
  • 成功的例子:FOAF,是由 Libby Miller 與 Dan Brickley 於 2000 年獨立創出的。

Datasets

  • DBpedia - a dataset containing extracted data from Wikipedia; it contains about 2.18 million concepts described by 218 million triples, including abstracts in 11 different languages (see the very DBpedia resource associated to the present wikipedia page)
  • DBLP Bibliography - provides bibliographic information about scientific papers; it contains about 800,000 articles, 400,000 authors, and approx. 15 million triples
  • GeoNames provides RDF descriptions of more than 6,500,000 geographical features worldwide.
  • Revyu - a Review service consumes and publishes Linked Data, primarily from DBpedia.
  • riese - serving statistical data about 500 million Europeans (the first linked dataset deployed with XHTML+RDFa)
  • UMBEL - a lightweight reference structure of 20,000 subject concept classes and their relationships derived from OpenCyc, which can act as binding classes to external data; also has links to 1.5 million named entities from DBpedia and YAGO
  • Sensorpedia - A scientific initiative at Oak Ridge National Laboratory using a RESTful web architecture to link to sensor data and related sensing systems.
  • FOAF - a dataset describing persons, their properties and relationships
  • OpenPSI for the OpenPSI project a community effort to create UK government linked data service that supports research
  • VIAF (Virtual International Authority File) - an aggregation of authority files (author names) from national libraries from around the world.

References

meta