Semantic Web China

语义网研究 Semantic web 发展动态 最新论文 应用实例 博客 社区 论坛 入门 指南 参考 资料下载

Archive for the ‘语义网入门’ Category

语义网-中国传媒科技

Monday, August 6th, 2007

语义网—表示文档内容的语义数据模型

杜小勇,李曼

互联网改变了人们的生活。目前通过互联网可以看报纸、电视,也可以听广播。广播网、电视网和互联网的“三网合一”,已经没有技术上克服不了的困难了,人为的阻碍也只能是“螳螂挡车”的结果。可以想象,用不了多久,互联网将成为媒体融合的公共载体,而且可以想象在互联网这个平台上还会生长出许多新形态的新媒体。

但是,目前的互联网上传播的内容只有人能够看的懂,计算机只起个数据存储、传递、展示的作用,不能理解其中的语义。如果计算机能够理解内容的语义,那么计算机就可以帮助人们做很多有意义的事情。比如,在你写文章的时候,计算机可以为你收集相关的文献,在你准备旅行的事情,计算机可以帮助你安排行程、预定旅馆和机票等。

这是让人兴奋的情景,也是互联网成为各种媒体的基础平台的客观需要。让计算机拥有智能是计算机工作者,特别是人工智能工作者远久以来就有的梦,而且为之奋斗了几十年。但是,总的来说,人工智能的进展并没有像人们期望的那样顺利。日本第五代计算机的失败(其预期目标并没有真正实现)也给人们一个教训,让计算机具有人的智能是属于那种“说说容易做做难”的事情,既需要基础理论的突破,也需要大量基础性的建设工作。

为了将目前互联网改造成有序的计算机可理解的知识宝库,英国人蒂姆·伯纳斯·李(Tim Berners-Lee)提出了语义WebSemantic Web,也称语义网)的概念,顾名思义是指Web上的文本信息具有(计算机系统可以理解的)语义。我们都知道,此人也是目前公认的互联网之父[1]

那么,语义网是如何具有计算机可以理解的语义信息的呢?换句话说,语义网是如何对语义信息建模的呢?我们需要考虑以下三个方面的内容,一是需要一个描述框架,能够将语义信息(概念以及概念之间的联系)表示出来,二是需要定义一种描述语言具体进行语义信息的描述,三是需要一种操作语言对语义信息进行操作。

首先,我们先来看看如何描述语义信息,即概念的形成和表示。一个概念C可以通过数学上的集合来表示,集合有两种表示方法,一种是内涵表示法,另一种就是外延表示法。所谓内涵表示法是指用概念所指代的对象所应满足的性质来表示,而概念的外延表示是指用该概念所指代的具体的对象集合来表示。例如,偶数这个概念既可以表示成{x| x能被2整除},也可以表示成{2468,……}。前者就是内涵表示,被2整除就是x的一个性质。后者就是外延表示。日常生活中的概念虽然很难象数学概念那样清晰地表达,但是也可以有内涵和外延这两种表示。从概念的形成过程来看,我们首先拥有一组对象,以及关于这些对象的一些性质,理论上讲,描述对象的性质是越多越好。然后,对这组性质进行抽象,那些具有相同性质的对象集合就构成了概念。但是,获得对象的性质是有代价的,是需要逐渐积累的。目前的数据库系统,基本上都是先确定描述对象的性质,然后再去组织数据,它缺乏一种机制,能够不断地丰富数据的描述,而这种机制正是概念学习的基础。

对象的性质既可以取一个通常意义上的“值”,例如,张三的年龄是20岁,也可以为另一个对象,例如,张三的老师是李四,这里老师是描述对象张三的一个性质,这个值其实就反映了对象之间的联系。同一个概念的对象具有相同的性质,因此,在习惯上我们将这些对象的性质称为是概念的性质。

那么语义网是如何描述文档的语义信息(概念及其关系)的呢?它采用多层次的表示框架。首先为文档引入结构,将文档分解成一些可以识别的“块”,这样计算机就能够方便地解读文档,这就是XML。如果知道XML的定义,就可以编程序对内容进行操作,比如信息提取等。XML是语义Web上资源表示的语法基础,但是并没有对结构本身的语义进行描述。如果不知道XML元素的语义,那么计算机仍然不能理解其中的信息。这时需要一个更高的层次来描述结构的语义,这就是RDFRDF定义了元素之间的关系,表现为三元组的集合(类似于句子的主语、谓语和宾语)。XML加上RDF就相当于建立了人工智能中的语义网络(semantic network,也就可以进行一些简单的推理了。使用XML+RDF,人们可以建立各自的语义Web,只要有一套自成体系的术语就可以了。但是,要计算机相互理解对方的内容,还需要有一套共同的标准的概念体系,这就是本体(Ontology)XML+RDF+Ontology构成了计算机相互理解的基础,缺一不可。因此,我们说,语义网描述的就是信息资源的一个语义数据模型,是计算机理解内容的基础。

其次,我们介绍描述语言标准。XMLRDFOWL都是国际组织W3C推荐的标准。XML和语义信息描述没有直接的关系,而且介绍的资料也很多,我们不在这里介绍。RDFW3C提出的资源描述框架(Resource Description Framework),它除了可以表达Web资源的元数据,例如Web页面的标题、作者、创建时间等,还可以表达任何可在Web上标识的事物的信息,例如购物网站上某个产品的价格、功能等。RDF使用了一种简单的三元组模型来表示Web上资源的属性的取值。每个三元组由主语(Subject)、谓语(Predicate)和宾语(Object)三个元素构成。其中主语代表资源,即所有可以描述的对象。谓语指的是资源的属性(也称性质),一个资源可以有多个属性。宾语就是属性的值,每个属性值既可以是数字、字符串等,也可以是资源。

例如,表1中的三元组就描述了网页“http://www.w3c.org/china/”的标题是“W3C标准”,作者是姓名为“张三”的一个人,他的联系电话是“62512345”。其中“http://www.w3c.org/china/”的作者的值就是一个资源“#anonymous_r”,这里将其称为匿名资源(即该资源没有名字),该资源具有自己的属性:姓名和电话。

1. RDF三元组

主语

谓语

宾语

http://www.w3c.org/china/

标题

W3C标准

http://www.w3c.org/china/

作者

anonymous_r

anonymous_r

姓名

张三

anonymous_r

电话

62512345

    可以看出RDF就是三元组的集合,一系列的三元组构成一个RDF图。图1就是表1对应的RDF图,其中椭圆表示资源,箭头表示属性,方框表示属性的值。

 

<>


   

 RDF本身并没有规定语义,但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来讲,RDF是一个开放的元数据框架。这个元数据框架定义了一种数据模型,可以用来描述计算机能够理解的数据语义。显然,这种框架还需要定义描述中使用的词汇,这就是RDF的词汇描述语言,即RDF SchemaRDF Schema定义了RDF描述数据时使用的词汇,它引入了类(class),属性(property),类之间的包含关系(subClassOf),属性间的包含关系(subPropertyOf),以及属性的定义域(domain)和值域(range)等标准词汇。例如,对于上面关于网页的例子,我们可以定义两个类,即“网页设计者”和“网页”,其中,“作者”和“标题”都可以定义为属性,它们的定义域都是“网页”,值域分别是“网页设计者”和文本型(即literal),类似的,可以定义属性“姓名”和“电话”的定义域是“网页设计者”,值域是文本型(即literal)。对于“网页”这个类来说,资源“http://www.w3.org/china/”是它的一个实例,对于“网页设计者”这个类来说,姓名为“张三”,电话为“62512345”的人是它的一个实例。语法上,RDF SchemaRDF是完全一致的,即所有的RDF Schema文档都是合法的RDF文档。语义上,RDF SchemaRDF的一个扩展,即它不仅保留了RDF的全部意义,而且对新增部分加入了自身的解释。

RDF定义了用于描述资源的语法和模型,RDF Schema定义了RDF描述资源时所用的词汇集,这样RDFRDF Schema构成了一种简单的对Web资源的表示机制。从某种意义上说,RDF(S)[2]本身就是一种简单的本体(Ontology)语言。但是它太简单,描述能力比较弱,难以表达复杂的领域知识,因此需要对其进行扩展。例如OILDAMLOILOWL,都是对RDF(S)的扩展。其中,OWLWeb Ontology Language)是W3C最新推荐的Web Ontology描述语言的标准。它是为了在WWW上发布和共享Ontology而提供的语义标记语言。Ontology之所以逐渐引起人们的重视,主要的原因在于它能够提供明确定义的词汇表,描述概念和概念之间的关系,使得使用者之间达成对概念含义的共同理解。而对同一概念的语义共享和共同理解正是构建语义Web的关键。

OWL作为RDF(S)的扩展,是在DAML+OIL的基础上发展起来的,目的是提供更多的原语以支持更加丰富的语义表达,并更好的支持推理。与RDF(S)一样,OWL可以声明类,属性,及各自的层次关系。但是,OWL还可以通过逻辑组合算子(合取,析取,否定)在其他类的基础上构造新的类,同时OWL可以通过属性约束定义类,另外OWL还可以声明某个属性具有传递性、对称性、函数性,或是某个属性的逆属性等。例如,在OWL中可以声明属性“朋友”具有对称性,那么如果声明了张三是李四的朋友,则可以推断出李四也是张三的朋友。显然,OWL的这些新特性都超越了RDF(S)的描述能力。

为了应用的需要,OWL提供了三种表达能力递增的子语言:OWL LiteOWL DLOWL Full。其中,(1OWL Lite用于提供给那些只需要一个分类层次和简单属性约束的用户。例如,虽然OWL Lite支持基数限制,但只允许基数为01。开发支持OWL Lite的工具要比开发支持其他两个子语言的工具更容易些。(2OWL DL支持那些不仅需要最强表达能力而且需要保持计算完备性(computational completeness,即所有的结论都能够保证被计算出来)和可判断性(decidability,即所有的计算都在有限的时间内完成)的用户。它包括了OWL语言的所有语义成分,但是使用时必须符合一定的约束。例如,一个类可以是多个类的子类,但它不能同时是另一个类的实例。另外,它是以描述逻辑为基础的(名字中DL表示描述逻辑)。(3OWL Full支持那些需要最强的表达能力和完全自由的RDF语法但是不需要可计算性保证的用户。例如,它允许一个类被看作是许多个体的一个集合,而同时本身也作为一个个体。它允许在一个Ontology增加预定义的(RDFOWL)词汇的含义,所以,没有推理软件能支持OWL FULL的所有特性。总的来说:OWL LiteOWL DL的一个子集,它在OWL DL的基础上除去了组合类以及枚举类,并规定基数约束仅为01等,提供的是最简单最基本的OWL语言成分;OWL DL要求类、属性、和个体是三个不相交的集合并提供了基于描述逻辑的推理特征,可以在其上应用已有的推理工具。完整的OWLOWL FULL表示,它不严格区分类、属性和个体,并放松了OWL DL中的某些推理限制,使其更适合于某些数据库和知识表示系统使用。

关于语义信息的操作语言,目前仅有一些提供简单查询功能的语言,例如RQL,如何定义一组高级操作语言,满足应用的需要,还需要进一步深入的研究和实践。

(本文作者系中国人民大学信息学院数据库与智能信息检索实验室)

语义网本体论:可以做什么,不能做什么

Monday, July 30th, 2007

 语义网本体论:可以做什么,不能做什么

这分别有四个挑战。首先是鸡和鸡蛋问题:我们怎样建立这些信息, 因为除非一方面是你获得了信息你才能建立工具, 另一方面是除非你有工具你才能把信息放入其中。我的朋友刚刚问我,能否把网络上所有的URLs(包括dot-RDF, dot-OWL和两者的附加部分)都寄给他,因为他不能发现全部的部分。我看了一下, 并且结果显示那里只有20万上下,这大概是网络的0.005%。我们需要有一种方式去解决它。

下一个问题是有关本体论的竞争 。每个人都用不同的方式看待它。如果你有一些工具来测量它,我们将看见它的范围有多广。 然后是Cyc 问题, 这是背景知识和垃圾的问题。这是我每天必须面对的问题。如同你离开了实验室,进入现实的世界,有金钱利益的人会设法打败你。

所以鸡和鸡蛋的问题,那就是“在这类语义技术里有什么令人感兴趣的信息, 并且其他信息在哪里?”它结果显示,大多数有用的信息仍然是在文本里。我们关注的是你是怎样把它从文本中提取出来的。这里有一个小的演示叫IO 结。你可以键入一个自然语言问题,然后它会从文本中取出文档,并取出语义实体。并且你会看见, 这并不是相当完善的——比如不能解决好拼写问题。但这一切都是自动完成的,所以没有做把信息放到正确的位置上这样的工作。

总之,语义技术看起来对定义图解似乎有好处, 但另一方面什么应该进入图解呢。为了做到它,还需要加倍努力。

这是另一个例子。 这是昨晚的Google 新闻页, 我们在这里应用了汇集(clustering)技术,把新闻分门别类地集合在一起, 所以你看到首条新闻是关于布莱尔的,并且有658个相关新闻我们把它们汇集到了一起。

现在想象一下,如果不使用我们的算法(这些新闻是从新闻提供商那里获得的),而是按照他们想要的方式放置所有的元数据(metadata)和标签。“我的故事会被埋没在20页呢,还是头条新闻?我将放入自己的元数据。我谈论的那些人是恐怖分子还是自由战士? 什么是爱国者的定义? 什么是婚姻的定义?”

当你谈论这些政治问题而不是关于部分的数字时,你正是在为这类的本体论下定义; 这会成为一个政治声明。人们也许会惹来杀身之祸。这些是本体论不被运作的地方,会在它们的身上产生争议。并且你不得不转而依靠其它的方法。

本体论运作的最佳地点是,当你具有消费者的特权时,比如可以迫使服务提供者为你服务。比如汽车零件产业,汽车制造厂在那儿聚会说, “每一个想要卖给我们的人就做这个。”他们能做到如此,因为他们的数量很少。在其它产业, 如果有一个主要“运动员”,因为他们不想被其他人赶上,然后就想不参与比赛了。如果有许多个较小“运动员”, 就很难将它们组织到一起了。

语义技术为根本上打碎信息成为分散状态是有好处的。但根本上你仔细考虑的只是在尖括号(注:指代<>)之间的一部分。并且我们的创建者之一Sergey Brin,曾说过这样的话, “把东西放入尖括号的不是技术本身。”问题是什么应该进入尖括号。你能说, “很好, 我的数据库有一个人名字的字段,而你的数据库有一个姓字段和一个名字段,我们就将有在它们之间找到匹配的一种联系了。”但这并不总那么有效。

这有一个近几天在google公司值得思考的问题的例子,就是我们的“拼写改正”功能都是按照一种规范形式建立的。这是我们被询问最多的问题之一, 并且一个星期中有4,000 种不同的拼写变异在发展。某人想做这种规范。所以理解文本的问题就消失了,它在尖括号之间被强迫分解成更小的片断。因此这就是拼写改正的问题;有翻译问题,譬如把阿拉伯语翻译成一个罗马字母;有简称的问题:HP和Hewlett Packard 、惠普, 等等;还有同名的问题:迈克尔・乔丹是篮球运动员,CEO,还是伯克利教授。

让我们现在考虑背景知识的问题。Cyc 项目试图在一个字典里定义所有知识, 一种 Dublin Core类型的事,然后找到在字典或百科全书中没有的、但我们依旧需要的材料。Lenat 和Guha说那里是浩瀚知识的仓库,你很少会谈论, 比如“水向下流动”和“生命物质得了疾病”。

我认为我们能设法做如此大的一个项目。然后我决定把它简化一点——仅仅在它附近放入引用标签和键入它。所以当我键入“水向下流动”,我得到了1,200条结果。第一条结果说, “这是幼儿园老师Emily的教学计划。”它实际上解释了水为什么会流下来, 并且这是你在百科全书中找不到的。这里的结论是Lenat99.999993%正确, 因为43亿个案例中只有1200个实际上讨论了水向下流动。但那足够了, 并且你能从中继续进行查找。你能使用网络投票,你还可以说水泵可以提升水流,但那只发生了275次, 因此向下流动胜利了——1200次对275次。

实际上,我们在这儿做的,就是使用未受训练的大量的人力,你不必支付就可以完成所有的工作, 与其相对的是,经过训练的人使用明确定义的形式和以那种形式书写文本, 让我们就去使用已经是那里的材料吧。我尽力思考“非熟练劳动”的成果,设法把它用于对大量大数据的用途使用统计技术,并且通过在你自己那里过滤, 而不是完全遵从你的定义。

最后一个问题是垃圾信息。当你在实验室里并且定义了你的本体论, 一切看起来是好而整洁的。 但你一旦把它释放在网络世界中, 你会发现怎么有那么多不正直的人呢。这是例子:它看起来象两页。这实际上是一页。在左边的页面是Googlebot(Google 的网页检索漫游器)看见的, 右面的页面是通过其他用户代理看见的。这网站当它一旦看见Googlebot.com, 它显示的页面使得我们更匹配它,而当一名普通用户来浏览时, 它就显示想显示的页面。

这表明:第一, 我们有很多工作要做,来应付这种事, 而且你无法信任元数据。你无法确信人们将要说什么。总之, 搜索引擎摆脱了元数据的桎梏, 它们设法更多在对用户的感受上努力。很大程度上我们丢弃了元标记, 除非有一个真正相信他们的理由, 因为它们比有用更倾向于欺骗。并且如果那里是人们可能利用欺骗赚钱的市场, 它就更可能发生。人是非常擅长于发现这类垃圾信息的, 但机器不一定那样好。所以如果更多信息在机器之间流动, 这就是你所越来越多看到的。

万维网的未来——语义网

Monday, July 30th, 2007

在万维网日益普及的今天,人们充分体会到网络的巨大魅力。现在,我们可以与处于地球上遥远地方的人进行交流,浏览世界各地的信息,享受网上冲浪的乐趣。但是上过网的人都知道,现在所使用的万维网的功能并不尽如人意,如网页单调枯燥、搜索引擎智能化程度低等。但不管怎样,我们还是可以说,万维网是空前而不绝后的。那么,您是否想过万维网的未来又是什么样的呢?

目前的万维网其进化、扩大和完善的空间还很大,可以说万维网还没有走出婴儿期。为使万维网迈上一个新的台阶,从此摆脱幼稚,走向成熟和真正的智能化,10年前为我们发明因特网超文本系统的麻省理工学院万维网协会主席蒂姆·伯纳斯·李,现在又在致力于开发新一代的万维网(互联网),他为之取了一个直观的名称——“语义网”(the Semantic Web)。

1、什么是“语义网”?

所谓“语义”就是文本的含义。语义需要理解文本的意思和结构,而与显示方式无关。语义网就是能够根据语义进行判断的网络。

目前在万维网中,网页仅仅是一个单调的内容显示,电脑只负责将一个网页链接到另一个网页,网络不能按照用户的要求自动搜寻和检索网页,直至找到所需要的内容。而语义网则是希望计算机能“看懂”网页的内容,使计算机成为“智能”的导航工具。当然语义网还并不仅仅能完成这个功能,它比这还要“聪明”得多。

简单地说,语义网是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。

语义网就好比一个巨型的大脑,它由数据库智能化程度极高,协调能力非常强大的各个部分组成,可以解决各种难题。在语义网上连接的每一部电脑,都能分享人类历史上所有科学、商业和艺术等知识。它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系。

在语义网中,网络不仅能够连接各个文件,而且还能够识别文件里所传递的信息,也就是说,它是一种聪明的网络,可以干人所从事的工作。例如:它可以让计算机辨认和识别“head”这个单词的意思是“头脑”还是“领导”;在读者看新闻时,它能轻松地分辨出哪句是标题、哪句是导语。

2、语义网与万维网的区别

目前我们所使用的万维网,实际上是一个存储和共享图象、文本的媒介,电脑所能看到的只是一堆文字或图象,对其内容无法进行识别。万维网中的信息,如果要让电脑进行处理的话,就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理,这是相当麻烦的事情。而语义网的建立则将事情变得简单得多。

语义网是对万维网本质的变革,它的主要开发任务是使数据更加便于电脑进行处理和查找。其最终目标是让用户变成全能的上帝,对因特网上的海量资源达到几乎无所不知的程度,计算机可以在这些资源中找到你所需要的信息,从而将万维网中一个个现存的信息孤岛,发展成一个巨大的数据库。

语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网,只给你罗列出数以万计的无用搜索结果。

例如,在进行在线登记参加会议时,会议主办方在网站上列出了时间、地点,以及附近宾馆的打折信息。如果使用万维网的话,此时你必须上网查看时间表,并进行拷贝和粘贴,然后打电话或在线预订机票和宾馆等。但假如使用的是语义网,那么一切都变得很简单了,此时安装在你计算机上的软件会自动替你完成上述步骤,你所做的仅仅是用鼠标按几个按钮而已。

在浏览新闻时,语义网将给每一篇新闻报道贴上标签,分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的文章。

总之,语义网是一种更丰富多彩、更个性化的网络,你可以给予其高度信任,让它帮助你滤掉你所不喜欢的内容,使得网络更像是你自己的网络。

3、语义网的实现

语义网虽然是一种更加美好的网络,但实现起来却是一项复杂而浩大的工程。

要使语义网搜索更精确彻底,更容易判断信息的真假,从而达到实用的目标,首先需要制订标准,该标准允许用户给网络内容添加元数据(即解释详尽的标记),并能让用户精确地指出他们正在寻找什么;然后,还需要找到一种方法,以确保不同的程序都能分享不同网站的内容;最后,要求用户可以增加其他功能,如添加应用软件等。

语义网的实现是基于XML(可扩展标记语言eXtensible Markup Langauge)语言和资源描述框架(RDF)来完成的。XML是一种用于定义标记语言的工具,其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容。

当然,要实现语义网并非仅有XML和RDF就行了。更主要的技术难题还在于要让电脑可以进行过多的“思考”和“推断”,而面对纷繁复杂的问题,尤其是社会问题,人尚且难以决断,更何况计算机呢。因此,要真正实现实用的语义网还有很多工作要做。

4、XML和语义

XML的最突出的特点就是功能强大又易于使用,它使网页能够容纳更丰富的信息资源。其中元数据管理、语义透明性和自主主体都是XML所独有的概念,而XML对统一结构化语法和半结构化语法的承诺,将有助于把几乎不可能完成的事变成切实可行的。

那么在XML的基础上所讲的语义又是什么呢?虽然语义这个单词每个人对其定义的观点各有不同,但一般来说,我们可以将语义解释为构建在公用语法之上的系统中XML数据的一层规范。这就引出了下面标记了XML语义的概念(在下面三概念之间有一些重叠):

元素类型名称、属性名称和某些情况下内容术语的解释;

用于使用有效文档引导事务的处理规则(也称作商业规则);

一个文档中的结构化元素与另一个文档中的结构化元素之间的关系。

5、语义网的优点

建立语义网的重要性在于,对信息含义的理解不再是只有依靠人才能完成的事情,计算机同样也可以完成这样的工作。

例如,我们看到网页上的天气预报,自然就会知道其中的含义,但计算机并不知道在那么多的数字中,哪一个数字代表温度,哪一个数字代表湿度。而语义网的意义就要在隐藏的编码中,指明哪个数字代表温度,哪个数字代表湿度,并且说明“温度”和“湿度”的含义。

语义网最大的好处是可以让计算机具有对网络空间所储存的数据,进行智能评估的能力。这样,计算机就可以像人脑一样“理解”信息的含义,完成“智能代理”的功能。使用语义网搜索引擎搜索的结果也将比万维网更为精确。

另外,由于大部分科技创新和突破,都是对已有知识的重新组合和更新,因此语义网也为新的科技创新提供了无尽的资源,它可以在很短的时间内,完成一个人甚至需要一辈子才能做出的组合结果。

蒂姆·伯纳斯·李曾说过:“完全可以想象,一旦这种技术被运用于世界上所有的数据表格,它将产生极大的社会效益。”

6、语义网的研究进展

从互联网刚刚诞生开始,人工智能专家就密切关注着它的发展。现在,发展语义网的两种主要技术:可扩展标记语言(XML)和资源描述框架(RDF)已经诞生。XML用来制定隐藏的标记,并将其作为标注放置在网页中,以便引导计算机程序处理网页内容。这里XML不涉及网页的具体内容,而网页的内容则由RDF来表达。

为了解决计算机理解“人的语言”的问题,目前人们已经建立了“目的”和“对象”两个数据库,在这两个数据库中,应用分类学和分级学,按照人的思维习惯建立一个树形“逻辑库”,由计算机查询出它们的区别,从而得出正确的结论。当然,人的语言系统是非常复杂的系统,仅仅建立这些还不够,还有许多问题需要解决。不过现在将“语义网”嵌入互联网的第一步工作已经展开,在不久的将来,计算机一定能看懂并处理网页中的内容。

目前,有消息称美国将于2005年推出语义网。我们有理由相信,语义网一定会给我们带来互联网的新时代。 (摘自计算机世界)

test

Wednesday, July 25th, 2007

test

Semantic Web, OWL, RDF, JENA

Thursday, June 21st, 2007

语义网就是计算机可以理解的网络,它依靠RDF(Resource description framework), OWL(Ontology web language)等规范实现。

人类为什么能理解一篇文字组成的文章,因为他了解每个词的含义,他为什么会了解每个词的含义,因为他们在词典中都有解释。那么那些用来解释词的词又是被谁解释的?最终的最基本词是由人的感官解释, 比如“红色这个词, 你无法再进一步解释,你只能告诉他那个苹果的颜色就是红色。

这个compiler theory相似,语言最终都解释到不能再进行推理的终结符为止。

语义网的价值在于它可以被计算机自动的进行聚合,分类,搜索, 方便网站间数据的整合等等。 基于语义网的推理还可以产生很多的应用。

RDF (http://www.w3.org/TR/2002/WD-rdf-concepts-20021108/)是一个关于对象(或资源)和它们之间关系的数据模型,且为该数据模型提供了简单的语义,这个数据模型能够用XML语法表示。RDF Schema (http://www.w3.org/TR/2002/WD-rdf-schema-20021112/)是一个描述RDF资源的属性(property)和类(classe)的词汇表,提供了关于这些属性和类的层次结构的语义.简言之RDF是一个用来描述web上任何资源的方法RDF Shehema定义了一本用于解释这些描述的词典.

OWL(http://www.w3.org/TR/2004/REC-owl-features-20040210/): SemanticWeb需要在RDF之上增加的第一个层次是一种能够对Web文档中的术语含义进行形式化描述的本体语言。如果希望机器能够对这些Web文档进行有效的推理工作, 这一本体语言必须超越RDF Schema的基本语义。OWL用例和需求文档 (http://www.w3.org/TR/webont-req/)提供了更多关于本体的细节 (http://www.w3.org/TR/webont-req/#onto-def),用六个用例 (http://www.w3.org/TR/webont-req/#section-use-cases)推动了对OWL的需求,并且规范化了OWL设计目标 (http://www.w3.org/TR/webont-req/#section-goals)需求 (http://www.w3.org/TR/webont-req/#section-requirements)以及目的 (http://www.w3.org/TR/webont-req/#section-objectives)

RDF的抽象语法就是一个个tripple, 又叫做RDF graph. (The RDF abstract syntax is a set of triples, called the RDF graph). 这个tripple subject,  predictobject组成。许多的tripples组成一个RDF图。

Subjectpredict是一个RDF URI reference

Object 可以是一个RDF URI reference或者literal

例如. 网页http://www.example.org/index.html 的创建者是john

Subject就是http://www.example.org/index.html , predictcreator, Objectjohn Creator 必须定义在某个RDF Schema.

RDF中表现为

<rdf:Description rdf:about=”http://www.example.org/index.html“>

  <j.0:creator>John</j.0:Subject>

 </rdf:Description>

RDF有专门的查询语言http://www.w3.org/TR/rdf-sparql-query/. JENA中的实现是ARQ search engine.

Jena HP实验室的OpenSource  semantic web Framwork(java based). 目前正在使用Jena2.4 还不知道他的效率怎么样。去年3,4月时好像还没有SPARQL, 用的是jena的RDQL, 现在的ARQ同时支持RDQL和SPARQL两种语法。