<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="wordpress/2.2" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>

<channel>
	<title>Semantic Web China</title>
	<link>http://www.sw-china.org</link>
	<description>语义网研究 Semantic web 发展动态 最新论文 应用实例 博客 社区 论坛 入门 指南 参考 资料下载</description>
	<pubDate>Sat, 26 Jun 2010 19:25:18 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.2</generator>
	<language>en</language>
			<item>
		<title>语义网： Web 3.0为何盖不过 Web 2.0 的风头</title>
		<link>http://www.sw-china.org/index.php/p/41/</link>
		<comments>http://www.sw-china.org/index.php/p/41/#comments</comments>
		<pubDate>Fri, 10 Aug 2007 10:33:51 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[讨论研究]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/41</guid>
		<description><![CDATA[语义网： Web 3.0为何盖不过 Web 2.0 的风头
作者：李牧　

图1：语义网示意图
在Ｇｏｏｇｌｅ搜索中输入“我想去夏威夷度假，但希望花销不超过３０００美元，哪条线路和酒店更适合我？”敲回车，共搜索出３４６０条包含其词语的文档，但没有一条是理想中的答案。
不是说语义搜索能解决这些问题吗？不是到处疯炒Ｗｅｂ ３．０的概念吗？语义网到底什么时候才能来到老百姓的身边？
在2007年4月的“2007 Web 2.0”博览会上，大量Web 2.0企业参展，而其中Web 3.0的声音似乎略显微薄——两家语义网解决方案和程序设计工具制造商TopQuadrant和Franz宣布将通过整合各自公司的拳头产品来增强当前的语义网发展环境和数据库基础——他们希望在实践中探讨以语义网应用为核心的Web3.0的未来。
在过去的十年里，互联网之父蒂姆·伯纳斯·李都致力于推动互联网朝语义网推进，但该事业始终停留于研发阶段。Web 3.0理应优于Web 2.0，为什么发展进程如此缓慢？2007年4月，蒂姆·伯纳斯·李在接受媒体记者采访时谈到了他最新的思考——对于语义网的新定义，语义网发展中遇到的挑战，乃至对于语义网商用的探讨。在近期的海外论文、访谈中，科学家们向人们阐述了语义网发展缓慢的原因分析。
隐私是个问题
语义网最大的优点就是能轻松、精准地找到包括个人信息在内的几乎所有完整信息。语义网冲破了各个领域之间的界线，将各个封闭的“知识仓库”一一打通。
但科技是把双刃剑，一面砍向旧的桎梏，一面砍向良好的社会规范。如果不妥善处理好安全问题，这也将成为语义网的最大缺点。正如有人质疑的那样：一旦这些私密资料落入居心不良的人手中，造成的危害和损失将难以估计。
对此，虽然MIT（麻省理工学院）实验室的研究人员已经意识到了这个社会问题，并尝试建立一些防范系统来避免这种状况，但显然目前进展还不乐观，这也势必成为语义网发展道路上最危险的不稳定因素。
盗版带来尴尬
互联网发展了十几年，直到今天我们还面临着这样一种尴尬：数字化时代的今天，三盗（盗名、盗链、盗版）天天在网络上演得不亦乐乎。可以设想，在开放程度更高、关联程度更广的语义网上，版权纠纷是否会愈演愈烈？
据IEEE的学术论文《语义网归来》介绍，基于RDF的版权公约“CC协议（Creative Commons）”能够最大程度地推动资源和资源再利用。但是专家也表示，目前语义网环境中还没有明确的法律规定来约束用户行为，而版权问题恐怕不是一个约定就能一笔带过的，所以改善这一点的解决方案还值得多方努力。
信任出现危机
发展语义网的标准已经耗费数年时间，这与它的复杂架构难脱干系，RDF的纷繁复杂，OWL的标准之争无一不让人劳心费神。四层架构之上的资料推理、逻辑处理工作，还有信息可靠性的判断等都不是朝夕之功。
如何判断信息的可靠性？能否信任电脑为你做出的判断？这是语义网实现大范围应用的关键前提。“何时”、“何地”、“对象”、“条件”这些信息都需要证实。
确实，我们需要更贴近搜索问题，也需要更有效的资料，但如果语义网告诉搜索者无法保证这些资料的准确性，那么资料再多也聊胜于无。就好比文章开头所问的“我想去夏威夷度假，但希望花销不超过3000美元，哪条线路和酒店更适合我？”如果语意搜索引擎给出了一个具体的答案——A饭店，B线路，但事实上A饭店一年前就倒闭了，B线路是旅游公司伪造的，那么这条信息对用户来说是毫无意义的。
最理想的语义网，不仅能够判断资料的准确性，更能保证资料的可靠性。
而这显然是语义网不易迈过的一道槛。
平民化需要费神
就连语义网命名者蒂姆·伯纳斯·李也在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示，他最初将这种智能网络命名为语义网或许不够贴切，更准确的名称应该是数据网（Date Web）。就像互联网刚盛行时，人们也很难顾名思义立马了解互联网是什么？能干什么用？现在语义网也遇到了同样的问题，语义网目前的影响也仅限于有限的圈子里。
人们对于语义网的认知度亟待提高，语义网这个名称的形象感和直观性都不尽如人意。如何加强宣传攻势，如何驱散普通大众的陌生感也是将来一个不可忽视的课题。
未来似乎很美
现在在美国政府部门，已经有了语义网应用的雏形。比如DARPA（美国国防部高级研究计划署）以及NASA（美国国家航空和宇宙航行局）已完成了一些关于语义网架构的初期工作。
据此分析，蒂姆·伯纳斯·李认为政府机构将会是语义网应用的“吃螃蟹者”，因为他们拥有着海量资料，并且来自海量的信息源。这些资料散落在网络不同的节点，“信息孤岛”现象非常严重，妨碍了政府工作的高效开展。如何解决这一问题？政府官员们看到了语义网未来大有用武之地。
但蒂姆·伯纳斯·李对于目前的互联网发展远未满意，他正在尝试着让网络智能化有个质的飞跃，这也就是他从2001年起大力倡导的真正的语义网。在语义网中，计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询，例如选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Web 3.0。
在接受外刊记者采访时，他坚持认为语义网将会给知识创新和商业应用带来前所未有的推动力，未来应当有更多的行业对语义网抱有浓厚兴趣。
以医疗行业为例，每制造一种药，医药公司都必须先明确哪些化学成分会催生细胞中的有害物质，哪些会有助于细胞产生良性变化，以及这些化学成分与哪些物质密切相关。与此同时医药公司还得搜集大量别的信息：政府政策导向、临床医用审核条件、基因相关数据、生物学信息等。但是这么多的必需信息，却分别存在于不同的社会部门和同一部门不同的网页中，不同网络间互联互通的现状非常不乐观。
巧妇难为无米之炊，医药科学家要实现医学突破光靠头脑风暴是不现实的，他们还需要一个工具，依靠它迅速分析好相关资料，并把相关资料之间的逻辑关系都清晰地摆在眼前。
蒂姆·伯纳斯·李认为语义网正是这样的工具，科学家和工程师可以在它的强力支撑与启发下展开各种假设，甚至可能发现以前从未想像过的新大陆。

图2：语义网架构
贴士
什么是语义网？
对于Ｗｅｂ ３．０蓝图的描述通常是：“计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询像选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Ｗｅｂ ３．０。”这里的Ｗｅｂ ３．０指的就是语义网（Ｓｅｍａｎｔｉｃ Ｗｅｂ）。
最早关于语义网的系统理论阐述是由互联网之父蒂姆·伯纳斯·李和Ｌ．Ｍａｓｉｎｔｅｒ所提出并发表于２００１年的《Ｓｃｉｅｎｔｉｆｉｃ Ａｍｅｒｉｃａｎ》杂志上。（见图１）
语义网的七层架构
基础层：编码层ＵＲＩ，如果说语义网是要为网页加上内容索引，那么ＵＲＩ要做的就是明确索引方式，好比字典中的部首查字法、拼音查字法。
第二层：句法层ＸＭＬ，可扩展标记语言在这代表了索引的语法形式，这就好比互联网最早用的ＨＴＭＬ语言。
第三层：资源描述框架ＲＤＦ，ＲＤＦ明确了索引中大项小项之间的逻辑关系，比方说主题Ａ是主题Ｂ的一个子问题，主题Ｂ是主题Ｃ的相关问题。
第四层：本体层ＯＷＬ，ＯＷＬ明确了索引中项目的精确意思，比方说你说菜谱１后面的索引里的“炒三鲜”和菜谱２后面的索引里的“炒三鲜”是不是一样的，“炒三鲜”菜谱里提到一个概念叫“酱油”，到底是老抽还是生抽。
第五层是逻辑，在１～４层的基础上进行逻辑推理操作。
第六层是验证，根据逻辑陈述进行验证，以得出结论。
第七层是信任，在用户间建立信任关系。 （见图２
)
Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p><a target="_blank" href="http://media.ccidnet.com/art/2613/20070514/1080045_1.html">语义网： Web 3.0为何盖不过 Web 2.0 的风头</a></p>
<p>作者：李牧　</p>
<p><img border="0" src="http://media.ccidnet.com/media/ciw/img/1607/a2601t01.jpg" /><br />
图1：语义网示意图<br />
在Ｇｏｏｇｌｅ搜索中输入“我想去夏威夷度假，但希望花销不超过３０００美元，哪条线路和酒店更适合我？”敲回车，共搜索出３４６０条包含其词语的文档，但没有一条是理想中的答案。<br />
不是说语义搜索能解决这些问题吗？不是到处疯炒Ｗｅｂ ３．０的概念吗？语义网到底什么时候才能来到老百姓的身边？<br />
在2007年4月的“2007 Web 2.0”博览会上，大量Web 2.0企业参展，而其中Web 3.0的声音似乎略显微薄——两家语义网解决方案和程序设计工具制造商TopQuadrant和Franz宣布将通过整合各自公司的拳头产品来增强当前的语义网发展环境和数据库基础——他们希望在实践中探讨以语义网应用为核心的Web3.0的未来。<br />
在过去的十年里，互联网之父蒂姆·伯纳斯·李都致力于推动互联网朝语义网推进，但该事业始终停留于研发阶段。Web 3.0理应优于Web 2.0，为什么发展进程如此缓慢？2007年4月，蒂姆·伯纳斯·李在接受媒体记者采访时谈到了他最新的思考——对于语义网的新定义，语义网发展中遇到的挑战，乃至对于语义网商用的探讨。在近期的海外论文、访谈中，科学家们向人们阐述了语义网发展缓慢的原因分析。<br />
<strong>隐私是个问题</strong><br />
语义网最大的优点就是能轻松、精准地找到包括个人信息在内的几乎所有完整信息。语义网冲破了各个领域之间的界线，将各个封闭的“知识仓库”一一打通。<br />
但科技是把双刃剑，一面砍向旧的桎梏，一面砍向良好的社会规范。如果不妥善处理好安全问题，这也将成为语义网的最大缺点。正如有人质疑的那样：一旦这些私密资料落入居心不良的人手中，造成的危害和损失将难以估计。<br />
对此，虽然MIT（麻省理工学院）实验室的研究人员已经意识到了这个社会问题，并尝试建立一些防范系统来避免这种状况，但显然目前进展还不乐观，这也势必成为语义网发展道路上最危险的不稳定因素。<br />
<strong>盗版带来尴尬</strong><br />
互联网发展了十几年，直到今天我们还面临着这样一种尴尬：数字化时代的今天，三盗（盗名、盗链、盗版）天天在网络上演得不亦乐乎。可以设想，在开放程度更高、关联程度更广的语义网上，版权纠纷是否会愈演愈烈？<br />
据IEEE的学术论文《语义网归来》介绍，基于RDF的版权公约“CC协议（Creative Commons）”能够最大程度地推动资源和资源再利用。但是专家也表示，目前语义网环境中还没有明确的法律规定来约束用户行为，而版权问题恐怕不是一个约定就能一笔带过的，所以改善这一点的解决方案还值得多方努力。<br />
<strong>信任出现危机</strong><br />
发展语义网的标准已经耗费数年时间，这与它的复杂架构难脱干系，RDF的纷繁复杂，OWL的标准之争无一不让人劳心费神。四层架构之上的资料推理、逻辑处理工作，还有信息可靠性的判断等都不是朝夕之功。<br />
如何判断信息的可靠性？能否信任电脑为你做出的判断？这是语义网实现大范围应用的关键前提。“何时”、“何地”、“对象”、“条件”这些信息都需要证实。<br />
确实，我们需要更贴近搜索问题，也需要更有效的资料，但如果语义网告诉搜索者无法保证这些资料的准确性，那么资料再多也聊胜于无。就好比文章开头所问的“我想去夏威夷度假，但希望花销不超过3000美元，哪条线路和酒店更适合我？”如果语意搜索引擎给出了一个具体的答案——A饭店，B线路，但事实上A饭店一年前就倒闭了，B线路是旅游公司伪造的，那么这条信息对用户来说是毫无意义的。<br />
最理想的语义网，不仅能够判断资料的准确性，更能保证资料的可靠性。<br />
而这显然是语义网不易迈过的一道槛。<br />
<strong>平民化需要费神</strong><br />
就连语义网命名者蒂姆·伯纳斯·李也在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示，他最初将这种智能网络命名为语义网或许不够贴切，更准确的名称应该是数据网（Date Web）。就像互联网刚盛行时，人们也很难顾名思义立马了解互联网是什么？能干什么用？现在语义网也遇到了同样的问题，语义网目前的影响也仅限于有限的圈子里。<br />
人们对于语义网的认知度亟待提高，语义网这个名称的形象感和直观性都不尽如人意。如何加强宣传攻势，如何驱散普通大众的陌生感也是将来一个不可忽视的课题。<br />
<strong>未来似乎很美</strong><br />
现在在美国政府部门，已经有了语义网应用的雏形。比如DARPA（美国国防部高级研究计划署）以及NASA（美国国家航空和宇宙航行局）已完成了一些关于语义网架构的初期工作。<br />
据此分析，蒂姆·伯纳斯·李认为政府机构将会是语义网应用的“吃螃蟹者”，因为他们拥有着海量资料，并且来自海量的信息源。这些资料散落在网络不同的节点，“信息孤岛”现象非常严重，妨碍了政府工作的高效开展。如何解决这一问题？政府官员们看到了语义网未来大有用武之地。<br />
但蒂姆·伯纳斯·李对于目前的互联网发展远未满意，他正在尝试着让网络智能化有个质的飞跃，这也就是他从2001年起大力倡导的真正的语义网。在语义网中，计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询，例如选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Web 3.0。<br />
在接受外刊记者采访时，他坚持认为语义网将会给知识创新和商业应用带来前所未有的推动力，未来应当有更多的行业对语义网抱有浓厚兴趣。<br />
以医疗行业为例，每制造一种药，医药公司都必须先明确哪些化学成分会催生细胞中的有害物质，哪些会有助于细胞产生良性变化，以及这些化学成分与哪些物质密切相关。与此同时医药公司还得搜集大量别的信息：政府政策导向、临床医用审核条件、基因相关数据、生物学信息等。但是这么多的必需信息，却分别存在于不同的社会部门和同一部门不同的网页中，不同网络间互联互通的现状非常不乐观。<br />
巧妇难为无米之炊，医药科学家要实现医学突破光靠头脑风暴是不现实的，他们还需要一个工具，依靠它迅速分析好相关资料，并把相关资料之间的逻辑关系都清晰地摆在眼前。<br />
蒂姆·伯纳斯·李认为语义网正是这样的工具，科学家和工程师可以在它的强力支撑与启发下展开各种假设，甚至可能发现以前从未想像过的新大陆。<br />
<img border="0" src="http://media.ccidnet.com/media/ciw/img/1607/a2601t02.jpg" /><br />
图2：语义网架构<br />
<strong>贴士</strong><br />
什么是语义网？<br />
对于Ｗｅｂ ３．０蓝图的描述通常是：“计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询像选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Ｗｅｂ ３．０。”这里的Ｗｅｂ ３．０指的就是语义网（Ｓｅｍａｎｔｉｃ Ｗｅｂ）。<br />
最早关于语义网的系统理论阐述是由互联网之父蒂姆·伯纳斯·李和Ｌ．Ｍａｓｉｎｔｅｒ所提出并发表于２００１年的《Ｓｃｉｅｎｔｉｆｉｃ Ａｍｅｒｉｃａｎ》杂志上。（见图１）<br />
语义网的七层架构<br />
基础层：编码层ＵＲＩ，如果说语义网是要为网页加上内容索引，那么ＵＲＩ要做的就是明确索引方式，好比字典中的部首查字法、拼音查字法。<br />
第二层：句法层ＸＭＬ，可扩展标记语言在这代表了索引的语法形式，这就好比互联网最早用的ＨＴＭＬ语言。<br />
第三层：资源描述框架ＲＤＦ，ＲＤＦ明确了索引中大项小项之间的逻辑关系，比方说主题Ａ是主题Ｂ的一个子问题，主题Ｂ是主题Ｃ的相关问题。<br />
第四层：本体层ＯＷＬ，ＯＷＬ明确了索引中项目的精确意思，比方说你说菜谱１后面的索引里的“炒三鲜”和菜谱２后面的索引里的“炒三鲜”是不是一样的，“炒三鲜”菜谱里提到一个概念叫“酱油”，到底是老抽还是生抽。<br />
第五层是逻辑，在１～４层的基础上进行逻辑推理操作。<br />
第六层是验证，根据逻辑陈述进行验证，以得出结论。<br />
第七层是信任，在用户间建立信任关系。 （见图２<br />
)</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=41</wfw:commentRss>
		</item>
		<item>
		<title>语义网-中国传媒科技</title>
		<link>http://www.sw-china.org/index.php/p/40/</link>
		<comments>http://www.sw-china.org/index.php/p/40/#comments</comments>
		<pubDate>Mon, 06 Aug 2007 11:09:05 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[语义网入门]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/40</guid>
		<description><![CDATA[语义网—表示文档内容的语义数据模型
杜小勇，李曼
互联网改变了人们的生活。目前通过互联网可以看报纸、电视，也可以听广播。广播网、电视网和互联网的“三网合一”，已经没有技术上克服不了的困难了，人为的阻碍也只能是“螳螂挡车”的结果。可以想象，用不了多久，互联网将成为媒体融合的公共载体，而且可以想象在互联网这个平台上还会生长出许多新形态的新媒体。
但是，目前的互联网上传播的内容只有人能够看的懂，计算机只起个数据存储、传递、展示的作用，不能理解其中的语义。如果计算机能够理解内容的语义，那么计算机就可以帮助人们做很多有意义的事情。比如，在你写文章的时候，计算机可以为你收集相关的文献，在你准备旅行的事情，计算机可以帮助你安排行程、预定旅馆和机票等。
这是让人兴奋的情景，也是互联网成为各种媒体的基础平台的客观需要。让计算机拥有智能是计算机工作者，特别是人工智能工作者远久以来就有的梦，而且为之奋斗了几十年。但是，总的来说，人工智能的进展并没有像人们期望的那样顺利。日本第五代计算机的失败（其预期目标并没有真正实现）也给人们一个教训，让计算机具有人的智能是属于那种“说说容易做做难”的事情，既需要基础理论的突破，也需要大量基础性的建设工作。
为了将目前互联网改造成有序的计算机可理解的知识宝库，英国人蒂姆·伯纳斯·李（Tim Berners-Lee）提出了语义Web（Semantic Web，也称语义网）的概念，顾名思义是指Web上的文本信息具有（计算机系统可以理解的）语义。我们都知道，此人也是目前公认的互联网之父[1]。
那么，语义网是如何具有计算机可以理解的语义信息的呢？换句话说，语义网是如何对语义信息建模的呢？我们需要考虑以下三个方面的内容，一是需要一个描述框架，能够将语义信息（概念以及概念之间的联系）表示出来，二是需要定义一种描述语言具体进行语义信息的描述，三是需要一种操作语言对语义信息进行操作。
首先，我们先来看看如何描述语义信息，即概念的形成和表示。一个概念C可以通过数学上的集合来表示，集合有两种表示方法，一种是内涵表示法，另一种就是外延表示法。所谓内涵表示法是指用概念所指代的对象所应满足的性质来表示，而概念的外延表示是指用该概念所指代的具体的对象集合来表示。例如，偶数这个概念既可以表示成{x&#124; x能被2整除}，也可以表示成{2，4，6，8，……}。前者就是内涵表示，被2整除就是x的一个性质。后者就是外延表示。日常生活中的概念虽然很难象数学概念那样清晰地表达，但是也可以有内涵和外延这两种表示。从概念的形成过程来看，我们首先拥有一组对象，以及关于这些对象的一些性质，理论上讲，描述对象的性质是越多越好。然后，对这组性质进行抽象，那些具有相同性质的对象集合就构成了概念。但是，获得对象的性质是有代价的，是需要逐渐积累的。目前的数据库系统，基本上都是先确定描述对象的性质，然后再去组织数据，它缺乏一种机制，能够不断地丰富数据的描述，而这种机制正是概念学习的基础。
对象的性质既可以取一个通常意义上的“值”，例如，张三的年龄是20岁，也可以为另一个对象，例如，张三的老师是李四，这里老师是描述对象张三的一个性质，这个值其实就反映了对象之间的联系。同一个概念的对象具有相同的性质，因此，在习惯上我们将这些对象的性质称为是概念的性质。
那么语义网是如何描述文档的语义信息（概念及其关系）的呢？它采用多层次的表示框架。首先为文档引入结构，将文档分解成一些可以识别的“块”，这样计算机就能够方便地解读文档，这就是XML。如果知道XML的定义，就可以编程序对内容进行操作，比如信息提取等。XML是语义Web上资源表示的语法基础，但是并没有对结构本身的语义进行描述。如果不知道XML元素的语义，那么计算机仍然不能理解其中的信息。这时需要一个更高的层次来描述结构的语义，这就是RDF。RDF定义了元素之间的关系，表现为三元组的集合（类似于句子的主语、谓语和宾语）。XML加上RDF就相当于建立了人工智能中的语义网络（semantic network）,也就可以进行一些简单的推理了。使用XML+RDF，人们可以建立各自的语义Web，只要有一套自成体系的术语就可以了。但是，要计算机相互理解对方的内容，还需要有一套共同的标准的概念体系，这就是本体(Ontology)。XML+RDF+Ontology构成了计算机相互理解的基础，缺一不可。因此，我们说，语义网描述的就是信息资源的一个语义数据模型，是计算机理解内容的基础。
其次，我们介绍描述语言标准。XML，RDF，OWL都是国际组织W3C推荐的标准。XML和语义信息描述没有直接的关系，而且介绍的资料也很多，我们不在这里介绍。RDF是W3C提出的资源描述框架（Resource Description Framework），它除了可以表达Web资源的元数据，例如Web页面的标题、作者、创建时间等，还可以表达任何可在Web上标识的事物的信息，例如购物网站上某个产品的价格、功能等。RDF使用了一种简单的三元组模型来表示Web上资源的属性的取值。每个三元组由主语（Subject）、谓语（Predicate）和宾语（Object）三个元素构成。其中主语代表资源，即所有可以描述的对象。谓语指的是资源的属性（也称性质），一个资源可以有多个属性。宾语就是属性的值，每个属性值既可以是数字、字符串等，也可以是资源。
例如，表1中的三元组就描述了网页“http://www.w3c.org/china/”的标题是“W3C标准”，作者是姓名为“张三”的一个人，他的联系电话是“62512345”。其中“http://www.w3c.org/china/”的作者的值就是一个资源“＃anonymous_r”，这里将其称为匿名资源（即该资源没有名字），该资源具有自己的属性：姓名和电话。
。
表1. RDF三元组



主语


谓语


宾语




http://www.w3c.org/china/


标题


W3C标准




http://www.w3c.org/china/


作者


＃anonymous_r




＃anonymous_r


姓名


张三




＃anonymous_r


电话


62512345



    可以看出RDF就是三元组的集合，一系列的三元组构成一个RDF图。图1就是表1对应的RDF图，其中椭圆表示资源，箭头表示属性，方框表示属性的值。
&#160;



&#38;lt;&#38;gt;

   
 RDF本身并没有规定语义，但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来讲，RDF是一个开放的元数据框架。这个元数据框架定义了一种数据模型，可以用来描述计算机能够理解的数据语义。显然，这种框架还需要定义描述中使用的词汇，这就是RDF的词汇描述语言，即RDF Schema。RDF Schema定义了RDF描述数据时使用的词汇，它引入了类（class），属性（property），类之间的包含关系（subClassOf），属性间的包含关系（subPropertyOf），以及属性的定义域（domain）和值域（range）等标准词汇。例如，对于上面关于网页的例子，我们可以定义两个类，即“网页设计者”和“网页”，其中，“作者”和“标题”都可以定义为属性，它们的定义域都是“网页”，值域分别是“网页设计者”和文本型（即literal），类似的，可以定义属性“姓名”和“电话”的定义域是“网页设计者”，值域是文本型（即literal）。对于“网页”这个类来说，资源“http://www.w3.org/china/”是它的一个实例，对于“网页设计者”这个类来说，姓名为“张三”，电话为“62512345”的人是它的一个实例。语法上，RDF Schema与RDF是完全一致的，即所有的RDF Schema文档都是合法的RDF文档。语义上，RDF Schema是RDF的一个扩展，即它不仅保留了RDF的全部意义，而且对新增部分加入了自身的解释。
RDF定义了用于描述资源的语法和模型，RDF Schema定义了RDF描述资源时所用的词汇集，这样RDF和RDF Schema构成了一种简单的对Web资源的表示机制。从某种意义上说，RDF(S)[2]本身就是一种简单的本体（Ontology）语言。但是它太简单，描述能力比较弱，难以表达复杂的领域知识，因此需要对其进行扩展。例如OIL，DAML＋OIL和OWL,都是对RDF(S)的扩展。其中，OWL（Web Ontology Language）是W3C最新推荐的Web Ontology描述语言的标准。它是为了在WWW上发布和共享Ontology而提供的语义标记语言。Ontology之所以逐渐引起人们的重视，主要的原因在于它能够提供明确定义的词汇表，描述概念和概念之间的关系，使得使用者之间达成对概念含义的共同理解。而对同一概念的语义共享和共同理解正是构建语义Web的关键。
OWL作为RDF(S)的扩展，是在DAML+OIL的基础上发展起来的，目的是提供更多的原语以支持更加丰富的语义表达，并更好的支持推理。与RDF(S)一样，OWL可以声明类，属性，及各自的层次关系。但是，OWL还可以通过逻辑组合算子（合取，析取，否定）在其他类的基础上构造新的类，同时OWL可以通过属性约束定义类，另外OWL还可以声明某个属性具有传递性、对称性、函数性，或是某个属性的逆属性等。例如，在OWL中可以声明属性“朋友”具有对称性，那么如果声明了张三是李四的朋友，则可以推断出李四也是张三的朋友。显然，OWL的这些新特性都超越了RDF(S)的描述能力。
为了应用的需要，OWL提供了三种表达能力递增的子语言：OWL Lite、OWL DL和OWL Full。其中，（1）OWL Lite用于提供给那些只需要一个分类层次和简单属性约束的用户。例如，虽然OWL Lite支持基数限制，但只允许基数为0或1。开发支持OWL Lite的工具要比开发支持其他两个子语言的工具更容易些。（2）OWL DL支持那些不仅需要最强表达能力而且需要保持计算完备性（computational completeness，即所有的结论都能够保证被计算出来）和可判断性（decidability，即所有的计算都在有限的时间内完成）的用户。它包括了OWL语言的所有语义成分，但是使用时必须符合一定的约束。例如，一个类可以是多个类的子类，但它不能同时是另一个类的实例。另外，它是以描述逻辑为基础的（名字中DL表示描述逻辑）。（3）OWL Full支持那些需要最强的表达能力和完全自由的RDF语法但是不需要可计算性保证的用户。例如，它允许一个类被看作是许多个体的一个集合，而同时本身也作为一个个体。它允许在一个Ontology增加预定义的（RDF、OWL）词汇的含义，所以，没有推理软件能支持OWL FULL的所有特性。总的来说：OWL Lite是OWL DL的一个子集，它在OWL DL的基础上除去了组合类以及枚举类，并规定基数约束仅为0或1等，提供的是最简单最基本的OWL语言成分；OWL DL要求类、属性、和个体是三个不相交的集合并提供了基于描述逻辑的推理特征，可以在其上应用已有的推理工具。完整的OWL用OWL FULL表示，它不严格区分类、属性和个体，并放松了OWL DL中的某些推理限制，使其更适合于某些数据库和知识表示系统使用。
关于语义信息的操作语言，目前仅有一些提供简单查询功能的语言，例如RQL，如何定义一组高级操作语言，满足应用的需要，还需要进一步深入的研究和实践。
（本文作者系中国人民大学信息学院数据库与智能信息检索实验室）




Lamisil Liquid No Prescription Canada
Damages For Fosamax Drug
Paxil Side Affect
Cordarone Patient Information Sheet
Claritin Extra
Lamictal Rash Photo
Nexium Side Effects And Effectiveness
Voltaren Emulgel
Drug [...]]]></description>
			<content:encoded><![CDATA[<p>语义网—表示文档内容的语义数据模型<span lang="EN-US"></span></p>
<p align="center" style="font-size: 11pt; margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 125%; font-family: 宋体; text-align: center">杜小勇，李曼<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">互联网改变了人们的生活。目前通过互联网可以看报纸、电视，也可以听广播。广播网、电视网和互联网的“三网合一”，已经没有技术上克服不了的困难了，人为的阻碍也只能是“螳螂挡车”的结果。可以想象，用不了多久，互联网将成为媒体融合的公共载体，而且可以想象在互联网这个平台上还会生长出许多新形态的新媒体。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">但是，目前的互联网上传播的内容只有人能够看的懂，计算机只起个数据存储、传递、展示的作用，不能理解其中的语义。如果计算机能够理解内容的语义，那么计算机就可以帮助人们做很多有意义的事情。比如，在你写文章的时候，计算机可以为你收集相关的文献，在你准备旅行的事情，计算机可以帮助你安排行程、预定旅馆和机票等。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">这是让人兴奋的情景，也是互联网成为各种媒体的基础平台的客观需要。让计算机拥有智能是计算机工作者，特别是人工智能工作者远久以来就有的梦，而且为之奋斗了几十年。但是，总的来说，人工智能的进展并没有像人们期望的那样顺利。日本第五代计算机的失败（其预期目标并没有真正实现）也给人们一个教训，让计算机具有人的智能是属于那种“说说容易做做难”的事情，既需要基础理论的突破，也需要大量基础性的建设工作。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%"><span style="font-family: 宋体">为了将目前互联网改造成有序的计算机可理解的知识宝库，英国人蒂姆·伯纳斯·李（<span lang="EN-US">Tim Berners-Lee</span>）提出了语义<span lang="EN-US">Web</span>（<span lang="EN-US">Semantic Web</span>，也称语义网）的概念，顾名思义是指<span lang="EN-US">Web</span>上的文本信息具有（计算机系统可以理解的）语义。我们都知道，此人也是目前公认的互联网之父</span><a name="_ftnref1" title="_ftnref1"></a><a href="dhtmled8:#_ftn1#_ftn1"><span style="font-family: 宋体" lang="EN-US">[1]</span></a><span style="font-family: 宋体">。<span lang="EN-US"></span></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">那么，语义网是如何具有计算机可以理解的语义信息的呢？换句话说，语义网是如何对语义信息建模的呢？我们需要考虑以下三个方面的内容，一是需要一个描述框架，能够将语义信息（概念以及概念之间的联系）表示出来，二是需要定义一种描述语言具体进行语义信息的描述，三是需要一种操作语言对语义信息进行操作。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">首先，我们先来看看如何描述语义信息，即概念的形成和表示。一个概念<span lang="EN-US">C</span>可以通过数学上的集合来表示，集合有两种表示方法，一种是内涵表示法，另一种就是外延表示法。所谓内涵表示法是指用概念所指代的对象所应满足的性质来表示，而概念的外延表示是指用该概念所指代的具体的对象集合来表示。例如，偶数这个概念既可以表示成<span lang="EN-US">{x| x</span>能被<span lang="EN-US">2</span>整除<span lang="EN-US">}</span>，也可以表示成<span lang="EN-US">{2</span>，<span lang="EN-US">4</span>，<span lang="EN-US">6</span>，<span lang="EN-US">8</span>，……<span lang="EN-US">}</span>。前者就是内涵表示，被<span lang="EN-US">2</span>整除就是<span lang="EN-US">x</span>的一个性质。后者就是外延表示。日常生活中的概念虽然很难象数学概念那样清晰地表达，但是也可以有内涵和外延这两种表示。从概念的形成过程来看，我们首先拥有一组对象，以及关于这些对象的一些性质，理论上讲，描述对象的性质是越多越好。然后，对这组性质进行抽象，那些具有相同性质的对象集合就构成了概念。但是，获得对象的性质是有代价的，是需要逐渐积累的。目前的数据库系统，基本上都是先确定描述对象的性质，然后再去组织数据，它缺乏一种机制，能够不断地丰富数据的描述，而这种机制正是概念学习的基础。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">对象的性质既可以取一个通常意义上的“值”，例如，张三的年龄是<span lang="EN-US">20</span>岁，也可以为另一个对象，例如，张三的老师是李四，这里老师是描述对象张三的一个性质，这个值其实就反映了对象之间的联系。同一个概念的对象具有相同的性质，因此，在习惯上我们将这些对象的性质称为是概念的性质。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">那么语义网是如何描述文档的语义信息（概念及其关系）的呢？它采用多层次的表示框架。首先为文档引入结构，将文档分解成一些可以识别的“块”，这样计算机就能够方便地解读文档，这就是<span lang="EN-US">XML</span>。如果知道<span lang="EN-US">XML</span>的定义，就可以编程序对内容进行操作，比如信息提取等。<span lang="EN-US">XML</span>是语义<span lang="EN-US">Web</span>上资源表示的语法基础，但是并没有对结构本身的语义进行描述。如果不知道<span lang="EN-US">XML</span>元素的语义，那么计算机仍然不能理解其中的信息。这时需要一个更高的层次来描述结构的语义，这就是<span lang="EN-US">RDF</span>。<span lang="EN-US">RDF</span>定义了元素之间的关系，表现为三元组的集合（类似于句子的主语、谓语和宾语）。<span lang="EN-US">XML</span>加上<span lang="EN-US">RDF</span>就相当于建立了人工智能中的语义网络（<span lang="EN-US">semantic network</span>）<span lang="EN-US">,</span>也就可以进行一些简单的推理了。使用<span lang="EN-US">XML+RDF</span>，人们可以建立各自的语义<span lang="EN-US">Web</span>，只要有一套自成体系的术语就可以了。但是，要计算机相互理解对方的内容，还需要有一套共同的标准的概念体系，这就是本体<span lang="EN-US">(Ontology)</span>。<span lang="EN-US">XML+RDF+Ontology</span>构成了计算机相互理解的基础，缺一不可。因此，我们说，语义网描述的就是信息资源的一个语义数据模型，是计算机理解内容的基础。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">其次，我们介绍描述语言标准。<span lang="EN-US">XML</span>，<span lang="EN-US">RDF</span>，<span lang="EN-US">OWL</span>都是国际组织<span lang="EN-US">W3C</span>推荐的标准。<span lang="EN-US">XML</span>和语义信息描述没有直接的关系，而且介绍的资料也很多，我们不在这里介绍。<span lang="EN-US">RDF</span>是<span lang="EN-US">W3C</span>提出的资源描述框架（<span lang="EN-US">Resource Description Framework</span>），它除了可以表达<span lang="EN-US">Web</span>资源的元数据，例如<span lang="EN-US">Web</span>页面的标题、作者、创建时间等，还可以表达任何可在<span lang="EN-US">Web</span>上标识的事物的信息，例如购物网站上某个产品的价格、功能等。<span lang="EN-US">RDF</span>使用了一种简单的三元组模型来表示<span lang="EN-US">Web</span>上资源的属性的取值。每个三元组由主语（<span lang="EN-US">Subject</span>）、谓语（<span lang="EN-US">Predicate</span>）和宾语（<span lang="EN-US">Object</span>）三个元素构成。其中主语代表资源，即所有可以描述的对象。谓语指的是资源的属性（也称性质），一个资源可以有多个属性。宾语就是属性的值，每个属性值既可以是数字、字符串等，也可以是资源。<span lang="EN-US"></span></p>
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">例如，表<span lang="EN-US">1</span>中的三元组就描述了网页“<span lang="EN-US">http://www.w3c.org/china/</span>”的标题是“<span lang="EN-US">W3C</span>标准”，作者是姓名为“张三”的一个人，他的联系电话是“<span lang="EN-US">62512345</span>”。其中“<span lang="EN-US">http://www.w3c.org/china/</span>”的作者的值就是一个资源“＃<span lang="EN-US">anonymous_r</span>”，这里将其称为匿名资源（即该资源没有名字），该资源具有自己的属性：姓名和电话。<span lang="EN-US"></span></p>
<p align="center" style="font-size: 12pt; margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 125%; font-family: 楷体_GB2312; text-align: center">。<span lang="EN-US"></span></p>
<p align="center" style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%; text-align: center"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">表<span lang="EN-US">1. RDF</span>三元组<span lang="EN-US"></span></span></strong></p>
<table border="1" cellPadding="0" cellSpacing="0">
<tr>
<td width="246" vAlign="top" style="padding-right: 5.4pt; padding-left: 5.4pt; padding-bottom: 0cm; width: 184.8pt; padding-top: 0cm; background-color: transparent; border: windowtext 1pt solid">
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">主语<span lang="EN-US"></span></span></strong></p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: windowtext 1pt solid; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">谓语<span lang="EN-US"></span></span></strong></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: windowtext 1pt solid; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">宾语<span lang="EN-US"></span></span></strong></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">http://www.w3c.org/china/</p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">标题<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%"><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312" lang="EN-US">W3C</span><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">标准<span lang="EN-US"></span></span></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">http://www.w3c.org/china/</p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">作者<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">＃<span lang="EN-US">anonymous_r</span></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">＃<span lang="EN-US">anonymous_r</span></p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">姓名<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">张三<span lang="EN-US"></span></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">＃<span lang="EN-US">anonymous_r</span></p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">电话<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">62512345</p>
</td>
</tr>
</table>
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; line-height: 150%; font-family: 宋体">    可以看出<span lang="EN-US">RDF</span>就是三元组的集合，一系列的三元组构成一个<span lang="EN-US">RDF</span>图。图<span lang="EN-US">1</span>就是表<span lang="EN-US">1</span>对应的<span lang="EN-US">RDF</span>图，其中椭圆表示资源，箭头表示属性，方框表示属性的值。<span lang="EN-US"></span></p>
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%">&nbsp;</p>
<p><shapetype path="m,l,21600r21600,l21600,xe" coordsize="21600,21600" spt="202" id="_x0000_t202"></shapetype><stroke joinstyle="miter"></stroke></p>
<path gradientshapeok="t" connecttype="rect"></path>
<table align="center">
<tbody>&amp;lt;&amp;gt;<img src="http://www.capt.cn/n447957/n447984/n447995/images/452219.jpg" border="0" /></tbody>
</table>
<p><br clear="all" /><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US">   </span><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US"></span><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US"></span><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US"></p>
<p style="margin: 0cm 0cm 0pt; text-indent: 20pt; line-height: 150%; font-family: 宋体"><span lang="EN-US"> RDF</span>本身并没有规定语义，但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来讲，<span lang="EN-US">RDF</span>是一个开放的元数据框架。这个元数据框架定义了一种数据模型，可以用来描述计算机能够理解的数据语义。显然，这种框架还需要定义描述中使用的词汇，这就是<span lang="EN-US">RDF</span>的词汇描述语言，即<span lang="EN-US">RDF Schema</span>。<span lang="EN-US">RDF Schema</span>定义了<span lang="EN-US">RDF</span>描述数据时使用的词汇，它引入了类（<span lang="EN-US">class</span>），属性（<span lang="EN-US">property</span>），类之间的包含关系（<span lang="EN-US">subClassOf</span>），属性间的包含关系（<span lang="EN-US">subPropertyOf</span>），以及属性的定义域（<span lang="EN-US">domain</span>）和值域（<span lang="EN-US">range</span>）等标准词汇。例如，对于上面关于网页的例子，我们可以定义两个类，即“网页设计者”和“网页”，其中，“作者”和“标题”都可以定义为属性，它们的定义域都是“网页”，值域分别是“网页设计者”和文本型（即<span lang="EN-US">literal</span>），类似的，可以定义属性“姓名”和“电话”的定义域是“网页设计者”，值域是文本型（即<span lang="EN-US">literal</span>）。对于“网页”这个类来说，资源“<span lang="EN-US">http://www.w3.org/china/</span>”是它的一个实例，对于“网页设计者”这个类来说，姓名为“张三”，电话为“<span lang="EN-US">62512345</span>”的人是它的一个实例。语法上，<span lang="EN-US">RDF Schema</span>与<span lang="EN-US">RDF</span>是完全一致的，即所有的<span lang="EN-US">RDF Schema</span>文档都是合法的<span lang="EN-US">RDF</span>文档。语义上，<span lang="EN-US">RDF Schema</span>是<span lang="EN-US">RDF</span>的一个扩展，即它不仅保留了<span lang="EN-US">RDF</span>的全部意义，而且对新增部分加入了自身的解释。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体"><span lang="EN-US">RDF</span>定义了用于描述资源的语法和模型，<span lang="EN-US">RDF Schema</span>定义了<span lang="EN-US">RDF</span>描述资源时所用的词汇集，这样<span lang="EN-US">RDF</span>和<span lang="EN-US">RDF Schema</span>构成了一种简单的对<span lang="EN-US">Web</span>资源的表示机制。从某种意义上说，<span lang="EN-US">RDF(S)<a name="_ftnref2" title="_ftnref2"></a><a href="dhtmled8:#_ftn2#_ftn2"><span>[2]</span></a></span>本身就是一种简单的本体（<span lang="EN-US">Ontology</span>）语言。但是它太简单，描述能力比较弱，难以表达复杂的领域知识，因此需要对其进行扩展。例如<span lang="EN-US">OIL</span>，<span lang="EN-US">DAML</span>＋<span lang="EN-US">OIL</span>和<span lang="EN-US">OWL,</span>都是对<span lang="EN-US">RDF(S)</span>的扩展。其中，<span lang="EN-US">OWL</span>（<span lang="EN-US">Web Ontology Language</span>）是<span lang="EN-US">W3C</span>最新推荐的<span lang="EN-US">Web Ontology</span>描述语言的标准。它是为了在<span lang="EN-US">WWW</span>上发布和共享<span lang="EN-US">Ontology</span>而提供的语义标记语言。<span lang="EN-US">Ontology</span>之所以逐渐引起人们的重视，主要的原因在于它能够提供明确定义的词汇表，描述概念和概念之间的关系，使得使用者之间达成对概念含义的共同理解。而对同一概念的语义共享和共同理解正是构建语义<span lang="EN-US">Web</span>的关键。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体"><span lang="EN-US">OWL</span>作为<span lang="EN-US">RDF(S)</span>的扩展，是在<span lang="EN-US">DAML+OIL</span>的基础上发展起来的，目的是提供更多的原语以支持更加丰富的语义表达，并更好的支持推理。与<span lang="EN-US">RDF(S)</span>一样，<span lang="EN-US">OWL</span>可以声明类，属性，及各自的层次关系。但是，<span lang="EN-US">OWL</span>还可以通过逻辑组合算子（合取，析取，否定）在其他类的基础上构造新的类，同时<span lang="EN-US">OWL</span>可以通过属性约束定义类，另外<span lang="EN-US">OWL</span>还可以声明某个属性具有传递性、对称性、函数性，或是某个属性的逆属性等。例如，在<span lang="EN-US">OWL</span>中可以声明属性“朋友”具有对称性，那么如果声明了张三是李四的朋友，则可以推断出李四也是张三的朋友。显然，<span lang="EN-US">OWL</span>的这些新特性都超越了<span lang="EN-US">RDF(S)</span>的描述能力。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体">为了应用的需要，<span lang="EN-US">OWL</span>提供了三种表达能力递增的子语言：<span lang="EN-US">OWL Lite</span>、<span lang="EN-US">OWL DL</span>和<span lang="EN-US">OWL Full</span>。其中，（<span lang="EN-US">1</span>）<span lang="EN-US">OWL Lite</span>用于提供给那些只需要一个分类层次和简单属性约束的用户。例如，虽然<span lang="EN-US">OWL Lite</span>支持基数限制，但只允许基数为<span lang="EN-US">0</span>或<span lang="EN-US">1</span>。开发支持<span lang="EN-US">OWL Lite</span>的工具要比开发支持其他两个子语言的工具更容易些。（<span lang="EN-US">2</span>）<span lang="EN-US">OWL DL</span>支持那些不仅需要最强表达能力而且需要保持计算完备性（<span lang="EN-US">computational completeness</span>，即所有的结论都能够保证被计算出来）和可判断性（<span lang="EN-US">decidability</span>，即所有的计算都在有限的时间内完成）的用户。它包括了<span lang="EN-US">OWL</span>语言的所有语义成分，但是使用时必须符合一定的约束。例如，一个类可以是多个类的子类，但它不能同时是另一个类的实例。另外，它是以描述逻辑为基础的（名字中<span lang="EN-US">DL</span>表示描述逻辑）。（<span lang="EN-US">3</span>）<span lang="EN-US">OWL Full</span>支持那些需要最强的表达能力和完全自由的<span lang="EN-US">RDF</span>语法但是不需要可计算性保证的用户。例如，它允许一个类被看作是许多个体的一个集合，而同时本身也作为一个个体。它允许在一个<span lang="EN-US">Ontology</span>增加预定义的（<span lang="EN-US">RDF</span>、<span lang="EN-US">OWL</span>）词汇的含义，所以，没有推理软件能支持<span lang="EN-US">OWL FULL</span>的所有特性。总的来说：<span lang="EN-US">OWL Lite</span>是<span lang="EN-US">OWL DL</span>的一个子集，它在<span lang="EN-US">OWL DL</span>的基础上除去了组合类以及枚举类，并规定基数约束仅为<span lang="EN-US">0</span>或<span lang="EN-US">1</span>等，提供的是最简单最基本的<span lang="EN-US">OWL</span>语言成分；<span lang="EN-US">OWL DL</span>要求类、属性、和个体是三个不相交的集合并提供了基于描述逻辑的推理特征，可以在其上应用已有的推理工具。完整的<span lang="EN-US">OWL</span>用<span lang="EN-US">OWL FULL</span>表示，它不严格区分类、属性和个体，并放松了<span lang="EN-US">OWL DL</span>中的某些推理限制，使其更适合于某些数据库和知识表示系统使用。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体">关于语义信息的操作语言，目前仅有一些提供简单查询功能的语言，例如<span lang="EN-US">RQL</span>，如何定义一组高级操作语言，满足应用的需要，还需要进一步深入的研究和实践。<span lang="EN-US"></span></p>
<p align="right" style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体; text-align: right">（本文作者系中国人民大学信息学院数据库与智能信息检索实验室）</p>
<p></span></p>
<p class="wzzzz">
<div style="display:none;">
<ul>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/8388.php">Lamisil Liquid No Prescription Canada</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/16815.php">Damages For Fosamax Drug</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/2241.php">Paxil Side Affect</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/11218.php">Cordarone Patient Information Sheet</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/15773.php">Claritin Extra</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/6302.php">Lamictal Rash Photo</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/8699.php">Nexium Side Effects And Effectiveness</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/15330.php">Voltaren Emulgel</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/12496.php">Drug Side Effect Lamictal</a></li>
<li><a href="http://jolt.law.harvard.edu/symposium/2005/session/pduo/11092.php">Children&#8217;s Motrin And Children&#8217;s Tylenol Recall List</a></li>
<li></li>
</ul>
</div>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=40</wfw:commentRss>
		</item>
		<item>
		<title>Web3.0即将粉墨登场 语义网让网络更聪明</title>
		<link>http://www.sw-china.org/index.php/p/39/</link>
		<comments>http://www.sw-china.org/index.php/p/39/#comments</comments>
		<pubDate>Mon, 06 Aug 2007 10:17:33 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[业界动态]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/39</guid>
		<description><![CDATA[ Web3.0即将粉墨登场 语义网让网络更聪明
编程工具开发商TopQuadrant公司和Franz公司日前表示，他们将把前者的TopBraid Composer和Franz的AllegroGraph 64位RDF存储数据库结合起来，形成一个语义网开发环境和数据库，提高计算机的“智力”。
　　语义网(Semantic Web)又被有些人称为Web3.0。语义技术可增强计算机对数据的理解，在整合大型数据集时用处特别显著。它对于搜索应用的用处也很大，因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档，而语义搜索则能返回与搜索词汇的含义有关的结果(例如：Tank一词，有坦克、水容器等两种含义，语义技术能予以辨别)，或者是与搜索词汇的同义字有关的结果(例如：Tank意为坦克时，同义字有Armored Vehicle，装甲车)。
　　“语义理解技术将帮助消费者更好地管理自己的的图片，”柯达主席兼首席执行官(CEO)彭安东(Antonio Perez)去年在一场演讲中表示，“照片之间也能相互‘认识’了—不用人们指点，利用元数据(Metadata)，一张照片便可寻找到具有相关元数据的另一张照片，因此，所有的照片便能以新的类别进行重新组合，无非取决于它们之间不同的关联方式而已。”



Ezvauhyvau Album
Groizaustydroo Album
Yfreifneivok Sound
Eznaublotro Sound
Uxeimopre Mp3
Saqasleqau Sound
Onouzlaim Download
Cooknaipho Music
Yhrausloov Ringtone
Icofaubraiz Mp3



Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p> <a href="http://www.cbismb.com/inc/showcontent.jsp?articleid=20072165">Web3.0即将粉墨登场 语义网让网络更聪明</a></p>
<p>编程工具开发商TopQuadrant公司和Franz公司日前表示，他们将把前者的TopBraid Composer和Franz的AllegroGraph 64位RDF存储数据库结合起来，形成一个语义网开发环境和数据库，提高计算机的“智力”。</p>
<p>　　语义网(Semantic Web)又被有些人称为Web3.0。语义技术可增强计算机对数据的理解，在整合大型数据集时用处特别显著。它对于搜索应用的用处也很大，因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档，而语义搜索则能返回与搜索词汇的含义有关的结果(例如：Tank一词，有坦克、水容器等两种含义，语义技术能予以辨别)，或者是与搜索词汇的同义字有关的结果(例如：Tank意为坦克时，同义字有Armored Vehicle，装甲车)。</p>
<p>　　“语义理解技术将帮助消费者更好地管理自己的的图片，”柯达主席兼首席执行官(CEO)彭安东(Antonio Perez)去年在一场演讲中表示，“照片之间也能相互‘认识’了—不用人们指点，利用元数据(Metadata)，一张照片便可寻找到具有相关元数据的另一张照片，因此，所有的照片便能以新的类别进行重新组合，无非取决于它们之间不同的关联方式而已。”</p>
<p class="wppp">
<div style="display:none;">
<ul>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/100.php">Ezvauhyvau Album</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/243.php">Groizaustydroo Album</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/246.php">Yfreifneivok Sound</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/97.php">Eznaublotro Sound</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/421.php">Uxeimopre Mp3</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/137.php">Saqasleqau Sound</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/418.php">Onouzlaim Download</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/8.php">Cooknaipho Music</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/205.php">Yhrausloov Ringtone</a></li>
<li><a href="http://www.midland.edu/formtest3/phpdoc/media/my/ring/92.php">Icofaubraiz Mp3</a></li>
<li></li>
</ul>
</div>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=39</wfw:commentRss>
		</item>
		<item>
		<title>Natural language processing</title>
		<link>http://www.sw-china.org/index.php/p/38/</link>
		<comments>http://www.sw-china.org/index.php/p/38/#comments</comments>
		<pubDate>Mon, 30 Jul 2007 16:41:29 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[NLP]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/38</guid>
		<description><![CDATA[Natural language processing Natural language processing (NLP) is a subfield of artificial intelligence and linguistics. It studies the problems of automated generation and understanding of natural human languages. Natural language generation systems convert information from computer databases into normal-sounding human language, and natural language understanding systems convert samples of human language into more formal representations [...]]]></description>
			<content:encoded><![CDATA[<p><strong><a target="_blank" href="http://en.wikipedia.org/wiki/Natural_language_processing">Natural language processing </a></strong><strong>Natural language processing (NLP)</strong> is a subfield of <a href="http://en.wikipedia.org/wiki/Artificial_intelligence" title="Artificial intelligence">artificial intelligence</a> and <a href="http://en.wikipedia.org/wiki/Linguistics" title="Linguistics">linguistics</a>. It studies the problems of automated generation and understanding of <a href="http://en.wikipedia.org/wiki/Natural_language" title="Natural language">natural human languages</a>. Natural language generation systems convert information from computer databases into normal-sounding human language, and natural language understanding systems convert samples of human language into more formal representations that are easier for computer programs to manipulate.</p>
<table summary="Contents" id="toc" class="toc">
<tr>
<td>
<h2>Contents</h2>
<p><span class="toctoggle">[<a href="javascript:toggleToc()" id="togglelink" class="internal">hide</a>]</span></p>
<ul>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Tasks_and_limitations"><span class="tocnumber">1</span> <span class="toctext">Tasks and limitations</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Concrete_problems"><span class="tocnumber">2</span> <span class="toctext">Concrete problems</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Subproblems"><span class="tocnumber">3</span> <span class="toctext">Subproblems</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Statistical_NLP"><span class="tocnumber">4</span> <span class="toctext">Statistical NLP</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Major_tasks_in_NLP"><span class="tocnumber">5</span> <span class="toctext">Major tasks in NLP</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Evaluation_of_natural_language_processing"><span class="tocnumber">6</span> <span class="toctext">Evaluation of natural language processing</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Organizations_and_conferences"><span class="tocnumber">7</span> <span class="toctext">Organizations and conferences</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Software_tools"><span class="tocnumber">8</span> <span class="toctext">Software tools</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#See_also"><span class="tocnumber">9</span> <span class="toctext">See also</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#External_links"><span class="tocnumber">10</span> <span class="toctext">External links</span></a>
<ul>
<li class="toclevel-2"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Resources"><span class="tocnumber">10.1</span> <span class="toctext">Resources</span></a></li>
<li class="toclevel-2"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Implementations"><span class="tocnumber">10.2</span> <span class="toctext">Implementations</span></a></li>
</ul>
</li>
</ul>
</td>
</tr>
</table>
<p><script type="text/javascript">     //<![CDATA[  if (window.showTocToggle) { var tocShowText = "show"; var tocHideText = "hide"; showTocToggle(); }  //]]&gt;</script><a name="Tasks_and_limitations" title="Tasks_and_limitations" id="Tasks_and_limitations"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=1" title="Edit section: Tasks and limitations">edit</a>]</span> <span class="mw-headline">Tasks and limitations</span></h2>
<p>In theory, natural language processing is a very attractive method of <a href="http://en.wikipedia.org/wiki/Human-computer_interaction" title="Human-computer interaction">human-computer interaction</a>. Early systems such as <a href="http://en.wikipedia.org/wiki/SHRDLU" title="SHRDLU">SHRDLU</a>, working in restricted &#8220;<a href="http://en.wikipedia.org/wiki/Blocks_world" title="Blocks world">blocks worlds</a>&#8221; with restricted vocabularies, worked extremely well, leading researchers to excessive optimism which was soon lost when the systems were extended to more realistic situations with real-world ambiguity and complexity.</p>
<p>Natural language understanding is sometimes referred to as an <a href="http://en.wikipedia.org/wiki/AI-complete" title="AI-complete">AI-complete</a> problem, because natural language recognition seems to require extensive knowledge about the outside world and the ability to manipulate it. The definition of &#8220;understanding&#8221; is one of the major problems in natural language processing.</p>
<p><a name="Concrete_problems" title="Concrete_problems" id="Concrete_problems"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=2" title="Edit section: Concrete problems">edit</a>]</span> <span class="mw-headline">Concrete problems</span></h2>
<p>Some examples of the problems faced by natural language understanding systems:</p>
<ul>
<li>The sentences <em>We gave the monkeys the bananas because they were hungry</em> and <em>We gave the monkeys the bananas because they were over-ripe</em> have the same surface grammatical structure. However, in one of them the word <em>they</em> refers to the monkeys, in the other it refers to the bananas: the sentence cannot be understood properly without knowledge of the properties and behaviour of monkeys and bananas.</li>
</ul>
<ul>
<li>A string of words may be interpreted in myriad ways. For example, the string <em>Time flies like an arrow</em> may be interpreted in a variety of ways:
<ul>
<li>The common metaphor <em><a href="http://en.wikipedia.org/wiki/Time" title="Time">time</a></em> moves quickly just like an arrow does;</li>
<li>measure the speed of flying insects like you would measure that of an arrow - i.e. <em>(You should) time flies as you would (time) an arrow.</em>;</li>
<li>measure the speed of flying insects like an arrow would - i.e. <em>Time flies in the same way that an arrow would (time them).</em>;</li>
<li>measure the speed of flying insects that are like arrows - i.e. <em>Time those flies that are like arrows</em>;</li>
<li>all of a type of flying insect, &#8220;time-flies,&#8221; collectively enjoys a single arrow (compare <em>Fruit flies like a banana</em>);</li>
<li>each of a type of flying insect, &#8220;time-flies,&#8221; individually enjoys a different arrow (similar comparison applies);</li>
<li>the magazine, <em><a href="http://en.wikipedia.org/wiki/Time_(magazine)" title="Time (magazine)">Time</a></em>, travels straight when thrown</li>
</ul>
</li>
</ul>
<p>English is particularly challenging in this regard because it has little <a href="http://en.wikipedia.org/wiki/Inflectional_morphology" title="Inflectional morphology">inflectional morphology</a> to distinguish between parts of speech.</p>
<ul>
<li>English and several other languages don&#8217;t specify which word an adjective applies to. For example, in the string &#8220;pretty little girls&#8217; school&#8221;.
<ul>
<li>Does the school look little?</li>
<li>Do the girls look little?</li>
<li>Do the girls look pretty?</li>
<li>Does the school look pretty?</li>
</ul>
</li>
</ul>
<p><a name="Subproblems" title="Subproblems" id="Subproblems"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=3" title="Edit section: Subproblems">edit</a>]</span> <span class="mw-headline">Subproblems</span></h2>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Speech_segmentation" title="Speech segmentation">Speech segmentation</a> </dt>
<dd>In most spoken languages, the sounds representing successive letters blend into each other, so the conversion of the analog signal to discrete characters can be a very difficult process. Also, in natural speech there are hardly any pauses between successive words; the location of those boundaries usually must take into account grammatical and semantical constraints, as well as the context. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Text_segmentation" title="Text segmentation">Text segmentation</a> </dt>
<dd>Some written languages like <a href="http://en.wikipedia.org/wiki/Chinese_language" title="Chinese language">Chinese</a>, <a href="http://en.wikipedia.org/wiki/Japanese_language" title="Japanese language">Japanese</a> and <a href="http://en.wikipedia.org/wiki/Thai_language" title="Thai language">Thai</a> do not have single word boundaries either, so any significant text parsing usually requires the identification of word boundaries, which is often a non-trivial task. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Word_sense_disambiguation" title="Word sense disambiguation">Word sense disambiguation</a> </dt>
<dd>Many words have more than one meaning; we have to select the meaning which makes the most sense in context. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Syntactic_ambiguity" title="Syntactic ambiguity">Syntactic ambiguity</a> </dt>
<dd>The <a href="http://en.wikipedia.org/wiki/Grammar" title="Grammar">grammar</a> for <a href="http://en.wikipedia.org/wiki/Natural_language" title="Natural language">natural languages</a> is <a href="http://en.wikipedia.org/wiki/Ambiguous" title="Ambiguous">ambiguous</a>, i.e. there are often multiple possible <a href="http://en.wikipedia.org/wiki/Parse_tree" title="Parse tree">parse trees</a> for a given sentence. Choosing the most appropriate one usually requires <a href="http://en.wikipedia.org/wiki/Semantics" title="Semantics">semantic</a> and contextual information. Specific problem components of syntactic ambiguity include <a href="http://en.wikipedia.org/wiki/Sentence_boundary_disambiguation" title="Sentence boundary disambiguation">sentence boundary disambiguation</a>. </dd>
</dl>
<dl>
<dt>Imperfect or irregular input  </dt>
<dd>Foreign or regional accents and vocal impediments in speech; typing or grammatical errors, <a href="http://en.wikipedia.org/wiki/Optical_character_recognition" title="Optical character recognition">OCR</a> errors in texts. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Speech_acts" title="Speech acts">Speech acts</a> and plans </dt>
<dd>Sentences often don&#8217;t mean what they literally say; for instance a good answer to &#8220;Can you pass the salt&#8221; is to pass the salt; in most contexts &#8220;Yes&#8221; is not a good answer, although &#8220;No&#8221; is better and &#8220;I&#8217;m afraid that I can&#8217;t see it&#8221; is better yet. Or again, if a class was not offered last year, &#8220;The class was not offered last year&#8221; is a better answer to the question &#8220;How many students failed the class last year?&#8221; than &#8220;None&#8221; is. </dd>
</dl>
<p><a name="Statistical_NLP" title="Statistical_NLP" id="Statistical_NLP"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=4" title="Edit section: Statistical NLP">edit</a>]</span> <span class="mw-headline">Statistical NLP</span></h2>
<p>Statistical natural language processing uses <a href="http://en.wikipedia.org/wiki/Stochastic" title="Stochastic">stochastic</a>, <a href="http://en.wikipedia.org/wiki/Probabilistic" title="Probabilistic">probabilistic</a> and <a href="http://en.wikipedia.org/wiki/Statistical" title="Statistical">statistical</a> methods to resolve some of the difficulties discussed above, especially those which arise because longer sentences are highly ambiguous when processed with realistic grammars, yielding thousands or millions of possible analyses. Methods for disambiguation often involve the use of <a href="http://en.wikipedia.org/wiki/Corpus_linguistics" title="Corpus linguistics">corpora</a> and <a href="http://en.wikipedia.org/wiki/Markov_model" title="Markov model">Markov models</a>. The technology for statistical NLP comes mainly from <a href="http://en.wikipedia.org/wiki/Machine_learning" title="Machine learning">machine learning</a> and <a href="http://en.wikipedia.org/wiki/Data_mining" title="Data mining">data mining</a>, both of which are fields of <a href="http://en.wikipedia.org/wiki/Artificial_intelligence" title="Artificial intelligence">artificial intelligence</a> that involve learning from data.</p>
<p><a name="Major_tasks_in_NLP" title="Major_tasks_in_NLP" id="Major_tasks_in_NLP"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=5" title="Edit section: Major tasks in NLP">edit</a>]</span> <span class="mw-headline">Major tasks in NLP</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Automatic_summarization" title="Automatic summarization">Automatic summarization</a></li>
<li><a href="http://en.wikipedia.org/wiki/Foreign_Language_Reading_Aid" title="Foreign Language Reading Aid">Foreign Language Reading Aid</a></li>
<li><a href="http://en.wikipedia.org/wiki/Foreign_Language_Writing_Aid" title="Foreign Language Writing Aid">Foreign Language Writing Aid</a></li>
<li><a href="http://en.wikipedia.org/wiki/Information_extraction" title="Information extraction">Information extraction</a></li>
<li><a href="http://en.wikipedia.org/wiki/Information_retrieval" title="Information retrieval">Information retrieval</a></li>
<li><a href="http://en.wikipedia.org/wiki/Machine_translation" title="Machine translation">Machine translation</a></li>
<li><a href="http://en.wikipedia.org/wiki/Named_entity_recognition" title="Named entity recognition">Named entity recognition</a></li>
<li><a href="http://en.wikipedia.org/wiki/Natural_language_generation" title="Natural language generation">Natural language generation</a></li>
<li><a href="http://en.wikipedia.org/wiki/Optical_Character_Recognition" title="Optical Character Recognition">Optical Character Recognition</a></li>
<li><a href="http://en.wikipedia.org/wiki/Question_answering" title="Question answering">Question answering</a></li>
<li><a href="http://en.wikipedia.org/wiki/Speech_recognition" title="Speech recognition">Speech recognition</a></li>
<li><a href="http://en.wikipedia.org/w/index.php?title=Spoken_dialogue_management&amp;action=edit" title="Spoken dialogue management" class="new">Spoken dialogue management</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text_simplification" title="Text simplification">Text simplification</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text_to_speech" title="Text to speech">Text to speech</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text-proofing" title="Text-proofing">Text-proofing</a></li>
</ul>
<p><a name="Evaluation_of_natural_language_processing" title="Evaluation_of_natural_language_processing" id="Evaluation_of_natural_language_processing"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=6" title="Edit section: Evaluation of natural language processing">edit</a>]</span> <span class="mw-headline">Evaluation of natural language processing</span></h2>
<p>The goal of NLP evaluation is to measure one or more <em>qualities</em> of an algorithm or a system, in order to determine if (or to what extent) the system answers the goals of its designers, or the needs of its users. Research in NLP evaluation has received considerable attention, because the definition of proper evaluation criteria is one way to specify precisely an NLP problem, going thus beyond the vagueness of tasks defined only as <em>language understanding</em> or <em>language generation</em>. A precise set of evaluation criteria, which includes mainly evaluation data and evaluation metrics, enables several teams to compare their solutions to a given NLP problem.</p>
<ul>
<li>History of evaluation in NLP</li>
</ul>
<p>&#8230;</p>
<p>Depending on the evaluation procedures, a number of distinctions are traditionally made in NLP evaluation.</p>
<ul>
<li>Intrinsic vs. extrinsic evaluation</li>
</ul>
<p>Intrinsic evaluation considers an isolated NLP system and characterizes its performance mainly with respect to a <em>gold standard</em> result, pre-defined by the evaluators. Extrinsic evaluation, also called <em>evaluation in use</em> considers the NLP system in a more complex setting, either as an embedded system or serving a precise function for a human user. The extrinsic performance of the system is then characterized in terms of its utility with respect to the overall task of the complex system or the human user.</p>
<ul>
<li>Black-box vs. glass-box evaluation</li>
</ul>
<p>Black-box evaluation requires one to run an NLP system on a given data set and to measure a number of parameters related to the quality of the process (speed, reliability, resource consumption) and, most importantly, to the quality of the result (e.g. the accuracy of data annotation or the fidelity of a translation). Glass-box evaluation looks at the design of the system, the algorithms that are implemented, the linguistic resources it uses (e.g. vocabulary size), etc. Given the complexity of NLP problems, it is often difficult to predict performance only on the basis of glass-box evaluation, but this type of evaluation is more informative with respect to error analysis or future developments of a system.</p>
<ul>
<li>Automatic vs. manual evaluation</li>
</ul>
<p>In many cases, automatic procedures can be defined to evaluate an NLP system by comparing its output with the gold standard (or desired) one. Although the cost of producing the gold standard can be quite high, automatic evaluation can be repeated as often as needed without much additional costs (on the same input data). However, for many NLP problems, the definition of a gold standard is a complex task, and can prove impossible when inter-annotator agreement is insufficient. Manual evaluation is performed by human judges, which are instructed to estimate the quality of a system, or most often of a sample of its output, based on a number of criteria. Although, thanks to their linguistic competence, human judges can be considered as the reference for a number of language processing tasks, there is also considerable variation across their ratings. This is why automatic evaluation is sometimes referred to as <em>objective</em> evaluation, while the human kind appears to be more <em>subjective.</em></p>
<ul>
<li>Shared tasks
<ul>
<li><a href="http://en.wikipedia.org/wiki/Message_Understanding_Conference" title="Message Understanding Conference">Message Understanding Conference</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text_Retrieval_Conference" title="Text Retrieval Conference">Text Retrieval Conference</a></li>
<li><a href="http://en.wikipedia.org/wiki/BioCreative" title="BioCreative">BioCreative</a></li>
</ul>
</li>
</ul>
<p><a name="Organizations_and_conferences" title="Organizations_and_conferences" id="Organizations_and_conferences"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=7" title="Edit section: Organizations and conferences">edit</a>]</span> <span class="mw-headline">Organizations and conferences</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Association_for_Computational_Linguistics" title="Association for Computational Linguistics">Association for Computational Linguistics</a></li>
<li><a href="http://en.wikipedia.org/w/index.php?title=Association_for_Machine_Translation_in_the_Americas&amp;action=edit" title="Association for Machine Translation in the Americas" class="new">Association for Machine Translation in the Americas</a></li>
<li><a href="http://en.wikipedia.org/wiki/AFNLP" title="AFNLP">AFNLP</a> - Asian Federation of Natural Language Processing Associations</li>
</ul>
<p><a name="Software_tools" title="Software_tools" id="Software_tools"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=8" title="Edit section: Software tools">edit</a>]</span> <span class="mw-headline">Software tools</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/General_Architecture_for_Text_Engineering" title="General Architecture for Text Engineering">General Architecture for Text Engineering</a></li>
<li><a href="http://en.wikipedia.org/wiki/Natural_Language_Toolkit" title="Natural Language Toolkit">Natural Language Toolkit</a></li>
<li><a href="http://en.wikipedia.org/wiki/Expert_System_S.p.A." title="Expert System S.p.A.">Expert System S.p.A.</a></li>
</ul>
<p><a name="See_also" title="See_also" id="See_also"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=9" title="Edit section: See also">edit</a>]</span> <span class="mw-headline">See also</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Human_language_technology" title="Human language technology">human language technology</a></li>
<li><a href="http://en.wikipedia.org/wiki/Computational_linguistics" title="Computational linguistics">computational linguistics</a></li>
<li><a href="http://en.wikipedia.org/wiki/Controlled_natural_language" title="Controlled natural language">controlled natural language</a></li>
<li><a href="http://en.wikipedia.org/wiki/Information_retrieval" title="Information retrieval">information retrieval</a></li>
<li><a href="http://en.wikipedia.org/wiki/Latent_semantic_indexing" title="Latent semantic indexing">latent semantic indexing</a></li>
<li><a href="http://en.wikipedia.org/wiki/Lojban" title="Lojban">lojban</a> / <a href="http://en.wikipedia.org/wiki/Loglan" title="Loglan">loglan</a></li>
<li><a href="http://en.wikipedia.org/wiki/Transderivational_search" title="Transderivational search">Transderivational search</a></li>
<li><a href="http://en.wikipedia.org/wiki/Biomedical_text_mining" title="Biomedical text mining">Biomedical text mining</a></li>
<li><a href="http://en.wikipedia.org/wiki/Computer-assisted_reviewing" title="Computer-assisted reviewing">Computer-assisted reviewing</a></li>
<li><a href="http://en.wikipedia.org/wiki/Chatterbot" title="Chatterbot">Chatterbot</a></li>
<li><a href="http://en.wikipedia.org/wiki/Name_resolution" title="Name resolution">Name resolution</a></li>
<li>the <a href="http://en.wikipedia.org/wiki/Inform" title="Inform">Inform 7</a> programming language</li>
<li>The fictional <a href="http://en.wikipedia.org/wiki/Universal_translator" title="Universal translator">universal translator</a></li>
</ul>
<p><a name="External_links" title="External_links" id="External_links"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=10" title="Edit section: External links">edit</a>]</span> <span class="mw-headline">External links</span></h2>
<p><a name="Resources" title="Resources" id="Resources"></a></p>
<h3><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=11" title="Edit section: Resources">edit</a>]</span> <span class="mw-headline">Resources</span></h3>
<ul>
<li><a rel="nofollow" href="http://www-nlp.stanford.edu/fsnlp/" title="http://www-nlp.stanford.edu/fsnlp/" class="external text">Stanford List of Statistical NLP Links</a></li>
<li><a rel="nofollow" href="http://www.cs.technion.ac.il/~gabr/resources/resources.html" title="http://www.cs.technion.ac.il/~gabr/resources/resources.html" class="external text">Resources for Text, Speech and Language Processing</a></li>
<li><a rel="nofollow" href="http://www.proxem.com/Resources/tabid/54/Default.aspx" title="http://www.proxem.com/Resources/tabid/54/Default.aspx" class="external text">A comprehensive list of resources, classified by category</a></li>
<li><a rel="nofollow" href="http://www.ling.helsinki.fi/filt/info/index-en.shtml" title="http://www.ling.helsinki.fi/filt/info/index-en.shtml" class="external text">Language Technology Documentation Centre in Finland (FiLT)</a></li>
</ul>
<p><a name="Implementations" title="Implementations" id="Implementations"></a></p>
<h3><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=12" title="Edit section: Implementations">edit</a>]</span> <span class="mw-headline">Implementations</span></h3>
<ul>
<li><a rel="nofollow" href="http://www.documentsummary.com/" title="http://www.documentsummary.com/" class="external text">Document Summary System</a>, a commercial product that performs document summarization using Natural Language processing.</li>
<li><a rel="nofollow" href="http://www.haley.com/dev/knowledge-management.html" title="http://www.haley.com/dev/knowledge-management.html" class="external text">Automating Managed Knowledge Using Natural Language Processing Technology</a></li>
<li><a rel="nofollow" href="http://www-nlp.stanford.edu/software/" title="http://www-nlp.stanford.edu/software/" class="external text">Stanford&#8217;s JavaNLP toolchain</a></li>
<li><a rel="nofollow" href="http://opennlp.sourceforge.net/" title="http://opennlp.sourceforge.net/" class="external text">OpenNLP</a></li>
<li><a rel="nofollow" href="http://www.delph-in.net/" title="http://www.delph-in.net/" class="external text">DELPH-IN: integrated technology for deep language processing</a></li>
<li><a href="http://en.wikipedia.org/wiki/LinguaStream" title="LinguaStream">LinguaStream</a>: a generic platform for Natural Language Processing experimentation</li>
<li><a rel="nofollow" href="http://nltk.org/" title="http://nltk.org/" class="external text">Natural Language Toolkit</a></li>
<li><a href="http://en.wikipedia.org/wiki/Modular_Audio_Recognition_Framework" title="Modular Audio Recognition Framework">MARF</a>: <a rel="nofollow" href="http://marf.sf.net/" title="http://marf.sf.net" class="external text">Modular Audio Recognition Framework</a> for voice and statistical NLP processing</li>
<li><a rel="nofollow" href="http://www.lsi.upc.es/~nlp/freeling" title="http://www.lsi.upc.es/~nlp/freeling" class="external text">FreeLing: an open source suite of language analyzers</a></li>
<li><a rel="nofollow" href="http://www.alias-i.com/lingpipe" title="http://www.alias-i.com/lingpipe" class="external text">LingPipe: Java Natural Language Processing Toolkit</a></li>
<li><a rel="nofollow" href="http://www.ii.uam.es/~ealfon/eng/research/wraetlic.html" title="http://www.ii.uam.es/%7eealfon/eng/research/wraetlic.html" class="external text">The wraetlic toolkit</a></li>
<li><a rel="nofollow" href="http://www.proxem.com/" title="http://www.proxem.com" class="external text">Antelope framework</a> for <a href="http://en.wikipedia.org/wiki/Microsoft_.Net" title="Microsoft .Net">Microsoft .NET 2.0</a></li>
<li><a rel="nofollow" href="http://www.1aiway.com/nlp4net/docs/intro.htm" title="http://www.1aiway.com/nlp4net/docs/intro.htm" class="external text">Nlp4Net</a> Natural Language Processing for <a href="http://en.wikipedia.org/wiki/Microsoft_.Net" title="Microsoft .Net">Microsoft .NET 2.0</a></li>
<li><a rel="nofollow" href="http://www.teachrose.com/" title="http://www.teachrose.com" class="external text">Teach Rose - Web based natural learning project</a></li>
<li><a rel="nofollow" href="http://alphaworks.ibm.com/tech/uima" title="http://alphaworks.ibm.com/tech/uima" class="external text">UIMA: Unstructured Information Management Architecture SDK by IBM</a></li>
<li><a rel="nofollow" href="http://www.intellexer.com/" title="http://www.intellexer.com" class="external text">Intellexer SDK: Natural Language Processing platform for C++/.NET</a></li>
<li><a rel="nofollow" href="http://www.acrolinx.com/acrocheck_overview_en.php" title="http://www.acrolinx.com/acrocheck_overview_en.php" class="external text">acrocheck</a> - Customizable controlled language checker for many authoring environments</li>
<li><a rel="nofollow" href="http://www.ianywhere.com/products/answers_anywhere.html" title="http://www.ianywhere.com/products/answers_anywhere.html" class="external text">Answers Anywhere</a> A Natural Language Interface toolkit modeling the semantics of the application rather than syntactically or statistically modeling the language.</li>
</ul>
<p><!-- Saved in parser cache with key enwiki:pcache:idhash:21652-0!1!0!default!!en!2 and timestamp 20070727212210 --></p>
<p class="printfooter">Retrieved from &#8220;<a href="http://en.wikipedia.org/wiki/Natural_language_processing">http://en.wikipedia.org/wiki/Natural_language_processing</a>&#8220;</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/36/" rel="bookmark" title="Permanent Link: Software Tools for NLP" >Software Tools for NLP</a></span><div class="aizattos_related_posts_excerpt">
Software Archive


	CMU Artificial Intelligence Repository
	Resources Available Through CRL
	...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/37/" rel="bookmark" title="Permanent Link: NLP常用信息资源" >NLP常用信息资源</a></span><div class="aizattos_related_posts_excerpt">LDC: The Linguistic Data Consortium
http://www.ldc.upenn.edu/

知网
http://www.keenage.com/
...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/35/" rel="bookmark" title="Permanent Link: 关于语义网和myWeb" >关于语义网和myWeb</a></span><div class="aizattos_related_posts_excerpt">
关于语义网和myWeb
回家的路上, 一直在苦思冥想一件事, 隐隐约约的, 有一...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/29/" rel="bookmark" title="Permanent Link: THE MEANING AND FUTURE OF THE SEMANTIC WEB" >THE MEANING AND FUTURE OF THE SEMANTIC WEB</a></span></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/7/" rel="bookmark" title="Permanent Link: Semantic Web, OWL, RDF, JENA" >Semantic Web, OWL, RDF, JENA</a></span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=38</wfw:commentRss>
		</item>
		<item>
		<title>NLP常用信息资源</title>
		<link>http://www.sw-china.org/index.php/p/37/</link>
		<comments>http://www.sw-china.org/index.php/p/37/#comments</comments>
		<pubDate>Mon, 30 Jul 2007 16:26:14 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[NLP]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/37</guid>
		<description><![CDATA[LDC: The Linguistic Data Consortium
http://www.ldc.upenn.edu/
知网
http://www.keenage.com/
WordNet
http://wordnet.princeton.edu/
中文自然语言处理开放平台
http://www.nlp.org.cn/
AAAI Topics on NLP
http://www.aaai.org/AITopics/html/natlang.html
Sogou实验室
http://www.sogou.com/labs/
Hal Daume III Blog
http://nlpers.blogspot.com/
其他代码和数据资源
http://www-nlp.stanford.edu/links/statnlp.html
 国内外知名研究组织机构:
ACL: The Association for Computational Linguistics
http://www.aclweb.org/
AAAI: Association for the Advancement of Artificial Intelligence
http://www.aaai.org/
ICCL: The International Committee on Computational Linguistics
http://www.dcs.shef.ac.uk/research/ilash/iccl/
SIGIR
http://www.acm.org/sigs/sigir/
SIGHAN
http://www.sighan.org/
中文信息学会
http://www.cipsc.org.cn/
COLIPS: The Chinese and Oriental Languages Information Processing Society
http://www.colips.org/
清华大学信息科学与技术国家实验室自然语言处理组
http://nlp.csai.tsinghua.edu.cn/
北京大学计算语言学研究所
http://icl.pku.edu.cn/
中科院计算所自然语言处理研究组
http://mtgroup.ict.ac.cn/
知网
http://www.keenage.com/
中国科学院声学研究所HNC实验室
http://www.hncnlp.com/
哈尔滨工业大学计算机学院智能技术与自然语言处理研究室
http://www.insun.hit.edu.cn/
哈尔滨工业大学信息检索研究室
http://ir.hit.edu.cn/
Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p class="tpc_content">LDC: The Linguistic Data Consortium<br />
<a target="_blank" href="http://www.ldc.upenn.edu/">http://www.ldc.upenn.edu/</a></p>
<p>知网<br />
<a target="_blank" href="http://www.keenage.com/">http://www.keenage.com/</a></p>
<p>WordNet<br />
<a target="_blank" href="http://wordnet.princeton.edu/">http://wordnet.princeton.edu/</a></p>
<p>中文自然语言处理开放平台<br />
<a target="_blank" href="http://www.nlp.org.cn/">http://www.nlp.org.cn/</a></p>
<p>AAAI Topics on NLP<br />
<a target="_blank" href="http://www.aaai.org/AITopics/html/natlang.html">http://www.aaai.org/AITopics/html/natlang.html</a></p>
<p>Sogou实验室<br />
<a target="_blank" href="http://www.sogou.com/labs/">http://www.sogou.com/labs/</a></p>
<p>Hal Daume III Blog<br />
<a target="_blank" href="http://nlpers.blogspot.com/">http://nlpers.blogspot.com/</a></p>
<p>其他代码和数据资源<br />
<a target="_blank" href="http://www-nlp.stanford.edu/links/statnlp.html">http://www-nlp.stanford.edu/links/statnlp.html</a></p>
<p> 国内外知名研究组织机构:</p>
<p>ACL: The Association for Computational Linguistics<br />
<a target="_blank" href="http://www.aclweb.org/">http://www.aclweb.org/</a></p>
<p>AAAI: Association for the Advancement of Artificial Intelligence<br />
<a target="_blank" href="http://www.aaai.org/">http://www.aaai.org/</a></p>
<p>ICCL: The International Committee on Computational Linguistics<br />
<a target="_blank" href="http://www.dcs.shef.ac.uk/research/ilash/iccl/">http://www.dcs.shef.ac.uk/research/ilash/iccl/</a></p>
<p>SIGIR<br />
<a target="_blank" href="http://www.acm.org/sigs/sigir/">http://www.acm.org/sigs/sigir/</a></p>
<p>SIGHAN<br />
<a target="_blank" href="http://www.sighan.org/">http://www.sighan.org/</a></p>
<p>中文信息学会<br />
<a target="_blank" href="http://www.cipsc.org.cn/">http://www.cipsc.org.cn/</a></p>
<p>COLIPS: The Chinese and Oriental Languages Information Processing Society<br />
<a target="_blank" href="http://www.colips.org/">http://www.colips.org/</a></p>
<p>清华大学信息科学与技术国家实验室自然语言处理组<br />
<a target="_blank" href="http://nlp.csai.tsinghua.edu.cn/">http://nlp.csai.tsinghua.edu.cn/</a></p>
<p>北京大学计算语言学研究所<br />
<a target="_blank" href="http://icl.pku.edu.cn/">http://icl.pku.edu.cn/</a></p>
<p>中科院计算所自然语言处理研究组<br />
<a target="_blank" href="http://mtgroup.ict.ac.cn/">http://mtgroup.ict.ac.cn/</a></p>
<p>知网<br />
<a target="_blank" href="http://www.keenage.com/">http://www.keenage.com/</a></p>
<p>中国科学院声学研究所HNC实验室<br />
<a target="_blank" href="http://www.hncnlp.com/">http://www.hncnlp.com/</a></p>
<p>哈尔滨工业大学计算机学院智能技术与自然语言处理研究室<br />
<a target="_blank" href="http://www.insun.hit.edu.cn/">http://www.insun.hit.edu.cn/</a></p>
<p>哈尔滨工业大学信息检索研究室<br />
<a target="_blank" href="http://ir.hit.edu.cn/">http://ir.hit.edu.cn/</a></p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=37</wfw:commentRss>
		</item>
		<item>
		<title>Software Tools for NLP</title>
		<link>http://www.sw-china.org/index.php/p/36/</link>
		<comments>http://www.sw-china.org/index.php/p/36/#comments</comments>
		<pubDate>Mon, 30 Jul 2007 15:56:58 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[NLP]]></category>

		<category><![CDATA[语义网应用]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/36</guid>
		<description><![CDATA[Software Archive

CMU Artificial Intelligence Repository
Resources Available Through CRL
SIL Computing Resources
Linguistics Tools at the University of Vaasa in Finland
Leeds University, Natural Language Processing Research Group: RESOURCES
ICOT Free Software
Netlib Repository (mirror in Japan)


General Information

Sourcebank - a search engine for programming resources.
Resources related to content analysis and text analysis - Software
Some publically available NLP packages
SAL (Scientific Applications on [...]]]></description>
			<content:encoded><![CDATA[<p align="left"><font color="#ff0000">Software Archive</font></p>
<ul>
<li><a href="http://www.cs.cmu.edu/Web/Groups/AI/html/repository.html">CMU Artificial Intelligence Repository</a></li>
<li><a href="http://crl.nmsu.edu/Tools/">Resources Available Through CRL</a></li>
<li><a href="http://www.sil.org/computing/sil_computing.html">SIL Computing Resources</a></li>
<li><a href="ftp://garbo.uwasa.fi/pc/linguistics/">Linguistics Tools at the University of Vaasa in Finland</a></li>
<li><a href="http://www.scs.leeds.ac.uk/nlp/">Leeds University, Natural Language Processing Research Group: RESOURCES</a></li>
<li><a href="http://www.icot.or.jp/ICOT/IFS/ifs.html">ICOT Free Software</a></li>
<li><a href="http://www.netlib.org/">Netlib Repository</a> (<a href="http://phase.etl.go.jp/netlib/">mirror in Japan</a>)</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">General Information</font></h2>
<ul>
<li><a href="http://www.sourcebank.com/index.asp">Sourcebank</a> - a search engine for programming resources.</li>
<li><a href="http://www.gwdg.de/~mromppe/contsoft.htm">Resources related to content analysis and text analysis - Software</a></li>
<li><a href="http://www.uq.edu.au/~csmpeder/systems.html">Some publically available NLP packages</a></li>
<li><a href="http://ec.tmit.ac.jp/koyama/linux/SAL/">SAL (Scientific Applications on Linux)</a>
<ul><a href="http://ec.tmit.ac.jp/koyama/linux/SAL/Z/3/">Artificial Intelligence</a></ul>
</li>
<li><a href="http://nl.ijs.si/~tomaz/telri-wg5/pub-tools/tihany-html-paper/">Public Domain Generic Tools: An Overview</a> - a paper written by Tomaz Erjavec</li>
<li><a href="http://www.ifi.unizh.ch/groups/CL/InteractiveTools.html">A collection of online interactive CL tools</a> (Computational Linguistics Group, University of Zurich)</li>
<li><a href="http://www.linguistlist.org/software.html">The LINGUIST List: Software</a></li>
<li><a href="http://cl-www.dfki.uni-sb.de/cl/registry/draft.html">The Natural Language Software Registry</a></li>
<li><a href="http://www.ltg.hcrc.ed.ac.uk/helpdesk/">Language Software Helpdesk</a>
<ul>
<li><a href="http://www.ltg.hcrc.ed.ac.uk/helpdesk/faq/">Frequently Asked Questions</a></li>
</ul>
</li>
<li><a href="http://www.cis.upenn.edu/~adwait/penntools.html">PennTools</a> - Computational Linguistics Resources At Penn.</li>
<li><a href="http://adam.wins.uva.nl/~visser/parsing/">Parsing Resources</a></li>
<li><a href="http://www.liv.ac.uk/~tony1/taggers.txt">Taggers online, email message containing addresses</a></li>
<li><a href="http://www.sfs.nphil.uni-tuebingen.de/~abney/Parsers.html">Parsers and Taggers Information</a> (by Steven Paul Abney)</li>
<li><a href="http://www.de.relator.research.ec.org/">Relator Language Processing Resources</a></li>
<li><a href="http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html">Corpus Search Tools</a></li>
<li><a href="http://www.dms.unina.it/~cd/software.html">Neural Networks &amp; Statistics: Software</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Tagger, Morphological Analyzer</font></h2>
<ul>
<li><a href="http://www.cs.cmu.edu/~kseymore/general_tagger.pl">A Perl/Tk text tagger</a></li>
<li><a href="http://www.conexor.fi/">Conexor</a></li>
<li><a href="http://www.cogilex.com/">Cogilex R&amp;D inc</a> - Makers of expert tools for natural language processing</li>
<li><a href="http://www.comp.lancs.ac.uk/ucrel/claws/">CLAWS part-of-speech tagger</a></li>
<li><a href="http://www.coli.uni-sb.de/~thorsten/tnt/">TnT - Statistical Part-of-Speech Tagging</a></li>
<li><a href="http://elvira.lllf.uam.es/~fernando/projects/esT.html">POS tagger for Spanish</a></li>
<li><a href="http://www.ling.gu.se/~nivre/kurser/wwwstat/toolsTP.html">Tagging and Parsing tools</a></li>
<li><a href="http://www.phon.ucl.ac.uk/home/alex/project/tagging/tagging.htm">AUTASYS - A Fully Automatic English Wordclass Analysis System</a></li>
<li><a href="ftp://lands.let.kun.nl/pub/tosca/tlbtag/">TOSCA/LOB tagger</a></li>
<li><a href="http://www.lsi.upc.es/~padro/angles/recerca.html">Relaxation Labelling Based Multi-Tagger</a></li>
<li><a href="http://www-clg.bham.ac.uk/QTAG/">The QTAG Part of Speech Tagger</a></li>
<li><a href="http://www-clg.bham.ac.uk/oliver/java/qtag/">QTAG: A portable Parts of Speech Tagger</a></li>
<li><a href="http://www.cl.cam.ac.uk/Research/NL/anlt.html">The Alvey Natural Language Tools</a></li>
<li><a href="http://www.cis.upenn.edu/~xtag/">The XTAG Project</a></li>
<li><a href="http://www.ims.uni-stuttgart.de/Tools/DecisionTreeTagger.html">TreeTagger - a language independent part-of-speech tagger</a></li>
<li><a href="ftp://ftp.parc.xerox.com/pub/tagger/">Xerox Part-of-Speech Tagger</a></li>
<li><a href="ftp://scott.cogsci.ed.ac.uk/pub/phonology/tools/MAP/">The Edinburgh/Cambridge Morphological Analyser System</a></li>
<li><a href="http://jupiter.inalf.cnrs.fr/WinBrill/">Winbrill</a> - An adaptation of Brill&#8217;s tagger to Windows 95/98.</li>
<li><a href="http://www.cs.jhu.edu/~brill/code.html">Eric Brill&#8217;s Part of Speech Tagger</a></li>
<li><a href="http://www2d.biglobe.ne.jp/~htakashi/software/BRILL_E.HTM">Software Plaza: Brill&#8217;s Tagger</a></li>
<li><a href="http://www-psycho.uni-paderborn.de/lezius/">Morphy</a> - An integrated tool for German morphology and statistical part-of-speech tagging.</li>
<li><a href="http://hanul.kaist.ac.kr/~bgjang/MoA/">Korean Morphological Analyzer</a></li>
<li><a href="http://www-lab25.kuee.kyoto-u.ac.jp/nltools/">Natural Language Tools</a> - Japanese morphological analyzer (JUMAN) and parser (KNP) developed by Nagao Lab. at Kyoto University, Japan.</li>
<li>WordSmith Tools - Wordsmith Tools is the Swiss Army knife of lexical analysis - an integrated suite of programs for looking at how words behave in texts. It is intended for linguists, language teachers, and anyone who needs to examine language.
<ul>
<li><a href="http://www.liv.ac.uk/~ms2928/homepage.html">Mike Scott&#8217;s Home Page</a></li>
<li><a href="http://www1.oup.co.uk/cite/oup/elt/software/wsmith/">Oxford University Press</a></li>
</ul>
</li>
<li><a href="http://www.w3.org/MarkUp/SGML/sgml-lex/sgml-lex">A Lexical Analyzer for HTML and Basic SGML</a></li>
<li><a href="http://www.mat.upm.es/~aries/">ARIES Natural Language Tools</a> - Lexical platform for the Spanish language.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Stemmer</font></h2>
<ul>
<li><a href="http://www.cs.jhu.edu/~weiss/stem.c">Porter stemmer</a></li>
<li><a href="http://www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/porter.c">Porter stemmer</a></li>
<li><a href="http://wwwots.let.ruu.nl/~uplift/dstem.tar.gz">Dutch Porter stemmer</a></li>
<li><a href="http://ils.unc.edu/iris/irisnstem.htm">IRIS stemmer</a></li>
<li><a href="ftp://n106.is.tokushima-u.ac.jp/pub/IR/Iterated-Lovins-stemmer">Iterated Lovins stemmer</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Collocation</font></h2>
<ul>
<li><a href="http://www.cs.columbia.edu/nlp/licenses/xtractLicenseDownload.html">Xtract</a> - Frank Smadja&#8217;s Collocation Extractor.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Parser</font></h2>
<ul>
<li><a href="http://www.linguistik.uni-erlangen.de/Malaga.en.html">Malaga - a system for automatic language analysis</a></li>
<li><a href="http://macduff.andrew.cmu.edu/ale/">Attribute-Logic Engine (ALE) System and Grammars</a> - A freeware logic programming and grammar parsing system.</li>
<li><a href="http://macduff.andrew.cmu.edu/cgparser/index.html">CG Parser</a> - Natural deduction categorial grammar and lambda-calculus parser.</li>
<li><a href="http://www.let.rug.nl/~vannoord/CL97/index.html">Head-Corner Parser</a> (by Gertjan van Noord)</li>
<li><a href="ftp://ftp.cs.rochester.edu/pub/u/james/CourseParser1.2.tar.gz">A basic parser written to illustrate the bottom up parsing algorithms in Natural Language Understanding, Second Edition</a></li>
<li><a href="http://www.sfs.nphil.uni-tuebingen.de/~abney/">Cass Partial Parser</a></li>
<li><a href="http://www.cs.utexas.edu/users/ml/chill.html">CHILL: An empirical parser acquisition system using inductive logic programming</a></li>
<li><a href="http://issco-www.unige.ch/tools/">ISSCO Tools</a> - Left-head-corner Island Parser Compiler, etc.</li>
<li><a href="http://www.georgetown.edu/compling/">Georgetown University Natural Language Processing<br />
Parser Modularity Demo page</a></li>
<li><a href="http://sil.org/pcpatr/">PC-PATR: A syntactic parser</a></li>
<li><a href="http://www.ims.uni-stuttgart.de/cuf/">IMS Stuttgart: The CUF Web Page</a> - Comprehensive Unification Formalism</li>
<li><a href="http://cs.nyu.edu/cs/projects/proteus/app/">Apple Pie Parser</a> - The Apple Pie Parser is a bottom-up probabilistic chart parser which finds the parse tree with the best score by best-first search algorithm.</li>
<li><a href="http://bobo.link.cs.cmu.edu/grammar/html/intro.html">Link Grammar Parser</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Corpus Tools</font></h2>
<ul>
<li><a href="http://webcorp.connect.org.uk/">WebCorp</a></li>
<li><a href="http://www.nsknet.or.jp/~peterr-s/concordancing/concordancing.html">Concordances: Producing and Using them</a></li>
<li><a href="http://www.cs.vassar.edu/XCES/">XCES: Corpus Encoding Standard for XML</a></li>
<li><a href="http://www.dai.ed.ac.uk/staff/personal_pages/micko/RSTTool/Manual.html">RST Tool</a> - An RST (Rhetorical Structure Theory) Markup Tool.</li>
<li><a href="http://www.isi.edu/~marcu/software.html">RST Annotation Tool</a></li>
<li><a href="http://www.clg.bham.ac.uk/QWICK/index.html">Qwick</a> - corpus browser</li>
<li><a href="http://www.ldc.upenn.edu/annotation/">Linguistic Annotation</a> - This page describes tools and formats for creating and managing linguistic annotations.</li>
<li><a href="http://www.mitre.org/technology/alembic-workbench/">Alembic Workbench</a> - a suite of tools for the analysis of a corpus, along with the Alembic system to enable the automatic acquisition of domain-specific tagging heuristics.</li>
<li><a href="http://www.mcs.surrey.ac.uk/SystemQ/">The System Quirk</a> - Workbench for Terminology, Lexicography and Text Analysis.</li>
<li><a href="http://www.lpl.univ-aix.fr/projects/multext/">Multext: Multilingual Text Tools and Corpora</a></li>
<li><a href="http://www.loria.fr/Projet/XCorpus/">XCorpus</a> - An Environment for Managing Corpus and Multilingual Web Server</li>
<li><a href="http://www2.ims.uni-stuttgart.de/~oli/CorpusToolbox/">The IMS Corpus Toolbox Webpage</a><br />
<a href="http://www.ims.uni-stuttgart.de/CorpusToolbox/">X</a></li>
<li><a href="http://www2d.meshnet.or.jp/~htakashi/">Kobe Phoenix Laboratory</a> - Corpus Wizard program.</li>
<li><a href="http://www.rjcw.freeserve.co.uk/">Concordance</a> - A program for Windows NT 4.0 and Windows 95/98 which makes wordlists, concordances, and Web Concordances from your electronic texts.</li>
<li><a href="http://www.athel.com/mono.html">MonoConc</a> (concordance program)</li>
<li><a href="http://www.nol.net/~athel/mono.html">MonoConc for Windows</a> (concordance program)</li>
<li><a href="http://www.epas.utoronto.ca:8080/cch/tact.html">Text Analysis Computing Tools (TACT)</a></li>
<li><a href="http://prune.loria.fr/~bonhomme/lingua/">The Lingua Project: The World of MultiLingual Parallel Concordancing</a><br />
(http://prune.loria.fr/~bonhomme/lingua/)<br />
- Sentences alignment tool in multilingual corpora.</li>
<li><a href="http://www.loria.fr/exterieur/equipe/dialogue/lingua/">The Lingua Project: The World of MultiLingual Parallel Concordancing</a><br />
(http://www.loria.fr/exterieur/equipe/dialogue/lingua/)</li>
<li><a href="http://www.ims.uni-stuttgart.de/projekte/TC.html">Textual Corpora and Tools for their Exploration</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Language Modeling</font></h2>
<ul>
<li><a href="http://wwwhome.cs.utwente.nl/~terdoest/mem/">Maximum Entropy Modeling</a></li>
<li><a href="http://www.cs.princeton.edu/~ristad/papers/memt.html">Maximum Entropy Modeling Toolkit</a></li>
<li><a href="http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html">CMU-Cambridge Statistical Language Modeling Toolkit</a></li>
<li><a href="http://www.speech.cs.cmu.edu/speech/SLM_info.html">CMU Statistical Language Modeling Toolkit</a> by <a href="http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/WWW/">Roni Rosenfeld</a>
<ul>
<li><a href="ftp://ftp.cs.cmu.edu/project/fgdata/CMU_SLM_Toolkit_V1.0_release.tar.Z">Program</a></li>
<li><a href="http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/WWW/toolkit-SLT95-revised.ps">Document</a></li>
</ul>
</li>
<li><a href="http://www.cs.cmu.edu/~aberger/software.html">Trigger Toolkit</a></li>
<li><a href="ftp://ftp.cogs.susx.ac.uk/pub/users/geoffs/SGT.c">Simple Good-Turing Smoothing</a></li>
<li><a href="ftp://ftp.eecs.harvard.edu/users/goodman/smooth/">Smoothing tools software by Joshua Goodman and Stanley Chen</a></li>
<li><a href="http://www.ling.gu.se/~nivre/kurser/wwwstat/tools.html">Language modeling tools</a></li>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/decision_tree/index.html">Statistical Decision Trees</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">HMM</font></h2>
<ul>
<li><a href="http://popper.massey.ac.nz/~ARaman/hmm+pfsa.tar.gz">A HMM mini-toolkit</a> (by Anand Venkataraman)</li>
<li><a href="http://www.cfar.umd.edu/~kanungo/software/software.html">HMM Software</a><br />
see also: <a href="http://www.umiacs.umd.edu/users/resnik/nlstat_tutorial_summer1998/Lab_hmm.html">Exercise: Using a Hidden Markov Model</a></li>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/discrete_hmm/index.html">Discrete HMM Toolkit</a></li>
<li><a href="http://www.cs.berkeley.edu/~murphyk/Bayes/hmm.html">Hidden Markov Model (HMM) Toolbox</a></li>
<li><a href="http://metameme.sdsc.edu/">Meta-MEME: Motif-based Hidden Markov Models of Biological Sequences</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Language Identification</font></h2>
<ul>
<li><a href="ftp://crl.nmsu.edu/pub/misc/lingdet_suite.tar.gz">Ted E. Dunning&#8217;s program</a></li>
<li><a href="http://grid.let.rug.nl/~vannoord/TextCat/">Gertjan van Noord&#8217;s program</a></li>
<li><a href="http://www.link.cs.cmu.edu/dougb/src/li/">Doug Beeferman&#8217;s program</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">FSA Tools</font></h2>
<ul>
<li><a href="http://www.pg.gda.pl/elka/csapp/jd/fsa.html">Finite State Utilities</a></li>
<li><a href="http://cs.cornell.edu/Info/People/zully/csfair/index.html">Automata Learning from Theory to Practice</a>
<ul>
<li><a href="http://cs.cornell.edu/Info/People/zully/csfair/CODE/mycode.html">Downloadable Software</a></li>
</ul>
</li>
<li><a href="http://www.csd.uwo.ca/research/grail/links.html">Index to finite-state machine software, products, and projects</a></li>
<li><a href="http://www.let.rug.nl/~vannoord/FSA/fsa.html">FSA utilities</a>
<ul>
<li><a href="http://www.let.rug.nl/~vannoord/papers/fsa/fsa.html">FSA Utilities: A Toolbox to Manipulate Finite-state Automata</a></li>
</ul>
</li>
<li><a href="http://www.csd.uwo.ca/research/grail/">Grail</a> - a symbolic computation environment for finite-state machines, regular expressions, and other formal language theory objects.</li>
<li><a href="http://www.informatik.uni-kiel.de/inf/Thomas/amore.html">AMoRE</a> - A program for the computation of Automata, Monoids, and Regular Expressions.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Speech</font></h2>
<ul>
<li><a href="http://htk.eng.cam.ac.uk/">HTK: Hidden Markov Model Toolkit</a></li>
<li><a href="http://cslu.cse.ogi.edu/toolkit/">CSLU Toolkit</a></li>
<li><a href="http://epos.ure.cas.cz/">The Epos Speech Synthesis System</a></li>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/index.html">ISIP public domain speech to text system</a>
<ul>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/asr/index.html">The ISIP Automatic Speech Recognition Toolkit</a></li>
</ul>
</li>
<li><a href="http://cslu.cse.ogi.edu/toolkit/">CSLU Toolkit</a> (Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology)</li>
<li><a href="http://www.cs.rice.edu/~andras/ekezes.html">Computer generation of accent marks</a></li>
<li><a href="http://www.itl.nist.gov/div894/894.01/software.htm">Spoken Natural Language Processing Group Software</a></li>
<li><a href="http://www.cs.cmu.edu/afs/cs/user/lindaq/mosaic/era.tar.gz">CMU Error Analysis Toolkit</a></li>
<li><a href="ftp://multimedia.cc.gatech.edu/pub/audiotools/README.html">Audio Tools</a></li>
<li><a href="http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html">VOICEBOX: Speech Processing Toolbox for MATLAB</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Mathematical Software</font></h2>
<ul>
<li><a href="http://math.nist.gov/">NIST Guide to Available Mathematical Software</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Statistics</font></h2>
<ul>
<li><a href="http://www.mrc-bsu.cam.ac.uk/bugs/Welcome.html">Bayesian inference Using Gibbs Sampling</a></li>
<li><a href="http://www.math.auc.dk/~jhb/CoCo/cocoinfo.html">CoCo</a> - A statistics package for analysis of associations between discrete variables.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Machine Learning</font></h2>
<ul>
<li><a href="ftp://ftp.gmd.de/MachineLearning/MLT/">Machine Learning Toolbox (MLT)</a></li>
<li><a href="ftp://ftp.ics.uci.edu/pub/machine-learning-programs/">The Machine Learning Programs Repository</a></li>
<li><a href="http://www.research.att.com/~wcohen/ripperd.html">The RIPPER rule learner</a></li>
<li><a href="http://www.gmd.de/ml-archive/ILP/public/software/mfoil">mFOIL</a> - An ILP systems designed to handle noisy examples.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Support Vector Machine</font></h2>
<ul>
<li><a href="http://www-ai.cs.uni-dortmund.de/SOFTWARE/SVM_LIGHT/svm_light.eng.html">SVMLight</a></li>
<li><a href="http://www.cs.columbia.edu/~bgrundy/svm/doc/svm.html">SVM package by William Noble Grundy</a></li>
<li><a href="http://www.kernel-machines.org/software.html">Kernel Machines Web Site</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Information Retrieval &amp; Filtering</font></h2>
<ul>
<li><a href="http://www.cs.mu.oz.au/~oldk/seft/">seft - a Search Engine For Text</a></li>
<li><a href="http://www.mds.rmit.edu.au/mg/">MG</a> - Managing Gigabytes</li>
<li><a href="http://www.etymon.com/Isearch/">Isearch</a> - software for indexing and searching text documents.</li>
<li><a href="ftp://ftp.cs.cornell.edu/pub/smart/">SMART Software and test collections</a> (Cornell University)
<ul>
<li><a href="http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/IR.html#SMART">see also SMART links</a></li>
</ul>
</li>
<li><a href="http://www.glue.umd.edu/~oard/software.html">Doug Oard&#8217;s Research Software Page</a> - SMART Modifications</li>
<li><a href="http://www.cs.cmu.edu/~mccallum/bow/">Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering</a></li>
<li><a href="http://www.cs.cmu.edu/~jr6b/ifile/">ifile</a> - A general mail filtering system.</li>
<li><a href="http://www.csd.uwo.ca/~jamie/publications.html#IRSP">IR-STAT-PAK</a> - A program to compute descriptive and analytic statistics for the TREC IR trials.</li>
<li><a href="ftp://beryl.ils.unc.edu/pub/Yavi/">Yavi</a> - A visual interface to textual information.</li>
<li><a href="http://www.cs.cmu.edu/~kseymore/ie.html">Labeled data sets for information extraction</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">String/Pattern Matching</font></h2>
<ul>
<li><a href="http://www.dcc.uchile.cl/~gnavarro/pubcode/">Online Approximate String Matching</a></li>
<li><a href="http://www.cs.ucdavis.edu/~gusfield/strmat.html">Strmat package</a> (exact string matching and suffix trees)</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Sentence Boundary Detector</font></h2>
<ul>
<li><a href="http://galaxy.cs.berkeley.edu/src/satz/">SATZ: An Adaptive Sentence Boundary Detector</a></li>
<li><a href="ftp://ftp.cis.upenn.edu/pub/adwait/jmx/">Adwait Ratnaparkhi&#8217;s MXTERMINATOR</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Clustering/Classification</font></h2>
<ul>
<li><a href="http://fuzzy.cs.uni-magdeburg.de/fcluster/">FCLUSTER - A tool for fuzzy cluster analysis</a></li>
<li><a href="http://www.ll.mit.edu/IST/lnknet/index.html">LNKnet Pattern Classification Software</a></li>
<li><a href="http://www-users.cs.umn.edu/~boley/Distribution/PDDP.html">Principal Direction Divisive Partitioning</a></li>
<li><a href="http://www.cs.cmu.edu/~dellaert/software/">k-means clustering</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">WWW</font></h2>
<ul>
<li><a href="http://www.math.uio.no/~janl/w3mir/">w3mir</a> - HTTP copying and mirroring tool.</li>
<li><a href="http://httrack.free.fr/">HTTrack</a> - The Web mirror utility.</li>
<li><a href="http://softseek.zdnet.com/Internet/Web_Publishing_Tools/HTML_Conversion/">HTML Conversion, Shareware and Freeware</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Other Tools</font></h2>
<ul>
<li><a href="http://services.canoo.com/MorphologyBrowser.html">German Morphology Browser</a> (online service)</li>
<li><a href="http://www.itl.atr.co.jp/mat2D/mat2D.html">&#8216;mat2D&#8217; Matrix/Vector Library in C</a></li>
<li><a href="http://www.gsu.edu/~wwwcom/content.html">Content Analysis Resources</a> - for quantitative analyses of texts, transcripts, and images.</li>
<li><a href="http://l2r.cs.uiuc.edu/~cogcomp/">SNoW learning program</a></li>
<li><a href="http://www.ling.gu.se/~lager/mutbl.html">The µ-TBL Homepage</a> - Logic Programming Tools for Transformation-Based Learning</li>
<li><a href="http://root.cern.ch/">ROOT: An Object-Oriented Data Analysis Framework</a></li>
<li><a href="http://www.soc.surrey.ac.uk/caqdas/">CAQDAS Networking Project</a> - Computer Assisted Qualitative Data Analysis Software</li>
<li><a href="http://cm.bell-labs.com/cm/cs/who/doug/ssort.c">Suffix sort</a></li>
<li><a href="http://sls-www.lcs.mit.edu/~flammia/Nb.html">Nb</a> - a graphical user interface for annotating the discourse structure of spoken dialogue, monologue, and text.</li>
<li><a href="http://www.dcs.shef.ac.uk/research/groups/nlp/gate/">GATE</a> - General Architecture for Text Engeneering.</li>
<li><a href="http://ilk.kub.nl/software.html">TiMBL: Tilburg Memory Based Learner</a></li>
<li><a href="http://www.lpl.univ-aix.fr/projects/multext/MtRecode/">MtRecode</a> - The Multext character translation program</li>
<li><a href="http://cs.nyu.edu/cs/projects/proteus/evalb/">Evalb</a> - A bracket scoring program. It reports precision, recall, non crossing and tagging accuracy for given data.</li>
<li><a href="http://www.cs.jhu.edu/~murthy/announce.html">The OC1 decision tree software system</a></li>
<li><a href="http://ic-www.arc.nasa.gov/ic/projects/bayes-group/group/ind/IND-program.html">IND Version 2.0 - creation and manipulation of decision trees from data</a></li>
<li><a href="http://pi0959.kub.nl:2080/Paai/Publiek/index.html">Paai&#8217;s text utilities</a></li>
<li><a href="http://www.sil.org/computing/shoebox.html">Shoebox 3.0 for Windows and Macintosh</a> - A database program oriented to the needs of a field linguist&#8217;s dictionary.</li>
<li><a href="http://www.ltg.hcrc.ed.ac.uk/projects/ledtools/statistical/">Teaching materials for statistical NLP</a> by Chris Brew, Language Technology Group, Human Communication Research Centre, University of Edinburgh</li>
<li><a href="http://www.amu.edu.pl/~sipkadan/nt.htm">Introducing environmentalism and post-fordism into NLP</a> (NeuroTran)</li>
<li><a href="http://psych.ut.ee/gling/en/">Tools for Estonian Language</a></li>
<li><a href="http://www.cis.upenn.edu/~melamed/home.html">Dan Melamed&#8217;s Page</a> - Simulated Annealing Program, XTAG morpholyzer post-processors for English Stemming, Good-Turing Smoothing Software, 150 miscellaneous text processing tools, 75 text statistics and bitext geometry tools.</li>
<li><a href="http://www.uninova.pt/~tr/home/tooldiag.html">TOOLDIAG: Pattern recognition toolbox</a></li>
<li><a href="http://www.pins.co.uk/upages/probertm/dn2.htm">The DN2 Home Page</a> - DN2 is an intelligent self-relating free format database system which accepts data in human text format, and retrieves it in response to human requests, like Where is London?</li>
<li><a href="http://www.ph.tn.tudelft.nl/PRInfo/software/maillist.html">Software Announcements</a></li>
<li><a href="http://www.cis.upenn.edu/~josephr/Trees/">Tools for drawing and graphically editing trees</a></li>
<li><a href="http://www.vuw.ac.nz/lals/software.htm">Paul Nation&#8217;s vocabulary programs</a></li>
<li><a href="ftp://ludwig.pharm.uic.edu/pub/predict-syllables.lisp">syllable prediction code</a> (a simple lisp function)</li>
<li><a href="http://www.ii.uib.no/~inge/Pratt.html">Pratt - a pattern discovery tool</a></li>
<li><a href="http://www.research.att.com/areas/stat/xgobi/index.html">XGobi</a> - A system for multivariate data visualization.</li>
<li><a href="http://www.neci.nj.nec.com/homepages/flake/nodelib/html/">NODElib</a> - Neural Optimization Development Engine library</li>
</ul>
<p><!------------------------------------------------------------------------><!---------- END ----------></p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/38/" rel="bookmark" title="Permanent Link: Natural language processing" >Natural language processing</a></span><div class="aizattos_related_posts_excerpt">Natural language processing Natural language processing (NLP) is a subfield of artificial intelligen...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/29/" rel="bookmark" title="Permanent Link: THE MEANING AND FUTURE OF THE SEMANTIC WEB" >THE MEANING AND FUTURE OF THE SEMANTIC WEB</a></span><div class="aizattos_related_posts_excerpt">
LIFEBOAT FOUNDATION SPECIAL REPORT
MINDING THE PLANET: THE MEANING AND FUTURE OF THE SEMANTIC WEB...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/30/" rel="bookmark" title="Permanent Link: A Web That Thinks Like You" >A Web That Thinks Like You</a></span><div class="aizattos_related_posts_excerpt">A Web That Thinks Like You
"Semantic Web" software from startup Radar Networks could help transform...</div></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=36</wfw:commentRss>
		</item>
		<item>
		<title>关于语义网和myWeb</title>
		<link>http://www.sw-china.org/index.php/p/35/</link>
		<comments>http://www.sw-china.org/index.php/p/35/#comments</comments>
		<pubDate>Sun, 29 Jul 2007 19:57:30 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[讨论研究]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/35</guid>
		<description><![CDATA[关于语义网和myWeb
回家的路上, 一直在苦思冥想一件事, 隐隐约约的, 有一件事情正在浮现, 但是又没有完全想通, 让人烦躁不安, 思路混乱.
这个问题是关于Semantic Web的, 起因是我的myWeb(monWeb.cn mon 是法语my的意思)项目, 但是那件事情又好像已经脱离了Semantic Web.
最早了解SW的时候, 是因为要用RDF描述资源的元信息.
了解SW的人都知道, SW好称是万维网的未来.
为什么呢?因为语义?
什么是语义? 语言通常对应&#8221;动作&#8221;
了解编译原理的朋友知道, 程序之所以能被编译运行, 就是因为它不但有语法, 而且有语义.
语法规定了&#8221;动作&#8221;的表达形式, 语义告诉机器实际要做的事情.
网络内容为什么要有语义?
因为web系统之间有沟通的需要, 比如RSS. 机器需要能读懂web内容.
那xml不就够了?
第一, xml比RDF或者语义网更底层, 就像语法和语义的关系.
第二, xml可以表达任何数据结构, 但是它不能简单的表达数据的语义.比如一段xml
&#60;personal name=&#8221;john&#8221;&#62;
&#60;fisrName&#62;john&#60;/firstName&#62;
&#60;LastName&#62;Lee&#60;/LastName&#62;
&#60;/personal&#62;
这段xml只能被唯一的程序读懂, 因为写程序的程序员知道它的含义, 所以程序才知道它的含义.
但是其他的系统更本不知道firstName是什么东西.
而RDF和OWL等语义网技术就是来描述这段xml的语义的, 当它被机器理解了, 也就是知道什么是firstName了, 机器就可以符合它的语义使用这段信息, 比如
给他发送email让他注册网站等等.
现在看RDF和OWL如何让机器知道firstName的含义.
首先, 你知道什么firstName吗? firstName不就是名吗?那什么是名?名就是人的名字中除姓以外的另一部分.那什么是人什么是姓&#8230;
人是怎么理解一个词汇的. 就像我上一篇关于SW的BLOG中写的, 人归根到底是用感观解释词汇的. 感观是人脑中的编译器的终结符.
当推理到这个终结符, 就无法在推理了.
机器理解语义网的方式也是如此, 使用OWL推理, 直到不能再推.
但这种方式在目前是做不到的.语义网远没有推动到这个地步.
所以, 在看来, 搜索引擎, tag, wiki, rss, web2.0等等最近5年的新技术, 几乎都同时推动了一件事:
增加数据之间的关系, 也就是语义.
因为语义是推理得来的, 什么是推理, 就是两个数据之间的一种关系.
现在, 当你在使用一个keyword搜索到了无数的网页时, 这个keyword已经成为这些网页在某种程度上的一个解释, 或者说是语义, 或者说是推理.
现在你可以问网络一个问题, [...]]]></description>
			<content:encoded><![CDATA[<h4 style="margin-bottom: 0px" id="subjcns!7F995D6820C9C89C!1807" class="TextColor1">关于语义网和myWeb</h4>
<p id="msgcns!7F995D6820C9C89C!1807" class="bvMsg">回家的路上, 一直在苦思冥想一件事, 隐隐约约的, 有一件事情正在浮现, 但是又没有完全想通, 让人烦躁不安, 思路混乱.</p>
<p>这个问题是关于Semantic Web的, 起因是我的myWeb(monWeb.cn mon 是法语my的意思)项目, 但是那件事情又好像已经脱离了Semantic Web.</p>
<p>最早了解SW的时候, 是因为要用RDF描述资源的元信息.</p>
<p>了解SW的人都知道, SW好称是万维网的未来.<br />
为什么呢?因为语义?</p>
<p>什么是语义? 语言通常对应&#8221;动作&#8221;<br />
了解编译原理的朋友知道, 程序之所以能被编译运行, 就是因为它不但有语法, 而且有语义.<br />
语法规定了&#8221;动作&#8221;的表达形式, 语义告诉机器实际要做的事情.</p>
<p>网络内容为什么要有语义?<br />
因为web系统之间有沟通的需要, 比如RSS. 机器需要能读懂web内容.<br />
那xml不就够了?<br />
第一, xml比RDF或者语义网更底层, 就像语法和语义的关系.<br />
第二, xml可以表达任何数据结构, 但是它不能简单的表达数据的语义.比如一段xml<br />
&lt;personal name=&#8221;john&#8221;&gt;<br />
&lt;fisrName&gt;john&lt;/firstName&gt;<br />
&lt;LastName&gt;Lee&lt;/LastName&gt;<br />
&lt;/personal&gt;<br />
这段xml只能被唯一的程序读懂, 因为写程序的程序员知道它的含义, 所以程序才知道它的含义.<br />
但是其他的系统更本不知道firstName是什么东西.<br />
而RDF和OWL等语义网技术就是来描述这段xml的语义的, 当它被机器理解了, 也就是知道什么是firstName了, 机器就可以符合它的语义使用这段信息, 比如<br />
给他发送email让他注册网站等等.</p>
<p>现在看RDF和OWL如何让机器知道firstName的含义.<br />
首先, 你知道什么firstName吗? firstName不就是名吗?那什么是名?名就是人的名字中除姓以外的另一部分.那什么是人什么是姓&#8230;<br />
人是怎么理解一个词汇的. 就像我上一篇关于SW的BLOG中写的, 人归根到底是用感观解释词汇的. 感观是人脑中的编译器的终结符.<br />
当推理到这个终结符, 就无法在推理了.<br />
机器理解语义网的方式也是如此, 使用OWL推理, 直到不能再推.<br />
但这种方式在目前是做不到的.语义网远没有推动到这个地步.</p>
<p>所以, 在看来, 搜索引擎, tag, wiki, rss, web2.0等等最近5年的新技术, 几乎都同时推动了一件事:<br />
增加数据之间的关系, 也就是语义.<br />
因为语义是推理得来的, 什么是推理, 就是两个数据之间的一种关系.</p>
<p>现在, 当你在使用一个keyword搜索到了无数的网页时, 这个keyword已经成为这些网页在某种程度上的一个解释, 或者说是语义, 或者说是推理.</p>
<p>现在你可以问网络一个问题, 他会给你答案, 只是答案太多,而且未必正确, 未必精确. 这不说明机器越来越具有理解力了吗?</p>
<p>我还没想明白的是, 我们了解了web的将来, 了解了这两年的新技术都在潜移默化的向这一未来方向发展, 那myWeb是不是可以成为一个全新推进这一反展趋势的力量. 但究竟是什么力量呢?</p>
<p>既然我们可以搜集所有用户对他收藏的web资源的元数据, 那是不是可以成为传统web到SW的翻译者, portal, 或者网关. 所有经过myWeb的数据, 都将被用户赋予语义.<br />
所用通过myWeb进行的搜索, 都将是有语义的, 从而变的更精确更生动.<br />
但是这太模糊, 究竟如何能做到, 究竟有没有意义, 实在是不能彻底想清楚.</p>
<p>另外， 现在tag是人为加上去的，未来的tag应该是由机器自动分析出来的。未来有可能是语义网，也有可能是更智能的NLP(natrual language process), 总而言之，计算会越来越智能，可以根据上下理解人类的语言， 并做推理， 学习。。。</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=35</wfw:commentRss>
		</item>
		<item>
		<title>语义网本体论:可以做什么，不能做什么</title>
		<link>http://www.sw-china.org/index.php/p/34/</link>
		<comments>http://www.sw-china.org/index.php/p/34/#comments</comments>
		<pubDate>Sun, 29 Jul 2007 19:46:21 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[语义网入门]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/34</guid>
		<description><![CDATA[ 语义网本体论:可以做什么，不能做什么
这分别有四个挑战。首先是鸡和鸡蛋问题:我们怎样建立这些信息, 因为除非一方面是你获得了信息你才能建立工具, 另一方面是除非你有工具你才能把信息放入其中。我的朋友刚刚问我，能否把网络上所有的URLs（包括dot-RDF, dot-OWL和两者的附加部分）都寄给他，因为他不能发现全部的部分。我看了一下, 并且结果显示那里只有20万上下，这大概是网络的0.005%。我们需要有一种方式去解决它。
下一个问题是有关本体论的竞争 。每个人都用不同的方式看待它。如果你有一些工具来测量它，我们将看见它的范围有多广。 然后是Cyc 问题, 这是背景知识和垃圾的问题。这是我每天必须面对的问题。如同你离开了实验室，进入现实的世界,有金钱利益的人会设法打败你。
所以鸡和鸡蛋的问题，那就是“在这类语义技术里有什么令人感兴趣的信息, 并且其他信息在哪里?”它结果显示，大多数有用的信息仍然是在文本里。我们关注的是你是怎样把它从文本中提取出来的。这里有一个小的演示叫IO 结。你可以键入一个自然语言问题,然后它会从文本中取出文档，并取出语义实体。并且你会看见, 这并不是相当完善的——比如不能解决好拼写问题。但这一切都是自动完成的,所以没有做把信息放到正确的位置上这样的工作。
总之,语义技术看起来对定义图解似乎有好处, 但另一方面什么应该进入图解呢。为了做到它，还需要加倍努力。
这是另一个例子。 这是昨晚的Google 新闻页, 我们在这里应用了汇集（clustering）技术，把新闻分门别类地集合在一起, 所以你看到首条新闻是关于布莱尔的,并且有658个相关新闻我们把它们汇集到了一起。
现在想象一下，如果不使用我们的算法（这些新闻是从新闻提供商那里获得的），而是按照他们想要的方式放置所有的元数据（metadata）和标签。“我的故事会被埋没在20页呢,还是头条新闻？我将放入自己的元数据。我谈论的那些人是恐怖分子还是自由战士? 什么是爱国者的定义? 什么是婚姻的定义?”
当你谈论这些政治问题而不是关于部分的数字时，你正是在为这类的本体论下定义; 这会成为一个政治声明。人们也许会惹来杀身之祸。这些是本体论不被运作的地方，会在它们的身上产生争议。并且你不得不转而依靠其它的方法。
本体论运作的最佳地点是，当你具有消费者的特权时，比如可以迫使服务提供者为你服务。比如汽车零件产业,汽车制造厂在那儿聚会说, “每一个想要卖给我们的人就做这个。”他们能做到如此，因为他们的数量很少。在其它产业, 如果有一个主要“运动员”,因为他们不想被其他人赶上，然后就想不参与比赛了。如果有许多个较小“运动员”, 就很难将它们组织到一起了。
语义技术为根本上打碎信息成为分散状态是有好处的。但根本上你仔细考虑的只是在尖括号（注:指代&#60;&#62;）之间的一部分。并且我们的创建者之一Sergey Brin,曾说过这样的话, “把东西放入尖括号的不是技术本身。”问题是什么应该进入尖括号。你能说, “很好, 我的数据库有一个人名字的字段,而你的数据库有一个姓字段和一个名字段,我们就将有在它们之间找到匹配的一种联系了。”但这并不总那么有效。
这有一个近几天在google公司值得思考的问题的例子，就是我们的“拼写改正”功能都是按照一种规范形式建立的。这是我们被询问最多的问题之一, 并且一个星期中有4,000 种不同的拼写变异在发展。某人想做这种规范。所以理解文本的问题就消失了，它在尖括号之间被强迫分解成更小的片断。因此这就是拼写改正的问题；有翻译问题，譬如把阿拉伯语翻译成一个罗马字母；有简称的问题：HP和Hewlett Packard 、惠普, 等等；还有同名的问题：迈克尔・乔丹是篮球运动员,CEO,还是伯克利教授。
让我们现在考虑背景知识的问题。Cyc 项目试图在一个字典里定义所有知识, 一种 Dublin Core类型的事,然后找到在字典或百科全书中没有的、但我们依旧需要的材料。Lenat 和Guha说那里是浩瀚知识的仓库,你很少会谈论, 比如“水向下流动”和“生命物质得了疾病”。
我认为我们能设法做如此大的一个项目。然后我决定把它简化一点——仅仅在它附近放入引用标签和键入它。所以当我键入“水向下流动”，我得到了1,200条结果。第一条结果说, “这是幼儿园老师Emily的教学计划。”它实际上解释了水为什么会流下来, 并且这是你在百科全书中找不到的。这里的结论是Lenat99.999993%正确, 因为43亿个案例中只有1200个实际上讨论了水向下流动。但那足够了, 并且你能从中继续进行查找。你能使用网络投票,你还可以说水泵可以提升水流，但那只发生了275次, 因此向下流动胜利了——1200次对275次。
实际上，我们在这儿做的，就是使用未受训练的大量的人力，你不必支付就可以完成所有的工作, 与其相对的是，经过训练的人使用明确定义的形式和以那种形式书写文本, 让我们就去使用已经是那里的材料吧。我尽力思考“非熟练劳动”的成果，设法把它用于对大量大数据的用途使用统计技术,并且通过在你自己那里过滤, 而不是完全遵从你的定义。
最后一个问题是垃圾信息。当你在实验室里并且定义了你的本体论, 一切看起来是好而整洁的。 但你一旦把它释放在网络世界中, 你会发现怎么有那么多不正直的人呢。这是例子:它看起来象两页。这实际上是一页。在左边的页面是Googlebot(Google 的网页检索漫游器)看见的, 右面的页面是通过其他用户代理看见的。这网站当它一旦看见Googlebot.com, 它显示的页面使得我们更匹配它,而当一名普通用户来浏览时, 它就显示想显示的页面。
这表明：第一, 我们有很多工作要做，来应付这种事, 而且你无法信任元数据。你无法确信人们将要说什么。总之, [...]]]></description>
			<content:encoded><![CDATA[<p> <a href="http://chn.blogbeta.com/64.html">语义网本体论:可以做什么，不能做什么</a></p>
<p>这分别有四个挑战。首先是鸡和鸡蛋问题:我们怎样建立这些信息, 因为除非一方面是你获得了信息你才能建立工具, 另一方面是除非你有工具你才能把信息放入其中。我的朋友刚刚问我，能否把网络上所有的URLs（包括dot-RDF, dot-OWL和两者的附加部分）都寄给他，因为他不能发现全部的部分。我看了一下, 并且结果显示那里只有20万上下，这大概是网络的0.005%。我们需要有一种方式去解决它。</p>
<p>下一个问题是有关本体论的竞争 。每个人都用不同的方式看待它。如果你有一些工具来测量它，我们将看见它的范围有多广。 然后是<a href="http://en.wikipedia.org/wiki/Cyc"><font color="#da0000">Cyc </font></a>问题, 这是背景知识和垃圾的问题。这是我每天必须面对的问题。如同你离开了实验室，进入现实的世界,有金钱利益的人会设法打败你。</p>
<p>所以鸡和鸡蛋的问题，那就是“在这类语义技术里有什么令人感兴趣的信息, 并且其他信息在哪里?”它结果显示，大多数有用的信息仍然是在文本里。我们关注的是你是怎样把它从文本中提取出来的。这里有一个小的演示叫IO 结。你可以键入一个自然语言问题,然后它会从文本中取出文档，并取出语义实体。并且你会看见, 这并不是相当完善的——比如不能解决好拼写问题。但这一切都是自动完成的,所以没有做把信息放到正确的位置上这样的工作。</p>
<p>总之,语义技术看起来对定义图解似乎有好处, 但另一方面什么应该进入图解呢。为了做到它，还需要加倍努力。</p>
<p>这是另一个例子。 这是昨晚的Google 新闻页, 我们在这里应用了汇集（clustering）技术，把新闻分门别类地集合在一起, 所以你看到首条新闻是关于布莱尔的,并且有658个相关新闻我们把它们汇集到了一起。</p>
<p>现在想象一下，如果不使用我们的算法（这些新闻是从新闻提供商那里获得的），而是按照他们想要的方式放置所有的元数据（metadata）和标签。“我的故事会被埋没在20页呢,还是头条新闻？我将放入自己的元数据。我谈论的那些人是恐怖分子还是自由战士? 什么是爱国者的定义? 什么是婚姻的定义?”</p>
<p>当你谈论这些政治问题而不是关于部分的数字时，你正是在为这类的本体论下定义; 这会成为一个政治声明。人们也许会惹来杀身之祸。这些是本体论不被运作的地方，会在它们的身上产生争议。并且你不得不转而依靠其它的方法。</p>
<p>本体论运作的最佳地点是，当你具有消费者的特权时，比如可以迫使服务提供者为你服务。比如汽车零件产业,汽车制造厂在那儿聚会说, “每一个想要卖给我们的人就做这个。”他们能做到如此，因为他们的数量很少。在其它产业, 如果有一个主要“运动员”,因为他们不想被其他人赶上，然后就想不参与比赛了。如果有许多个较小“运动员”, 就很难将它们组织到一起了。</p>
<p>语义技术为根本上打碎信息成为分散状态是有好处的。但根本上你仔细考虑的只是在尖括号（注:指代&lt;&gt;）之间的一部分。并且我们的创建者之一Sergey Brin,曾说过这样的话, “把东西放入尖括号的不是技术本身。”问题是什么应该进入尖括号。你能说, “很好, 我的数据库有一个人名字的字段,而你的数据库有一个姓字段和一个名字段,我们就将有在它们之间找到匹配的一种联系了。”但这并不总那么有效。</p>
<p>这有一个近几天在google公司值得思考的问题的例子，就是我们的“拼写改正”功能都是按照一种规范形式建立的。这是我们被询问最多的问题之一, 并且一个星期中有4,000 种不同的拼写变异在发展。某人想做这种规范。所以理解文本的问题就消失了，它在尖括号之间被强迫分解成更小的片断。因此这就是拼写改正的问题；有翻译问题，譬如把阿拉伯语翻译成一个罗马字母；有简称的问题：HP和Hewlett Packard 、惠普, 等等；还有同名的问题：迈克尔・乔丹是篮球运动员,CEO,还是伯克利教授。</p>
<p>让我们现在考虑背景知识的问题。Cyc 项目试图在一个字典里定义所有知识, 一种<a href="http://www.xml.com/pub/a/2000/10/25/dublincore/"><font color="#da0000"> Dublin Core</font></a>类型的事,然后找到在字典或百科全书中没有的、但我们依旧需要的材料。Lenat 和Guha说那里是浩瀚知识的仓库,你很少会谈论, 比如“水向下流动”和“生命物质得了疾病”。</p>
<p>我认为我们能设法做如此大的一个项目。然后我决定把它简化一点——仅仅在它附近放入引用标签和键入它。所以当我键入“水向下流动”，我得到了1,200条结果。第一条结果说, “这是幼儿园老师Emily的教学计划。”它实际上解释了水为什么会流下来, 并且这是你在百科全书中找不到的。这里的结论是Lenat99.999993%正确, 因为43亿个案例中只有1200个实际上讨论了水向下流动。但那足够了, 并且你能从中继续进行查找。你能使用网络投票,你还可以说水泵可以提升水流，但那只发生了275次, 因此向下流动胜利了——1200次对275次。</p>
<p>实际上，我们在这儿做的，就是使用未受训练的大量的人力，你不必支付就可以完成所有的工作, 与其相对的是，经过训练的人使用明确定义的形式和以那种形式书写文本, 让我们就去使用已经是那里的材料吧。我尽力思考“非熟练劳动”的成果，设法把它用于对大量大数据的用途使用统计技术,并且通过在你自己那里过滤, 而不是完全遵从你的定义。</p>
<p>最后一个问题是垃圾信息。当你在实验室里并且定义了你的本体论, 一切看起来是好而整洁的。 但你一旦把它释放在网络世界中, 你会发现怎么有那么多不正直的人呢。这是例子:它看起来象两页。这实际上是一页。在左边的页面是Googlebot(Google 的网页检索漫游器)看见的, 右面的页面是通过其他用户代理看见的。这网站当它一旦看见Googlebot.com, 它显示的页面使得我们更匹配它,而当一名普通用户来浏览时, 它就显示想显示的页面。</p>
<p>这表明：第一, 我们有很多工作要做，来应付这种事, 而且你无法信任元数据。你无法确信人们将要说什么。总之, 搜索引擎摆脱了元数据的桎梏, 它们设法更多在对用户的感受上努力。很大程度上我们丢弃了元标记, 除非有一个真正相信他们的理由, 因为它们比有用更倾向于欺骗。并且如果那里是人们可能利用欺骗赚钱的市场, 它就更可能发生。人是非常擅长于发现这类垃圾信息的, 但机器不一定那样好。所以如果更多信息在机器之间流动, 这就是你所越来越多看到的。</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=34</wfw:commentRss>
		</item>
		<item>
		<title>万维网的未来——语义网</title>
		<link>http://www.sw-china.org/index.php/p/33/</link>
		<comments>http://www.sw-china.org/index.php/p/33/#comments</comments>
		<pubDate>Sun, 29 Jul 2007 19:44:23 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[语义网入门]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/33</guid>
		<description><![CDATA[在万维网日益普及的今天，人们充分体会到网络的巨大魅力。现在，我们可以与处于地球上遥远地方的人进行交流，浏览世界各地的信息，享受网上冲浪的乐趣。但是上过网的人都知道，现在所使用的万维网的功能并不尽如人意，如网页单调枯燥、搜索引擎智能化程度低等。但不管怎样，我们还是可以说，万维网是空前而不绝后的。那么，您是否想过万维网的未来又是什么样的呢？
目前的万维网其进化、扩大和完善的空间还很大，可以说万维网还没有走出婴儿期。为使万维网迈上一个新的台阶，从此摆脱幼稚，走向成熟和真正的智能化，10年前为我们发明因特网超文本系统的麻省理工学院万维网协会主席蒂姆·伯纳斯·李，现在又在致力于开发新一代的万维网（互联网），他为之取了一个直观的名称——“语义网”（the Semantic Web）。
1、什么是“语义网”？
所谓“语义”就是文本的含义。语义需要理解文本的意思和结构，而与显示方式无关。语义网就是能够根据语义进行判断的网络。
目前在万维网中，网页仅仅是一个单调的内容显示，电脑只负责将一个网页链接到另一个网页，网络不能按照用户的要求自动搜寻和检索网页，直至找到所需要的内容。而语义网则是希望计算机能“看懂”网页的内容，使计算机成为“智能”的导航工具。当然语义网还并不仅仅能完成这个功能，它比这还要“聪明”得多。
简单地说，语义网是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。
语义网就好比一个巨型的大脑，它由数据库智能化程度极高，协调能力非常强大的各个部分组成，可以解决各种难题。在语义网上连接的每一部电脑，都能分享人类历史上所有科学、商业和艺术等知识。它不但能够理解词语和概念，而且还能够理解它们之间的逻辑关系。
在语义网中，网络不仅能够连接各个文件，而且还能够识别文件里所传递的信息，也就是说，它是一种聪明的网络，可以干人所从事的工作。例如：它可以让计算机辨认和识别“head”这个单词的意思是“头脑”还是“领导”；在读者看新闻时，它能轻松地分辨出哪句是标题、哪句是导语。
2、语义网与万维网的区别
目前我们所使用的万维网，实际上是一个存储和共享图象、文本的媒介，电脑所能看到的只是一堆文字或图象，对其内容无法进行识别。万维网中的信息，如果要让电脑进行处理的话，就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理，这是相当麻烦的事情。而语义网的建立则将事情变得简单得多。
语义网是对万维网本质的变革，它的主要开发任务是使数据更加便于电脑进行处理和查找。其最终目标是让用户变成全能的上帝，对因特网上的海量资源达到几乎无所不知的程度，计算机可以在这些资源中找到你所需要的信息，从而将万维网中一个个现存的信息孤岛，发展成一个巨大的数据库。
语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件，在搜索数以万计的网页时，通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网，只给你罗列出数以万计的无用搜索结果。
例如，在进行在线登记参加会议时，会议主办方在网站上列出了时间、地点，以及附近宾馆的打折信息。如果使用万维网的话，此时你必须上网查看时间表，并进行拷贝和粘贴，然后打电话或在线预订机票和宾馆等。但假如使用的是语义网，那么一切都变得很简单了，此时安装在你计算机上的软件会自动替你完成上述步骤，你所做的仅仅是用鼠标按几个按钮而已。
在浏览新闻时，语义网将给每一篇新闻报道贴上标签，分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样，如果你在搜索引擎里输入“老舍的作品”，你就可以轻松找到老舍的作品，而不是关于他的文章。
总之，语义网是一种更丰富多彩、更个性化的网络，你可以给予其高度信任，让它帮助你滤掉你所不喜欢的内容，使得网络更像是你自己的网络。
3、语义网的实现
语义网虽然是一种更加美好的网络，但实现起来却是一项复杂而浩大的工程。
要使语义网搜索更精确彻底，更容易判断信息的真假，从而达到实用的目标，首先需要制订标准，该标准允许用户给网络内容添加元数据（即解释详尽的标记），并能让用户精确地指出他们正在寻找什么；然后，还需要找到一种方法，以确保不同的程序都能分享不同网站的内容；最后，要求用户可以增加其他功能，如添加应用软件等。
语义网的实现是基于XML（可扩展标记语言eXtensible Markup Langauge）语言和资源描述框架（RDF）来完成的。XML是一种用于定义标记语言的工具，其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容。
当然，要实现语义网并非仅有XML和RDF就行了。更主要的技术难题还在于要让电脑可以进行过多的“思考”和“推断”，而面对纷繁复杂的问题，尤其是社会问题，人尚且难以决断，更何况计算机呢。因此，要真正实现实用的语义网还有很多工作要做。
4、XML和语义
XML的最突出的特点就是功能强大又易于使用，它使网页能够容纳更丰富的信息资源。其中元数据管理、语义透明性和自主主体都是XML所独有的概念，而XML对统一结构化语法和半结构化语法的承诺，将有助于把几乎不可能完成的事变成切实可行的。
那么在XML的基础上所讲的语义又是什么呢？虽然语义这个单词每个人对其定义的观点各有不同，但一般来说，我们可以将语义解释为构建在公用语法之上的系统中XML数据的一层规范。这就引出了下面标记了XML语义的概念（在下面三概念之间有一些重叠）：
元素类型名称、属性名称和某些情况下内容术语的解释；
用于使用有效文档引导事务的处理规则（也称作商业规则）；
一个文档中的结构化元素与另一个文档中的结构化元素之间的关系。
5、语义网的优点
建立语义网的重要性在于，对信息含义的理解不再是只有依靠人才能完成的事情，计算机同样也可以完成这样的工作。
例如，我们看到网页上的天气预报，自然就会知道其中的含义，但计算机并不知道在那么多的数字中，哪一个数字代表温度，哪一个数字代表湿度。而语义网的意义就要在隐藏的编码中，指明哪个数字代表温度，哪个数字代表湿度，并且说明“温度”和“湿度”的含义。
语义网最大的好处是可以让计算机具有对网络空间所储存的数据，进行智能评估的能力。这样，计算机就可以像人脑一样“理解”信息的含义，完成“智能代理”的功能。使用语义网搜索引擎搜索的结果也将比万维网更为精确。
另外，由于大部分科技创新和突破，都是对已有知识的重新组合和更新，因此语义网也为新的科技创新提供了无尽的资源，它可以在很短的时间内，完成一个人甚至需要一辈子才能做出的组合结果。
蒂姆·伯纳斯·李曾说过：“完全可以想象，一旦这种技术被运用于世界上所有的数据表格，它将产生极大的社会效益。”
6、语义网的研究进展
从互联网刚刚诞生开始，人工智能专家就密切关注着它的发展。现在，发展语义网的两种主要技术：可扩展标记语言（XML）和资源描述框架（RDF）已经诞生。XML用来制定隐藏的标记，并将其作为标注放置在网页中，以便引导计算机程序处理网页内容。这里XML不涉及网页的具体内容，而网页的内容则由RDF来表达。
为了解决计算机理解“人的语言”的问题，目前人们已经建立了“目的”和“对象”两个数据库，在这两个数据库中，应用分类学和分级学，按照人的思维习惯建立一个树形“逻辑库”，由计算机查询出它们的区别，从而得出正确的结论。当然，人的语言系统是非常复杂的系统，仅仅建立这些还不够，还有许多问题需要解决。不过现在将“语义网”嵌入互联网的第一步工作已经展开，在不久的将来，计算机一定能看懂并处理网页中的内容。
目前，有消息称美国将于2005年推出语义网。我们有理由相信，语义网一定会给我们带来互联网的新时代。 (摘自计算机世界)
Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p style="text-indent: 30px; line-height: 150%">在万维网日益普及的今天，人们充分体会到网络的巨大魅力。现在，我们可以与处于地球上遥远地方的人进行交流，浏览世界各地的信息，享受网上冲浪的乐趣。但是上过网的人都知道，现在所使用的万维网的功能并不尽如人意，如网页单调枯燥、搜索引擎智能化程度低等。但不管怎样，我们还是可以说，万维网是空前而不绝后的。那么，您是否想过万维网的未来又是什么样的呢？</p>
<p style="text-indent: 30px; line-height: 150%">目前的万维网其进化、扩大和完善的空间还很大，可以说万维网还没有走出婴儿期。为使万维网迈上一个新的台阶，从此摆脱幼稚，走向成熟和真正的智能化，10年前为我们发明因特网超文本系统的麻省理工学院万维网协会主席蒂姆·伯纳斯·李，现在又在致力于开发新一代的万维网（互联网），他为之取了一个直观的名称——“语义网”（the Semantic Web）。</p>
<p style="text-indent: 30px; line-height: 150%">1、什么是“语义网”？</p>
<p style="text-indent: 30px; line-height: 150%">所谓“语义”就是文本的含义。语义需要理解文本的意思和结构，而与显示方式无关。语义网就是能够根据语义进行判断的网络。</p>
<p style="text-indent: 30px; line-height: 150%">目前在万维网中，网页仅仅是一个单调的内容显示，电脑只负责将一个网页链接到另一个网页，网络不能按照用户的要求自动搜寻和检索网页，直至找到所需要的内容。而语义网则是希望计算机能“看懂”网页的内容，使计算机成为“智能”的导航工具。当然语义网还并不仅仅能完成这个功能，它比这还要“聪明”得多。</p>
<p style="text-indent: 30px; line-height: 150%">简单地说，语义网是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。</p>
<p style="text-indent: 30px; line-height: 150%">语义网就好比一个巨型的大脑，它由数据库智能化程度极高，协调能力非常强大的各个部分组成，可以解决各种难题。在语义网上连接的每一部电脑，都能分享人类历史上所有科学、商业和艺术等知识。它不但能够理解词语和概念，而且还能够理解它们之间的逻辑关系。</p>
<p style="text-indent: 30px; line-height: 150%">在语义网中，网络不仅能够连接各个文件，而且还能够识别文件里所传递的信息，也就是说，它是一种聪明的网络，可以干人所从事的工作。例如：它可以让计算机辨认和识别“head”这个单词的意思是“头脑”还是“领导”；在读者看新闻时，它能轻松地分辨出哪句是标题、哪句是导语。</p>
<p style="text-indent: 30px; line-height: 150%">2、语义网与万维网的区别</p>
<p style="text-indent: 30px; line-height: 150%">目前我们所使用的万维网，实际上是一个存储和共享图象、文本的媒介，电脑所能看到的只是一堆文字或图象，对其内容无法进行识别。万维网中的信息，如果要让电脑进行处理的话，就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理，这是相当麻烦的事情。而语义网的建立则将事情变得简单得多。</p>
<p style="text-indent: 30px; line-height: 150%">语义网是对万维网本质的变革，它的主要开发任务是使数据更加便于电脑进行处理和查找。其最终目标是让用户变成全能的上帝，对因特网上的海量资源达到几乎无所不知的程度，计算机可以在这些资源中找到你所需要的信息，从而将万维网中一个个现存的信息孤岛，发展成一个巨大的数据库。</p>
<p style="text-indent: 30px; line-height: 150%">语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件，在搜索数以万计的网页时，通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网，只给你罗列出数以万计的无用搜索结果。</p>
<p style="text-indent: 30px; line-height: 150%">例如，在进行在线登记参加会议时，会议主办方在网站上列出了时间、地点，以及附近宾馆的打折信息。如果使用万维网的话，此时你必须上网查看时间表，并进行拷贝和粘贴，然后打电话或在线预订机票和宾馆等。但假如使用的是语义网，那么一切都变得很简单了，此时安装在你计算机上的软件会自动替你完成上述步骤，你所做的仅仅是用鼠标按几个按钮而已。</p>
<p style="text-indent: 30px; line-height: 150%">在浏览新闻时，语义网将给每一篇新闻报道贴上标签，分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样，如果你在搜索引擎里输入“老舍的作品”，你就可以轻松找到老舍的作品，而不是关于他的文章。</p>
<p style="text-indent: 30px; line-height: 150%">总之，语义网是一种更丰富多彩、更个性化的网络，你可以给予其高度信任，让它帮助你滤掉你所不喜欢的内容，使得网络更像是你自己的网络。</p>
<p style="text-indent: 30px; line-height: 150%">3、语义网的实现</p>
<p style="text-indent: 30px; line-height: 150%">语义网虽然是一种更加美好的网络，但实现起来却是一项复杂而浩大的工程。</p>
<p style="text-indent: 30px; line-height: 150%">要使语义网搜索更精确彻底，更容易判断信息的真假，从而达到实用的目标，首先需要制订标准，该标准允许用户给网络内容添加元数据（即解释详尽的标记），并能让用户精确地指出他们正在寻找什么；然后，还需要找到一种方法，以确保不同的程序都能分享不同网站的内容；最后，要求用户可以增加其他功能，如添加应用软件等。</p>
<p style="text-indent: 30px; line-height: 150%">语义网的实现是基于XML（可扩展标记语言eXtensible Markup Langauge）语言和资源描述框架（RDF）来完成的。XML是一种用于定义标记语言的工具，其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容。</p>
<p style="text-indent: 30px; line-height: 150%">当然，要实现语义网并非仅有XML和RDF就行了。更主要的技术难题还在于要让电脑可以进行过多的“思考”和“推断”，而面对纷繁复杂的问题，尤其是社会问题，人尚且难以决断，更何况计算机呢。因此，要真正实现实用的语义网还有很多工作要做。</p>
<p style="text-indent: 30px; line-height: 150%">4、XML和语义</p>
<p style="text-indent: 30px; line-height: 150%">XML的最突出的特点就是功能强大又易于使用，它使网页能够容纳更丰富的信息资源。其中元数据管理、语义透明性和自主主体都是XML所独有的概念，而XML对统一结构化语法和半结构化语法的承诺，将有助于把几乎不可能完成的事变成切实可行的。</p>
<p style="text-indent: 30px; line-height: 150%">那么在XML的基础上所讲的语义又是什么呢？虽然语义这个单词每个人对其定义的观点各有不同，但一般来说，我们可以将语义解释为构建在公用语法之上的系统中XML数据的一层规范。这就引出了下面标记了XML语义的概念（在下面三概念之间有一些重叠）：</p>
<p style="text-indent: 30px; line-height: 150%">元素类型名称、属性名称和某些情况下内容术语的解释；</p>
<p style="text-indent: 30px; line-height: 150%">用于使用有效文档引导事务的处理规则（也称作商业规则）；</p>
<p style="text-indent: 30px; line-height: 150%">一个文档中的结构化元素与另一个文档中的结构化元素之间的关系。</p>
<p style="text-indent: 30px; line-height: 150%">5、语义网的优点</p>
<p style="text-indent: 30px; line-height: 150%">建立语义网的重要性在于，对信息含义的理解不再是只有依靠人才能完成的事情，计算机同样也可以完成这样的工作。</p>
<p style="text-indent: 30px; line-height: 150%">例如，我们看到网页上的天气预报，自然就会知道其中的含义，但计算机并不知道在那么多的数字中，哪一个数字代表温度，哪一个数字代表湿度。而语义网的意义就要在隐藏的编码中，指明哪个数字代表温度，哪个数字代表湿度，并且说明“温度”和“湿度”的含义。</p>
<p style="text-indent: 30px; line-height: 150%">语义网最大的好处是可以让计算机具有对网络空间所储存的数据，进行智能评估的能力。这样，计算机就可以像人脑一样“理解”信息的含义，完成“智能代理”的功能。使用语义网搜索引擎搜索的结果也将比万维网更为精确。</p>
<p style="text-indent: 30px; line-height: 150%">另外，由于大部分科技创新和突破，都是对已有知识的重新组合和更新，因此语义网也为新的科技创新提供了无尽的资源，它可以在很短的时间内，完成一个人甚至需要一辈子才能做出的组合结果。</p>
<p style="text-indent: 30px; line-height: 150%">蒂姆·伯纳斯·李曾说过：“完全可以想象，一旦这种技术被运用于世界上所有的数据表格，它将产生极大的社会效益。”</p>
<p style="text-indent: 30px; line-height: 150%">6、语义网的研究进展</p>
<p style="text-indent: 30px; line-height: 150%">从互联网刚刚诞生开始，人工智能专家就密切关注着它的发展。现在，发展语义网的两种主要技术：可扩展标记语言（XML）和资源描述框架（RDF）已经诞生。XML用来制定隐藏的标记，并将其作为标注放置在网页中，以便引导计算机程序处理网页内容。这里XML不涉及网页的具体内容，而网页的内容则由RDF来表达。</p>
<p style="text-indent: 30px; line-height: 150%">为了解决计算机理解“人的语言”的问题，目前人们已经建立了“目的”和“对象”两个数据库，在这两个数据库中，应用分类学和分级学，按照人的思维习惯建立一个树形“逻辑库”，由计算机查询出它们的区别，从而得出正确的结论。当然，人的语言系统是非常复杂的系统，仅仅建立这些还不够，还有许多问题需要解决。不过现在将“语义网”嵌入互联网的第一步工作已经展开，在不久的将来，计算机一定能看懂并处理网页中的内容。</p>
<p style="text-indent: 30px; line-height: 150%">目前，有消息称美国将于2005年推出语义网。我们有理由相信，语义网一定会给我们带来互联网的新时代。 (摘自计算机世界)</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=33</wfw:commentRss>
		</item>
		<item>
		<title>test</title>
		<link>http://www.sw-china.org/index.php/p/31/</link>
		<comments>http://www.sw-china.org/index.php/p/31/#comments</comments>
		<pubDate>Tue, 24 Jul 2007 17:22:29 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[语义网入门]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/31</guid>
		<description><![CDATA[test
Related PostsA Web That Thinks Like YouA Web That Thinks Like You
"Semantic Web" software from startup Radar Networks could help transform...Software Tools for NLP
Software Archive


	CMU Artificial Intelligence Repository
	Resources Available Through CRL
	...THE MEANING AND FUTURE OF THE SEMANTIC WEB
LIFEBOAT FOUNDATION SPECIAL REPORT
MINDING THE PLANET: THE MEANING AND FUTURE OF THE SEMANTIC WEB...]]></description>
			<content:encoded><![CDATA[<p>test</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/30/" rel="bookmark" title="Permanent Link: A Web That Thinks Like You" >A Web That Thinks Like You</a></span><div class="aizattos_related_posts_excerpt">A Web That Thinks Like You
"Semantic Web" software from startup Radar Networks could help transform...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/36/" rel="bookmark" title="Permanent Link: Software Tools for NLP" >Software Tools for NLP</a></span><div class="aizattos_related_posts_excerpt">
Software Archive


	CMU Artificial Intelligence Repository
	Resources Available Through CRL
	...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/index.php/p/29/" rel="bookmark" title="Permanent Link: THE MEANING AND FUTURE OF THE SEMANTIC WEB" >THE MEANING AND FUTURE OF THE SEMANTIC WEB</a></span><div class="aizattos_related_posts_excerpt">
LIFEBOAT FOUNDATION SPECIAL REPORT
MINDING THE PLANET: THE MEANING AND FUTURE OF THE SEMANTIC WEB...</div></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/?feed=rss2&amp;p=31</wfw:commentRss>
		</item>
	</channel>
</rss>
