<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="wordpress/2.2" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>

<channel>
	<title>Semantic Web China</title>
	<link>http://www.sw-china.org</link>
	<description>语义网研究 Semantic web 发展动态 最新论文 应用实例 博客 社区 论坛 入门 指南 参考 资料下载</description>
	<pubDate>Mon, 13 Aug 2007 18:48:26 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.2</generator>
	<language>en</language>
			<item>
		<title>语义网： Web 3.0为何盖不过 Web 2.0 的风头</title>
		<link>http://www.sw-china.org/archives/41</link>
		<comments>http://www.sw-china.org/archives/41#comments</comments>
		<pubDate>Fri, 10 Aug 2007 10:33:51 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[讨论研究]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/41</guid>
		<description><![CDATA[语义网： Web 3.0为何盖不过 Web 2.0 的风头
作者：李牧　

图1：语义网示意图
在Ｇｏｏｇｌｅ搜索中输入“我想去夏威夷度假，但希望花销不超过３０００美元，哪条线路和酒店更适合我？”敲回车，共搜索出３４６０条包含其词语的文档，但没有一条是理想中的答案。
不是说语义搜索能解决这些问题吗？不是到处疯炒Ｗｅｂ ３．０的概念吗？语义网到底什么时候才能来到老百姓的身边？
在2007年4月的“2007 Web 2.0”博览会上，大量Web 2.0企业参展，而其中Web 3.0的声音似乎略显微薄——两家语义网解决方案和程序设计工具制造商TopQuadrant和Franz宣布将通过整合各自公司的拳头产品来增强当前的语义网发展环境和数据库基础——他们希望在实践中探讨以语义网应用为核心的Web3.0的未来。
在过去的十年里，互联网之父蒂姆·伯纳斯·李都致力于推动互联网朝语义网推进，但该事业始终停留于研发阶段。Web 3.0理应优于Web 2.0，为什么发展进程如此缓慢？2007年4月，蒂姆·伯纳斯·李在接受媒体记者采访时谈到了他最新的思考——对于语义网的新定义，语义网发展中遇到的挑战，乃至对于语义网商用的探讨。在近期的海外论文、访谈中，科学家们向人们阐述了语义网发展缓慢的原因分析。
隐私是个问题
语义网最大的优点就是能轻松、精准地找到包括个人信息在内的几乎所有完整信息。语义网冲破了各个领域之间的界线，将各个封闭的“知识仓库”一一打通。
但科技是把双刃剑，一面砍向旧的桎梏，一面砍向良好的社会规范。如果不妥善处理好安全问题，这也将成为语义网的最大缺点。正如有人质疑的那样：一旦这些私密资料落入居心不良的人手中，造成的危害和损失将难以估计。
对此，虽然MIT（麻省理工学院）实验室的研究人员已经意识到了这个社会问题，并尝试建立一些防范系统来避免这种状况，但显然目前进展还不乐观，这也势必成为语义网发展道路上最危险的不稳定因素。
盗版带来尴尬
互联网发展了十几年，直到今天我们还面临着这样一种尴尬：数字化时代的今天，三盗（盗名、盗链、盗版）天天在网络上演得不亦乐乎。可以设想，在开放程度更高、关联程度更广的语义网上，版权纠纷是否会愈演愈烈？
据IEEE的学术论文《语义网归来》介绍，基于RDF的版权公约“CC协议（Creative Commons）”能够最大程度地推动资源和资源再利用。但是专家也表示，目前语义网环境中还没有明确的法律规定来约束用户行为，而版权问题恐怕不是一个约定就能一笔带过的，所以改善这一点的解决方案还值得多方努力。
信任出现危机
发展语义网的标准已经耗费数年时间，这与它的复杂架构难脱干系，RDF的纷繁复杂，OWL的标准之争无一不让人劳心费神。四层架构之上的资料推理、逻辑处理工作，还有信息可靠性的判断等都不是朝夕之功。
如何判断信息的可靠性？能否信任电脑为你做出的判断？这是语义网实现大范围应用的关键前提。“何时”、“何地”、“对象”、“条件”这些信息都需要证实。
确实，我们需要更贴近搜索问题，也需要更有效的资料，但如果语义网告诉搜索者无法保证这些资料的准确性，那么资料再多也聊胜于无。就好比文章开头所问的“我想去夏威夷度假，但希望花销不超过3000美元，哪条线路和酒店更适合我？”如果语意搜索引擎给出了一个具体的答案——A饭店，B线路，但事实上A饭店一年前就倒闭了，B线路是旅游公司伪造的，那么这条信息对用户来说是毫无意义的。
最理想的语义网，不仅能够判断资料的准确性，更能保证资料的可靠性。
而这显然是语义网不易迈过的一道槛。
平民化需要费神
就连语义网命名者蒂姆·伯纳斯·李也在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示，他最初将这种智能网络命名为语义网或许不够贴切，更准确的名称应该是数据网（Date Web）。就像互联网刚盛行时，人们也很难顾名思义立马了解互联网是什么？能干什么用？现在语义网也遇到了同样的问题，语义网目前的影响也仅限于有限的圈子里。
人们对于语义网的认知度亟待提高，语义网这个名称的形象感和直观性都不尽如人意。如何加强宣传攻势，如何驱散普通大众的陌生感也是将来一个不可忽视的课题。
未来似乎很美
现在在美国政府部门，已经有了语义网应用的雏形。比如DARPA（美国国防部高级研究计划署）以及NASA（美国国家航空和宇宙航行局）已完成了一些关于语义网架构的初期工作。
据此分析，蒂姆·伯纳斯·李认为政府机构将会是语义网应用的“吃螃蟹者”，因为他们拥有着海量资料，并且来自海量的信息源。这些资料散落在网络不同的节点，“信息孤岛”现象非常严重，妨碍了政府工作的高效开展。如何解决这一问题？政府官员们看到了语义网未来大有用武之地。
但蒂姆·伯纳斯·李对于目前的互联网发展远未满意，他正在尝试着让网络智能化有个质的飞跃，这也就是他从2001年起大力倡导的真正的语义网。在语义网中，计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询，例如选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Web 3.0。
在接受外刊记者采访时，他坚持认为语义网将会给知识创新和商业应用带来前所未有的推动力，未来应当有更多的行业对语义网抱有浓厚兴趣。
以医疗行业为例，每制造一种药，医药公司都必须先明确哪些化学成分会催生细胞中的有害物质，哪些会有助于细胞产生良性变化，以及这些化学成分与哪些物质密切相关。与此同时医药公司还得搜集大量别的信息：政府政策导向、临床医用审核条件、基因相关数据、生物学信息等。但是这么多的必需信息，却分别存在于不同的社会部门和同一部门不同的网页中，不同网络间互联互通的现状非常不乐观。
巧妇难为无米之炊，医药科学家要实现医学突破光靠头脑风暴是不现实的，他们还需要一个工具，依靠它迅速分析好相关资料，并把相关资料之间的逻辑关系都清晰地摆在眼前。
蒂姆·伯纳斯·李认为语义网正是这样的工具，科学家和工程师可以在它的强力支撑与启发下展开各种假设，甚至可能发现以前从未想像过的新大陆。

图2：语义网架构
贴士
什么是语义网？
对于Ｗｅｂ ３．０蓝图的描述通常是：“计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询像选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Ｗｅｂ ３．０。”这里的Ｗｅｂ ３．０指的就是语义网（Ｓｅｍａｎｔｉｃ Ｗｅｂ）。
最早关于语义网的系统理论阐述是由互联网之父蒂姆·伯纳斯·李和Ｌ．Ｍａｓｉｎｔｅｒ所提出并发表于２００１年的《Ｓｃｉｅｎｔｉｆｉｃ Ａｍｅｒｉｃａｎ》杂志上。（见图１）
语义网的七层架构
基础层：编码层ＵＲＩ，如果说语义网是要为网页加上内容索引，那么ＵＲＩ要做的就是明确索引方式，好比字典中的部首查字法、拼音查字法。
第二层：句法层ＸＭＬ，可扩展标记语言在这代表了索引的语法形式，这就好比互联网最早用的ＨＴＭＬ语言。
第三层：资源描述框架ＲＤＦ，ＲＤＦ明确了索引中大项小项之间的逻辑关系，比方说主题Ａ是主题Ｂ的一个子问题，主题Ｂ是主题Ｃ的相关问题。
第四层：本体层ＯＷＬ，ＯＷＬ明确了索引中项目的精确意思，比方说你说菜谱１后面的索引里的“炒三鲜”和菜谱２后面的索引里的“炒三鲜”是不是一样的，“炒三鲜”菜谱里提到一个概念叫“酱油”，到底是老抽还是生抽。
第五层是逻辑，在１～４层的基础上进行逻辑推理操作。
第六层是验证，根据逻辑陈述进行验证，以得出结论。
第七层是信任，在用户间建立信任关系。 （见图２
)
Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p><a target="_blank" href="http://media.ccidnet.com/art/2613/20070514/1080045_1.html">语义网： Web 3.0为何盖不过 Web 2.0 的风头</a></p>
<p>作者：李牧　</p>
<p><img border="0" src="http://media.ccidnet.com/media/ciw/img/1607/a2601t01.jpg" /><br />
图1：语义网示意图<br />
在Ｇｏｏｇｌｅ搜索中输入“我想去夏威夷度假，但希望花销不超过３０００美元，哪条线路和酒店更适合我？”敲回车，共搜索出３４６０条包含其词语的文档，但没有一条是理想中的答案。<br />
不是说语义搜索能解决这些问题吗？不是到处疯炒Ｗｅｂ ３．０的概念吗？语义网到底什么时候才能来到老百姓的身边？<br />
在2007年4月的“2007 Web 2.0”博览会上，大量Web 2.0企业参展，而其中Web 3.0的声音似乎略显微薄——两家语义网解决方案和程序设计工具制造商TopQuadrant和Franz宣布将通过整合各自公司的拳头产品来增强当前的语义网发展环境和数据库基础——他们希望在实践中探讨以语义网应用为核心的Web3.0的未来。<br />
在过去的十年里，互联网之父蒂姆·伯纳斯·李都致力于推动互联网朝语义网推进，但该事业始终停留于研发阶段。Web 3.0理应优于Web 2.0，为什么发展进程如此缓慢？2007年4月，蒂姆·伯纳斯·李在接受媒体记者采访时谈到了他最新的思考——对于语义网的新定义，语义网发展中遇到的挑战，乃至对于语义网商用的探讨。在近期的海外论文、访谈中，科学家们向人们阐述了语义网发展缓慢的原因分析。<br />
<strong>隐私是个问题</strong><br />
语义网最大的优点就是能轻松、精准地找到包括个人信息在内的几乎所有完整信息。语义网冲破了各个领域之间的界线，将各个封闭的“知识仓库”一一打通。<br />
但科技是把双刃剑，一面砍向旧的桎梏，一面砍向良好的社会规范。如果不妥善处理好安全问题，这也将成为语义网的最大缺点。正如有人质疑的那样：一旦这些私密资料落入居心不良的人手中，造成的危害和损失将难以估计。<br />
对此，虽然MIT（麻省理工学院）实验室的研究人员已经意识到了这个社会问题，并尝试建立一些防范系统来避免这种状况，但显然目前进展还不乐观，这也势必成为语义网发展道路上最危险的不稳定因素。<br />
<strong>盗版带来尴尬</strong><br />
互联网发展了十几年，直到今天我们还面临着这样一种尴尬：数字化时代的今天，三盗（盗名、盗链、盗版）天天在网络上演得不亦乐乎。可以设想，在开放程度更高、关联程度更广的语义网上，版权纠纷是否会愈演愈烈？<br />
据IEEE的学术论文《语义网归来》介绍，基于RDF的版权公约“CC协议（Creative Commons）”能够最大程度地推动资源和资源再利用。但是专家也表示，目前语义网环境中还没有明确的法律规定来约束用户行为，而版权问题恐怕不是一个约定就能一笔带过的，所以改善这一点的解决方案还值得多方努力。<br />
<strong>信任出现危机</strong><br />
发展语义网的标准已经耗费数年时间，这与它的复杂架构难脱干系，RDF的纷繁复杂，OWL的标准之争无一不让人劳心费神。四层架构之上的资料推理、逻辑处理工作，还有信息可靠性的判断等都不是朝夕之功。<br />
如何判断信息的可靠性？能否信任电脑为你做出的判断？这是语义网实现大范围应用的关键前提。“何时”、“何地”、“对象”、“条件”这些信息都需要证实。<br />
确实，我们需要更贴近搜索问题，也需要更有效的资料，但如果语义网告诉搜索者无法保证这些资料的准确性，那么资料再多也聊胜于无。就好比文章开头所问的“我想去夏威夷度假，但希望花销不超过3000美元，哪条线路和酒店更适合我？”如果语意搜索引擎给出了一个具体的答案——A饭店，B线路，但事实上A饭店一年前就倒闭了，B线路是旅游公司伪造的，那么这条信息对用户来说是毫无意义的。<br />
最理想的语义网，不仅能够判断资料的准确性，更能保证资料的可靠性。<br />
而这显然是语义网不易迈过的一道槛。<br />
<strong>平民化需要费神</strong><br />
就连语义网命名者蒂姆·伯纳斯·李也在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示，他最初将这种智能网络命名为语义网或许不够贴切，更准确的名称应该是数据网（Date Web）。就像互联网刚盛行时，人们也很难顾名思义立马了解互联网是什么？能干什么用？现在语义网也遇到了同样的问题，语义网目前的影响也仅限于有限的圈子里。<br />
人们对于语义网的认知度亟待提高，语义网这个名称的形象感和直观性都不尽如人意。如何加强宣传攻势，如何驱散普通大众的陌生感也是将来一个不可忽视的课题。<br />
<strong>未来似乎很美</strong><br />
现在在美国政府部门，已经有了语义网应用的雏形。比如DARPA（美国国防部高级研究计划署）以及NASA（美国国家航空和宇宙航行局）已完成了一些关于语义网架构的初期工作。<br />
据此分析，蒂姆·伯纳斯·李认为政府机构将会是语义网应用的“吃螃蟹者”，因为他们拥有着海量资料，并且来自海量的信息源。这些资料散落在网络不同的节点，“信息孤岛”现象非常严重，妨碍了政府工作的高效开展。如何解决这一问题？政府官员们看到了语义网未来大有用武之地。<br />
但蒂姆·伯纳斯·李对于目前的互联网发展远未满意，他正在尝试着让网络智能化有个质的飞跃，这也就是他从2001年起大力倡导的真正的语义网。在语义网中，计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询，例如选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Web 3.0。<br />
在接受外刊记者采访时，他坚持认为语义网将会给知识创新和商业应用带来前所未有的推动力，未来应当有更多的行业对语义网抱有浓厚兴趣。<br />
以医疗行业为例，每制造一种药，医药公司都必须先明确哪些化学成分会催生细胞中的有害物质，哪些会有助于细胞产生良性变化，以及这些化学成分与哪些物质密切相关。与此同时医药公司还得搜集大量别的信息：政府政策导向、临床医用审核条件、基因相关数据、生物学信息等。但是这么多的必需信息，却分别存在于不同的社会部门和同一部门不同的网页中，不同网络间互联互通的现状非常不乐观。<br />
巧妇难为无米之炊，医药科学家要实现医学突破光靠头脑风暴是不现实的，他们还需要一个工具，依靠它迅速分析好相关资料，并把相关资料之间的逻辑关系都清晰地摆在眼前。<br />
蒂姆·伯纳斯·李认为语义网正是这样的工具，科学家和工程师可以在它的强力支撑与启发下展开各种假设，甚至可能发现以前从未想像过的新大陆。<br />
<img border="0" src="http://media.ccidnet.com/media/ciw/img/1607/a2601t02.jpg" /><br />
图2：语义网架构<br />
<strong>贴士</strong><br />
什么是语义网？<br />
对于Ｗｅｂ ３．０蓝图的描述通常是：“计算机可以独立思考而不是单纯地执行命令。比如，个性化的金融投资组合；智能系统为家庭勾勒退休养老规划；为高中毕业生提供教育咨询像选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Ｗｅｂ ３．０。”这里的Ｗｅｂ ３．０指的就是语义网（Ｓｅｍａｎｔｉｃ Ｗｅｂ）。<br />
最早关于语义网的系统理论阐述是由互联网之父蒂姆·伯纳斯·李和Ｌ．Ｍａｓｉｎｔｅｒ所提出并发表于２００１年的《Ｓｃｉｅｎｔｉｆｉｃ Ａｍｅｒｉｃａｎ》杂志上。（见图１）<br />
语义网的七层架构<br />
基础层：编码层ＵＲＩ，如果说语义网是要为网页加上内容索引，那么ＵＲＩ要做的就是明确索引方式，好比字典中的部首查字法、拼音查字法。<br />
第二层：句法层ＸＭＬ，可扩展标记语言在这代表了索引的语法形式，这就好比互联网最早用的ＨＴＭＬ语言。<br />
第三层：资源描述框架ＲＤＦ，ＲＤＦ明确了索引中大项小项之间的逻辑关系，比方说主题Ａ是主题Ｂ的一个子问题，主题Ｂ是主题Ｃ的相关问题。<br />
第四层：本体层ＯＷＬ，ＯＷＬ明确了索引中项目的精确意思，比方说你说菜谱１后面的索引里的“炒三鲜”和菜谱２后面的索引里的“炒三鲜”是不是一样的，“炒三鲜”菜谱里提到一个概念叫“酱油”，到底是老抽还是生抽。<br />
第五层是逻辑，在１～４层的基础上进行逻辑推理操作。<br />
第六层是验证，根据逻辑陈述进行验证，以得出结论。<br />
第七层是信任，在用户间建立信任关系。 （见图２<br />
)</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/archives/41/feed</wfw:commentRss>
		</item>
		<item>
		<title>语义网-中国传媒科技</title>
		<link>http://www.sw-china.org/archives/40</link>
		<comments>http://www.sw-china.org/archives/40#comments</comments>
		<pubDate>Mon, 06 Aug 2007 11:09:05 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[语义网入门]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/40</guid>
		<description><![CDATA[语义网—表示文档内容的语义数据模型
杜小勇，李曼
互联网改变了人们的生活。目前通过互联网可以看报纸、电视，也可以听广播。广播网、电视网和互联网的“三网合一”，已经没有技术上克服不了的困难了，人为的阻碍也只能是“螳螂挡车”的结果。可以想象，用不了多久，互联网将成为媒体融合的公共载体，而且可以想象在互联网这个平台上还会生长出许多新形态的新媒体。
但是，目前的互联网上传播的内容只有人能够看的懂，计算机只起个数据存储、传递、展示的作用，不能理解其中的语义。如果计算机能够理解内容的语义，那么计算机就可以帮助人们做很多有意义的事情。比如，在你写文章的时候，计算机可以为你收集相关的文献，在你准备旅行的事情，计算机可以帮助你安排行程、预定旅馆和机票等。
这是让人兴奋的情景，也是互联网成为各种媒体的基础平台的客观需要。让计算机拥有智能是计算机工作者，特别是人工智能工作者远久以来就有的梦，而且为之奋斗了几十年。但是，总的来说，人工智能的进展并没有像人们期望的那样顺利。日本第五代计算机的失败（其预期目标并没有真正实现）也给人们一个教训，让计算机具有人的智能是属于那种“说说容易做做难”的事情，既需要基础理论的突破，也需要大量基础性的建设工作。
为了将目前互联网改造成有序的计算机可理解的知识宝库，英国人蒂姆·伯纳斯·李（Tim Berners-Lee）提出了语义Web（Semantic Web，也称语义网）的概念，顾名思义是指Web上的文本信息具有（计算机系统可以理解的）语义。我们都知道，此人也是目前公认的互联网之父[1]。
那么，语义网是如何具有计算机可以理解的语义信息的呢？换句话说，语义网是如何对语义信息建模的呢？我们需要考虑以下三个方面的内容，一是需要一个描述框架，能够将语义信息（概念以及概念之间的联系）表示出来，二是需要定义一种描述语言具体进行语义信息的描述，三是需要一种操作语言对语义信息进行操作。
首先，我们先来看看如何描述语义信息，即概念的形成和表示。一个概念C可以通过数学上的集合来表示，集合有两种表示方法，一种是内涵表示法，另一种就是外延表示法。所谓内涵表示法是指用概念所指代的对象所应满足的性质来表示，而概念的外延表示是指用该概念所指代的具体的对象集合来表示。例如，偶数这个概念既可以表示成{x&#124; x能被2整除}，也可以表示成{2，4，6，8，……}。前者就是内涵表示，被2整除就是x的一个性质。后者就是外延表示。日常生活中的概念虽然很难象数学概念那样清晰地表达，但是也可以有内涵和外延这两种表示。从概念的形成过程来看，我们首先拥有一组对象，以及关于这些对象的一些性质，理论上讲，描述对象的性质是越多越好。然后，对这组性质进行抽象，那些具有相同性质的对象集合就构成了概念。但是，获得对象的性质是有代价的，是需要逐渐积累的。目前的数据库系统，基本上都是先确定描述对象的性质，然后再去组织数据，它缺乏一种机制，能够不断地丰富数据的描述，而这种机制正是概念学习的基础。
对象的性质既可以取一个通常意义上的“值”，例如，张三的年龄是20岁，也可以为另一个对象，例如，张三的老师是李四，这里老师是描述对象张三的一个性质，这个值其实就反映了对象之间的联系。同一个概念的对象具有相同的性质，因此，在习惯上我们将这些对象的性质称为是概念的性质。
那么语义网是如何描述文档的语义信息（概念及其关系）的呢？它采用多层次的表示框架。首先为文档引入结构，将文档分解成一些可以识别的“块”，这样计算机就能够方便地解读文档，这就是XML。如果知道XML的定义，就可以编程序对内容进行操作，比如信息提取等。XML是语义Web上资源表示的语法基础，但是并没有对结构本身的语义进行描述。如果不知道XML元素的语义，那么计算机仍然不能理解其中的信息。这时需要一个更高的层次来描述结构的语义，这就是RDF。RDF定义了元素之间的关系，表现为三元组的集合（类似于句子的主语、谓语和宾语）。XML加上RDF就相当于建立了人工智能中的语义网络（semantic network）,也就可以进行一些简单的推理了。使用XML+RDF，人们可以建立各自的语义Web，只要有一套自成体系的术语就可以了。但是，要计算机相互理解对方的内容，还需要有一套共同的标准的概念体系，这就是本体(Ontology)。XML+RDF+Ontology构成了计算机相互理解的基础，缺一不可。因此，我们说，语义网描述的就是信息资源的一个语义数据模型，是计算机理解内容的基础。
其次，我们介绍描述语言标准。XML，RDF，OWL都是国际组织W3C推荐的标准。XML和语义信息描述没有直接的关系，而且介绍的资料也很多，我们不在这里介绍。RDF是W3C提出的资源描述框架（Resource Description Framework），它除了可以表达Web资源的元数据，例如Web页面的标题、作者、创建时间等，还可以表达任何可在Web上标识的事物的信息，例如购物网站上某个产品的价格、功能等。RDF使用了一种简单的三元组模型来表示Web上资源的属性的取值。每个三元组由主语（Subject）、谓语（Predicate）和宾语（Object）三个元素构成。其中主语代表资源，即所有可以描述的对象。谓语指的是资源的属性（也称性质），一个资源可以有多个属性。宾语就是属性的值，每个属性值既可以是数字、字符串等，也可以是资源。
例如，表1中的三元组就描述了网页“http://www.w3c.org/china/”的标题是“W3C标准”，作者是姓名为“张三”的一个人，他的联系电话是“62512345”。其中“http://www.w3c.org/china/”的作者的值就是一个资源“＃anonymous_r”，这里将其称为匿名资源（即该资源没有名字），该资源具有自己的属性：姓名和电话。
。
表1. RDF三元组



主语


谓语


宾语




http://www.w3c.org/china/


标题


W3C标准




http://www.w3c.org/china/


作者


＃anonymous_r




＃anonymous_r


姓名


张三




＃anonymous_r


电话


62512345



    可以看出RDF就是三元组的集合，一系列的三元组构成一个RDF图。图1就是表1对应的RDF图，其中椭圆表示资源，箭头表示属性，方框表示属性的值。
&#160;



&#60;&#62;

   
 RDF本身并没有规定语义，但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来讲，RDF是一个开放的元数据框架。这个元数据框架定义了一种数据模型，可以用来描述计算机能够理解的数据语义。显然，这种框架还需要定义描述中使用的词汇，这就是RDF的词汇描述语言，即RDF Schema。RDF Schema定义了RDF描述数据时使用的词汇，它引入了类（class），属性（property），类之间的包含关系（subClassOf），属性间的包含关系（subPropertyOf），以及属性的定义域（domain）和值域（range）等标准词汇。例如，对于上面关于网页的例子，我们可以定义两个类，即“网页设计者”和“网页”，其中，“作者”和“标题”都可以定义为属性，它们的定义域都是“网页”，值域分别是“网页设计者”和文本型（即literal），类似的，可以定义属性“姓名”和“电话”的定义域是“网页设计者”，值域是文本型（即literal）。对于“网页”这个类来说，资源“http://www.w3.org/china/”是它的一个实例，对于“网页设计者”这个类来说，姓名为“张三”，电话为“62512345”的人是它的一个实例。语法上，RDF Schema与RDF是完全一致的，即所有的RDF Schema文档都是合法的RDF文档。语义上，RDF Schema是RDF的一个扩展，即它不仅保留了RDF的全部意义，而且对新增部分加入了自身的解释。
RDF定义了用于描述资源的语法和模型，RDF Schema定义了RDF描述资源时所用的词汇集，这样RDF和RDF Schema构成了一种简单的对Web资源的表示机制。从某种意义上说，RDF(S)[2]本身就是一种简单的本体（Ontology）语言。但是它太简单，描述能力比较弱，难以表达复杂的领域知识，因此需要对其进行扩展。例如OIL，DAML＋OIL和OWL,都是对RDF(S)的扩展。其中，OWL（Web Ontology Language）是W3C最新推荐的Web Ontology描述语言的标准。它是为了在WWW上发布和共享Ontology而提供的语义标记语言。Ontology之所以逐渐引起人们的重视，主要的原因在于它能够提供明确定义的词汇表，描述概念和概念之间的关系，使得使用者之间达成对概念含义的共同理解。而对同一概念的语义共享和共同理解正是构建语义Web的关键。
OWL作为RDF(S)的扩展，是在DAML+OIL的基础上发展起来的，目的是提供更多的原语以支持更加丰富的语义表达，并更好的支持推理。与RDF(S)一样，OWL可以声明类，属性，及各自的层次关系。但是，OWL还可以通过逻辑组合算子（合取，析取，否定）在其他类的基础上构造新的类，同时OWL可以通过属性约束定义类，另外OWL还可以声明某个属性具有传递性、对称性、函数性，或是某个属性的逆属性等。例如，在OWL中可以声明属性“朋友”具有对称性，那么如果声明了张三是李四的朋友，则可以推断出李四也是张三的朋友。显然，OWL的这些新特性都超越了RDF(S)的描述能力。
为了应用的需要，OWL提供了三种表达能力递增的子语言：OWL Lite、OWL DL和OWL Full。其中，（1）OWL Lite用于提供给那些只需要一个分类层次和简单属性约束的用户。例如，虽然OWL Lite支持基数限制，但只允许基数为0或1。开发支持OWL Lite的工具要比开发支持其他两个子语言的工具更容易些。（2）OWL DL支持那些不仅需要最强表达能力而且需要保持计算完备性（computational completeness，即所有的结论都能够保证被计算出来）和可判断性（decidability，即所有的计算都在有限的时间内完成）的用户。它包括了OWL语言的所有语义成分，但是使用时必须符合一定的约束。例如，一个类可以是多个类的子类，但它不能同时是另一个类的实例。另外，它是以描述逻辑为基础的（名字中DL表示描述逻辑）。（3）OWL Full支持那些需要最强的表达能力和完全自由的RDF语法但是不需要可计算性保证的用户。例如，它允许一个类被看作是许多个体的一个集合，而同时本身也作为一个个体。它允许在一个Ontology增加预定义的（RDF、OWL）词汇的含义，所以，没有推理软件能支持OWL FULL的所有特性。总的来说：OWL Lite是OWL DL的一个子集，它在OWL DL的基础上除去了组合类以及枚举类，并规定基数约束仅为0或1等，提供的是最简单最基本的OWL语言成分；OWL DL要求类、属性、和个体是三个不相交的集合并提供了基于描述逻辑的推理特征，可以在其上应用已有的推理工具。完整的OWL用OWL FULL表示，它不严格区分类、属性和个体，并放松了OWL DL中的某些推理限制，使其更适合于某些数据库和知识表示系统使用。
关于语义信息的操作语言，目前仅有一些提供简单查询功能的语言，例如RQL，如何定义一组高级操作语言，满足应用的需要，还需要进一步深入的研究和实践。
（本文作者系中国人民大学信息学院数据库与智能信息检索实验室）

Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p>语义网—表示文档内容的语义数据模型<span lang="EN-US"></span></p>
<p align="center" style="font-size: 11pt; margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 125%; font-family: 宋体; text-align: center">杜小勇，李曼<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">互联网改变了人们的生活。目前通过互联网可以看报纸、电视，也可以听广播。广播网、电视网和互联网的“三网合一”，已经没有技术上克服不了的困难了，人为的阻碍也只能是“螳螂挡车”的结果。可以想象，用不了多久，互联网将成为媒体融合的公共载体，而且可以想象在互联网这个平台上还会生长出许多新形态的新媒体。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">但是，目前的互联网上传播的内容只有人能够看的懂，计算机只起个数据存储、传递、展示的作用，不能理解其中的语义。如果计算机能够理解内容的语义，那么计算机就可以帮助人们做很多有意义的事情。比如，在你写文章的时候，计算机可以为你收集相关的文献，在你准备旅行的事情，计算机可以帮助你安排行程、预定旅馆和机票等。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">这是让人兴奋的情景，也是互联网成为各种媒体的基础平台的客观需要。让计算机拥有智能是计算机工作者，特别是人工智能工作者远久以来就有的梦，而且为之奋斗了几十年。但是，总的来说，人工智能的进展并没有像人们期望的那样顺利。日本第五代计算机的失败（其预期目标并没有真正实现）也给人们一个教训，让计算机具有人的智能是属于那种“说说容易做做难”的事情，既需要基础理论的突破，也需要大量基础性的建设工作。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%"><span style="font-family: 宋体">为了将目前互联网改造成有序的计算机可理解的知识宝库，英国人蒂姆·伯纳斯·李（<span lang="EN-US">Tim Berners-Lee</span>）提出了语义<span lang="EN-US">Web</span>（<span lang="EN-US">Semantic Web</span>，也称语义网）的概念，顾名思义是指<span lang="EN-US">Web</span>上的文本信息具有（计算机系统可以理解的）语义。我们都知道，此人也是目前公认的互联网之父</span><a name="_ftnref1" title="_ftnref1"></a><a href="dhtmled8:#_ftn1#_ftn1"><span style="font-family: 宋体" lang="EN-US">[1]</span></a><span style="font-family: 宋体">。<span lang="EN-US"></span></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">那么，语义网是如何具有计算机可以理解的语义信息的呢？换句话说，语义网是如何对语义信息建模的呢？我们需要考虑以下三个方面的内容，一是需要一个描述框架，能够将语义信息（概念以及概念之间的联系）表示出来，二是需要定义一种描述语言具体进行语义信息的描述，三是需要一种操作语言对语义信息进行操作。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">首先，我们先来看看如何描述语义信息，即概念的形成和表示。一个概念<span lang="EN-US">C</span>可以通过数学上的集合来表示，集合有两种表示方法，一种是内涵表示法，另一种就是外延表示法。所谓内涵表示法是指用概念所指代的对象所应满足的性质来表示，而概念的外延表示是指用该概念所指代的具体的对象集合来表示。例如，偶数这个概念既可以表示成<span lang="EN-US">{x| x</span>能被<span lang="EN-US">2</span>整除<span lang="EN-US">}</span>，也可以表示成<span lang="EN-US">{2</span>，<span lang="EN-US">4</span>，<span lang="EN-US">6</span>，<span lang="EN-US">8</span>，……<span lang="EN-US">}</span>。前者就是内涵表示，被<span lang="EN-US">2</span>整除就是<span lang="EN-US">x</span>的一个性质。后者就是外延表示。日常生活中的概念虽然很难象数学概念那样清晰地表达，但是也可以有内涵和外延这两种表示。从概念的形成过程来看，我们首先拥有一组对象，以及关于这些对象的一些性质，理论上讲，描述对象的性质是越多越好。然后，对这组性质进行抽象，那些具有相同性质的对象集合就构成了概念。但是，获得对象的性质是有代价的，是需要逐渐积累的。目前的数据库系统，基本上都是先确定描述对象的性质，然后再去组织数据，它缺乏一种机制，能够不断地丰富数据的描述，而这种机制正是概念学习的基础。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">对象的性质既可以取一个通常意义上的“值”，例如，张三的年龄是<span lang="EN-US">20</span>岁，也可以为另一个对象，例如，张三的老师是李四，这里老师是描述对象张三的一个性质，这个值其实就反映了对象之间的联系。同一个概念的对象具有相同的性质，因此，在习惯上我们将这些对象的性质称为是概念的性质。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">那么语义网是如何描述文档的语义信息（概念及其关系）的呢？它采用多层次的表示框架。首先为文档引入结构，将文档分解成一些可以识别的“块”，这样计算机就能够方便地解读文档，这就是<span lang="EN-US">XML</span>。如果知道<span lang="EN-US">XML</span>的定义，就可以编程序对内容进行操作，比如信息提取等。<span lang="EN-US">XML</span>是语义<span lang="EN-US">Web</span>上资源表示的语法基础，但是并没有对结构本身的语义进行描述。如果不知道<span lang="EN-US">XML</span>元素的语义，那么计算机仍然不能理解其中的信息。这时需要一个更高的层次来描述结构的语义，这就是<span lang="EN-US">RDF</span>。<span lang="EN-US">RDF</span>定义了元素之间的关系，表现为三元组的集合（类似于句子的主语、谓语和宾语）。<span lang="EN-US">XML</span>加上<span lang="EN-US">RDF</span>就相当于建立了人工智能中的语义网络（<span lang="EN-US">semantic network</span>）<span lang="EN-US">,</span>也就可以进行一些简单的推理了。使用<span lang="EN-US">XML+RDF</span>，人们可以建立各自的语义<span lang="EN-US">Web</span>，只要有一套自成体系的术语就可以了。但是，要计算机相互理解对方的内容，还需要有一套共同的标准的概念体系，这就是本体<span lang="EN-US">(Ontology)</span>。<span lang="EN-US">XML+RDF+Ontology</span>构成了计算机相互理解的基础，缺一不可。因此，我们说，语义网描述的就是信息资源的一个语义数据模型，是计算机理解内容的基础。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">其次，我们介绍描述语言标准。<span lang="EN-US">XML</span>，<span lang="EN-US">RDF</span>，<span lang="EN-US">OWL</span>都是国际组织<span lang="EN-US">W3C</span>推荐的标准。<span lang="EN-US">XML</span>和语义信息描述没有直接的关系，而且介绍的资料也很多，我们不在这里介绍。<span lang="EN-US">RDF</span>是<span lang="EN-US">W3C</span>提出的资源描述框架（<span lang="EN-US">Resource Description Framework</span>），它除了可以表达<span lang="EN-US">Web</span>资源的元数据，例如<span lang="EN-US">Web</span>页面的标题、作者、创建时间等，还可以表达任何可在<span lang="EN-US">Web</span>上标识的事物的信息，例如购物网站上某个产品的价格、功能等。<span lang="EN-US">RDF</span>使用了一种简单的三元组模型来表示<span lang="EN-US">Web</span>上资源的属性的取值。每个三元组由主语（<span lang="EN-US">Subject</span>）、谓语（<span lang="EN-US">Predicate</span>）和宾语（<span lang="EN-US">Object</span>）三个元素构成。其中主语代表资源，即所有可以描述的对象。谓语指的是资源的属性（也称性质），一个资源可以有多个属性。宾语就是属性的值，每个属性值既可以是数字、字符串等，也可以是资源。<span lang="EN-US"></span></p>
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%; font-family: 宋体">例如，表<span lang="EN-US">1</span>中的三元组就描述了网页“<span lang="EN-US">http://www.w3c.org/china/</span>”的标题是“<span lang="EN-US">W3C</span>标准”，作者是姓名为“张三”的一个人，他的联系电话是“<span lang="EN-US">62512345</span>”。其中“<span lang="EN-US">http://www.w3c.org/china/</span>”的作者的值就是一个资源“＃<span lang="EN-US">anonymous_r</span>”，这里将其称为匿名资源（即该资源没有名字），该资源具有自己的属性：姓名和电话。<span lang="EN-US"></span></p>
<p align="center" style="font-size: 12pt; margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 125%; font-family: 楷体_GB2312; text-align: center">。<span lang="EN-US"></span></p>
<p align="center" style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%; text-align: center"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">表<span lang="EN-US">1. RDF</span>三元组<span lang="EN-US"></span></span></strong></p>
<table border="1" cellPadding="0" cellSpacing="0">
<tr>
<td width="246" vAlign="top" style="padding-right: 5.4pt; padding-left: 5.4pt; padding-bottom: 0cm; width: 184.8pt; padding-top: 0cm; background-color: transparent; border: windowtext 1pt solid">
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">主语<span lang="EN-US"></span></span></strong></p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: windowtext 1pt solid; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">谓语<span lang="EN-US"></span></span></strong></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: windowtext 1pt solid; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="margin: 0cm 0cm 0pt; text-indent: 24.1pt; line-height: 150%"><strong><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">宾语<span lang="EN-US"></span></span></strong></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">http://www.w3c.org/china/</p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">标题<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%"><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312" lang="EN-US">W3C</span><span style="font-size: 12pt; line-height: 150%; font-family: 楷体_GB2312">标准<span lang="EN-US"></span></span></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">http://www.w3c.org/china/</p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">作者<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">＃<span lang="EN-US">anonymous_r</span></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">＃<span lang="EN-US">anonymous_r</span></p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">姓名<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">张三<span lang="EN-US"></span></p>
</td>
</tr>
<tr>
<td width="246" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: windowtext 1pt solid; width: 184.8pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">＃<span lang="EN-US">anonymous_r</span></p>
</td>
<td width="162" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 121.6pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">电话<span lang="EN-US"></span></p>
</td>
<td width="152" vAlign="top" style="border-right: windowtext 1pt solid; padding-right: 5.4pt; border-top: #ece9d8; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #ece9d8; width: 114.3pt; padding-top: 0cm; border-bottom: windowtext 1pt solid; background-color: transparent">
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%; font-family: 楷体_GB2312">62512345</p>
</td>
</tr>
</table>
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; line-height: 150%; font-family: 宋体">    可以看出<span lang="EN-US">RDF</span>就是三元组的集合，一系列的三元组构成一个<span lang="EN-US">RDF</span>图。图<span lang="EN-US">1</span>就是表<span lang="EN-US">1</span>对应的<span lang="EN-US">RDF</span>图，其中椭圆表示资源，箭头表示属性，方框表示属性的值。<span lang="EN-US"></span></p>
<p style="font-size: 12pt; margin: 0cm 0cm 0pt; text-indent: 24pt; line-height: 150%">&nbsp;</p>
<p><shapetype path="m,l,21600r21600,l21600,xe" coordsize="21600,21600" spt="202" id="_x0000_t202"></shapetype><stroke joinstyle="miter"></stroke></p>
<path gradientshapeok="t" connecttype="rect"></path>
<table align="center">
<tbody>&lt;&gt;<img border="0" src="http://www.capt.cn/n447957/n447984/n447995/images/452219.jpg" /></tbody>
</table>
<p><br clear="all" /><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US">   </span><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US"></span><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US"></span><span style="font-size: 12pt; line-height: 125%; font-family: 楷体_GB2312" lang="EN-US"></p>
<p style="margin: 0cm 0cm 0pt; text-indent: 20pt; line-height: 150%; font-family: 宋体"><span lang="EN-US"> RDF</span>本身并没有规定语义，但是它为每一个资源描述体系提供了一个能够描述其特定需求的语义结构的能力。从这个意义上来讲，<span lang="EN-US">RDF</span>是一个开放的元数据框架。这个元数据框架定义了一种数据模型，可以用来描述计算机能够理解的数据语义。显然，这种框架还需要定义描述中使用的词汇，这就是<span lang="EN-US">RDF</span>的词汇描述语言，即<span lang="EN-US">RDF Schema</span>。<span lang="EN-US">RDF Schema</span>定义了<span lang="EN-US">RDF</span>描述数据时使用的词汇，它引入了类（<span lang="EN-US">class</span>），属性（<span lang="EN-US">property</span>），类之间的包含关系（<span lang="EN-US">subClassOf</span>），属性间的包含关系（<span lang="EN-US">subPropertyOf</span>），以及属性的定义域（<span lang="EN-US">domain</span>）和值域（<span lang="EN-US">range</span>）等标准词汇。例如，对于上面关于网页的例子，我们可以定义两个类，即“网页设计者”和“网页”，其中，“作者”和“标题”都可以定义为属性，它们的定义域都是“网页”，值域分别是“网页设计者”和文本型（即<span lang="EN-US">literal</span>），类似的，可以定义属性“姓名”和“电话”的定义域是“网页设计者”，值域是文本型（即<span lang="EN-US">literal</span>）。对于“网页”这个类来说，资源“<span lang="EN-US">http://www.w3.org/china/</span>”是它的一个实例，对于“网页设计者”这个类来说，姓名为“张三”，电话为“<span lang="EN-US">62512345</span>”的人是它的一个实例。语法上，<span lang="EN-US">RDF Schema</span>与<span lang="EN-US">RDF</span>是完全一致的，即所有的<span lang="EN-US">RDF Schema</span>文档都是合法的<span lang="EN-US">RDF</span>文档。语义上，<span lang="EN-US">RDF Schema</span>是<span lang="EN-US">RDF</span>的一个扩展，即它不仅保留了<span lang="EN-US">RDF</span>的全部意义，而且对新增部分加入了自身的解释。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体"><span lang="EN-US">RDF</span>定义了用于描述资源的语法和模型，<span lang="EN-US">RDF Schema</span>定义了<span lang="EN-US">RDF</span>描述资源时所用的词汇集，这样<span lang="EN-US">RDF</span>和<span lang="EN-US">RDF Schema</span>构成了一种简单的对<span lang="EN-US">Web</span>资源的表示机制。从某种意义上说，<span lang="EN-US">RDF(S)<a name="_ftnref2" title="_ftnref2"></a><a href="dhtmled8:#_ftn2#_ftn2"><span>[2]</span></a></span>本身就是一种简单的本体（<span lang="EN-US">Ontology</span>）语言。但是它太简单，描述能力比较弱，难以表达复杂的领域知识，因此需要对其进行扩展。例如<span lang="EN-US">OIL</span>，<span lang="EN-US">DAML</span>＋<span lang="EN-US">OIL</span>和<span lang="EN-US">OWL,</span>都是对<span lang="EN-US">RDF(S)</span>的扩展。其中，<span lang="EN-US">OWL</span>（<span lang="EN-US">Web Ontology Language</span>）是<span lang="EN-US">W3C</span>最新推荐的<span lang="EN-US">Web Ontology</span>描述语言的标准。它是为了在<span lang="EN-US">WWW</span>上发布和共享<span lang="EN-US">Ontology</span>而提供的语义标记语言。<span lang="EN-US">Ontology</span>之所以逐渐引起人们的重视，主要的原因在于它能够提供明确定义的词汇表，描述概念和概念之间的关系，使得使用者之间达成对概念含义的共同理解。而对同一概念的语义共享和共同理解正是构建语义<span lang="EN-US">Web</span>的关键。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体"><span lang="EN-US">OWL</span>作为<span lang="EN-US">RDF(S)</span>的扩展，是在<span lang="EN-US">DAML+OIL</span>的基础上发展起来的，目的是提供更多的原语以支持更加丰富的语义表达，并更好的支持推理。与<span lang="EN-US">RDF(S)</span>一样，<span lang="EN-US">OWL</span>可以声明类，属性，及各自的层次关系。但是，<span lang="EN-US">OWL</span>还可以通过逻辑组合算子（合取，析取，否定）在其他类的基础上构造新的类，同时<span lang="EN-US">OWL</span>可以通过属性约束定义类，另外<span lang="EN-US">OWL</span>还可以声明某个属性具有传递性、对称性、函数性，或是某个属性的逆属性等。例如，在<span lang="EN-US">OWL</span>中可以声明属性“朋友”具有对称性，那么如果声明了张三是李四的朋友，则可以推断出李四也是张三的朋友。显然，<span lang="EN-US">OWL</span>的这些新特性都超越了<span lang="EN-US">RDF(S)</span>的描述能力。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体">为了应用的需要，<span lang="EN-US">OWL</span>提供了三种表达能力递增的子语言：<span lang="EN-US">OWL Lite</span>、<span lang="EN-US">OWL DL</span>和<span lang="EN-US">OWL Full</span>。其中，（<span lang="EN-US">1</span>）<span lang="EN-US">OWL Lite</span>用于提供给那些只需要一个分类层次和简单属性约束的用户。例如，虽然<span lang="EN-US">OWL Lite</span>支持基数限制，但只允许基数为<span lang="EN-US">0</span>或<span lang="EN-US">1</span>。开发支持<span lang="EN-US">OWL Lite</span>的工具要比开发支持其他两个子语言的工具更容易些。（<span lang="EN-US">2</span>）<span lang="EN-US">OWL DL</span>支持那些不仅需要最强表达能力而且需要保持计算完备性（<span lang="EN-US">computational completeness</span>，即所有的结论都能够保证被计算出来）和可判断性（<span lang="EN-US">decidability</span>，即所有的计算都在有限的时间内完成）的用户。它包括了<span lang="EN-US">OWL</span>语言的所有语义成分，但是使用时必须符合一定的约束。例如，一个类可以是多个类的子类，但它不能同时是另一个类的实例。另外，它是以描述逻辑为基础的（名字中<span lang="EN-US">DL</span>表示描述逻辑）。（<span lang="EN-US">3</span>）<span lang="EN-US">OWL Full</span>支持那些需要最强的表达能力和完全自由的<span lang="EN-US">RDF</span>语法但是不需要可计算性保证的用户。例如，它允许一个类被看作是许多个体的一个集合，而同时本身也作为一个个体。它允许在一个<span lang="EN-US">Ontology</span>增加预定义的（<span lang="EN-US">RDF</span>、<span lang="EN-US">OWL</span>）词汇的含义，所以，没有推理软件能支持<span lang="EN-US">OWL FULL</span>的所有特性。总的来说：<span lang="EN-US">OWL Lite</span>是<span lang="EN-US">OWL DL</span>的一个子集，它在<span lang="EN-US">OWL DL</span>的基础上除去了组合类以及枚举类，并规定基数约束仅为<span lang="EN-US">0</span>或<span lang="EN-US">1</span>等，提供的是最简单最基本的<span lang="EN-US">OWL</span>语言成分；<span lang="EN-US">OWL DL</span>要求类、属性、和个体是三个不相交的集合并提供了基于描述逻辑的推理特征，可以在其上应用已有的推理工具。完整的<span lang="EN-US">OWL</span>用<span lang="EN-US">OWL FULL</span>表示，它不严格区分类、属性和个体，并放松了<span lang="EN-US">OWL DL</span>中的某些推理限制，使其更适合于某些数据库和知识表示系统使用。<span lang="EN-US"></span></p>
<p style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体">关于语义信息的操作语言，目前仅有一些提供简单查询功能的语言，例如<span lang="EN-US">RQL</span>，如何定义一组高级操作语言，满足应用的需要，还需要进一步深入的研究和实践。<span lang="EN-US"></span></p>
<p align="right" style="margin: 6pt 0cm 0pt; layout-grid-mode: char; text-indent: 24pt; line-height: 150%; font-family: 宋体; text-align: right">（本文作者系中国人民大学信息学院数据库与智能信息检索实验室）</p>
<p></span></p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/archives/40/feed</wfw:commentRss>
		</item>
		<item>
		<title>Web3.0即将粉墨登场 语义网让网络更聪明</title>
		<link>http://www.sw-china.org/archives/39</link>
		<comments>http://www.sw-china.org/archives/39#comments</comments>
		<pubDate>Mon, 06 Aug 2007 10:17:33 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[业界动态]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/39</guid>
		<description><![CDATA[ Web3.0即将粉墨登场 语义网让网络更聪明
编程工具开发商TopQuadrant公司和Franz公司日前表示，他们将把前者的TopBraid Composer和Franz的AllegroGraph 64位RDF存储数据库结合起来，形成一个语义网开发环境和数据库，提高计算机的“智力”。
　　语义网(Semantic Web)又被有些人称为Web3.0。语义技术可增强计算机对数据的理解，在整合大型数据集时用处特别显著。它对于搜索应用的用处也很大，因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档，而语义搜索则能返回与搜索词汇的含义有关的结果(例如：Tank一词，有坦克、水容器等两种含义，语义技术能予以辨别)，或者是与搜索词汇的同义字有关的结果(例如：Tank意为坦克时，同义字有Armored Vehicle，装甲车)。
　　“语义理解技术将帮助消费者更好地管理自己的的图片，”柯达主席兼首席执行官(CEO)彭安东(Antonio Perez)去年在一场演讲中表示，“照片之间也能相互‘认识’了—不用人们指点，利用元数据(Metadata)，一张照片便可寻找到具有相关元数据的另一张照片，因此，所有的照片便能以新的类别进行重新组合，无非取决于它们之间不同的关联方式而已。”
Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p> <a href="http://www.cbismb.com/inc/showcontent.jsp?articleid=20072165">Web3.0即将粉墨登场 语义网让网络更聪明</a></p>
<p>编程工具开发商TopQuadrant公司和Franz公司日前表示，他们将把前者的TopBraid Composer和Franz的AllegroGraph 64位RDF存储数据库结合起来，形成一个语义网开发环境和数据库，提高计算机的“智力”。</p>
<p>　　语义网(Semantic Web)又被有些人称为Web3.0。语义技术可增强计算机对数据的理解，在整合大型数据集时用处特别显著。它对于搜索应用的用处也很大，因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档，而语义搜索则能返回与搜索词汇的含义有关的结果(例如：Tank一词，有坦克、水容器等两种含义，语义技术能予以辨别)，或者是与搜索词汇的同义字有关的结果(例如：Tank意为坦克时，同义字有Armored Vehicle，装甲车)。</p>
<p>　　“语义理解技术将帮助消费者更好地管理自己的的图片，”柯达主席兼首席执行官(CEO)彭安东(Antonio Perez)去年在一场演讲中表示，“照片之间也能相互‘认识’了—不用人们指点，利用元数据(Metadata)，一张照片便可寻找到具有相关元数据的另一张照片，因此，所有的照片便能以新的类别进行重新组合，无非取决于它们之间不同的关联方式而已。”</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/archives/39/feed</wfw:commentRss>
		</item>
		<item>
		<title>Natural language processing</title>
		<link>http://www.sw-china.org/archives/38</link>
		<comments>http://www.sw-china.org/archives/38#comments</comments>
		<pubDate>Mon, 30 Jul 2007 16:41:29 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[NLP]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/38</guid>
		<description><![CDATA[Natural language processing Natural language processing (NLP) is a subfield of artificial intelligence and linguistics. It studies the problems of automated generation and understanding of natural human languages. Natural language generation systems convert information from computer databases into normal-sounding human language, and natural language understanding systems convert samples of human language into more formal representations [...]]]></description>
			<content:encoded><![CDATA[<p><strong><a target="_blank" href="http://en.wikipedia.org/wiki/Natural_language_processing">Natural language processing </a></strong><strong>Natural language processing (NLP)</strong> is a subfield of <a href="http://en.wikipedia.org/wiki/Artificial_intelligence" title="Artificial intelligence">artificial intelligence</a> and <a href="http://en.wikipedia.org/wiki/Linguistics" title="Linguistics">linguistics</a>. It studies the problems of automated generation and understanding of <a href="http://en.wikipedia.org/wiki/Natural_language" title="Natural language">natural human languages</a>. Natural language generation systems convert information from computer databases into normal-sounding human language, and natural language understanding systems convert samples of human language into more formal representations that are easier for computer programs to manipulate.</p>
<table summary="Contents" id="toc" class="toc">
<tr>
<td>
<h2>Contents</h2>
<p><span class="toctoggle">[<a href="javascript:toggleToc()" id="togglelink" class="internal">hide</a>]</span></p>
<ul>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Tasks_and_limitations"><span class="tocnumber">1</span> <span class="toctext">Tasks and limitations</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Concrete_problems"><span class="tocnumber">2</span> <span class="toctext">Concrete problems</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Subproblems"><span class="tocnumber">3</span> <span class="toctext">Subproblems</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Statistical_NLP"><span class="tocnumber">4</span> <span class="toctext">Statistical NLP</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Major_tasks_in_NLP"><span class="tocnumber">5</span> <span class="toctext">Major tasks in NLP</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Evaluation_of_natural_language_processing"><span class="tocnumber">6</span> <span class="toctext">Evaluation of natural language processing</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Organizations_and_conferences"><span class="tocnumber">7</span> <span class="toctext">Organizations and conferences</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Software_tools"><span class="tocnumber">8</span> <span class="toctext">Software tools</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#See_also"><span class="tocnumber">9</span> <span class="toctext">See also</span></a></li>
<li class="toclevel-1"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#External_links"><span class="tocnumber">10</span> <span class="toctext">External links</span></a>
<ul>
<li class="toclevel-2"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Resources"><span class="tocnumber">10.1</span> <span class="toctext">Resources</span></a></li>
<li class="toclevel-2"><a href="http://en.wikipedia.org/wiki/Natural_language_processing#Implementations"><span class="tocnumber">10.2</span> <span class="toctext">Implementations</span></a></li>
</ul>
</li>
</ul>
</td>
</tr>
</table>
<p><script type="text/javascript">     //<![CDATA[  if (window.showTocToggle) { var tocShowText = "show"; var tocHideText = "hide"; showTocToggle(); }  //]]&gt;</script><a name="Tasks_and_limitations" title="Tasks_and_limitations" id="Tasks_and_limitations"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=1" title="Edit section: Tasks and limitations">edit</a>]</span> <span class="mw-headline">Tasks and limitations</span></h2>
<p>In theory, natural language processing is a very attractive method of <a href="http://en.wikipedia.org/wiki/Human-computer_interaction" title="Human-computer interaction">human-computer interaction</a>. Early systems such as <a href="http://en.wikipedia.org/wiki/SHRDLU" title="SHRDLU">SHRDLU</a>, working in restricted &#8220;<a href="http://en.wikipedia.org/wiki/Blocks_world" title="Blocks world">blocks worlds</a>&#8221; with restricted vocabularies, worked extremely well, leading researchers to excessive optimism which was soon lost when the systems were extended to more realistic situations with real-world ambiguity and complexity.</p>
<p>Natural language understanding is sometimes referred to as an <a href="http://en.wikipedia.org/wiki/AI-complete" title="AI-complete">AI-complete</a> problem, because natural language recognition seems to require extensive knowledge about the outside world and the ability to manipulate it. The definition of &#8220;understanding&#8221; is one of the major problems in natural language processing.</p>
<p><a name="Concrete_problems" title="Concrete_problems" id="Concrete_problems"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=2" title="Edit section: Concrete problems">edit</a>]</span> <span class="mw-headline">Concrete problems</span></h2>
<p>Some examples of the problems faced by natural language understanding systems:</p>
<ul>
<li>The sentences <em>We gave the monkeys the bananas because they were hungry</em> and <em>We gave the monkeys the bananas because they were over-ripe</em> have the same surface grammatical structure. However, in one of them the word <em>they</em> refers to the monkeys, in the other it refers to the bananas: the sentence cannot be understood properly without knowledge of the properties and behaviour of monkeys and bananas.</li>
</ul>
<ul>
<li>A string of words may be interpreted in myriad ways. For example, the string <em>Time flies like an arrow</em> may be interpreted in a variety of ways:
<ul>
<li>The common metaphor <em><a href="http://en.wikipedia.org/wiki/Time" title="Time">time</a></em> moves quickly just like an arrow does;</li>
<li>measure the speed of flying insects like you would measure that of an arrow - i.e. <em>(You should) time flies as you would (time) an arrow.</em>;</li>
<li>measure the speed of flying insects like an arrow would - i.e. <em>Time flies in the same way that an arrow would (time them).</em>;</li>
<li>measure the speed of flying insects that are like arrows - i.e. <em>Time those flies that are like arrows</em>;</li>
<li>all of a type of flying insect, &#8220;time-flies,&#8221; collectively enjoys a single arrow (compare <em>Fruit flies like a banana</em>);</li>
<li>each of a type of flying insect, &#8220;time-flies,&#8221; individually enjoys a different arrow (similar comparison applies);</li>
<li>the magazine, <em><a href="http://en.wikipedia.org/wiki/Time_(magazine)" title="Time (magazine)">Time</a></em>, travels straight when thrown</li>
</ul>
</li>
</ul>
<p>English is particularly challenging in this regard because it has little <a href="http://en.wikipedia.org/wiki/Inflectional_morphology" title="Inflectional morphology">inflectional morphology</a> to distinguish between parts of speech.</p>
<ul>
<li>English and several other languages don&#8217;t specify which word an adjective applies to. For example, in the string &#8220;pretty little girls&#8217; school&#8221;.
<ul>
<li>Does the school look little?</li>
<li>Do the girls look little?</li>
<li>Do the girls look pretty?</li>
<li>Does the school look pretty?</li>
</ul>
</li>
</ul>
<p><a name="Subproblems" title="Subproblems" id="Subproblems"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=3" title="Edit section: Subproblems">edit</a>]</span> <span class="mw-headline">Subproblems</span></h2>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Speech_segmentation" title="Speech segmentation">Speech segmentation</a> </dt>
<dd>In most spoken languages, the sounds representing successive letters blend into each other, so the conversion of the analog signal to discrete characters can be a very difficult process. Also, in natural speech there are hardly any pauses between successive words; the location of those boundaries usually must take into account grammatical and semantical constraints, as well as the context. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Text_segmentation" title="Text segmentation">Text segmentation</a> </dt>
<dd>Some written languages like <a href="http://en.wikipedia.org/wiki/Chinese_language" title="Chinese language">Chinese</a>, <a href="http://en.wikipedia.org/wiki/Japanese_language" title="Japanese language">Japanese</a> and <a href="http://en.wikipedia.org/wiki/Thai_language" title="Thai language">Thai</a> do not have single word boundaries either, so any significant text parsing usually requires the identification of word boundaries, which is often a non-trivial task. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Word_sense_disambiguation" title="Word sense disambiguation">Word sense disambiguation</a> </dt>
<dd>Many words have more than one meaning; we have to select the meaning which makes the most sense in context. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Syntactic_ambiguity" title="Syntactic ambiguity">Syntactic ambiguity</a> </dt>
<dd>The <a href="http://en.wikipedia.org/wiki/Grammar" title="Grammar">grammar</a> for <a href="http://en.wikipedia.org/wiki/Natural_language" title="Natural language">natural languages</a> is <a href="http://en.wikipedia.org/wiki/Ambiguous" title="Ambiguous">ambiguous</a>, i.e. there are often multiple possible <a href="http://en.wikipedia.org/wiki/Parse_tree" title="Parse tree">parse trees</a> for a given sentence. Choosing the most appropriate one usually requires <a href="http://en.wikipedia.org/wiki/Semantics" title="Semantics">semantic</a> and contextual information. Specific problem components of syntactic ambiguity include <a href="http://en.wikipedia.org/wiki/Sentence_boundary_disambiguation" title="Sentence boundary disambiguation">sentence boundary disambiguation</a>. </dd>
</dl>
<dl>
<dt>Imperfect or irregular input  </dt>
<dd>Foreign or regional accents and vocal impediments in speech; typing or grammatical errors, <a href="http://en.wikipedia.org/wiki/Optical_character_recognition" title="Optical character recognition">OCR</a> errors in texts. </dd>
</dl>
<dl>
<dt><a href="http://en.wikipedia.org/wiki/Speech_acts" title="Speech acts">Speech acts</a> and plans </dt>
<dd>Sentences often don&#8217;t mean what they literally say; for instance a good answer to &#8220;Can you pass the salt&#8221; is to pass the salt; in most contexts &#8220;Yes&#8221; is not a good answer, although &#8220;No&#8221; is better and &#8220;I&#8217;m afraid that I can&#8217;t see it&#8221; is better yet. Or again, if a class was not offered last year, &#8220;The class was not offered last year&#8221; is a better answer to the question &#8220;How many students failed the class last year?&#8221; than &#8220;None&#8221; is. </dd>
</dl>
<p><a name="Statistical_NLP" title="Statistical_NLP" id="Statistical_NLP"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=4" title="Edit section: Statistical NLP">edit</a>]</span> <span class="mw-headline">Statistical NLP</span></h2>
<p>Statistical natural language processing uses <a href="http://en.wikipedia.org/wiki/Stochastic" title="Stochastic">stochastic</a>, <a href="http://en.wikipedia.org/wiki/Probabilistic" title="Probabilistic">probabilistic</a> and <a href="http://en.wikipedia.org/wiki/Statistical" title="Statistical">statistical</a> methods to resolve some of the difficulties discussed above, especially those which arise because longer sentences are highly ambiguous when processed with realistic grammars, yielding thousands or millions of possible analyses. Methods for disambiguation often involve the use of <a href="http://en.wikipedia.org/wiki/Corpus_linguistics" title="Corpus linguistics">corpora</a> and <a href="http://en.wikipedia.org/wiki/Markov_model" title="Markov model">Markov models</a>. The technology for statistical NLP comes mainly from <a href="http://en.wikipedia.org/wiki/Machine_learning" title="Machine learning">machine learning</a> and <a href="http://en.wikipedia.org/wiki/Data_mining" title="Data mining">data mining</a>, both of which are fields of <a href="http://en.wikipedia.org/wiki/Artificial_intelligence" title="Artificial intelligence">artificial intelligence</a> that involve learning from data.</p>
<p><a name="Major_tasks_in_NLP" title="Major_tasks_in_NLP" id="Major_tasks_in_NLP"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=5" title="Edit section: Major tasks in NLP">edit</a>]</span> <span class="mw-headline">Major tasks in NLP</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Automatic_summarization" title="Automatic summarization">Automatic summarization</a></li>
<li><a href="http://en.wikipedia.org/wiki/Foreign_Language_Reading_Aid" title="Foreign Language Reading Aid">Foreign Language Reading Aid</a></li>
<li><a href="http://en.wikipedia.org/wiki/Foreign_Language_Writing_Aid" title="Foreign Language Writing Aid">Foreign Language Writing Aid</a></li>
<li><a href="http://en.wikipedia.org/wiki/Information_extraction" title="Information extraction">Information extraction</a></li>
<li><a href="http://en.wikipedia.org/wiki/Information_retrieval" title="Information retrieval">Information retrieval</a></li>
<li><a href="http://en.wikipedia.org/wiki/Machine_translation" title="Machine translation">Machine translation</a></li>
<li><a href="http://en.wikipedia.org/wiki/Named_entity_recognition" title="Named entity recognition">Named entity recognition</a></li>
<li><a href="http://en.wikipedia.org/wiki/Natural_language_generation" title="Natural language generation">Natural language generation</a></li>
<li><a href="http://en.wikipedia.org/wiki/Optical_Character_Recognition" title="Optical Character Recognition">Optical Character Recognition</a></li>
<li><a href="http://en.wikipedia.org/wiki/Question_answering" title="Question answering">Question answering</a></li>
<li><a href="http://en.wikipedia.org/wiki/Speech_recognition" title="Speech recognition">Speech recognition</a></li>
<li><a href="http://en.wikipedia.org/w/index.php?title=Spoken_dialogue_management&amp;action=edit" title="Spoken dialogue management" class="new">Spoken dialogue management</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text_simplification" title="Text simplification">Text simplification</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text_to_speech" title="Text to speech">Text to speech</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text-proofing" title="Text-proofing">Text-proofing</a></li>
</ul>
<p><a name="Evaluation_of_natural_language_processing" title="Evaluation_of_natural_language_processing" id="Evaluation_of_natural_language_processing"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=6" title="Edit section: Evaluation of natural language processing">edit</a>]</span> <span class="mw-headline">Evaluation of natural language processing</span></h2>
<p>The goal of NLP evaluation is to measure one or more <em>qualities</em> of an algorithm or a system, in order to determine if (or to what extent) the system answers the goals of its designers, or the needs of its users. Research in NLP evaluation has received considerable attention, because the definition of proper evaluation criteria is one way to specify precisely an NLP problem, going thus beyond the vagueness of tasks defined only as <em>language understanding</em> or <em>language generation</em>. A precise set of evaluation criteria, which includes mainly evaluation data and evaluation metrics, enables several teams to compare their solutions to a given NLP problem.</p>
<ul>
<li>History of evaluation in NLP</li>
</ul>
<p>&#8230;</p>
<p>Depending on the evaluation procedures, a number of distinctions are traditionally made in NLP evaluation.</p>
<ul>
<li>Intrinsic vs. extrinsic evaluation</li>
</ul>
<p>Intrinsic evaluation considers an isolated NLP system and characterizes its performance mainly with respect to a <em>gold standard</em> result, pre-defined by the evaluators. Extrinsic evaluation, also called <em>evaluation in use</em> considers the NLP system in a more complex setting, either as an embedded system or serving a precise function for a human user. The extrinsic performance of the system is then characterized in terms of its utility with respect to the overall task of the complex system or the human user.</p>
<ul>
<li>Black-box vs. glass-box evaluation</li>
</ul>
<p>Black-box evaluation requires one to run an NLP system on a given data set and to measure a number of parameters related to the quality of the process (speed, reliability, resource consumption) and, most importantly, to the quality of the result (e.g. the accuracy of data annotation or the fidelity of a translation). Glass-box evaluation looks at the design of the system, the algorithms that are implemented, the linguistic resources it uses (e.g. vocabulary size), etc. Given the complexity of NLP problems, it is often difficult to predict performance only on the basis of glass-box evaluation, but this type of evaluation is more informative with respect to error analysis or future developments of a system.</p>
<ul>
<li>Automatic vs. manual evaluation</li>
</ul>
<p>In many cases, automatic procedures can be defined to evaluate an NLP system by comparing its output with the gold standard (or desired) one. Although the cost of producing the gold standard can be quite high, automatic evaluation can be repeated as often as needed without much additional costs (on the same input data). However, for many NLP problems, the definition of a gold standard is a complex task, and can prove impossible when inter-annotator agreement is insufficient. Manual evaluation is performed by human judges, which are instructed to estimate the quality of a system, or most often of a sample of its output, based on a number of criteria. Although, thanks to their linguistic competence, human judges can be considered as the reference for a number of language processing tasks, there is also considerable variation across their ratings. This is why automatic evaluation is sometimes referred to as <em>objective</em> evaluation, while the human kind appears to be more <em>subjective.</em></p>
<ul>
<li>Shared tasks
<ul>
<li><a href="http://en.wikipedia.org/wiki/Message_Understanding_Conference" title="Message Understanding Conference">Message Understanding Conference</a></li>
<li><a href="http://en.wikipedia.org/wiki/Text_Retrieval_Conference" title="Text Retrieval Conference">Text Retrieval Conference</a></li>
<li><a href="http://en.wikipedia.org/wiki/BioCreative" title="BioCreative">BioCreative</a></li>
</ul>
</li>
</ul>
<p><a name="Organizations_and_conferences" title="Organizations_and_conferences" id="Organizations_and_conferences"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=7" title="Edit section: Organizations and conferences">edit</a>]</span> <span class="mw-headline">Organizations and conferences</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Association_for_Computational_Linguistics" title="Association for Computational Linguistics">Association for Computational Linguistics</a></li>
<li><a href="http://en.wikipedia.org/w/index.php?title=Association_for_Machine_Translation_in_the_Americas&amp;action=edit" title="Association for Machine Translation in the Americas" class="new">Association for Machine Translation in the Americas</a></li>
<li><a href="http://en.wikipedia.org/wiki/AFNLP" title="AFNLP">AFNLP</a> - Asian Federation of Natural Language Processing Associations</li>
</ul>
<p><a name="Software_tools" title="Software_tools" id="Software_tools"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=8" title="Edit section: Software tools">edit</a>]</span> <span class="mw-headline">Software tools</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/General_Architecture_for_Text_Engineering" title="General Architecture for Text Engineering">General Architecture for Text Engineering</a></li>
<li><a href="http://en.wikipedia.org/wiki/Natural_Language_Toolkit" title="Natural Language Toolkit">Natural Language Toolkit</a></li>
<li><a href="http://en.wikipedia.org/wiki/Expert_System_S.p.A." title="Expert System S.p.A.">Expert System S.p.A.</a></li>
</ul>
<p><a name="See_also" title="See_also" id="See_also"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=9" title="Edit section: See also">edit</a>]</span> <span class="mw-headline">See also</span></h2>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Human_language_technology" title="Human language technology">human language technology</a></li>
<li><a href="http://en.wikipedia.org/wiki/Computational_linguistics" title="Computational linguistics">computational linguistics</a></li>
<li><a href="http://en.wikipedia.org/wiki/Controlled_natural_language" title="Controlled natural language">controlled natural language</a></li>
<li><a href="http://en.wikipedia.org/wiki/Information_retrieval" title="Information retrieval">information retrieval</a></li>
<li><a href="http://en.wikipedia.org/wiki/Latent_semantic_indexing" title="Latent semantic indexing">latent semantic indexing</a></li>
<li><a href="http://en.wikipedia.org/wiki/Lojban" title="Lojban">lojban</a> / <a href="http://en.wikipedia.org/wiki/Loglan" title="Loglan">loglan</a></li>
<li><a href="http://en.wikipedia.org/wiki/Transderivational_search" title="Transderivational search">Transderivational search</a></li>
<li><a href="http://en.wikipedia.org/wiki/Biomedical_text_mining" title="Biomedical text mining">Biomedical text mining</a></li>
<li><a href="http://en.wikipedia.org/wiki/Computer-assisted_reviewing" title="Computer-assisted reviewing">Computer-assisted reviewing</a></li>
<li><a href="http://en.wikipedia.org/wiki/Chatterbot" title="Chatterbot">Chatterbot</a></li>
<li><a href="http://en.wikipedia.org/wiki/Name_resolution" title="Name resolution">Name resolution</a></li>
<li>the <a href="http://en.wikipedia.org/wiki/Inform" title="Inform">Inform 7</a> programming language</li>
<li>The fictional <a href="http://en.wikipedia.org/wiki/Universal_translator" title="Universal translator">universal translator</a></li>
</ul>
<p><a name="External_links" title="External_links" id="External_links"></a></p>
<h2><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=10" title="Edit section: External links">edit</a>]</span> <span class="mw-headline">External links</span></h2>
<p><a name="Resources" title="Resources" id="Resources"></a></p>
<h3><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=11" title="Edit section: Resources">edit</a>]</span> <span class="mw-headline">Resources</span></h3>
<ul>
<li><a rel="nofollow" href="http://www-nlp.stanford.edu/fsnlp/" title="http://www-nlp.stanford.edu/fsnlp/" class="external text">Stanford List of Statistical NLP Links</a></li>
<li><a rel="nofollow" href="http://www.cs.technion.ac.il/~gabr/resources/resources.html" title="http://www.cs.technion.ac.il/~gabr/resources/resources.html" class="external text">Resources for Text, Speech and Language Processing</a></li>
<li><a rel="nofollow" href="http://www.proxem.com/Resources/tabid/54/Default.aspx" title="http://www.proxem.com/Resources/tabid/54/Default.aspx" class="external text">A comprehensive list of resources, classified by category</a></li>
<li><a rel="nofollow" href="http://www.ling.helsinki.fi/filt/info/index-en.shtml" title="http://www.ling.helsinki.fi/filt/info/index-en.shtml" class="external text">Language Technology Documentation Centre in Finland (FiLT)</a></li>
</ul>
<p><a name="Implementations" title="Implementations" id="Implementations"></a></p>
<h3><span class="editsection">[<a href="http://en.wikipedia.org/w/index.php?title=Natural_language_processing&amp;action=edit&amp;section=12" title="Edit section: Implementations">edit</a>]</span> <span class="mw-headline">Implementations</span></h3>
<ul>
<li><a rel="nofollow" href="http://www.documentsummary.com/" title="http://www.documentsummary.com/" class="external text">Document Summary System</a>, a commercial product that performs document summarization using Natural Language processing.</li>
<li><a rel="nofollow" href="http://www.haley.com/dev/knowledge-management.html" title="http://www.haley.com/dev/knowledge-management.html" class="external text">Automating Managed Knowledge Using Natural Language Processing Technology</a></li>
<li><a rel="nofollow" href="http://www-nlp.stanford.edu/software/" title="http://www-nlp.stanford.edu/software/" class="external text">Stanford&#8217;s JavaNLP toolchain</a></li>
<li><a rel="nofollow" href="http://opennlp.sourceforge.net/" title="http://opennlp.sourceforge.net/" class="external text">OpenNLP</a></li>
<li><a rel="nofollow" href="http://www.delph-in.net/" title="http://www.delph-in.net/" class="external text">DELPH-IN: integrated technology for deep language processing</a></li>
<li><a href="http://en.wikipedia.org/wiki/LinguaStream" title="LinguaStream">LinguaStream</a>: a generic platform for Natural Language Processing experimentation</li>
<li><a rel="nofollow" href="http://nltk.org/" title="http://nltk.org/" class="external text">Natural Language Toolkit</a></li>
<li><a href="http://en.wikipedia.org/wiki/Modular_Audio_Recognition_Framework" title="Modular Audio Recognition Framework">MARF</a>: <a rel="nofollow" href="http://marf.sf.net/" title="http://marf.sf.net" class="external text">Modular Audio Recognition Framework</a> for voice and statistical NLP processing</li>
<li><a rel="nofollow" href="http://www.lsi.upc.es/~nlp/freeling" title="http://www.lsi.upc.es/~nlp/freeling" class="external text">FreeLing: an open source suite of language analyzers</a></li>
<li><a rel="nofollow" href="http://www.alias-i.com/lingpipe" title="http://www.alias-i.com/lingpipe" class="external text">LingPipe: Java Natural Language Processing Toolkit</a></li>
<li><a rel="nofollow" href="http://www.ii.uam.es/~ealfon/eng/research/wraetlic.html" title="http://www.ii.uam.es/%7eealfon/eng/research/wraetlic.html" class="external text">The wraetlic toolkit</a></li>
<li><a rel="nofollow" href="http://www.proxem.com/" title="http://www.proxem.com" class="external text">Antelope framework</a> for <a href="http://en.wikipedia.org/wiki/Microsoft_.Net" title="Microsoft .Net">Microsoft .NET 2.0</a></li>
<li><a rel="nofollow" href="http://www.1aiway.com/nlp4net/docs/intro.htm" title="http://www.1aiway.com/nlp4net/docs/intro.htm" class="external text">Nlp4Net</a> Natural Language Processing for <a href="http://en.wikipedia.org/wiki/Microsoft_.Net" title="Microsoft .Net">Microsoft .NET 2.0</a></li>
<li><a rel="nofollow" href="http://www.teachrose.com/" title="http://www.teachrose.com" class="external text">Teach Rose - Web based natural learning project</a></li>
<li><a rel="nofollow" href="http://alphaworks.ibm.com/tech/uima" title="http://alphaworks.ibm.com/tech/uima" class="external text">UIMA: Unstructured Information Management Architecture SDK by IBM</a></li>
<li><a rel="nofollow" href="http://www.intellexer.com/" title="http://www.intellexer.com" class="external text">Intellexer SDK: Natural Language Processing platform for C++/.NET</a></li>
<li><a rel="nofollow" href="http://www.acrolinx.com/acrocheck_overview_en.php" title="http://www.acrolinx.com/acrocheck_overview_en.php" class="external text">acrocheck</a> - Customizable controlled language checker for many authoring environments</li>
<li><a rel="nofollow" href="http://www.ianywhere.com/products/answers_anywhere.html" title="http://www.ianywhere.com/products/answers_anywhere.html" class="external text">Answers Anywhere</a> A Natural Language Interface toolkit modeling the semantics of the application rather than syntactically or statistically modeling the language.</li>
</ul>
<p><!-- Saved in parser cache with key enwiki:pcache:idhash:21652-0!1!0!default!!en!2 and timestamp 20070727212210 --></p>
<p class="printfooter">Retrieved from &#8220;<a href="http://en.wikipedia.org/wiki/Natural_language_processing">http://en.wikipedia.org/wiki/Natural_language_processing</a>&#8220;</p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/36" rel="bookmark" title="Permanent Link: Software Tools for NLP" >Software Tools for NLP</a></span><div class="aizattos_related_posts_excerpt">
Software Archive


	CMU Artificial Intelligence Repository
	Resources Available Through CRL
	...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/37" rel="bookmark" title="Permanent Link: NLP常用信息资源" >NLP常用信息资源</a></span><div class="aizattos_related_posts_excerpt">LDC: The Linguistic Data Consortium
http://www.ldc.upenn.edu/

知网
http://www.keenage.com/
...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/35" rel="bookmark" title="Permanent Link: 关于语义网和myWeb" >关于语义网和myWeb</a></span><div class="aizattos_related_posts_excerpt">
关于语义网和myWeb
回家的路上, 一直在苦思冥想一件事, 隐隐约约的, 有一...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/29" rel="bookmark" title="Permanent Link: THE MEANING AND FUTURE OF THE SEMANTIC WEB" >THE MEANING AND FUTURE OF THE SEMANTIC WEB</a></span></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/7" rel="bookmark" title="Permanent Link: Semantic Web, OWL, RDF, JENA" >Semantic Web, OWL, RDF, JENA</a></span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/archives/38/feed</wfw:commentRss>
		</item>
		<item>
		<title>NLP常用信息资源</title>
		<link>http://www.sw-china.org/archives/37</link>
		<comments>http://www.sw-china.org/archives/37#comments</comments>
		<pubDate>Mon, 30 Jul 2007 16:26:14 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[NLP]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/37</guid>
		<description><![CDATA[LDC: The Linguistic Data Consortium
http://www.ldc.upenn.edu/
知网
http://www.keenage.com/
WordNet
http://wordnet.princeton.edu/
中文自然语言处理开放平台
http://www.nlp.org.cn/
AAAI Topics on NLP
http://www.aaai.org/AITopics/html/natlang.html
Sogou实验室
http://www.sogou.com/labs/
Hal Daume III Blog
http://nlpers.blogspot.com/
其他代码和数据资源
http://www-nlp.stanford.edu/links/statnlp.html
 国内外知名研究组织机构:
ACL: The Association for Computational Linguistics
http://www.aclweb.org/
AAAI: Association for the Advancement of Artificial Intelligence
http://www.aaai.org/
ICCL: The International Committee on Computational Linguistics
http://www.dcs.shef.ac.uk/research/ilash/iccl/
SIGIR
http://www.acm.org/sigs/sigir/
SIGHAN
http://www.sighan.org/
中文信息学会
http://www.cipsc.org.cn/
COLIPS: The Chinese and Oriental Languages Information Processing Society
http://www.colips.org/
清华大学信息科学与技术国家实验室自然语言处理组
http://nlp.csai.tsinghua.edu.cn/
北京大学计算语言学研究所
http://icl.pku.edu.cn/
中科院计算所自然语言处理研究组
http://mtgroup.ict.ac.cn/
知网
http://www.keenage.com/
中国科学院声学研究所HNC实验室
http://www.hncnlp.com/
哈尔滨工业大学计算机学院智能技术与自然语言处理研究室
http://www.insun.hit.edu.cn/
哈尔滨工业大学信息检索研究室
http://ir.hit.edu.cn/
Related PostsNo related posts]]></description>
			<content:encoded><![CDATA[<p class="tpc_content">LDC: The Linguistic Data Consortium<br />
<a target="_blank" href="http://www.ldc.upenn.edu/">http://www.ldc.upenn.edu/</a></p>
<p>知网<br />
<a target="_blank" href="http://www.keenage.com/">http://www.keenage.com/</a></p>
<p>WordNet<br />
<a target="_blank" href="http://wordnet.princeton.edu/">http://wordnet.princeton.edu/</a></p>
<p>中文自然语言处理开放平台<br />
<a target="_blank" href="http://www.nlp.org.cn/">http://www.nlp.org.cn/</a></p>
<p>AAAI Topics on NLP<br />
<a target="_blank" href="http://www.aaai.org/AITopics/html/natlang.html">http://www.aaai.org/AITopics/html/natlang.html</a></p>
<p>Sogou实验室<br />
<a target="_blank" href="http://www.sogou.com/labs/">http://www.sogou.com/labs/</a></p>
<p>Hal Daume III Blog<br />
<a target="_blank" href="http://nlpers.blogspot.com/">http://nlpers.blogspot.com/</a></p>
<p>其他代码和数据资源<br />
<a target="_blank" href="http://www-nlp.stanford.edu/links/statnlp.html">http://www-nlp.stanford.edu/links/statnlp.html</a></p>
<p> 国内外知名研究组织机构:</p>
<p>ACL: The Association for Computational Linguistics<br />
<a target="_blank" href="http://www.aclweb.org/">http://www.aclweb.org/</a></p>
<p>AAAI: Association for the Advancement of Artificial Intelligence<br />
<a target="_blank" href="http://www.aaai.org/">http://www.aaai.org/</a></p>
<p>ICCL: The International Committee on Computational Linguistics<br />
<a target="_blank" href="http://www.dcs.shef.ac.uk/research/ilash/iccl/">http://www.dcs.shef.ac.uk/research/ilash/iccl/</a></p>
<p>SIGIR<br />
<a target="_blank" href="http://www.acm.org/sigs/sigir/">http://www.acm.org/sigs/sigir/</a></p>
<p>SIGHAN<br />
<a target="_blank" href="http://www.sighan.org/">http://www.sighan.org/</a></p>
<p>中文信息学会<br />
<a target="_blank" href="http://www.cipsc.org.cn/">http://www.cipsc.org.cn/</a></p>
<p>COLIPS: The Chinese and Oriental Languages Information Processing Society<br />
<a target="_blank" href="http://www.colips.org/">http://www.colips.org/</a></p>
<p>清华大学信息科学与技术国家实验室自然语言处理组<br />
<a target="_blank" href="http://nlp.csai.tsinghua.edu.cn/">http://nlp.csai.tsinghua.edu.cn/</a></p>
<p>北京大学计算语言学研究所<br />
<a target="_blank" href="http://icl.pku.edu.cn/">http://icl.pku.edu.cn/</a></p>
<p>中科院计算所自然语言处理研究组<br />
<a target="_blank" href="http://mtgroup.ict.ac.cn/">http://mtgroup.ict.ac.cn/</a></p>
<p>知网<br />
<a target="_blank" href="http://www.keenage.com/">http://www.keenage.com/</a></p>
<p>中国科学院声学研究所HNC实验室<br />
<a target="_blank" href="http://www.hncnlp.com/">http://www.hncnlp.com/</a></p>
<p>哈尔滨工业大学计算机学院智能技术与自然语言处理研究室<br />
<a target="_blank" href="http://www.insun.hit.edu.cn/">http://www.insun.hit.edu.cn/</a></p>
<p>哈尔滨工业大学信息检索研究室<br />
<a target="_blank" href="http://ir.hit.edu.cn/">http://ir.hit.edu.cn/</a></p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title">No related posts</span></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/archives/37/feed</wfw:commentRss>
		</item>
		<item>
		<title>Software Tools for NLP</title>
		<link>http://www.sw-china.org/archives/36</link>
		<comments>http://www.sw-china.org/archives/36#comments</comments>
		<pubDate>Mon, 30 Jul 2007 15:56:58 +0000</pubDate>
		<dc:creator>admin</dc:creator>
		
		<category><![CDATA[NLP]]></category>

		<category><![CDATA[语义网应用]]></category>

		<guid isPermaLink="false">http://www.sw-china.org/archives/36</guid>
		<description><![CDATA[Software Archive

CMU Artificial Intelligence Repository
Resources Available Through CRL
SIL Computing Resources
Linguistics Tools at the University of Vaasa in Finland
Leeds University, Natural Language Processing Research Group: RESOURCES
ICOT Free Software
Netlib Repository (mirror in Japan)


General Information

Sourcebank - a search engine for programming resources.
Resources related to content analysis and text analysis - Software
Some publically available NLP packages
SAL (Scientific Applications on [...]]]></description>
			<content:encoded><![CDATA[<p align="left"><font color="#ff0000">Software Archive</font></p>
<ul>
<li><a href="http://www.cs.cmu.edu/Web/Groups/AI/html/repository.html">CMU Artificial Intelligence Repository</a></li>
<li><a href="http://crl.nmsu.edu/Tools/">Resources Available Through CRL</a></li>
<li><a href="http://www.sil.org/computing/sil_computing.html">SIL Computing Resources</a></li>
<li><a href="ftp://garbo.uwasa.fi/pc/linguistics/">Linguistics Tools at the University of Vaasa in Finland</a></li>
<li><a href="http://www.scs.leeds.ac.uk/nlp/">Leeds University, Natural Language Processing Research Group: RESOURCES</a></li>
<li><a href="http://www.icot.or.jp/ICOT/IFS/ifs.html">ICOT Free Software</a></li>
<li><a href="http://www.netlib.org/">Netlib Repository</a> (<a href="http://phase.etl.go.jp/netlib/">mirror in Japan</a>)</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">General Information</font></h2>
<ul>
<li><a href="http://www.sourcebank.com/index.asp">Sourcebank</a> - a search engine for programming resources.</li>
<li><a href="http://www.gwdg.de/~mromppe/contsoft.htm">Resources related to content analysis and text analysis - Software</a></li>
<li><a href="http://www.uq.edu.au/~csmpeder/systems.html">Some publically available NLP packages</a></li>
<li><a href="http://ec.tmit.ac.jp/koyama/linux/SAL/">SAL (Scientific Applications on Linux)</a>
<ul><a href="http://ec.tmit.ac.jp/koyama/linux/SAL/Z/3/">Artificial Intelligence</a></ul>
</li>
<li><a href="http://nl.ijs.si/~tomaz/telri-wg5/pub-tools/tihany-html-paper/">Public Domain Generic Tools: An Overview</a> - a paper written by Tomaz Erjavec</li>
<li><a href="http://www.ifi.unizh.ch/groups/CL/InteractiveTools.html">A collection of online interactive CL tools</a> (Computational Linguistics Group, University of Zurich)</li>
<li><a href="http://www.linguistlist.org/software.html">The LINGUIST List: Software</a></li>
<li><a href="http://cl-www.dfki.uni-sb.de/cl/registry/draft.html">The Natural Language Software Registry</a></li>
<li><a href="http://www.ltg.hcrc.ed.ac.uk/helpdesk/">Language Software Helpdesk</a>
<ul>
<li><a href="http://www.ltg.hcrc.ed.ac.uk/helpdesk/faq/">Frequently Asked Questions</a></li>
</ul>
</li>
<li><a href="http://www.cis.upenn.edu/~adwait/penntools.html">PennTools</a> - Computational Linguistics Resources At Penn.</li>
<li><a href="http://adam.wins.uva.nl/~visser/parsing/">Parsing Resources</a></li>
<li><a href="http://www.liv.ac.uk/~tony1/taggers.txt">Taggers online, email message containing addresses</a></li>
<li><a href="http://www.sfs.nphil.uni-tuebingen.de/~abney/Parsers.html">Parsers and Taggers Information</a> (by Steven Paul Abney)</li>
<li><a href="http://www.de.relator.research.ec.org/">Relator Language Processing Resources</a></li>
<li><a href="http://www.comp.lancs.ac.uk/computing/research/ucrel/tools.html">Corpus Search Tools</a></li>
<li><a href="http://www.dms.unina.it/~cd/software.html">Neural Networks &amp; Statistics: Software</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Tagger, Morphological Analyzer</font></h2>
<ul>
<li><a href="http://www.cs.cmu.edu/~kseymore/general_tagger.pl">A Perl/Tk text tagger</a></li>
<li><a href="http://www.conexor.fi/">Conexor</a></li>
<li><a href="http://www.cogilex.com/">Cogilex R&amp;D inc</a> - Makers of expert tools for natural language processing</li>
<li><a href="http://www.comp.lancs.ac.uk/ucrel/claws/">CLAWS part-of-speech tagger</a></li>
<li><a href="http://www.coli.uni-sb.de/~thorsten/tnt/">TnT - Statistical Part-of-Speech Tagging</a></li>
<li><a href="http://elvira.lllf.uam.es/~fernando/projects/esT.html">POS tagger for Spanish</a></li>
<li><a href="http://www.ling.gu.se/~nivre/kurser/wwwstat/toolsTP.html">Tagging and Parsing tools</a></li>
<li><a href="http://www.phon.ucl.ac.uk/home/alex/project/tagging/tagging.htm">AUTASYS - A Fully Automatic English Wordclass Analysis System</a></li>
<li><a href="ftp://lands.let.kun.nl/pub/tosca/tlbtag/">TOSCA/LOB tagger</a></li>
<li><a href="http://www.lsi.upc.es/~padro/angles/recerca.html">Relaxation Labelling Based Multi-Tagger</a></li>
<li><a href="http://www-clg.bham.ac.uk/QTAG/">The QTAG Part of Speech Tagger</a></li>
<li><a href="http://www-clg.bham.ac.uk/oliver/java/qtag/">QTAG: A portable Parts of Speech Tagger</a></li>
<li><a href="http://www.cl.cam.ac.uk/Research/NL/anlt.html">The Alvey Natural Language Tools</a></li>
<li><a href="http://www.cis.upenn.edu/~xtag/">The XTAG Project</a></li>
<li><a href="http://www.ims.uni-stuttgart.de/Tools/DecisionTreeTagger.html">TreeTagger - a language independent part-of-speech tagger</a></li>
<li><a href="ftp://ftp.parc.xerox.com/pub/tagger/">Xerox Part-of-Speech Tagger</a></li>
<li><a href="ftp://scott.cogsci.ed.ac.uk/pub/phonology/tools/MAP/">The Edinburgh/Cambridge Morphological Analyser System</a></li>
<li><a href="http://jupiter.inalf.cnrs.fr/WinBrill/">Winbrill</a> - An adaptation of Brill&#8217;s tagger to Windows 95/98.</li>
<li><a href="http://www.cs.jhu.edu/~brill/code.html">Eric Brill&#8217;s Part of Speech Tagger</a></li>
<li><a href="http://www2d.biglobe.ne.jp/~htakashi/software/BRILL_E.HTM">Software Plaza: Brill&#8217;s Tagger</a></li>
<li><a href="http://www-psycho.uni-paderborn.de/lezius/">Morphy</a> - An integrated tool for German morphology and statistical part-of-speech tagging.</li>
<li><a href="http://hanul.kaist.ac.kr/~bgjang/MoA/">Korean Morphological Analyzer</a></li>
<li><a href="http://www-lab25.kuee.kyoto-u.ac.jp/nltools/">Natural Language Tools</a> - Japanese morphological analyzer (JUMAN) and parser (KNP) developed by Nagao Lab. at Kyoto University, Japan.</li>
<li>WordSmith Tools - Wordsmith Tools is the Swiss Army knife of lexical analysis - an integrated suite of programs for looking at how words behave in texts. It is intended for linguists, language teachers, and anyone who needs to examine language.
<ul>
<li><a href="http://www.liv.ac.uk/~ms2928/homepage.html">Mike Scott&#8217;s Home Page</a></li>
<li><a href="http://www1.oup.co.uk/cite/oup/elt/software/wsmith/">Oxford University Press</a></li>
</ul>
</li>
<li><a href="http://www.w3.org/MarkUp/SGML/sgml-lex/sgml-lex">A Lexical Analyzer for HTML and Basic SGML</a></li>
<li><a href="http://www.mat.upm.es/~aries/">ARIES Natural Language Tools</a> - Lexical platform for the Spanish language.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Stemmer</font></h2>
<ul>
<li><a href="http://www.cs.jhu.edu/~weiss/stem.c">Porter stemmer</a></li>
<li><a href="http://www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/porter.c">Porter stemmer</a></li>
<li><a href="http://wwwots.let.ruu.nl/~uplift/dstem.tar.gz">Dutch Porter stemmer</a></li>
<li><a href="http://ils.unc.edu/iris/irisnstem.htm">IRIS stemmer</a></li>
<li><a href="ftp://n106.is.tokushima-u.ac.jp/pub/IR/Iterated-Lovins-stemmer">Iterated Lovins stemmer</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Collocation</font></h2>
<ul>
<li><a href="http://www.cs.columbia.edu/nlp/licenses/xtractLicenseDownload.html">Xtract</a> - Frank Smadja&#8217;s Collocation Extractor.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Parser</font></h2>
<ul>
<li><a href="http://www.linguistik.uni-erlangen.de/Malaga.en.html">Malaga - a system for automatic language analysis</a></li>
<li><a href="http://macduff.andrew.cmu.edu/ale/">Attribute-Logic Engine (ALE) System and Grammars</a> - A freeware logic programming and grammar parsing system.</li>
<li><a href="http://macduff.andrew.cmu.edu/cgparser/index.html">CG Parser</a> - Natural deduction categorial grammar and lambda-calculus parser.</li>
<li><a href="http://www.let.rug.nl/~vannoord/CL97/index.html">Head-Corner Parser</a> (by Gertjan van Noord)</li>
<li><a href="ftp://ftp.cs.rochester.edu/pub/u/james/CourseParser1.2.tar.gz">A basic parser written to illustrate the bottom up parsing algorithms in Natural Language Understanding, Second Edition</a></li>
<li><a href="http://www.sfs.nphil.uni-tuebingen.de/~abney/">Cass Partial Parser</a></li>
<li><a href="http://www.cs.utexas.edu/users/ml/chill.html">CHILL: An empirical parser acquisition system using inductive logic programming</a></li>
<li><a href="http://issco-www.unige.ch/tools/">ISSCO Tools</a> - Left-head-corner Island Parser Compiler, etc.</li>
<li><a href="http://www.georgetown.edu/compling/">Georgetown University Natural Language Processing<br />
Parser Modularity Demo page</a></li>
<li><a href="http://sil.org/pcpatr/">PC-PATR: A syntactic parser</a></li>
<li><a href="http://www.ims.uni-stuttgart.de/cuf/">IMS Stuttgart: The CUF Web Page</a> - Comprehensive Unification Formalism</li>
<li><a href="http://cs.nyu.edu/cs/projects/proteus/app/">Apple Pie Parser</a> - The Apple Pie Parser is a bottom-up probabilistic chart parser which finds the parse tree with the best score by best-first search algorithm.</li>
<li><a href="http://bobo.link.cs.cmu.edu/grammar/html/intro.html">Link Grammar Parser</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Corpus Tools</font></h2>
<ul>
<li><a href="http://webcorp.connect.org.uk/">WebCorp</a></li>
<li><a href="http://www.nsknet.or.jp/~peterr-s/concordancing/concordancing.html">Concordances: Producing and Using them</a></li>
<li><a href="http://www.cs.vassar.edu/XCES/">XCES: Corpus Encoding Standard for XML</a></li>
<li><a href="http://www.dai.ed.ac.uk/staff/personal_pages/micko/RSTTool/Manual.html">RST Tool</a> - An RST (Rhetorical Structure Theory) Markup Tool.</li>
<li><a href="http://www.isi.edu/~marcu/software.html">RST Annotation Tool</a></li>
<li><a href="http://www.clg.bham.ac.uk/QWICK/index.html">Qwick</a> - corpus browser</li>
<li><a href="http://www.ldc.upenn.edu/annotation/">Linguistic Annotation</a> - This page describes tools and formats for creating and managing linguistic annotations.</li>
<li><a href="http://www.mitre.org/technology/alembic-workbench/">Alembic Workbench</a> - a suite of tools for the analysis of a corpus, along with the Alembic system to enable the automatic acquisition of domain-specific tagging heuristics.</li>
<li><a href="http://www.mcs.surrey.ac.uk/SystemQ/">The System Quirk</a> - Workbench for Terminology, Lexicography and Text Analysis.</li>
<li><a href="http://www.lpl.univ-aix.fr/projects/multext/">Multext: Multilingual Text Tools and Corpora</a></li>
<li><a href="http://www.loria.fr/Projet/XCorpus/">XCorpus</a> - An Environment for Managing Corpus and Multilingual Web Server</li>
<li><a href="http://www2.ims.uni-stuttgart.de/~oli/CorpusToolbox/">The IMS Corpus Toolbox Webpage</a><br />
<a href="http://www.ims.uni-stuttgart.de/CorpusToolbox/">X</a></li>
<li><a href="http://www2d.meshnet.or.jp/~htakashi/">Kobe Phoenix Laboratory</a> - Corpus Wizard program.</li>
<li><a href="http://www.rjcw.freeserve.co.uk/">Concordance</a> - A program for Windows NT 4.0 and Windows 95/98 which makes wordlists, concordances, and Web Concordances from your electronic texts.</li>
<li><a href="http://www.athel.com/mono.html">MonoConc</a> (concordance program)</li>
<li><a href="http://www.nol.net/~athel/mono.html">MonoConc for Windows</a> (concordance program)</li>
<li><a href="http://www.epas.utoronto.ca:8080/cch/tact.html">Text Analysis Computing Tools (TACT)</a></li>
<li><a href="http://prune.loria.fr/~bonhomme/lingua/">The Lingua Project: The World of MultiLingual Parallel Concordancing</a><br />
(http://prune.loria.fr/~bonhomme/lingua/)<br />
- Sentences alignment tool in multilingual corpora.</li>
<li><a href="http://www.loria.fr/exterieur/equipe/dialogue/lingua/">The Lingua Project: The World of MultiLingual Parallel Concordancing</a><br />
(http://www.loria.fr/exterieur/equipe/dialogue/lingua/)</li>
<li><a href="http://www.ims.uni-stuttgart.de/projekte/TC.html">Textual Corpora and Tools for their Exploration</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Language Modeling</font></h2>
<ul>
<li><a href="http://wwwhome.cs.utwente.nl/~terdoest/mem/">Maximum Entropy Modeling</a></li>
<li><a href="http://www.cs.princeton.edu/~ristad/papers/memt.html">Maximum Entropy Modeling Toolkit</a></li>
<li><a href="http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html">CMU-Cambridge Statistical Language Modeling Toolkit</a></li>
<li><a href="http://www.speech.cs.cmu.edu/speech/SLM_info.html">CMU Statistical Language Modeling Toolkit</a> by <a href="http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/WWW/">Roni Rosenfeld</a>
<ul>
<li><a href="ftp://ftp.cs.cmu.edu/project/fgdata/CMU_SLM_Toolkit_V1.0_release.tar.Z">Program</a></li>
<li><a href="http://www.cs.cmu.edu/afs/cs.cmu.edu/user/roni/WWW/toolkit-SLT95-revised.ps">Document</a></li>
</ul>
</li>
<li><a href="http://www.cs.cmu.edu/~aberger/software.html">Trigger Toolkit</a></li>
<li><a href="ftp://ftp.cogs.susx.ac.uk/pub/users/geoffs/SGT.c">Simple Good-Turing Smoothing</a></li>
<li><a href="ftp://ftp.eecs.harvard.edu/users/goodman/smooth/">Smoothing tools software by Joshua Goodman and Stanley Chen</a></li>
<li><a href="http://www.ling.gu.se/~nivre/kurser/wwwstat/tools.html">Language modeling tools</a></li>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/decision_tree/index.html">Statistical Decision Trees</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">HMM</font></h2>
<ul>
<li><a href="http://popper.massey.ac.nz/~ARaman/hmm+pfsa.tar.gz">A HMM mini-toolkit</a> (by Anand Venkataraman)</li>
<li><a href="http://www.cfar.umd.edu/~kanungo/software/software.html">HMM Software</a><br />
see also: <a href="http://www.umiacs.umd.edu/users/resnik/nlstat_tutorial_summer1998/Lab_hmm.html">Exercise: Using a Hidden Markov Model</a></li>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/discrete_hmm/index.html">Discrete HMM Toolkit</a></li>
<li><a href="http://www.cs.berkeley.edu/~murphyk/Bayes/hmm.html">Hidden Markov Model (HMM) Toolbox</a></li>
<li><a href="http://metameme.sdsc.edu/">Meta-MEME: Motif-based Hidden Markov Models of Biological Sequences</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Language Identification</font></h2>
<ul>
<li><a href="ftp://crl.nmsu.edu/pub/misc/lingdet_suite.tar.gz">Ted E. Dunning&#8217;s program</a></li>
<li><a href="http://grid.let.rug.nl/~vannoord/TextCat/">Gertjan van Noord&#8217;s program</a></li>
<li><a href="http://www.link.cs.cmu.edu/dougb/src/li/">Doug Beeferman&#8217;s program</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">FSA Tools</font></h2>
<ul>
<li><a href="http://www.pg.gda.pl/elka/csapp/jd/fsa.html">Finite State Utilities</a></li>
<li><a href="http://cs.cornell.edu/Info/People/zully/csfair/index.html">Automata Learning from Theory to Practice</a>
<ul>
<li><a href="http://cs.cornell.edu/Info/People/zully/csfair/CODE/mycode.html">Downloadable Software</a></li>
</ul>
</li>
<li><a href="http://www.csd.uwo.ca/research/grail/links.html">Index to finite-state machine software, products, and projects</a></li>
<li><a href="http://www.let.rug.nl/~vannoord/FSA/fsa.html">FSA utilities</a>
<ul>
<li><a href="http://www.let.rug.nl/~vannoord/papers/fsa/fsa.html">FSA Utilities: A Toolbox to Manipulate Finite-state Automata</a></li>
</ul>
</li>
<li><a href="http://www.csd.uwo.ca/research/grail/">Grail</a> - a symbolic computation environment for finite-state machines, regular expressions, and other formal language theory objects.</li>
<li><a href="http://www.informatik.uni-kiel.de/inf/Thomas/amore.html">AMoRE</a> - A program for the computation of Automata, Monoids, and Regular Expressions.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Speech</font></h2>
<ul>
<li><a href="http://htk.eng.cam.ac.uk/">HTK: Hidden Markov Model Toolkit</a></li>
<li><a href="http://cslu.cse.ogi.edu/toolkit/">CSLU Toolkit</a></li>
<li><a href="http://epos.ure.cas.cz/">The Epos Speech Synthesis System</a></li>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/index.html">ISIP public domain speech to text system</a>
<ul>
<li><a href="http://www.isip.msstate.edu/projects/speech/software/asr/index.html">The ISIP Automatic Speech Recognition Toolkit</a></li>
</ul>
</li>
<li><a href="http://cslu.cse.ogi.edu/toolkit/">CSLU Toolkit</a> (Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology)</li>
<li><a href="http://www.cs.rice.edu/~andras/ekezes.html">Computer generation of accent marks</a></li>
<li><a href="http://www.itl.nist.gov/div894/894.01/software.htm">Spoken Natural Language Processing Group Software</a></li>
<li><a href="http://www.cs.cmu.edu/afs/cs/user/lindaq/mosaic/era.tar.gz">CMU Error Analysis Toolkit</a></li>
<li><a href="ftp://multimedia.cc.gatech.edu/pub/audiotools/README.html">Audio Tools</a></li>
<li><a href="http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html">VOICEBOX: Speech Processing Toolbox for MATLAB</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Mathematical Software</font></h2>
<ul>
<li><a href="http://math.nist.gov/">NIST Guide to Available Mathematical Software</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Statistics</font></h2>
<ul>
<li><a href="http://www.mrc-bsu.cam.ac.uk/bugs/Welcome.html">Bayesian inference Using Gibbs Sampling</a></li>
<li><a href="http://www.math.auc.dk/~jhb/CoCo/cocoinfo.html">CoCo</a> - A statistics package for analysis of associations between discrete variables.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Machine Learning</font></h2>
<ul>
<li><a href="ftp://ftp.gmd.de/MachineLearning/MLT/">Machine Learning Toolbox (MLT)</a></li>
<li><a href="ftp://ftp.ics.uci.edu/pub/machine-learning-programs/">The Machine Learning Programs Repository</a></li>
<li><a href="http://www.research.att.com/~wcohen/ripperd.html">The RIPPER rule learner</a></li>
<li><a href="http://www.gmd.de/ml-archive/ILP/public/software/mfoil">mFOIL</a> - An ILP systems designed to handle noisy examples.</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Support Vector Machine</font></h2>
<ul>
<li><a href="http://www-ai.cs.uni-dortmund.de/SOFTWARE/SVM_LIGHT/svm_light.eng.html">SVMLight</a></li>
<li><a href="http://www.cs.columbia.edu/~bgrundy/svm/doc/svm.html">SVM package by William Noble Grundy</a></li>
<li><a href="http://www.kernel-machines.org/software.html">Kernel Machines Web Site</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Information Retrieval &amp; Filtering</font></h2>
<ul>
<li><a href="http://www.cs.mu.oz.au/~oldk/seft/">seft - a Search Engine For Text</a></li>
<li><a href="http://www.mds.rmit.edu.au/mg/">MG</a> - Managing Gigabytes</li>
<li><a href="http://www.etymon.com/Isearch/">Isearch</a> - software for indexing and searching text documents.</li>
<li><a href="ftp://ftp.cs.cornell.edu/pub/smart/">SMART Software and test collections</a> (Cornell University)
<ul>
<li><a href="http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/IR.html#SMART">see also SMART links</a></li>
</ul>
</li>
<li><a href="http://www.glue.umd.edu/~oard/software.html">Doug Oard&#8217;s Research Software Page</a> - SMART Modifications</li>
<li><a href="http://www.cs.cmu.edu/~mccallum/bow/">Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering</a></li>
<li><a href="http://www.cs.cmu.edu/~jr6b/ifile/">ifile</a> - A general mail filtering system.</li>
<li><a href="http://www.csd.uwo.ca/~jamie/publications.html#IRSP">IR-STAT-PAK</a> - A program to compute descriptive and analytic statistics for the TREC IR trials.</li>
<li><a href="ftp://beryl.ils.unc.edu/pub/Yavi/">Yavi</a> - A visual interface to textual information.</li>
<li><a href="http://www.cs.cmu.edu/~kseymore/ie.html">Labeled data sets for information extraction</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">String/Pattern Matching</font></h2>
<ul>
<li><a href="http://www.dcc.uchile.cl/~gnavarro/pubcode/">Online Approximate String Matching</a></li>
<li><a href="http://www.cs.ucdavis.edu/~gusfield/strmat.html">Strmat package</a> (exact string matching and suffix trees)</li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Sentence Boundary Detector</font></h2>
<ul>
<li><a href="http://galaxy.cs.berkeley.edu/src/satz/">SATZ: An Adaptive Sentence Boundary Detector</a></li>
<li><a href="ftp://ftp.cis.upenn.edu/pub/adwait/jmx/">Adwait Ratnaparkhi&#8217;s MXTERMINATOR</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Clustering/Classification</font></h2>
<ul>
<li><a href="http://fuzzy.cs.uni-magdeburg.de/fcluster/">FCLUSTER - A tool for fuzzy cluster analysis</a></li>
<li><a href="http://www.ll.mit.edu/IST/lnknet/index.html">LNKnet Pattern Classification Software</a></li>
<li><a href="http://www-users.cs.umn.edu/~boley/Distribution/PDDP.html">Principal Direction Divisive Partitioning</a></li>
<li><a href="http://www.cs.cmu.edu/~dellaert/software/">k-means clustering</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">WWW</font></h2>
<ul>
<li><a href="http://www.math.uio.no/~janl/w3mir/">w3mir</a> - HTTP copying and mirroring tool.</li>
<li><a href="http://httrack.free.fr/">HTTrack</a> - The Web mirror utility.</li>
<li><a href="http://softseek.zdnet.com/Internet/Web_Publishing_Tools/HTML_Conversion/">HTML Conversion, Shareware and Freeware</a></li>
</ul>
<p><!------------------------------------------------------------------------></p>
<h2><font color="#ff0000">Other Tools</font></h2>
<ul>
<li><a href="http://services.canoo.com/MorphologyBrowser.html">German Morphology Browser</a> (online service)</li>
<li><a href="http://www.itl.atr.co.jp/mat2D/mat2D.html">&#8216;mat2D&#8217; Matrix/Vector Library in C</a></li>
<li><a href="http://www.gsu.edu/~wwwcom/content.html">Content Analysis Resources</a> - for quantitative analyses of texts, transcripts, and images.</li>
<li><a href="http://l2r.cs.uiuc.edu/~cogcomp/">SNoW learning program</a></li>
<li><a href="http://www.ling.gu.se/~lager/mutbl.html">The µ-TBL Homepage</a> - Logic Programming Tools for Transformation-Based Learning</li>
<li><a href="http://root.cern.ch/">ROOT: An Object-Oriented Data Analysis Framework</a></li>
<li><a href="http://www.soc.surrey.ac.uk/caqdas/">CAQDAS Networking Project</a> - Computer Assisted Qualitative Data Analysis Software</li>
<li><a href="http://cm.bell-labs.com/cm/cs/who/doug/ssort.c">Suffix sort</a></li>
<li><a href="http://sls-www.lcs.mit.edu/~flammia/Nb.html">Nb</a> - a graphical user interface for annotating the discourse structure of spoken dialogue, monologue, and text.</li>
<li><a href="http://www.dcs.shef.ac.uk/research/groups/nlp/gate/">GATE</a> - General Architecture for Text Engeneering.</li>
<li><a href="http://ilk.kub.nl/software.html">TiMBL: Tilburg Memory Based Learner</a></li>
<li><a href="http://www.lpl.univ-aix.fr/projects/multext/MtRecode/">MtRecode</a> - The Multext character translation program</li>
<li><a href="http://cs.nyu.edu/cs/projects/proteus/evalb/">Evalb</a> - A bracket scoring program. It reports precision, recall, non crossing and tagging accuracy for given data.</li>
<li><a href="http://www.cs.jhu.edu/~murthy/announce.html">The OC1 decision tree software system</a></li>
<li><a href="http://ic-www.arc.nasa.gov/ic/projects/bayes-group/group/ind/IND-program.html">IND Version 2.0 - creation and manipulation of decision trees from data</a></li>
<li><a href="http://pi0959.kub.nl:2080/Paai/Publiek/index.html">Paai&#8217;s text utilities</a></li>
<li><a href="http://www.sil.org/computing/shoebox.html">Shoebox 3.0 for Windows and Macintosh</a> - A database program oriented to the needs of a field linguist&#8217;s dictionary.</li>
<li><a href="http://www.ltg.hcrc.ed.ac.uk/projects/ledtools/statistical/">Teaching materials for statistical NLP</a> by Chris Brew, Language Technology Group, Human Communication Research Centre, University of Edinburgh</li>
<li><a href="http://www.amu.edu.pl/~sipkadan/nt.htm">Introducing environmentalism and post-fordism into NLP</a> (NeuroTran)</li>
<li><a href="http://psych.ut.ee/gling/en/">Tools for Estonian Language</a></li>
<li><a href="http://www.cis.upenn.edu/~melamed/home.html">Dan Melamed&#8217;s Page</a> - Simulated Annealing Program, XTAG morpholyzer post-processors for English Stemming, Good-Turing Smoothing Software, 150 miscellaneous text processing tools, 75 text statistics and bitext geometry tools.</li>
<li><a href="http://www.uninova.pt/~tr/home/tooldiag.html">TOOLDIAG: Pattern recognition toolbox</a></li>
<li><a href="http://www.pins.co.uk/upages/probertm/dn2.htm">The DN2 Home Page</a> - DN2 is an intelligent self-relating free format database system which accepts data in human text format, and retrieves it in response to human requests, like Where is London?</li>
<li><a href="http://www.ph.tn.tudelft.nl/PRInfo/software/maillist.html">Software Announcements</a></li>
<li><a href="http://www.cis.upenn.edu/~josephr/Trees/">Tools for drawing and graphically editing trees</a></li>
<li><a href="http://www.vuw.ac.nz/lals/software.htm">Paul Nation&#8217;s vocabulary programs</a></li>
<li><a href="ftp://ludwig.pharm.uic.edu/pub/predict-syllables.lisp">syllable prediction code</a> (a simple lisp function)</li>
<li><a href="http://www.ii.uib.no/~inge/Pratt.html">Pratt - a pattern discovery tool</a></li>
<li><a href="http://www.research.att.com/areas/stat/xgobi/index.html">XGobi</a> - A system for multivariate data visualization.</li>
<li><a href="http://www.neci.nj.nec.com/homepages/flake/nodelib/html/">NODElib</a> - Neural Optimization Development Engine library</li>
</ul>
<p><!------------------------------------------------------------------------><!---------- END ----------></p>
<div class="aizattos_related_posts"><span class="aizattos_related_posts_header" >Related Posts</span><ul><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/38" rel="bookmark" title="Permanent Link: Natural language processing" >Natural language processing</a></span><div class="aizattos_related_posts_excerpt">Natural language processing Natural language processing (NLP) is a subfield of artificial intelligen...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/29" rel="bookmark" title="Permanent Link: THE MEANING AND FUTURE OF THE SEMANTIC WEB" >THE MEANING AND FUTURE OF THE SEMANTIC WEB</a></span><div class="aizattos_related_posts_excerpt">
LIFEBOAT FOUNDATION SPECIAL REPORT
MINDING THE PLANET: THE MEANING AND FUTURE OF THE SEMANTIC WEB...</div></li><li><span class="aizattos_related_posts_title"><a href="http://www.sw-china.org/archives/30" rel="bookmark" title="Permanent Link: A Web That Thinks Like You" >A Web That Thinks Like You</a></span><div class="aizattos_related_posts_excerpt">A Web That Thinks Like You
"Semantic Web" software from startup Radar Networks could help transform...</div></li></ul></div>]]></content:encoded>
			<wfw:commentRss>http://www.sw-china.org/archives/36/feed</wfw:commentRss>
		</item>
		<item>
		<title>关于语义网和myWeb</title>
		<link>http://www.sw-china.org/archives/35</link>
		<comments>http://www.sw-china.org/archives/35#comments</comments>
		<pubDate>Sun