admin 管理员组文章数量: 1087139
2024年3月10日发(作者:java里面public是什么意思)
图书馆理论与实践 信息管理与信息学 2010(7)
●金 燕,陈 玉(郑州大学信息管理系,郑州450001)
基于本饰的标签控制方法研究
[关键词】标签;标注;本体;标签本
1标签控制的必要性
1.1 标签组织网络信息资源的缺陷
体;标签控制
[摘要]从标签用于网络信息资源组
织的缺陷入手,分析标签控制的必要性,认
(1)标签的无控性。虽然标签的自由性使得信息
组织进一步人性化,但伴随着标签的随意性而来的是
为可以引入本体对标签进行控制,改善标
签组织信息资源的能力。在此基础上,介绍
了一种基于本体的标签控制方法——标签
本体。
标签的混乱和无序,即标签的无控性。与传统分类有
着严格的分类章法不同,用户在提交标签时是没有任
何限制的,如用户可以将一张草莓的照片标记为“西
瓜”,这样的标签并不能反映所标识的信息的内容,
[中图分类号]G35
[文献标志码]A
[文章编号]1005--8214(2010)07--0026--04
是没有任何实际意义的。对于其他群体用户而言,这
样的标签就是“垃圾标签”。【2]
(2)标签的平面性。标签的平面性改变了传统分
类法的树状分类结构,给用户带来了极大的方便,但
Web2.0环境下新兴的网络信息组织方式——分众
分类借助于标签(Tag)对网络信息资源进行标识和
分类,是对网络信息组织的一种新尝试。标签是人们
在互联网上用自己熟悉的语词标识相关信息的标记,
类似于主题词中的关键词,但比关键词更自由、更个
性化。标签不需要遵循固定的模式和标准,用户在标
标签类目的平面非等级结构也造成主次不分、重要信
息被隐藏、不便浏览等问题。分众分类不像传统分类
法那样具有等级结构,不存在根结点,标识信息的标
签是以标签云图的形式显示在页面上的,尽管重要
的、点击频次高的标签通过特殊颜色或字体等被突出
显示,但也仍然难免被浩如烟海的信息所淹没。[】 同
记信息资源时可以不需要具备任何专业背景知识;标
签可以信手拈来,而不必按照词表标注;标签可以只
反映信息的一小片内容,而不必反映信息的核心内
涵;标签可以是用户的主观感受,而不必是信息的客
观反应;标签甚至可以使用传统意义上无意义的词,
只要它对创造它的用户有意义。[1]可以说,个性化、
简单易用是标签的一大特征,在满足用户的个性化需
时,用户在进行标签检索时,很难确定主要标签和次
要标签,很多重要信息可能会检索不到,从而影响用
户的检索效率。
(3)标签的分散性。当有多个标签可以表达同一
事物或同一内涵时,表达同一对象或内容的多个标签
就会呈现出分散的状态,给检索带来不便。如单复
数、同义词、缩写词、语种及语义认知的差别等都是
标签分散性的表现。…例如,“book”与“books”都是
指书,是单复数造成的词形区别;“电脑”和“计算
机”两个不同的词指示同一种事物,是一义多词造成
求,汇聚和传播用户的个性化信息方面,标签比关键
词的作用更突出。与传统分类法中类目的设置不同,
标签在组织网络信息资源时突破了元数据和关键词的
局限,具有自由性、平面性、社会性等优点,因而在
互联网上得到了广泛应用。但任何事物都有两面性,
的分散;又如,“中国”是“中华人民共和国”的简
称,是缩写词造成的分散;再如,不同的语言环境
下,“人民”“people”都表达人的意思,是语种的分
散;还有语义认知的差异,也会导致标签的分散,比
如“大夫”可以指医生,也可指古代官职,“杜鹃”
标签一样存在许多缺点,例如,标签并不是描述和获
得结构化信息的最有效方式,标签的自由性也给信息
的组织与检索带来了很多困扰等。
【基金项目]本文系河南省教育厅人文社会科学研究项目“Web2.0环境下网络信息检索模式的变革——以WIKI搜索为例
(编号:2008一ZX一165)”的研究成果
・
26・
图书馆理论与实践 信息管理与信息学 2010(7)
可表示鸟也可表示花等。这种分散会严重影响重要标
签的聚类和检索的效果。
1.2标签控制的必要性
门构建的结构体系列出了一个领域里所有的概念及其
之间的关系,从而能够很详细地描述某一领域范围内
的知识以及它们之间的关系。建立本体的目的就是通
过对相关领域概念及其关系的形式化描述,确定该领
虽然标签具有容易使用、用户参与性强、利用集
体智慧等优点,但其无控性、平面性、分散性等缺点
在一定程度上限制了其作用的发挥。目前提供标签共
享与服务的网络信息资源还不多,仅为一些典型的
Web2.0应用网站,如Delicious、YouTube、Wikipedia
域内共同认可的词汇,提供对该领域知识的共同理
解,达到知识的共享和重用,使该领域内不同系统、
不同模型间能够进行互操作。
2.2借助本体进行标签控制
等,而大部分网站并不提供标签功能。究其本质原
因,就是因为标签的不规范给信息组织和检索带来了
不便:标签的无控性导致信息的分散与混乱,有悖于
信息组织序化信息资源的初衷;标签的过度分散影响
检全率、检准率,最终影响用户使用标签的积极性。
标签的创造者最初的目的是希望帮助用户标识和
找到有用的信息。但是,由于标签的自由分散性而导
致的结构性差,用户很难弄清楚哪些标签之间存在联
系,标签描述了哪些资源,描述了资源的哪些属性。
此外,标签的多重语义也给用户使用标签带来困难,
这是因为同一标签在不同的语境下可能描述不同的信
息对象,同一信息对象也可能会有多个不同的标签来
标记。例如,我们将一张有关建筑物的照片标记为
“
old”。这可能表示照片中的建筑物年代很久远,也可
能表示这张照片拍摄的时间很长了,或者两者都是。
诸如这种没有控制而产生歧义的现象在标签使用过程
中随处可见,给标签的使用带来了很大的不便,因
此,我们认为,对标签进行规范和控制已经成为一个
亟待解决的问题。
2利用本体进行标签控制的可行性
2.1本体
本体(Ontology)这个术语来自于哲学,是对自然
存在的一种描述,表示抽象的概念,研究客观事物存
在的本质和组成。作为一种能在语义和知识层次上描
述信息系统的概念模型建模工具,本体这个概念已被
引入到计算机科学等多个领域。关于其定义,目前比
较认同的是1993年Gruber提出的“本体是共享概念模
型的明确的形式化的规范说明”。它包含了本体的四层
含义:[31①概念模型(Conceptualization),指通过抽象
出客观世界中一些现象的相关概念而得到韵模型;②
明确(Explicit),指所使用的概念及概念的约束都有明
确的定义;③形式化(Forma1),指本体是计算机可读
的(即能被计算机处理的);④共享(Share),指本体
中体现的是相关领域共同认可的知识。
本体被认为是一种知识结构或数据结构,这种专
通常而言,为了获得信息的明确的语义,用户必
须提供更多的说明性信息,如语境等。但在互联网
上,要求信息的创建者提供标记说明等对创建者和使
用者而言都是既复杂又浪费时间的。因此,我们设
想,能否借助一种方法,在保持标签的易用性和简单
性的同时,又能给标签赋予精确的语义呢?本体就是
能够实现这种功能的方法。可以借助于本体的形式化
规范模式,把用户使用的自由标签和本体关联起来,
建立起自由标签的语义控制体系和语义网络。这种方
法最大的好处就是为用户提供了一种控制自由标签的
能力,给标签赋予了精确的语义信息,能够改进标签
的搜索机制和浏览体验。E 4]例如,通过建立起标签
“饭馆”“餐厅”和标签“建筑物”“酒吧”等的联系,
可以很容易地从一张有关“餐厅”的图片链接到其他
有关酒吧或建筑物或特色餐馆的图片上。
本体作为标签控制的工具,其可行性和作用体现
在:①本体中所定义的概念和属性可用于对标签的
标识,从而在概念上对标签进行控制,减少标签歧义
和垃圾标签的出现。同所有事物的概念一样,标签是
通过一定的字、词或短语等描述元素反映客观事物的
某种特征的。但是,当用户使用标签标识信息时,存
在多个标签表达同一概念的情况,即一义多词,如前
面提到的“电脑”和“计算机”;而且,由于同一标
签在不同的语境中也可以表示不同的概念,一词多义
现象也大量存在,如“杜鹃” (既可表示一种花的名
称,也可表示一种鸟的名称)等。标签在组织信息资
源时碰到的这些问题,可以借助于本体解决。本体通
过对概念的明确定义以及对概念间关系的揭示,可以
在不同形式的词汇间建立起关联。借助于本体的这个
功能,可以实现对自由标签的词汇控制——能够选择
一
个明确的概念来约束和控制不同标签的语义,从而
尽可能地消除标签歧义现象。②由于本体建立了概
念间的语义网络和推理规则,可以借助本体的这种功
能构建自由标签的语义网络。任何概念都不是孤立存
在的,概念与概念之间必然存在着一定的关系,如种
・
27・
图书馆理论与实践 信息管理与信息学 2010(7)
属关系、同义关系、反义关系等,概念本身、概念之
间的关系共同构成了概念空间。本体通过对概念的明
同的标签标识同一信息对象,也会用同一标签来标记
不同的信息对象。为了明确区分这些标签,在二元组
标注中增加标注者的信息,建立起标签本体的基本标
注模型,即三元组关系:Tagging(object,tag,tag—
确定义和对概念间关联关系的揭示,建立起一个领域
的语义网络,实现对该领域中概念及概念间关系的控
制。自由标签虽然不是严格的概念,但其本身也具有
一
ger)。三元组中,Tagger表示使用标签进行标记的人,
如应用程序的用户,博客的作者等。通过这样的三元
组建立起来的标签本体的基本标注结构,描述了标注
者、资源和标签三者之间的基本关系。这种结构的描
定的语义,自由标签之间也存在着同义、种属、反
义等语义关联。因此,可以借助于本体的这种功能,
对自由标签进行语义控制和揭示,通过概念间的多种
关系及其紧密度来反映标签对象的语义关联。标签语 述,从格式上对标签进行了规范控制,不仅规范了标
义关联主要体现在内容关联和结构关联两个方面。[5]
签的表达,也规范了用户的行为,能够减少无意义的
借助于本体对自由标签语义关联关系的揭示,有助于
标签出现。
构建自由标签的语义网络。只有建立起这种具有推理 (3)标签的多元组标注。考虑到标签的共享问
规则语义网络,标签用于网络信息资源组织和检索的
题,需要增加标签的来源和标注的时间,因而可以在
作用才能充分发挥。
三元组关系的基础上再增加两层关系,即:Tagging
3标签本体(TagOntology)——一种基于本体的
(0biect,tag,tagger,source,date)。此处Source表示
标签控制工具
标签的来源,可以用命名空间或者URI来表示,date
3.1标签本体的概念
表示信息对象被标记的日期,通过年月日的形式表
标签本体(TagOntology)是标签和本体技术的结 现。这样的标注规则可以用来描述和控制用户的标注
合,是描述标签语义的一种工具。也就是利用本体的 行为,避免对信息对象的随意标注以及大量垃圾标签
语义控制功能在语义层次上组织和构建标签语义网 的出现。如对一幅手表的照片,我们可以这样标注:
络,对用户的标记行为(赋标签的行为)进行标识和
Tagging:=(手表,watch,张三,http://en.wikipedia.or#
控制,以实现对“标签泛滥的限制、垃圾标签的过滤
wiki/Watch,2007—02—28)。这个标注就揭示了“watch”
和歧义标签的规范”。E6] 这个标签的描述对象、标注者、资源出处和标注时
3.2标签本体的标注规则[ ]
间,也便于标签数据的规范化理解和其他用户共享该
标签本体借用了本体的形式。同本体一样,标签
标签。
本体也具有概念模型、明确、形式化、共享等含义。
引入标签本体后,当我们使用某一标签对某个系
标签本体通过建立起标注者、资源和标签之间的关系
统中的资源进行标注时,就能够发现与其他标签之间
模型,同时关联资源出处和标记日期等信息来规范控
的关联,也有助于判断同一标签在不同系统中的具体
制标签,达到共享标签的目的。因而,标签本体的标 涵义。可以说,标签本体的引入增加了对知识的描
注实际上是借用了本体的理念来规范描述标签和控制
述,增加了机器处理的描述,不仅能够对原有的信息
标签的应用。
对象进行标注,还可以从语义层面上描述各个标签元
(1)标签本体的简单标注结构——二元组结构。
素之间的关联,使得信息共享变得更加便利。同时,
标签本体的核心概念是标注(Tagging),标注是指用
形如<tga:hame>people</tga:name>的标记语言,能够
户使用一个或一组标签对其创造或浏览的信息内容进
同时被用户和机器理解,从而使得计算机对标签进行
行描述的过程,因此构建标签本体时,首先需要揭示
自动处理成为可能。
这个二元组关系,即:Tagging(object,tag)。其中,
3.3标签本体实例——SCoT
Object表示被描述的资源对象,Tag即标记某个对象
SCOT即Social Semantic Cloud ofTags,可理解为标
所使用的标签,指能够被人和计算机所认知的、能
签的社会性语义云图,是标签本体模型的一个典型应
够描述信息对象的单词或词组。这个二元组是标签
用。其目标是在语义层次上为标签提供一个机器可理
本体最简单的标注规则,适用于范围较小、标签较
解的框架,在语义网络中为标注活动所描述的信息对
少的情况。
象的概念和属性(如用户、标签、资源等)提供一个
(2)标签本体的基本标注结构——三元组结构。
表示模型,为标签数据的共享和重用提供便利。[9]
由于标签是一种随意的行为,因而不同用户会使用不
SCOT主要的特点就是能够描述标注活动并展示
・
28・
图书馆理论与实践 信息管理与信息学 2010(7)
在线虚拟社区中的各个元素之间的关系,即描述被标
标签本体模型尚不能很好地支持计算机的自动描述和
处理,因此还需要广大用户和各领域专家以及技术开
记的信息对象的结构和语义,并提供一种社会互操作
性——为了共享和重用标签数据以及描述来自于不同
发人员的共同努力和合作,共同关注标签控制工
具——标签本体的建设。
[参考文献]
[1]图书馆2.0工作室.图书馆2.0:升级你的服务
资源的用户之间的关系。[9 为了达到这一目标,SCOT
采用现有的计算机可理解的语言如RDF/OWL来定义
词汇,以便计算机更好地处理。SCOT词表的核心要
素是标签云,SCOT不仅能够识别一个标签云本身,
同时还反映了标签与其他元素和属性之间的联系。_9]
[M].北京:北京图书馆出版社,2008:161—
如在SCOT模型中,scot:taggingActivity描述了
scot:TagCloud和tags:Tagging之间的关系,scot:con—
tains描述了scot:TagCloud和scot:Tag之间的关系。此
外,scot:hasUsergroup则指出了有哪些成员使用SIOC
(Semantically—Interlinked Online Communities)参与了标
注活动,scot:usedBy定义谁进行了标注,scot:Tag指
在标注活动中使用了哪些标签,scot:tagOf则指出标
注活动是在哪里发生的,如博客。通过这样的描述,
就能对用户的标注活动进行约束和限制,从而很容易
地找到标签间的联系。
在SCOT中,将多个标签聚合到一起形成一个标
签云图,从用户组、标签、资源三个角度建立一个语
义关联图,这些聚合到一起的标签具有同类属性,如
在Delicious中,有关webdesign一类的标签有desing、
logo、logos、webdesign、designer、dreamweaver、tem—
plates、best、good等。因此,将SCOT用于分众分类
法的标签控制中是非常合理的。
4结论
引入标签本体后,对用户的标注过程采用Tagging
(object,tga,tagger,source,date)多元组机制来描
述,可以反映出标签、资源、标注者、标注对象和日
期之间的关联。同样,类似的多元组机制也可以用来
描述标签聚集的结果——分众分类标识,如采用多元
组Folksonomy: (Tag set,User Group,Source,Tag—
ging,Occurences)进行。这样,还可以将有联系的标
签通过呈现的方式关联起来,有利于从语义的角度将
具有同类属性的标签聚合到一起,实现分众分类,对
信息进行序化组织。当然,在利用标签进行信息检
索时,也避免了过去盲目地输入标签进行检索的弊
端,可以从多个角度检索,同时由于对标签进行了
规范,能够提高用户的检索效率。可以这样说,引
入标签本体,一方面可以对标签进行语义控制,提
高标签的可用性;另一方面,为机器自动描述标签
提供了有益的探索,增强标签的功能和实用性,有
利于网络信息组织与检索的改善。鉴于现有的一些
191.
[2]马然,陈树年.网络信息分类组织的新星——
Folksonomy[『].新世纪图书馆,2006(4):37--39.
[3]曹树金,马利霞.论本体与本体语言及其在信息
检索领域的应用[J].情报理论与实践,2004
(6):632—637.
[4]Kees Van der Sluijs,Geert-Jan Houben.Relating User
Tags to Ontological Information[EB/OL].1 2008—
10—27].http=//wwwis.win.tuezd/-ksluijs/papers/UbiqU
M08/sluijs_UbiqUM08.pdf.
[5]王翠波,等.基于语义网的信息组织与智能导航
研究[J].中国图书馆学报,2006(3):32—36.
[6]T Gruber.Ontology of folksonomy:A Mash-up of
Apples nad Oranges[EB/OL].[2008-11一o3j.http-g
、^n .metadata-semantics.org/.
[7]Tag ontology desing[EB/OL].[20o8—10—25]http:#
WW-W.holygoat.CO.uldprojects/tags/.
[8]T Gruber.Tag Ontology-a way to agree on the seman-
tics of tagging data B/OL].[2005--10--293.http'.//
tomgruber.org/writing/tagontology.htm.
[9]SCOT Ontology Speciifcation[EB/OL].[2008—11—
03].http:#scot-project.org/scot/index.html/.
[作者简介]金燕(1977一),女,博士,郑州大学信
息管理系副教授,研究方向为信息检索、网络信息资
源管理,发表论文多篇,出版专著1部,参编著作4
部;陈玉,女,郑州大学信息管理系硕士研究生,研
究方向为网络信息资源管理。
[收稿日期]20o9—1i--05 [责任编辑]王岗
・
29・
版权声明:本文标题:基于本体的标签控制方法研究 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1710070129a556302.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论