admin 管理员组

文章数量: 1087139


2024年3月10日发(作者:java里面public是什么意思)

图书馆理论与实践 信息管理与信息学 2010(7) 

●金 燕,陈 玉(郑州大学信息管理系,郑州450001) 

基于本饰的标签控制方法研究 

[关键词】标签;标注;本体;标签本 

1标签控制的必要性 

1.1 标签组织网络信息资源的缺陷 

体;标签控制 

[摘要]从标签用于网络信息资源组 

织的缺陷入手,分析标签控制的必要性,认 

(1)标签的无控性。虽然标签的自由性使得信息 

组织进一步人性化,但伴随着标签的随意性而来的是 

为可以引入本体对标签进行控制,改善标 

签组织信息资源的能力。在此基础上,介绍 

了一种基于本体的标签控制方法——标签 

本体。 

标签的混乱和无序,即标签的无控性。与传统分类有 

着严格的分类章法不同,用户在提交标签时是没有任 

何限制的,如用户可以将一张草莓的照片标记为“西 

瓜”,这样的标签并不能反映所标识的信息的内容, 

[中图分类号]G35 

[文献标志码]A 

[文章编号]1005--8214(2010)07--0026--04 

是没有任何实际意义的。对于其他群体用户而言,这 

样的标签就是“垃圾标签”。【2] 

(2)标签的平面性。标签的平面性改变了传统分 

类法的树状分类结构,给用户带来了极大的方便,但 

Web2.0环境下新兴的网络信息组织方式——分众 

分类借助于标签(Tag)对网络信息资源进行标识和 

分类,是对网络信息组织的一种新尝试。标签是人们 

在互联网上用自己熟悉的语词标识相关信息的标记, 

类似于主题词中的关键词,但比关键词更自由、更个 

性化。标签不需要遵循固定的模式和标准,用户在标 

标签类目的平面非等级结构也造成主次不分、重要信 

息被隐藏、不便浏览等问题。分众分类不像传统分类 

法那样具有等级结构,不存在根结点,标识信息的标 

签是以标签云图的形式显示在页面上的,尽管重要 

的、点击频次高的标签通过特殊颜色或字体等被突出 

显示,但也仍然难免被浩如烟海的信息所淹没。[】 同 

记信息资源时可以不需要具备任何专业背景知识;标 

签可以信手拈来,而不必按照词表标注;标签可以只 

反映信息的一小片内容,而不必反映信息的核心内 

涵;标签可以是用户的主观感受,而不必是信息的客 

观反应;标签甚至可以使用传统意义上无意义的词, 

只要它对创造它的用户有意义。[1]可以说,个性化、 

简单易用是标签的一大特征,在满足用户的个性化需 

时,用户在进行标签检索时,很难确定主要标签和次 

要标签,很多重要信息可能会检索不到,从而影响用 

户的检索效率。 

(3)标签的分散性。当有多个标签可以表达同一 

事物或同一内涵时,表达同一对象或内容的多个标签 

就会呈现出分散的状态,给检索带来不便。如单复 

数、同义词、缩写词、语种及语义认知的差别等都是 

标签分散性的表现。…例如,“book”与“books”都是 

指书,是单复数造成的词形区别;“电脑”和“计算 

机”两个不同的词指示同一种事物,是一义多词造成 

求,汇聚和传播用户的个性化信息方面,标签比关键 

词的作用更突出。与传统分类法中类目的设置不同, 

标签在组织网络信息资源时突破了元数据和关键词的 

局限,具有自由性、平面性、社会性等优点,因而在 

互联网上得到了广泛应用。但任何事物都有两面性, 

的分散;又如,“中国”是“中华人民共和国”的简 

称,是缩写词造成的分散;再如,不同的语言环境 

下,“人民”“people”都表达人的意思,是语种的分 

散;还有语义认知的差异,也会导致标签的分散,比 

如“大夫”可以指医生,也可指古代官职,“杜鹃” 

标签一样存在许多缺点,例如,标签并不是描述和获 

得结构化信息的最有效方式,标签的自由性也给信息 

的组织与检索带来了很多困扰等。 

【基金项目]本文系河南省教育厅人文社会科学研究项目“Web2.0环境下网络信息检索模式的变革——以WIKI搜索为例 

(编号:2008一ZX一165)”的研究成果 

26・ 

图书馆理论与实践 信息管理与信息学 2010(7) 

可表示鸟也可表示花等。这种分散会严重影响重要标 

签的聚类和检索的效果。 

1.2标签控制的必要性 

门构建的结构体系列出了一个领域里所有的概念及其 

之间的关系,从而能够很详细地描述某一领域范围内 

的知识以及它们之间的关系。建立本体的目的就是通 

过对相关领域概念及其关系的形式化描述,确定该领 

虽然标签具有容易使用、用户参与性强、利用集 

体智慧等优点,但其无控性、平面性、分散性等缺点 

在一定程度上限制了其作用的发挥。目前提供标签共 

享与服务的网络信息资源还不多,仅为一些典型的 

Web2.0应用网站,如Delicious、YouTube、Wikipedia 

域内共同认可的词汇,提供对该领域知识的共同理 

解,达到知识的共享和重用,使该领域内不同系统、 

不同模型间能够进行互操作。 

2.2借助本体进行标签控制 

等,而大部分网站并不提供标签功能。究其本质原 

因,就是因为标签的不规范给信息组织和检索带来了 

不便:标签的无控性导致信息的分散与混乱,有悖于 

信息组织序化信息资源的初衷;标签的过度分散影响 

检全率、检准率,最终影响用户使用标签的积极性。 

标签的创造者最初的目的是希望帮助用户标识和 

找到有用的信息。但是,由于标签的自由分散性而导 

致的结构性差,用户很难弄清楚哪些标签之间存在联 

系,标签描述了哪些资源,描述了资源的哪些属性。 

此外,标签的多重语义也给用户使用标签带来困难, 

这是因为同一标签在不同的语境下可能描述不同的信 

息对象,同一信息对象也可能会有多个不同的标签来 

标记。例如,我们将一张有关建筑物的照片标记为 

old”。这可能表示照片中的建筑物年代很久远,也可 

能表示这张照片拍摄的时间很长了,或者两者都是。 

诸如这种没有控制而产生歧义的现象在标签使用过程 

中随处可见,给标签的使用带来了很大的不便,因 

此,我们认为,对标签进行规范和控制已经成为一个 

亟待解决的问题。 

2利用本体进行标签控制的可行性 

2.1本体 

本体(Ontology)这个术语来自于哲学,是对自然 

存在的一种描述,表示抽象的概念,研究客观事物存 

在的本质和组成。作为一种能在语义和知识层次上描 

述信息系统的概念模型建模工具,本体这个概念已被 

引入到计算机科学等多个领域。关于其定义,目前比 

较认同的是1993年Gruber提出的“本体是共享概念模 

型的明确的形式化的规范说明”。它包含了本体的四层 

含义:[31①概念模型(Conceptualization),指通过抽象 

出客观世界中一些现象的相关概念而得到韵模型;② 

明确(Explicit),指所使用的概念及概念的约束都有明 

确的定义;③形式化(Forma1),指本体是计算机可读 

的(即能被计算机处理的);④共享(Share),指本体 

中体现的是相关领域共同认可的知识。 

本体被认为是一种知识结构或数据结构,这种专 

通常而言,为了获得信息的明确的语义,用户必 

须提供更多的说明性信息,如语境等。但在互联网 

上,要求信息的创建者提供标记说明等对创建者和使 

用者而言都是既复杂又浪费时间的。因此,我们设 

想,能否借助一种方法,在保持标签的易用性和简单 

性的同时,又能给标签赋予精确的语义呢?本体就是 

能够实现这种功能的方法。可以借助于本体的形式化 

规范模式,把用户使用的自由标签和本体关联起来, 

建立起自由标签的语义控制体系和语义网络。这种方 

法最大的好处就是为用户提供了一种控制自由标签的 

能力,给标签赋予了精确的语义信息,能够改进标签 

的搜索机制和浏览体验。E 4]例如,通过建立起标签 

“饭馆”“餐厅”和标签“建筑物”“酒吧”等的联系, 

可以很容易地从一张有关“餐厅”的图片链接到其他 

有关酒吧或建筑物或特色餐馆的图片上。 

本体作为标签控制的工具,其可行性和作用体现 

在:①本体中所定义的概念和属性可用于对标签的 

标识,从而在概念上对标签进行控制,减少标签歧义 

和垃圾标签的出现。同所有事物的概念一样,标签是 

通过一定的字、词或短语等描述元素反映客观事物的 

某种特征的。但是,当用户使用标签标识信息时,存 

在多个标签表达同一概念的情况,即一义多词,如前 

面提到的“电脑”和“计算机”;而且,由于同一标 

签在不同的语境中也可以表示不同的概念,一词多义 

现象也大量存在,如“杜鹃” (既可表示一种花的名 

称,也可表示一种鸟的名称)等。标签在组织信息资 

源时碰到的这些问题,可以借助于本体解决。本体通 

过对概念的明确定义以及对概念间关系的揭示,可以 

在不同形式的词汇间建立起关联。借助于本体的这个 

功能,可以实现对自由标签的词汇控制——能够选择 

个明确的概念来约束和控制不同标签的语义,从而 

尽可能地消除标签歧义现象。②由于本体建立了概 

念间的语义网络和推理规则,可以借助本体的这种功 

能构建自由标签的语义网络。任何概念都不是孤立存 

在的,概念与概念之间必然存在着一定的关系,如种 

27・ 

图书馆理论与实践 信息管理与信息学 2010(7) 

属关系、同义关系、反义关系等,概念本身、概念之 

间的关系共同构成了概念空间。本体通过对概念的明 

同的标签标识同一信息对象,也会用同一标签来标记 

不同的信息对象。为了明确区分这些标签,在二元组 

标注中增加标注者的信息,建立起标签本体的基本标 

注模型,即三元组关系:Tagging(object,tag,tag— 

确定义和对概念间关联关系的揭示,建立起一个领域 

的语义网络,实现对该领域中概念及概念间关系的控 

制。自由标签虽然不是严格的概念,但其本身也具有 

ger)。三元组中,Tagger表示使用标签进行标记的人, 

如应用程序的用户,博客的作者等。通过这样的三元 

组建立起来的标签本体的基本标注结构,描述了标注 

者、资源和标签三者之间的基本关系。这种结构的描 

定的语义,自由标签之间也存在着同义、种属、反 

义等语义关联。因此,可以借助于本体的这种功能, 

对自由标签进行语义控制和揭示,通过概念间的多种 

关系及其紧密度来反映标签对象的语义关联。标签语 述,从格式上对标签进行了规范控制,不仅规范了标 

义关联主要体现在内容关联和结构关联两个方面。[5] 

签的表达,也规范了用户的行为,能够减少无意义的 

借助于本体对自由标签语义关联关系的揭示,有助于 

标签出现。 

构建自由标签的语义网络。只有建立起这种具有推理 (3)标签的多元组标注。考虑到标签的共享问 

规则语义网络,标签用于网络信息资源组织和检索的 

题,需要增加标签的来源和标注的时间,因而可以在 

作用才能充分发挥。 

三元组关系的基础上再增加两层关系,即:Tagging 

3标签本体(TagOntology)——一种基于本体的 

(0biect,tag,tagger,source,date)。此处Source表示 

标签控制工具 

标签的来源,可以用命名空间或者URI来表示,date 

3.1标签本体的概念 

表示信息对象被标记的日期,通过年月日的形式表 

标签本体(TagOntology)是标签和本体技术的结 现。这样的标注规则可以用来描述和控制用户的标注 

合,是描述标签语义的一种工具。也就是利用本体的 行为,避免对信息对象的随意标注以及大量垃圾标签 

语义控制功能在语义层次上组织和构建标签语义网 的出现。如对一幅手表的照片,我们可以这样标注: 

络,对用户的标记行为(赋标签的行为)进行标识和 

Tagging:=(手表,watch,张三,http://en.wikipedia.or# 

控制,以实现对“标签泛滥的限制、垃圾标签的过滤 

wiki/Watch,2007—02—28)。这个标注就揭示了“watch” 

和歧义标签的规范”。E6] 这个标签的描述对象、标注者、资源出处和标注时 

3.2标签本体的标注规则[ ] 

间,也便于标签数据的规范化理解和其他用户共享该 

标签本体借用了本体的形式。同本体一样,标签 

标签。 

本体也具有概念模型、明确、形式化、共享等含义。 

引入标签本体后,当我们使用某一标签对某个系 

标签本体通过建立起标注者、资源和标签之间的关系 

统中的资源进行标注时,就能够发现与其他标签之间 

模型,同时关联资源出处和标记日期等信息来规范控 

的关联,也有助于判断同一标签在不同系统中的具体 

制标签,达到共享标签的目的。因而,标签本体的标 涵义。可以说,标签本体的引入增加了对知识的描 

注实际上是借用了本体的理念来规范描述标签和控制 

述,增加了机器处理的描述,不仅能够对原有的信息 

标签的应用。 

对象进行标注,还可以从语义层面上描述各个标签元 

(1)标签本体的简单标注结构——二元组结构。 

素之间的关联,使得信息共享变得更加便利。同时, 

标签本体的核心概念是标注(Tagging),标注是指用 

形如<tga:hame>people</tga:name>的标记语言,能够 

户使用一个或一组标签对其创造或浏览的信息内容进 

同时被用户和机器理解,从而使得计算机对标签进行 

行描述的过程,因此构建标签本体时,首先需要揭示 

自动处理成为可能。 

这个二元组关系,即:Tagging(object,tag)。其中, 

3.3标签本体实例——SCoT 

Object表示被描述的资源对象,Tag即标记某个对象 

SCOT即Social Semantic Cloud ofTags,可理解为标 

所使用的标签,指能够被人和计算机所认知的、能 

签的社会性语义云图,是标签本体模型的一个典型应 

够描述信息对象的单词或词组。这个二元组是标签 

用。其目标是在语义层次上为标签提供一个机器可理 

本体最简单的标注规则,适用于范围较小、标签较 

解的框架,在语义网络中为标注活动所描述的信息对 

少的情况。 

象的概念和属性(如用户、标签、资源等)提供一个 

(2)标签本体的基本标注结构——三元组结构。 

表示模型,为标签数据的共享和重用提供便利。[9] 

由于标签是一种随意的行为,因而不同用户会使用不 

SCOT主要的特点就是能够描述标注活动并展示 

28・ 

图书馆理论与实践 信息管理与信息学 2010(7) 

在线虚拟社区中的各个元素之间的关系,即描述被标 

标签本体模型尚不能很好地支持计算机的自动描述和 

处理,因此还需要广大用户和各领域专家以及技术开 

记的信息对象的结构和语义,并提供一种社会互操作 

性——为了共享和重用标签数据以及描述来自于不同 

发人员的共同努力和合作,共同关注标签控制工 

具——标签本体的建设。 

[参考文献] 

[1]图书馆2.0工作室.图书馆2.0:升级你的服务 

资源的用户之间的关系。[9 为了达到这一目标,SCOT 

采用现有的计算机可理解的语言如RDF/OWL来定义 

词汇,以便计算机更好地处理。SCOT词表的核心要 

素是标签云,SCOT不仅能够识别一个标签云本身, 

同时还反映了标签与其他元素和属性之间的联系。_9] 

[M].北京:北京图书馆出版社,2008:161— 

如在SCOT模型中,scot:taggingActivity描述了 

scot:TagCloud和tags:Tagging之间的关系,scot:con— 

tains描述了scot:TagCloud和scot:Tag之间的关系。此 

外,scot:hasUsergroup则指出了有哪些成员使用SIOC 

(Semantically—Interlinked Online Communities)参与了标 

注活动,scot:usedBy定义谁进行了标注,scot:Tag指 

在标注活动中使用了哪些标签,scot:tagOf则指出标 

注活动是在哪里发生的,如博客。通过这样的描述, 

就能对用户的标注活动进行约束和限制,从而很容易 

地找到标签间的联系。 

在SCOT中,将多个标签聚合到一起形成一个标 

签云图,从用户组、标签、资源三个角度建立一个语 

义关联图,这些聚合到一起的标签具有同类属性,如 

在Delicious中,有关webdesign一类的标签有desing、 

logo、logos、webdesign、designer、dreamweaver、tem— 

plates、best、good等。因此,将SCOT用于分众分类 

法的标签控制中是非常合理的。 

4结论 

引入标签本体后,对用户的标注过程采用Tagging 

(object,tga,tagger,source,date)多元组机制来描 

述,可以反映出标签、资源、标注者、标注对象和日 

期之间的关联。同样,类似的多元组机制也可以用来 

描述标签聚集的结果——分众分类标识,如采用多元 

组Folksonomy: (Tag set,User Group,Source,Tag— 

ging,Occurences)进行。这样,还可以将有联系的标 

签通过呈现的方式关联起来,有利于从语义的角度将 

具有同类属性的标签聚合到一起,实现分众分类,对 

信息进行序化组织。当然,在利用标签进行信息检 

索时,也避免了过去盲目地输入标签进行检索的弊 

端,可以从多个角度检索,同时由于对标签进行了 

规范,能够提高用户的检索效率。可以这样说,引 

入标签本体,一方面可以对标签进行语义控制,提 

高标签的可用性;另一方面,为机器自动描述标签 

提供了有益的探索,增强标签的功能和实用性,有 

利于网络信息组织与检索的改善。鉴于现有的一些 

191. 

[2]马然,陈树年.网络信息分类组织的新星—— 

Folksonomy[『].新世纪图书馆,2006(4):37--39. 

[3]曹树金,马利霞.论本体与本体语言及其在信息 

检索领域的应用[J].情报理论与实践,2004 

(6):632—637. 

[4]Kees Van der Sluijs,Geert-Jan Houben.Relating User 

Tags to Ontological Information[EB/OL].1 2008— 

10—27].http=//wwwis.win.tuezd/-ksluijs/papers/UbiqU 

M08/sluijs_UbiqUM08.pdf. 

[5]王翠波,等.基于语义网的信息组织与智能导航 

研究[J].中国图书馆学报,2006(3):32—36. 

[6]T Gruber.Ontology of folksonomy:A Mash-up of 

Apples nad Oranges[EB/OL].[2008-11一o3j.http-g 

、^n .metadata-semantics.org/. 

[7]Tag ontology desing[EB/OL].[20o8—10—25]http:# 

WW-W.holygoat.CO.uldprojects/tags/. 

[8]T Gruber.Tag Ontology-a way to agree on the seman- 

tics of tagging data B/OL].[2005--10--293.http'.// 

tomgruber.org/writing/tagontology.htm. 

[9]SCOT Ontology Speciifcation[EB/OL].[2008—11— 

03].http:#scot-project.org/scot/index.html/. 

[作者简介]金燕(1977一),女,博士,郑州大学信 

息管理系副教授,研究方向为信息检索、网络信息资 

源管理,发表论文多篇,出版专著1部,参编著作4 

部;陈玉,女,郑州大学信息管理系硕士研究生,研 

究方向为网络信息资源管理。 

[收稿日期]20o9—1i--05 [责任编辑]王岗 

29・ 


本文标签: 标签 信息 本体 用户 语义