admin 管理员组

文章数量: 1087871


2024年6月27日发(作者:update后面加什么)

第40卷第11A期 

2013年1】月 

计算机科学 

Vo1.40 No.11A 

NOV 2013 

Computer Science 

中文微博的Hashtag话题相关性分析 

胡长龙唐晋韬王挺 

(国防科学技术大学计算机学院 长沙410073) 

摘要Hashtag(微博话题词)是发布者为微博信息创建的话题标签,能帮助用户在海量微博数据中高效发现热点话 

题。Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有 

助于热点话题发现和聚合展示。研究了Hashtag之间相关性分析问题,抽取了Hashtag文本特征、微博内容、Hashtag 

的出现次数一时间分布以及Hashtag共现等一系列特征,以分析Hashtag之间的话题相关性。在新浪微博数据上的实 

验结果显示,这一系列特征组合能较好地帮助Hashtag相关性分析。 

关键词微博,话题相关性,Hashtag,特征抽取 

Topica!.Relevance Analysis of Hashtags in Chinese Microblogging Environment 

HU Chang-long TANG Jin-tao WANG Ting 

(College of Computer,National University of Defense Technology,Changsha 410073,China) 

Abstract Hashtag(the topical words of a miero ̄blog)is a kind of topic label of microblog created by publisher,which 

can help users find hot topics efficiently from the massive micro-blog data.Different Hashtags created by different pub— 

lisher may describe the salTle topic.Thus mining the relevance between the Hashtags will help to find hot topics more 

efficiently.In this paper,a wide range of features were explored to analyze the topical relevance between Hashtags,such 

as the Hashtag text,content of the related mieroblog,the time of occurrence and the co-occurrences of Hashtags.The 

experimental results show that the proposed features are helpful for topical relevance analysis of Hashtags. 

Keywords Miero-blog,Topical relevance,Hashtag,Feature extraction 

1 引言 

近年来,以微博为代表的社交媒体的发展非常迅速。微 

博是一个基于用户关系信息分享、传播以及获取的平台。用 

户可以通过Web、移动设备客户端等方式便利地发布不超过 

140字的微博信息,并在社交圈中即时分享及传播。 

因为对于某热点事件、新闻话题而言,由于不同发布者的描述 

习惯不一致或者侧重了话题的不同方面,常常有多个Hash— 

tag描述相同的情况。例如,“#甘肃定西地震救援#”这一 

Hashtag,它更多描述的是甘肃地震的救援情况。 

从海量数据中挖掘热点话题一直是社会媒体中信息传播 

研究的一个基础问题。如果能挖掘出指向同一话题的不同 

Hashtag,则可以更好地利用Hashtag进行微博聚类、从海量 

数据中提取热点话题,并将与某话题相关的Hashtag、微博文 

本聚合呈现给用户,方便用户对该话题的了解以及交流。 

微博等社交媒体中的信息主要由广大个人用户发布传 

播,因此其一方面在创造海量信息及话题,但另一方面却因信 

息的碎片化、冗余化而难以被有效利用。2007年,Twitter推 

出了Hashtag(话题词)功能。在Twitter中,Hashtag是以” 

本文以新浪微博作为研究对象,分析中文微博平台上 

Hashtag之间的话题相关性。我们希望在给定若干个Hash— 

tag以及相关微博的情况下,通过抽取一系列特征来判断哪些 

Hashtag描述同一个话题。很多描述同一话题的Hashtag会 

有一定的词汇重叠,或者在微博内容上有一定的相似度,但并 

不总是如此。如“#OZ214航班事故#”和“#波音777坠机 

#”都是描述2013年6月7日凌晨一架波音777型客机在旧 

#[-a-zA-Z0—9]+”进行表示的字符串。在中文微博(新浪微 

博等)中,Hashtag则是以”#话题词#”的形式来表示。作为 

微博最具特色的属性之一,Hashtag可以帮助微博话题的聚 

合展示,以利于用户及研究者快速发掘热点话题。例如,用户 

通过点击带有超链接的Hashtag——“#甘肃定西地震#”, 

就可以得到一系列与2013年7月22日甘肃省定西市发生的 

6.6级地震相关的微博。 金山国际机场着陆时的坠机事件。所以,本文不仅分析了较 

Hashtag可以很好地指示微博的话题l】],但不同的 

Hashtag可能也会指向相同的话题。Jagan等I2]在对Twitter 

上的博文作在线聚类时,发现如果简单地把包含同一Hash— 

为直观的词汇特征及内容特征,还从Hashtag共现频率、生命 

周期等角度挖掘了一些统计特征以解决上述问题。实验结果 

显示,我们所提出的特征能较好地指示Hashtag的相关性。 

本文第2节介绍了相关工作;第3节对研究的问题以及 

tag的博文归为一类别,会导致话题的碎片化和类别的冗余。 

本文受国家自然科学基金项目(61202337,61170156)资助。 

胡长龙(1988一),男,硕士生,主要研究方向为自然语言处理;唐晋韬(1981一),男,博士,讲师,主要研究方向为社会网络分析和自然语言处理; 

王挺(197O一),男,博士,教授,博士生导师,主要研究方向为自然语言处理。 

235・ 

研究思路进行了阐述;第4节给出了相关特征及计算方法的 因此,我们从Hashtag本身、相关微博挖掘一组特征来进行相 

关性研究,这些特征包括:Hashtag文本特征、相关的微博内 

容、Hashtag出现次数一时间分布、Hashtag的共现。通过分析 

这些特征的作用,学习它们的组合方式,最终判断Hashtag间 

的相关性。我们将对这些特征的效果进行评价,分析不同特 

具体介绍;第5节描述了实验数据以及实验结果,并对实验结 

果进行了分析;最后总结了全文,并阐述了下一步工作。 

2相关工作 

与本文任务非常相似的研究是新闻文本中的话题关联识 

别技术。话题关联识别技术来源于TDT(Topic Detection 

征对相关性分析的影响。 

本文采用基于随机森林的方法,这种模型对不平衡的数 

据而言,可以平衡误差_9],适合于本文在学习特征组合时,训 

练数据中正反样本比例不平衡的情况。本文也对SVM的方 

法进行了研究,但效果并不如随机森林,主要原因是反例样本 

数目远远多于正例数目,导致对正例样本识别率降低。 

and Tracking,话题检测与跟踪)任务,主要被用来判断每个报 

道对是否描述了同一个话题。通过建立报道和话题的表示模 

型、确定模型间的话题关联计算方法(即表示模型间的相似度 

计算)、对相似度进行整合并与决策阈值比较[3]几个步骤计算 

报道对的话题关联。但由于新闻文本和微博文本在长度、语 

言特征、传播特征上的巨大差异,使得话题关联识别技术在微 

4特征设计 

博上所取得的效果不如在新闻文本上。如果直接将包含 

Hashtag的博文当成报道,并使用该技术来判断Hashtag之 

间的相关性,有可能将一些微博内容相近似但话题不相关的 

Hashtag判断为相关。因此需要引入微博的一些属性信息来 

作为相关性分析的重要特征。 

另一方面,已有研究者开展了Hashtag的聚类工作。 

Poschko[4 ̄认为如果两个Hashtag在一条博文上共现,那么它 

们可能描述了同一个话题。Dolan AntenucciC ]在此基础上, 

提出了Hashtag共现概率的计算方法,并且设定阈值过滤部 

分噪音数据。Hashtag之间有共现则表明两个Hashtag之间 

有一定程度的相关,但是没有共现并不意味着不相关。因此, 

我们在新浪平台数据上对该特征的有效性进行了检验,并扩 

展了一些其他特征来计算Hashtag之间的相关性。 

另外,由于微博信息实时性强,在对微博进行聚类研究 

时,微博的发表时间常常作为一个重要因素被引人l2 ],即 

考虑话题的爆发及消失这一过程对聚类的影响。Hashtag相 

关性分析也是为了对其代表的微博文本基于话题进行聚类, 

其同样具有话题生命周期等时间特征,基于这个思路,我们也 

分析了Hashtag的出现及消失这一生命周期[ ]对Hashtag之 

间话题相关性识别的影响。 

3 问题定义和研究思路 

3.1 问题定义 

本文主要研究Hashtag之间的相关性判别问题。我们用 

Status(Time,Id,Text,User,Others)表示一条微博,其中 

Time表示微博的发表时间,Id是微博的id标识符,Text是微 

博的文本内容,User表示微博发表者的用户信息,Others表 

示其他属性,如微博的转发数目、评论数目等。而本文的目标 

是,在给定两个HashtagA和B以及包含该Hashtag的微博 

集合{StatusA1,Statusa2,…,s £ }和{Statuss1,StatusB2, 

Status )的条件下,从中挖掘一组特征,学习得到它们的 

组合方式用以帮助判断Hashtag A和Hashtag B之间是否话 

题相关。 

3.2研究思路 

Hashtag之间的相关性分析实为一个二值分类问题。对 

于两个Hashtag而言,根据它们涉及的话题,可以分为相关、 

不相关。如果Hashtag之间是相关的,那么它们之间的话题 

内容会比较相似,相关微博发布时间的分布上也较为近似。 

236・ 

我们发掘了一些从微博内容及属性上计算得到的Hash— 

tag话题相关性特征。这些特征以及其计算方法描述如下。 

4.1 Hashtag文本特征(JaccardOfHashtag) 

在很多情况下,描述相同话题的不同Hashtag之间会有 

定的词汇重叠如:#波音坠毁#和#波音777坠机#两个 

Hashtag均描述波音777型客机坠毁事件。因此,我们首先 

对Hashtag进行了分词,然后使用Jaccard系数[1o_来度量 

Hashtag之间的字符重合度,其公式如下: 

, 

式中,SA、5日分别表示Hashtag A和Hashtag B分词之后得 

到的词集合。l SAn S月I表示Hashtag A和Hashtag B采用 

的相同词语的个数,l SA U SB I则表示构成Hashtag A和 

Hashtag B所采用词语的总个数。通过计算Jaccard系数,可 

以得到两个Hashtag在词上面的重合度。 

4.2包含Hashtag的微博内容(WeiboText) 

微博的文本内容是对Hashtag进行的进一步描述。不同 

的发布者很可能采用不同的词作为话题的Hashtag,使得描 

述相同话题的Hashtag不一定有字符上的重叠,而某些构成 

Hashtag的词在其它微博上并未用#标记[11,12],如下面这条 

微博: 

“xx)Ⅸ:#OZ214航班事故#【7月8日记者招待会内容 

问答内容】二.问:在旧金山机场着陆时,操作该飞机的机长 

仅有43小时驾驶波音777的经验。而外界认为,这是造成此 

次事故的间接原因。对上述内容您有什么看法?(回应“实习 

生”,“副机长”等的质疑)。” 

这条微博使用的Hashtag是#OZ214航班事故#,与# 

波音777坠机#并没有词汇重叠,但其博文中却包含了“波音 

777”这样的其他Hashtag中的词汇。因此分析微博的文本内 

容可以帮助我们更好地识别Hashtag之间的话题相关性。 

我们将包含相同Hashtag的微博作为一篇文档组织在一 

起,然后可以计算不同Hashtag对应的文档之间的文本相似 

度。本文采用VSM(Vector Space Model,向量空间模型)来 

表示文本,特征值采用TF-IDF计算得到,利用余弦相似度来 

计算文档之间的相似度。微博内容中包含了一些影响文本相 

似度计算的特殊格式,例如用“@某人”的格式来表示“提到” 

某个用户,而这些并没有帮助文本相似度计算。所以在分词 

预处理阶段,除了过滤掉停用词,我们也将这些特殊格式的符 

号去掉,包括表情符号、“@某人”以及URL短链接。 

4.3 Hashtag的出现次数一时间分布(Time) 

关,当微博数目少时,式(1)和式(2)的计算很容易受这类噪音 

数据[5,13,14 影响,因此这里引入式(3),实验过程中通过分类 

器来选择最佳的Hashtag相关性判别函数。 

Sc3(A,B)=min(∑HA ,∑ B ) (3) 

时间作为微博的一个重要属性,表明了用户在哪天参与 

了某话题讨论,同时也侧面反映了Hashtag对涉及的话题的 

发生发展时间。如图1所示,我们列举了2013年7月6日至 

7月26日#韩亚航空波音777坠机#、#波音777坠机#、# 

甘肃定西地震#3个Hashtag的出现次数,其中#韩亚航空 

波音777坠机#和#波音777坠机#描述2013年7月7日 

5实验 

5.1实验数据及设置 

由于对中文Hashtag的话题相关性研究尚无公认的语料 

集和标注结果,本文使用新浪提供的API抓取收集了从2013 

年3月到4月共两个月时间的微博数据。考虑到热门话题相 

关的Hashtag会比较多,为了增加正例的数量,我们从中选取 

了130个与热门话题相关的Hashtag,相关涉及的微博数目 

共55533条(含同一个Hashtag的微博数目最少为3O条),生 

凌晨~架波音777型客机坠机事件,#甘肃定西地震#则描 

述2013年7月22日在甘肃省定西市发生的地震。可以看出 

相同话题的Hashtag在同一个时间段内,其出现次数的分布 

比较一致,而不同话题的Hashtag之间,出现次数的差异也比 

较明显。 

图1 通过新浪微博搜索页面搜索得到的,2013年7月6日至7月 

26日分别包含#甘肃定西地震#、#韩亚航空波音777坠机 

#、#波音777坠机#3个Hashtag的微博数目 

因此,我们以(nA1,YtA2,…,t/A/,…, )表示在m天内, 

Hashtag A每天出现的数目。不同Hashtag之间时间上的相 

似度计算则采用余弦公式求得,表示如下: 

( *riB/) 

ST(A,B)一 ==_— 

√蚤 √圣墙 

4.4 Hashtag的共现(Co-Occurrence) 

当不同的Hashtag同时出现在一条微博中时,这种情况 

称为Hashtag之间的共现。越是经常发生共现的Hashtag, 

它们所代表的话题应该越相似。我们认为: 

1)共现概率越高的Hashtag,话题越有可能是相关的。 

2)如果Hashtag A和Hashtag B相关联,那么与Hash— 

tag A共现的Hashtag越有可能与Hashtag B共现。 

因此,我们使用以下公式来计算Hashtag之间的共现概 

率。 

Sc1(A,B) 

!至nA五B二 nB五A 

2 

(1) 

S晓(A,B) 

盘±盘 

2 

(2) 

式中, 表示Hashtag A和Hashtag B共现的次数,∑nA 表 

示的是和HashtagA有共现关系的所有Hashtag的数目。另 

外,对于与Hashtag A和Hashtag B两者都有共现关系的一 

类Hashtag,其与Hashtag A共现的总次数则表示为mA,与 

Hashtag B共现的总次数则表示为mB。 

我们发现有一些不相关联的Hashtag也可能出现在同一 

条微博中。由于∑FIA 和∑ 的大小跟微博的数目直接相 

成C}3o一8385个Hashtag对。由于Hashtag之间的相关性判 

断类似于TDT任务中的话题关联识别,因此我们参照TDT4 

标注大纲对数据进行标注。如果两个Hashtag讨论相同话 

题,则认为相关,如果两个Hashtag讨论完全不同的话题,则 

认为无关,如果存在疑虑,则往往认为相关。我们借助3位志 

愿者对这些Hashtag对进行人工标注。首先由两位志愿者进 

行独立标注,当标注的结果存在差异时,则以第三位志愿者的 

判断作为标注结果。最终,我们得到正例547对,反例7838 

对。考虑到正反例样本不平衡的问题,我们利用随机森林训 

练相关性识别函数,以平衡误差。为了避免过度拟合,我们对 

数据集的实验采取了5折交叉验证。实验结果采用准确率、 

召回率、F_值来度量。 

为了考察各个特征的作用,我们逐步将特征累加,形成了 

如下几个测试方法: 

方法1(baseline) 仅使用Hashtag本身的字符重合度 

(JaceardOfHashtag)这一特征。 

方法2在方法1基础上添加包含Hashtag的微博内容 

(WeiboText)这一特征。 

方法3在方法2基础上添加Hashtag的出现次数一时间 

分布(Time)这一特征。 

方法4 在方法3基础上添加Hashtag的共现(Co-Oc— 

eurrence)特征,即包含了上面列举的所有特征。 

5.2实验结果 

表1显示了上述测试方法的实验结果。实验结果显示, 

baseline方法有较高的准确率,但是召回率较低。这是因为该 

方法不能发现在词汇上没有重叠的Hashtag之间的话题相关 

性。方法2由于引入了微博内容特征,借助微博内容的相似 

性判断不同Hashtag的话题相关性,提高了召回率。但有些 

相似话题的微博内容近似,如“#台湾地震#”和“#雅安平安 

#”,这会导致不相关联的Hashtag被判断为相关,从而降低 

了准确率。方法3中引人了时间特征,可以区别不同时间段 

的不同话题,并可以提高同一时间段发生的话题的关联度,从 

而在准确率和召回率上均有提高,如该特征能很好地区分发 

生在2013年3月份的“#台湾地震#”和发生在2013年4月 

底的“#雅安平安#”话题。方法4在方法3基础上,加入了 

Hashtag的共现特征。实验结果表明,在中文数据上,Hash— 

tag的共现和英文数据一样是判断Hashtag话题相关性的一 

(下转第245页) 

237・ 

源的格式,如PDF等,实现内容的有效传递和知识共享。在 

IR设计中尽量采用列表框选择数据的方法,如语言、学科、主 

pie.com.on/GB/Paper464/1516O/1344583.html,2013-08—08 

[2]Budapest Open Access Initiative[EB/OL].http:// 

org/openaecess/read.shtml,2013—08一l1 

soros. 

题词、资源类型等规范化项El供资源提供者选择,尽量减少需 

要其录入的条目[HI,还可安排专人协助提交存储,辅助转换 

格式、纠正拼写错误、完成提交程序等。 

此外,应重视 服务功能的扩展,开发基于浏览、标记、 

53]孙振良.高校机构知识库建设现状及策略研究[J].情报科学, 

2010(03):353 

F4]Crow R The Case for Institutional Repositories:A SPARC Po— 

sition Paper.FEB/OI httpt|{WWW.ar1.org/sparc/IR/ir.ht— 

ml,2013—08—13 

订阅、检索、评论等满足个性化服务需求的增值功能,包括创 

建个人出版物列表、统计论文点击率和引用率等,如为作者提 

供建立和维护个人出版物目录的服务。还应着重考虑在 

中嵌入RSS订阅服务,为特定社区、特定作者及特定主题等 

[5]ROAR:Registry of Open Access Reospitories EEB/OIJ.ht- 

tp:/roar.eprints.org/,2013—08—10 

提供多个站点实时更新的RSS源文件,并利用信息追踪技术 

和检索记忆理念,使科研人员输入的检索词为系统所记忆和 

匹配,进而实现相关资源的主动推送。 

[6]OpenDOAR:Directory of Open Access Reospitories[EB/OL]. 

http://www.opendoar.org/countrylist.php?cContinent—A— 

sia#China,2013—08—14 

[7]厦门大学学术典藏库FEB/OL].http://dspace.xrnu.edu.on/ 

dspace/,2013—08-16 

结束语 高校应通过多方渠道提高IR的知名度和认同 

感,使实施对象突破图书情报领域的实践者。积极借鉴国外 

IR建设经验,充分发挥图书馆辅助协调管理的主体角色,更 

加注重版权许可、质量控制、个性化增值服务及标准化建设等 

[8]Cybermetrics Lab.Ranking Web World ReospitoriesFEB/OL]. 

http://repositories.webometries.info/en/Asia,2013—08—15 

[9]台湾大学机构典藏[-EB/OL].E2013—08—13].http://ntur.1ib. 

ntu.edu.tw/ 

内容,促进学术交流和资源共享,扩大高校争取人才和资金的 

优势,提高核心竞争力。 

[1O]Swan A,Brown S.Open access self-archivig:an author study n

[EB/OL].http://cogprints.org/4385/,2013—08—13 

[11]郎庆华.机构知识库自存储资源的获取策略研究口].情报杂志, 

2009(7):l69 

参考文献 

[1]“开放获取(0A)”推动信息共享[EB/OL].http://Ⅵw peo— 

(上接第237页) [3] 张晓艳.新闻话题表示模型和关联追踪技术研究[D].长沙:国 

防科学技术大学,2010 

个有效特征,通过加入该特征在准确率和召回率上均有提高。 

表1不同的特征组合对Hashtag相关性检测的影响,符号v或* 

[4]POschko J.Exploring Twitter Hashtags[Z].2011 

[5]Antenucci D,Handy G,Modi A,et a1.Classification of Tweets 

Via Clustering of Hashtags[Z].201 1 

[6]郑斐然,苗夺谦,张志飞.一种中文微博新闻话题检测的方法 

表示实验结果在显著水平0.05下优于(v)或不如(*)base— 

line方法 

[J].计算机科学,2012,39(1):138 

[7]Cataldi M,Di Caro L,Schifanella C Emerging topic detection on 

Twitter based on temporal and social temsr evaluation[C]『f 

Proceedigs nof the Tenth InternationalⅥbrkshop on Multimedia 

Data Minig.ACM,2010:4 n

结束语Hashtag的话题相关性分析有助于从海量的微 

[8]Chang H C.A new perspective on twitter Hashtag use:diffusion 

of innovation theory[J].Proceedigsn of the American Society 

for Information Science and Technology,2010,47(1):1-4 

博信息中有效地挑选用户可能感兴趣的微博、帮助热点话题 

发现和聚合展示、方便用户沟通交流。本文根据微博文本的 

特点,不仅考虑了构成Hashtag的词汇重合度,还考虑了相关 

[9]随机森林_维基百科,自由的百科全书[DB/OL].http://zK 

wikipedia.org/wiki/随机森林,2013 

r1O]Leydesdorff I .On the normalization and visualization of author 

微博内容、Hashtag的出现次数一时间分布、Hashtag共现等特 

征来帮助Hashtag相关性分析。实验结果表明本文抽取的一 

系列特征都有助于Hashtag相关性判断。 

由于存在着一些不相关的Hashtag共现的情况,在未来 

工作中,我们将考虑如何过滤这类噪音数据。另外,我们将挖 

掘其他特征来帮助判别Hashtag之间的相关性,如度量 

Hashtag之间的google距离I一 ]等。将Hashtag相关性判别 

技术用于微博聚类、Hashtag推荐等也是未来工作之一。 

cocitation data:Salton’s Cosine versus the Jaccard index[J]. 

Journal of the American Society for Information Science and 

Technology,2008,59(1):77—85 

El i]I.aniado D,Mika P.Making sense of twitter[M].The Semantic 

Web-ISWC 2010.Springer Berlin Heidelberg,2010:470—485 

[12]Guo W,Li H,Ji H,et a1.Linking Tweets to News:A Frame— 

work to Enrich Short Text Data in Social Media 

[13]Wang A H.Don’t follow me;Spam detection in twitter[-c]∥Se— 

curity and Cryptography(SECRYPT),Proceedigs ofn the 2010 

International Conference on.IEEE,2010:i-10 

参考文献 

[1]RosaKD,ShahR,IAnB,eta1.Topicalclusteringoftweets[c]∥ 

Proceedigs of the ACM SIGInR:SWSM.2011 

[14]Benevenuto F,Magno G,Rodrigues T,et a1.Detecting spammers 

on twitter[C]ff olClaboration,electronic messagig,nanti—abuse 

and spam conference(CEAS).2010 

[2]Sankaranarayanan J,Samet H,Teitler B E,et a1.Twitterstand: 

news in tweets[c]∥Proceedings of the 17th ACM SIGSPA- 

TIM Intemational Conference on Advances in Geographic In— 

formation Systems.ACM,2009:42—51 

-[151 Cilibrasi R L,Vitanyi P M R The google similarity distance ̄J]. 

IEEE Transactions on Knowledge and Data Engineering,2007, 

19(3):370—383 

245・ 


本文标签: 话题 特征 研究 相关