admin 管理员组文章数量: 1086019
2024年5月1日发(作者:flashswf播放器)
理论探索
Theoretical Exploration
大数据时代传播研究中语料库
分析方法的价值
文/喻国明 李慧娟
摘要:
大数据时代的研究逻辑,对传播学研究形成了新的冲击,传统的文本分析方
法,已经不能满足对样本数量的宏阔和数据挖掘深度上的双重要求。语料库的研究方法
在数据新闻、舆情监测和学术研究等领域都可以得到广泛的应用。通过语料库这种结构
化的文本数据来开展的量化研究,在国内外新闻传播学界都属新鲜待开发的领域。
关键词:
大数据 语料库 文本数据 语义挖掘 定量研究
在新闻传播学视野之下,大数据的分析思维正在对
我们的研究形成冲击,比如新闻业务将实现一些方向性调
整,趋势预测性新闻和数据驱动型深度报道分量增加。对
于舆情研究来说,问卷发放和小组访谈等传统的民意调查
方法,已经不能满足基于社交媒体平台的海量信息处理要
求。新闻传播学领域的研究面临一个共同问题,即文本分
析方法的创新。基于大数据的分析思维,文本也是一种有
巨大潜在价值的数据。但是传统的文本分析手段拘泥于有
限的样本数量和定性研究的窠臼,无法满足大数据时代对
内容挖掘上广度和深度的要求。在这种情况下,来源于应
用语言学领域的语料库分析方法的介入,能够使结构化文
本数据库的构建成为可能。再结合语言学、修辞学领域的
内容分析手段,能为我们从研究范式到研究方法、工具上
都提供一些新思路。
性和独家性方面的优势已不复存在。大众传媒作为社会
的记录者与传播者的传统定位及面向所有受众的粗放式
信息传播方式,已越来越不能满足受众对于精准信息和
定制内容的需求。
大数据时代,最重要的是数据的开放性,其被垄断
的可能性很小,公共云、公共数据库到处存在。媒体既
要生产自己的数据,更要会用、用好公共数据。这些公
共数据不仅包括数字信息,也包括大量文本内容。要使
用这些公共内容,就需要有对海量信息的整合能力以及
对潜在信息价值的挖掘能力,并需用可视化工具把结果
精准地呈现出来。
(二)舆情研究领域
在研究视角上,传统的舆情研究大都局限于比较表
层化的话语研究和事件研究,没有深入挖掘公众的思想、
行为和情感方面丰富的内涵和规律性信息。而且受传统的
调查、访谈方法自身的局限性影响,很难进行受众心理图
谱、行为图谱和社会关系图谱这样复杂的语义关系的绘制
和分析。
在研究时距上,目前的舆情研究以共时性研究为主,
历时性研究缺乏。但是,舆情热点的变化具有年轮效应,
一、大数据时代对新闻传播学研究范式提出的
新课题
(一)新闻实践领域
随着社交媒体的应用和智能手机的普及,人人都可
以是事件的目击者和发布者,传统媒体新闻报道在原创
64
传媒∷MEDIA 2014.1(下)
理论探索
Theoretical Exploration
只有横向的共时性分析是不够充分的,没有对公众舆论的
历时性演变和舆情发生机制的纵向研究,我们在认识和行
动上的方位感就会不够客观和真实。
在采集方法上,现有的舆情监测和分析软件的同质
化程度较高,采集的文本大多是基于互联网社交媒体,
分析结果的呈现方式也比较相似。在炫目的可视化图景
背后,没有对文本数据的深度分析,而这种深度分析要
基于对大量文本的内容挖掘和整合,这就需要经过结构
化处理的文本数据库来支持。舆情话语的表达乱象纷
繁,真伪并存,既需要小型的基础文本数据库来深度挖
掘某类热点专题,也需要大型合成文本数据库对舆论走
向和趋势进行宏观把握。
(三)传播学学术研究领域
传统的传播学文本分析,主要以框架分析、符号分
析等定性分析方法为主,但这两种分析主要集中于意识形
态、修辞方式等方面,不够客观。而文本内容,特别是舆
论研究的文本内容,有零散化、碎片化的特征,在拉斯韦
尔的5W里面, say what(文本内容研究)的问题常常被
人忽略。虽然有一些专门的词频统计分析软件,可以完成
对高频词和低频词的统计分析,但在语义深度挖掘方面仍
然有待开发。我们需要找到一种常规的工具,可以把学术
文本进行结构化方法上的整合,通过把文本分类、合并,
提取常用关键词和核心词,按研究主题分门别类地进行储
存,为对比研究、专题研究等领域提供更加严谨和结构化
的文本数据库支持。
史资料数据化,变成媒体的核心资产。在新闻传播渠道
日益扁平化的今天,建立一个受众易于发现和易于使用
的史料数据库,是报纸生存下去的核心竞争力之一。另
外还可以采集一些外部数据来作为语料库的扩充部分,
如通过合作、购买、交换、抓取等方式来获取来自其他
媒体的内容和来自互联网平台用户创造的内容,并完善
语料库的资料存储、检索查询和版权管理,为进一步转
化利用打好基础。
2.政府公开信息语料库。
彭博社亚洲区新闻资讯主
编Lee Miller指出:数据驱动型报道中的数据都可以并且应
该从公开信息渠道中获得。所谓的信源和数据,并不一定
要像“维基解密”或斯诺登那样从秘密渠道获取,而是应
该从公开信息中挖掘。这些信源包括政府机构网站中日常
发布的政策信息和每年重大会议的政府工作报告;大众媒
体官方网站上的报道和专题;官方媒体的新媒体移动终端
发布的内容等等。根据政治、经济、教育、公共卫生等不
同主题,建立可供随时检索的公开信息语料库,能够为媒
体报道节约大量搜寻数据和素材的人力和物力。
3.“数据博客”语料库。
在基于社交网络平台的节
点式传播基础上,来自草根阶层或者是专业领域人士的博
客、微博的内容和数据,也能成为新闻线索的来源和报道
内容的基础。因此,我们可以采集那些比较有影响力的博
客或微博的内容,通过初步的结构化处理,转换成随时可
供查询和检索的民间信息语料库,供数据驱动型的新闻报
道作为参考,也可以作为普通读者查询的数据库。
(二)在舆情研究领域的应用
通过建立动态舆情监测语料库,提供可供检索的关
键词数据库,结合修辞学、语言学的分析方法,分析舆论
话语表达、公众社会关系、群体心理特征等。首先按照一
定的规则和专题对收集的舆情文本内容进行分类和标注,
然后是文本合并和关键词提取。在语料处理方面要注意两
点:一是小型基础语料库的支撑和建设,大数据库作为信
息母体,需要若干小型数据库作为检索源;二是中心度和
关联度结构化的算法,大数据库作为一种非结构化的数
据,需要进行一些结构化的解读和梳理,这就需要相关的
数据结构化算法,这种算法可称之为数据模型。
1.舆情热词语料库。
舆情热词语料库主要服务于舆
情监测,解决重大和突发事件中引爆点和关联度的关系。
我们可以通过关注热点内容,搜集热点事件的语料,建立
舆情热词数据库,找出引发舆情关注的引爆词。并结合语
词情感分析、修辞分析手段,来划分引爆词的中心度级别
和关联度级别,在此基础上设计热词发现模型,达到舆情
预警和预测的目的。
二、语料库分析:体现大数据思维的研究方法
语料库属于应用语言学的范畴,是指按照一定的
语言学原则,运用随机抽样方法,收集自然出现的连续
语言运用文本或话语片段而建成的、具有一定容量的大
型电子文本库。该方法在国外已有三十年以上的研究历
史,如今也拥有较为成熟的语料库构建与检索工具,比如
Wordsmith、AntConc等。国内语料库的研究亦开展近二十
年时间,研究范畴基本被划分为词汇、语法、语篇、语用
和文体研究等五个方面。利用语料库作为研究工具,可以
从微观层面对新闻传播学领域的文本内容进行研究。在语
言学领域,语料库的研究方法已日趋成熟,只不过尚未走
进新闻传播学的视野,这是因为新闻传播学在文本内容分
析方面欠缺新的方法,需要语料库这类研究方法的介入。
三、语料库研究方法的应用领域
(一)在新闻实践领域的应用
1.史料检索语料库。
即把新闻报道的原创内容和历
传媒∷MEDIA 2014.1(下)
65
理论探索
Theoretical Exploration
首先我们根据研究规模来选取一定数量的样本,然后
用语料库构建工具对选定文本进行标注和结构化处理,
对舆情关键词进行再次统计并生成核心主题词表数据
库,从中找出舆情引爆词。需要特别指出一点,核心主
题词不一定是词频最高的那个词,而是舆情敏感度,也
就是热度最高的词,即舆论的中心词。中心词是舆论的
引爆点,实现了引导公众把舆论由说变成做的过程,同
时也是关联度最高的词,从最大限度上关联其他的主题
词并形成语义网络。
关于舆情热词的分析,有两个关键点:引爆点和关联
点。由引爆点可以导出对引爆词的挖掘;由关联点可以导
出对连接词的发现;引爆词具有意见领袖的作用,迅速扩
大热词的影响力并号召公众付之行动;关联词具有搬运工
的作用,能够连接各种关系词,形成主题词网络。基于引
爆词的挖掘和连接词的发现,舆情热词分析可以划分出两
个维度:中心度分析和关联度分析,进而设定中心度指标
和关联度指标,并设计指标体系的计算公式,形成具有引
爆性质的热词理论模型。这样就可以舆情监测,随着热词
强度的提高,热词的范围是不是在扩大,社会的紧张度又
如何,进而往前预推,达到预警的目的。
2.意见领袖修辞特征词语料库。
在一些官方传统媒
体失语或报道不及时的情况下,网民习惯于打开网络意见
领袖的博客或追逐微博上的只言片语,从他们那里寻找解
读、剖析和批判。意见领袖的观点、意见情绪能为受众所
接收,能引起受众的共鸣,会产生巨大的舆论影响,这与
他们个人的话语表达风格、对某个领域的专业知识和对某
类问题的把握能力密不可分。因此,通过对意见领袖的观
点、态度关键主题词等内容的提取,可以从中总结某个或
某类意见领袖的修辞特点及个人特征,形成一定的辨识度
依据;进而还可以从中寻找具有心理唤起度和社会动员能
力的词,为舆论引导提供来自民间舆论场的参照。
3.传播学学术主题词语料库。
在传播学内容研究
领域,可以尝试用语料库来完成对常规5W领域的深化研
究,尤其是引向微观层面。越是细小的不易觉察的,越是
人们忽视的,也越是研究者值得进军的领域,而微观的研
究恰恰能够揭示很多深度的东西。所以传播学主题词语料
库可以做的,恰恰是把非结构化的文本数据结构化,根据
研究主题设定结构化的方向、结构化的坐标、结构化的指
标,来完成研究的目标。比如传播史方面的研究,我们可
以找到一个时间节点,搜集与这一节点同步的史实资料,
然后把文本进行整合、分词、标注,提取与这一历史节点
关联的年份词、学者名称、学术观点、专门术语,构建主
题词语料库,绘制这一时期的主题词学术地图。
4.受众特征关键词语料库。
利用微博进行广告传
播,有着天然的精准投放优势。我们可以利用语料库来分
析挖掘受众群体特征,绘制不同目标群体的心理图谱、行
为图谱和社会图谱,从而实现对目标接触点的精准把握,
找到受众的需求交叉点。这种语料库分析的应用原理来自
于特征聚类,以此为依据,来向具有相似心理需求的受众
推送受本群体认可的资讯和产品广告,从而达到对品牌接
触点和受众需求交叉点的精准把握。
四、语料库分析在传播学研究方法论上的创新点
工具性的研究方法,要和研究内容的属性相匹配;要
把主观感觉的内容变成可靠结论,从而挖掘出研究对象的
潜在价值。语料库的分析方法,符合大数据的思维逻辑,
通过对海量文本数据的处理,可以对文本内容进行深入挖
掘,而不仅仅局限于表层研究或定性分析。以微观偏中观
的修辞手段和语义分析的研究为基础,通过语料库这种结
构化的文本数据来开展量化研究,这在国内外新闻传播学
界都属新鲜待开发的领域。
语料库的研究,本质上也是一种跨学科的研究,综合
了语言学、修辞学、计算机科学和统计学各学科的知识。
当前国内外大型语料库的建设都具有动态性的特点,即语
料会定期更新,基于它可以丰富传播学量化研究的方法,
发现关键词和主题词的历史性演变,从而寻找其中的年轮
效应,为学术文本和实践领域的研究提供纵向的和历时性
的参照物和坐标系。
参考文献
[1]彭兰.大数据时代,新闻业面临的新震荡[J].编辑之
友,2012(1).
[2]官建文,刘扬,刘振兴.大数据时代对传媒业意味着什
么[J].新闻战线,2012(2).
[3]李彪.大数据视域下社会舆情研究的新境界.编辑之
友,2013(6).
[4]人民网舆情办公室.如何应对网络舆情——网络舆情
分析师手册[M].北京:新华出版社,2011.
本文系中国人民大学科学研究基金(中央高校基本科研
业务费专项资助)“基于修辞传播学语料库的舆情热词研究”
(项目编号:14XNH111)的研究成果之一。
喻国明系中国人民大学新闻学院教授、副院长
李慧娟系中国人民大学新闻学院博士研究生
66
传媒∷MEDIA 2014.1(下)
版权声明:本文标题:大数据时代传播研究中语料库分析方法的价值_喻国明 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1714513660a683313.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论