admin 管理员组文章数量: 1086019
2024年3月10日发(作者:学习php的方法)
贵州非物质文化遗产的数据挖掘与分析
作者:马思根 赵小明 吴勇
来源:《计算机时代》2020年第05期
摘; 要: 贵州省非物质文化遗产极为丰富,蕴涵着贵州各民族特有的精神价值、思维方
式、想象力和文化意识,体现着贵州各民族的生命力和创造力。为了更好地发掘和保护贵州非
物质文化遗产,通过对贵州省非物质文化遗产保护中心网的数据挖掘,采用词云分析、聚类分
析和可视化技术等,对贵州非物质文化遗产的文本数据进行处理,并提取有价值的关键文本信
息,为贵州非物质文化遗产的传承和发展提供依据。
关键词: 聚类分析; 词云分析; 数据挖掘; 非物质文化遗产; 贵州
Abstract: Guizhou Province is rich in intangible cultural heritage, which contains the unique
spiritual value, mode of thinking, imagination and cultural consciousness of all ethnic groups in
Guizhou, and reflects the vitality and creativity of all ethnic groups in Guizhou. In order to better
excavate and protect the intangible cultural heritage of Guizhou, through data mining of Guizhou
intangible cultural heritage protection center network, the text data of Guizhou intangible cultural
heritage are processed by word cloud analysis, clustering analysis and visualization technology,
and valuable key text information is extracted to provide basis for the inheritance and development of
intangible cultural heritage in Guizhou.
Key words: clustering analysis; word cloud analysis; data mining; intangible cultural heritage;
Guizhou
0 引言
非物质文化是一种非物质形态的文化,它常存在于民间并且世代相传,具有浓厚的艺术价
值和历史价值,其主要的表现形式有工艺、文学形象、音乐和图像等,通过身形和语言传承并
延续至今,是人类历史发展進程中不断积累的珍贵财富[1]。贵州省非物质文化遗产极为丰
富,是我国非物质文化遗产的重要组成部分,也极大地丰富了世界文化的多样性。然而,由于
各种因素的影响,贵州非物质文化遗产在发掘、继承、保护和发展等方面的缺失,导致一些非
物质文化遗产正面临着不断消亡的尴尬局面。为了改变这种窘迫的境况,更好地发掘、继承、
保护和发展贵州非物质文化遗产,就显得非常迫切。虽然为了推动非物质文化地区经济的繁荣
发展和非遗的保护工作,贵州省各地区以政府为主导,积极打造以非物质文化遗产为基础的文
化旅游经济,力求在推动地方经济发展的同时,弘扬非物质文化遗产精神[2],但其效果极为
有限。本文通过爬取贵州非物质文化遗产现有文本数据,然后进行词云分析、聚类分析以及可
视化技术处理等对贵州非物质文化遗产展开研究,力求为贵州非物质文化遗产的有序传承及其
健康发展提供可靠的依据。
数据挖掘是对大型数据库、数据构件库和其他大型信息资源中标志知识含义的类型的自动
或便捷的提取,是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程
[3]。文化遗产的数据挖掘与云计算相结合,为文化遗产的感知、认知和决策提供了基础[4-
5]。贵州非物质文化遗产的网页信息数不胜数,要选取可靠的网页信息源,并从这些海量的数
据中提取有价值的信息,挖掘出贵州非物质遗产的文本数据信息,分析这些数据之间的制衡关
系,并为贵州非物质文化遗产的发掘、保护和继承提供依据,这是本次研究的意义所在。
1 数据源的选取
网络中关于贵州非物质文化遗产数据信息数以亿计,而且鱼目混珠,数据的爬取及收集首
先需要选择可靠的数据来源,本次研究选择贵州省非物质文化遗产保护中心官方网站作为文本
数据来源。贵州省非物质文化遗产保护中心是贵州省文化和旅游厅直属的事业单位,是承担全
省非物质文化遗产的普查、传播和数据库建设,开展非物质文化遗产理论研究、学术交流、科
学实践及保护工作,并负责进行全省非物质文化遗产保护的人才培训和相关咨询服务的工作机
构,其官方网站数据也是贵州省非物质文化遗产领域最权威、最齐全的数据。本次研究通过对
贵州省非物质文化遗产保护中心官方网站解析其URL,并且运用Python相关的库,编写代码
爬取贵州省非物质文化遗产的相关文本数据并进行分析。
贵州省非物质文化遗产保护中心网站,网址为:http:///。网站分为导航
和主体网页两大部分,网站主体页面内容包括通知公告、新闻动态、遗产名录、政策法规、学
术论坛、传承人、协会工作、非遗产品和工作机构等十三个板块;网页的具体内容包括标题、
作者、来源、正文、时间以及阅读量等等。
2 数据的爬取及数据库表设计
选定网络文本数据源后,就可以利用网络爬虫抓取网站上有价值的文本信息,保存到本地
文本或者数据库中,为后续的研究提供基础数据语料。基于Python的网络爬虫步骤为:
⑴ 首先建立URL列表,编写脚本与网站进行交互,利用Python库(urlib、urllib和
httplib),并获取网页中的相关内容。
⑵ 爬虫解析,即利用BeautifulSoup把html解析成一个对象,去掉html标签。
BeautifulSoup作为Python第三方库,可以很方便地抓取到特定的节点,对单个节点也可以提
取其内容。
⑶ 调用相关的Python库,将数据爬取到数据库中。
⑷ 构建新的URL列表。
2.1 数据爬取过程
数据爬取过程中首先找到相应的网页,然后查看元素对应的属性,根据元素属性进行爬
取。在本次研究中,我们根据贵州非物质文化遗产的级别及范围对贵州国家级、贵州省级、贵
州各县市和贵州主要少数民族非物质文化遗产数据进行爬取,由于爬取过程接近,主要是更換
爬取关键词,所以这里仅列出贵州国家级非物质文化遗产的爬取过程。
⑴ 导入Python爬虫相关的数据包,其中t是用于响应服务器数据包,
BeautifulSoup解析响应内容,PyMySQL是连接MySQL数据库所用的包。
⑵ 连接MySQL数据库,通过t连接数据,再用e执行数据库。
⑶ 读取相应的网页内容并解析网页。
⑷ 定位爬虫DOM,读取内容,并储存到数据库表中。
2.2 数据库表设计
根据前面的数据爬取内容可知,需要建立贵州国家级、贵州省级、贵州各县市和贵州主要
少数民族非物质文化遗产四张数据库表。
⑴ 贵州国家级非物质文化遗产
获取名称,申请时间,遗产级别,遗产类型,申报地区,遗产编号,批次,遗产描述,把
这些信息按表存储起来,如表1所示。
获取名称,申请时间,遗产描述,把这些信息按表存储起来,SQL语句创建如表2所示。
表2; 贵州省级非物质文化遗产数据库表
[字段 类型(长度) 允许为空置 主键 说明 id int(20) not null 是 id序号 name varchar
(50) null 遗产名称 time varchar(10) null 申请时间 text text(255) null 遗产描述 ]
⑶ 贵州各县市情况
获取县市名称,URL链接,主要内容,把这些信息按表存储起来,SQL语句创建如表3
所示。
⑷ 贵州主要少数民族情况
获取少数民族名称,URL链接,主要内容,把这些信息按表存储起来,SQL语句创建如
表4所示。
2.3 数据爬取结果
数据爬取后存储到MySQL数据库对应表中,其爬结果情况如下:
⑴ 贵州国家级非物质文化遗产,共爬取86条数据,选取其中一条示例如表5所示。
⑵ 贵州省级非物质文化遗产,共爬取159条,选取其中一条示例如表6所示。
⑶ 贵州各县市情况,共爬取155条,选取其中一条示例如表7所示。
⑷ 贵州主要少数民族情况,共爬取17条,选取其中一条示例如表8所示。
3 词云分析
词云就是对网络文本数据中出现频率较高的“关键词”给予视觉上的突出效果,形成“关键
词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者一眼扫过文本便可知文本主
旨[6]。这里使用词云分析对贵州国家级非物质文化遗产进行视觉效果处理,并统计出频率高
的“关键词”,其主要步骤如下。
⑴ 安装导入import扩展包
安装导入的包有jieba扩展包,用于分词处理;WordCloud拓展包,用于词云统计;Matplotlib
包,用于可视化展示及分析。
⑵ 导入文本数据
导入OS包,打开txt文本并读取,代码为:open('文件路径').read()。
⑶ 进行中文分词
调用jieba工具包进行中文分词,代码为:wordlist=(text),默认为全模式,将
分词的序列赋值给wordlist,再使用空格连接,代码为:wl_space_split=" ".join(wordlist)。
⑷ 读取图像
读取图像nana_coloring=imread((d,图像路径")),为后期显示相应形状做准
备。
⑸ 配置词云属性
设置显示颜色,背景图片,最大显示字数,停用词,字体大小,配色情况等。
⑹ 词云分析
调用my_te(wl_space_split)对分词后的文本生产词云。
⑺ 绘图并可视化
最后调用(my_wordcloud)显示词云图,("off")不显示x轴,y轴下
标。()显示生成的图像,my__file((d""))保存
生成的图像。
采用词云技术分析贵州省国家级非物质文化遗产,从而获取关键词。Python主要是调用
WordCloud拓展包进行词云分析,如图1所示。由图1可知贵州省非物质文化遗产文本中哪些
词语出现的次数最多,因为出现次数越多,在图中显示的词语越靠中间,字体越大;出现频率
较低的词语显示在边缘,字体较小,如而“历史”、“内容”、“村寨”、“艺人”等就显示在边缘。
我们可以明显看出“苗族”、“主要”、“活动”、“传承”、“表演”、“文化”、“民间”、“侗族”、“民
族”这个九个词语出现的次数就比较多,根据这些词的意义以及与贵州非物质文化遗产的关联
度,去除掉“主要”后,将显示最大的前八个词语出现的次数统计出来如表9所示。
4 聚类分析
聚类分析是描述数据中对象之间的关系,进行数据对象分组的过程。利用数据对象的相关
性和不相关性聚类,差异越大,聚类效果越好。其中,K-means是常用的聚类方式,它是一种
基于距离的迭代算法[7]。这里讨论基于贵州非物质文化遗产的聚类分析,主要包括TF-IDF、
聚类分析、可视化分析等过程。
4.1 TF-IDF权重计算及结果分析
通过TF-IDF权重计算的方法,分析爬取的贵州非物质文化遗产文本数据,TF-IDF(Term
Frequency-Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技術,用
于评估一个字词文本对于一个文件集或一个语料库中的重要程度。字词的重要性随着它在文件
中出现的次数增加而增加,但同时会随着它在语料库中出现的频率增加而下降。根据表9关于
贵州非物质文化遗产词汇统计情况,做如下的计算。
⑴ 计算TF(词频)
由于文本大小不一样,需要进行词频标准化整理。计算方法如式⑴所示。
通过计算TF-IDF值可知,某文本中“表演”、“传承”出现的次数很高,说明贵州非物质文
化遗产中“表演”、“传承”方面的内容比较丰富。同时计算剩余几个词语的TF-IDF值并相加,
便可以得到整个文档的值,并能用于信息检索。
4.2 聚类分析
基于非物质文化遗产的数据分析、挖掘技术越来越受到关注。K-Means聚类算法快速、简
单,适合大规模数据挖掘[8]。在聚类分析过程中,文本调用Sklearn机器学习扩展包
Kmeans,散发属于欧式距离。基于贵州非物质文化遗产的聚类分析中,首先对收集的贵州非
物质文化遗产语料集数据预处理,然后使用jieba工具对处理后的数据进行中文分词,接着使
用Python包导入数据,进行K-means聚类分析,最后导入画图包,对数据进行可视化展示。
聚类分析的实验过程如下。
⑴ 导入KMeans聚类扩展包,from r import KMeans从机器学习聚类中导入
KMeans聚类方法。采用clf=KMeans(n_clusters=10)设置类簇为10,因为非物质文化一共有
民间文学、民间音乐、民间舞蹈、传统戏剧、曲艺、杂技与竞技、民间美术、传统手工技艺、
传统医药、民俗这10种类别。
⑵ 导入数据集进行降维处理,data=_csv('')为TF-IDF贵州非物质文
化文本处理结果的数据集,from osition import PCA进行降维处理。
⑶ 可视化,import as plt导入画图包,利用r(x,y,c=pre,
marker='o',s=200)绘制散点图。
通过以上过程的代码实现后,可得贵州非物质文化遗产文本TF-IDF聚类分析结果如图2
所示。
如图2,根据编号将文本内容分为10类。整体来看除了1号和9号外,其他类的差异不
大,主要集中在零点附近,也代表大多数文本之间的差异不大。其中只有1号和9号偏离较
远,表示1号和9号与2号、3号、4号、5号、6号、7号、8号和10号相比差异较大。
5 结束语
通过对贵州非物质文化遗产的数据爬取以及文本数据处理和分析,可知贵州非物质文化遗
产的关键词有“苗族”、“活动”、“传承”、“文化”、“表演”、“民间”、“侗族”和“民族”等,由此说
明贵州非物质文化遗产在这些方面所占的数量比较多,在将来贵州非物质文化遗产继承和保护
过程中需重视这八个方面的内容。通过计算词频最高的八个“关键词”TF-IDF值,可知其中“表
演”和“传承”出现的次数更高,说明贵州非物质文化遗产中“表演”和“传承”方面的内容比较丰
富,说明将来贵州非物质文化遗产的发掘和发展可以从这两个方面入手,将能发掘出更多、更
好的非物质文化遗产。通过对贵州非物质文化遗产的聚类分析可知,民间文学、民间音乐、民
间舞蹈、传统戏剧、曲艺、杂技与竞技、民间美术、传统手工技艺、传统医药和民俗这10种
类别中,除了两种类别差异较大外,其他类别差异不大,说明对各种类别的贵州非物质文化遗
产的发掘和发展尽量平等看待,共同发展。
参考文献(References):
[1] 曹瑞.互联网商业信息中的非物质文化数据挖掘及空间可视化[D].河北师范大学,2012.
[2] 浦凯迪.关于贵州少数民族非物质文化遗产保护的调查研究[D].北京印刷学院,2015.
[3] 李晓城,张增杰,夏勇明等.基于Web数据挖掘的健康餐饮分析推荐系统的设计[J].微
型电脑应用,2011.27(1):44-46,5-6
[4] 马楠,鲍泓,刘宏哲等.Web 3D图像的存储管理及在数字博物馆中的应用[J].北京联合
大学学报(自然科学版),2006.20(1):45-48
[5] 鲍泓,刘宏哲.大数据时代文化遗产数据挖掘的认识[J].北京联合大学学报(自然科学
版),2015.29(3):1-4
[6] 周善.数据新闻:网站专业生产内容(PGC)的可循之途——四大门户网站的数据新闻
实践[J].编辑之友,2014.8:70-73,86
[7] 范生姣.黔东南非物质文化遗产现状及保护对策研究[J].凯里学院学报,2014.32(5):
37-40
[8] 张大虎.基于主题的文本数据采集系统的研究与实现[D].东北大学,2010.
版权声明:本文标题:贵州非物质文化遗产的数据挖掘与分析 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1710067474a556173.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论