admin 管理员组文章数量: 1086019
2024年4月20日发(作者:trousers怎么读音)
兰"论坛
〈
〈
〈
LANTAILUNTAN
DOI
:
10.1
6565/.l
006-7744.2021.01.15
台湾
Docusky
数位人文学术研究平台特色及启示
闫晓创
摘
要
数位人文研究平台是人文学者进行学术研究和探索的重要支撑
,
台湾
Docusky
研究平台在简单易用的基础上为人文研
究学者在文本标记
、
格式转换、
资源建库
、
数据可视化等方面提供了很大的帮助
。
在此基础上各相关研究机构应进一步加
强协作
,
推动
Docusky
项目在平台功能拓展
、
研究服务
、
人才培养等方面发挥更大作用
。
关键词
Docusky
数字人文平台
网络资源存档
中图分类号
G270.7
文献标识码
A
收稿日期
2020-06-24
★
作者简介
:
闫晓创
,
新华社办公厅馆员
,
硕士研究生
,
研究方向为网络资源存档
、
数字档案馆
、
档案管理
。
Features
and
Inspirations
of
Docusky
Digital
Humanities
Academic
Research
Platform
in
Taiwan
Yan
Xiaochuang
Abstract
Digital
humanities
research
platfOrm
is
an
important
support
platfOrm
fOr
humanities
scholars
to
carry
out
academic
research
and
exploration.
The
Docusky
research
platform
in
Taiwan
provides
great
help
for
humanities
scholars
in
text
tagging,
format
conversion,
resource
database
building,
data
visualization
and
other
aspects
on
the
basis
of
simple
and
easy
use.
On
this
basis,
all
relevant
research
institutions
should
strengthen
cooperation
to
promote
Docusky
project
to
play
a
greater
role
in
platform
function
expansion,
research
service,
talent
training
and
other
aspects.
Keyword
Docusky;
digital
humanities
platform;
network
resources
archiving
台湾
DocuSky
数位人文学术研究平台
(
Docusky
Collaboration
Platform
)
是一个针对个人资料整理与分
析的在线平台
。
Docusky
由台湾大学数位人文研究中
心
、资讯工程学系数位典藏与自动推论实验室规划
、
设
—
、
Docusky
数位人文学术研究平台应用工具介绍
卬
1
•
标记与编辑
。
MARKUS
标记工具
。
在人文学者研
究的
程中
,
对文本进行标
与
惯
。
为
的
的研究习惯运用在数字人文的研究过程
计和开发
>
Docusky
数位人文学术研究平台主要服务于
人文学者
,
为学者在平台上提供可以建置符合国际标
里,荷兰莱顿大学魏希德
(
Hilde
de
Weerdt
)
教授与何浩
建置的
库
(
MARKUS
)
自动标
准格式的个人云端资料库
,
并利用平台所提供的各种
实用工具
,
进行个人文本的格式转换
、
标记与建库
、
探
记平台
”
成为人文学者便于使用的标记工具
。
使用
MARKUS
,
可为上传的中文档案
,
自动标记人名
、
地名
、
年号及官名
(
将来亦可应用在其他语言
)
,
也可以自定
勘与分析,以及可视化
、
GIS
整合等学术研究工作
。
Docusky
测试版自
2016
年上线以来
,
越来越多的
要标
的
,
具文本标
与分析
的线
上研究工具
。
文本经
MARKUS
标记处理后
,
使用者不
人文学者在
着探索
、
利用
,
并反馈更的意见促进
Docusky
的成长发展
。
2018
年
2
月
,
Docusky
数位人文
学术研究平台新版页面正式上线
。
Docusky
1
队也将持
续不断通过合作与共同参与的方式
,
将更多更好用的
数位工具与服务上线至平台上
。无论是人文学者或是
可利用平台
置的可
工具进行分析
、
标
资讯
,
也可以
格式输出后
,
在其他数位平台或
工具中延伸应用
。
小说对话标记工具
。该工具可以对文本中的人物
对数位人文
的人
,
可以
与
、
用与发展
docusky
数位人文学术研究平台中去
。
对话进行标记
,
从而便于进行后续的分析
。
主要应用步
骤为:添加文本
(
使用者添加
txt
、
xml
或者通过
docusky
默认格式文本)
—
—
文本标注
(
标注文本、
增加或删除
预览区的内容
,
其他功能
,
如自动记忆功能
)
—
—小说
角色的信息编辑
—
—
编辑完成后输出指定的格式
(
使
Docusky平台应用模型图
用者依据自己的需要来选择
,
“
XML
”
和
“
标注全文
60
!
兰台
世
界
LANTAI
WORLD
JSON
”
能够输出完整文本以及标注资讯的格式
,
gdf
为
社会网络分析工具
Gephi
能够支持的格式
,
人名
JSON
以及类型
JSON
为文本所使用的参考资料
)
一上传
至
Docusky
绘制相应的统计图表
。
2.
文本格式转换
。
Docusky
为不同文本的转化提
供了多样性的工具
。
(
1
)
纯文字文本建库工具
。这个工
具可以让利用者指定
UTF-8
编码格式的文字档
,
将它
们输出为本地端的
XML
档
,
便于建构个人资料库
。
(
2
)
表格文本转换工具
。
可将存储于表格资料的
metadata
转成
DocuXml
o
资料来源为
Excel
档案或
.csv
格式的文本
。
(
3
)
MARKUS
转换工具
。
可将
MARKUS
标记后的汇出档
(
MARKUS
file
)
转换为
DocuSky
的
建库档
。
含诠释资料的文本转换工具
(UI
.
)
:
该工具可处理从
Kanseki
Repository
汉籍网站下载的
文本档案
。
3
.
建库与重整
。
(
1
)
建构或删除资料库
(
含线上资料
库使用
)
。
主要是用户上载
DocuXML
文档至个人资料
库中
(
需登入
DocuSky
)
。
诠释资料整合建库工具
(
合并
文
)
X
工具可
DocuXml
档
上
,
上利用
Excel
档所指定的
metadata
(
)
X
(
2
)
从
CBETA/CTEXT/KANRIPO
取得文本与建库
。
从
CBE-
TA
(
中华电子佛典协会
)
/CTEXT
(
中国哲学书电子化计
划
)
/KANRIPO
取得文本
,
并产生
DocuXml
的工具
。
注
:
CTEXT
文本下
的
制
,
使用者
的网
内
,才能通过以上的
CTEXT
链接下载全文
。
(
3
)
建库档
汇整工具
(
合并或筛选文献集
)
。
该工具可读入多份
ThdlExportXml
档,让使用者挑选其中的文献集
(
可利
用档名
输出的文
)
,
并将这些文
整
单一文档
。
也可以利用这个工具将文件中的段落
(
paragraphs
,
相当于
Markus
的
passages
)
转换成独立的
文件
。
(
4
)
建库档汇整工具
(
管理
Metadata
栏位
)
。
此工
具可
ThdlExportXml
档
,
让使用者指定
将
metadata
的
制
,
输出
—
份
ThdlExportXml
档
。
4
.
探勘与分析
。
(
1
)
词夹子工具
。
该工具是一个能够
从文本
,提
定类
的
X
(
2
)
衡转换工具
。
该工具可读入文本
,
并将其中叙述度量衡
的文字
,
转换成为需要的单位制
(
清制
、
日制
、
公制
、
英制
)
x
(
3
)
文件推荐工具
。
给定一个文献集
,
这个工具可
让使用者先利用关键词查找出一些相关文
,
然后利用
相关度反馈
(
Relevance
Feedback
)
的方法推荐其他相关
文件
。
(
4
)
标记与词汇统计分析
。
可将文本视为纯文字
来统计词汇
(
n-gram
)
频率
,
现在也可以对文本中的标
记进行分析
。
注:输出的词汇列表,可利用
csv
to
exel
将
转换
定格式的表格
,
便转
graph
visu
alization
tools
。
(
5
)
文献集字频统计工具
。
这个工具可对
资料库中的文献集进行字频统计,并将结果排比列出
。
(
6
)
文本风格分析工具
。
目前
,
系统平台提供的分析工
具以写作风格分析
(
Writing
Stylish
Analysis
)
为主
,
目
前有四种分析方式
:
①
Yang's
Rank-Frequency
Dis
tance
;
②
Tu
,
s
Term
Frequency
t-Test
;
③
Tu
,
s
Mining
Function
;
④
前后词缀分析
。
GIS
5.
与可视化
。
(
1
)
文本地理资讯整合工具
。
(
GeoPort
)
该工具是用来展示在
docusky
上
,
可以整合
文本与地理资讯
。
文本需经过
Markus
行标记
,
且标
记后的地理名词需具有
placename_id
(
如此工具才能取
得对应的地理坐标资讯
)
。
经
Markus
标记后的输出档,
还需通过工具转换成建库档
,
上载建库后才能被此工
具所取用
。
(
2
)
Docusky
地理资讯工具
(
DocuGIS
)
。
这是
一个支持
Docusky
的
GIS
工具,可以将
Geoport
的资料
呈现在地图上、
储存筛选后的文本图层
,
也可以用
CSV
格式上传有坐标资讯的图层一起使用
。
(
3
)
历史地名查
询工具
。这是一个历史地名查询的
GIS
工具
,整合中国
的历史地名
,
可将查询结果汇出在
Docusky
或其他
GIS
中使用
。
二
、
Docusky
数位人文学术研究平台的特色
1
.
提供个性化的管理工具
。
人文学者利用数位科技
进行学术研究
,在信息时代的今天已非常普遍了
。
但是
充斥在信息世界的各样数位工具
,
总是不能契合每位
人文学者的个性化求
。
的资料库提供了很棒的工
具
,
但是却无法应用在学者自己搜集的材料上;有的资
料库
丰富的数位资
,
但却没适合的工具为
使用者提供进一步分析的功能
。
docusky
数位人文学术
研究平台的出现
,
弥补了这样的缺憾
,
让研究者在文档
的取用与工具的使用上更为自由与丰富。
2
.
全流程的文档处理工具平台
。
传统的数据库建置
工作
,
都由专业的技术人员完成。
而
DocuSky
的设计理
念
,
使得人文研究者能够靠一己之力
,
不
专业人
士,就能在
DocuSky
中建置一个个性化的数据库
。
并且
这个数据库
,
不但具备基础的检索功能,还能够依照文
LANTAI
WORLD
兰台
世
界
!
61
本的特性进行元数据
(metadata
)
的后分类分析
、
标记信
数据集成中心
,
实现我国文化遗产数据的共享
。
同时
,
息统计
,以及地理空间信息的呈现
。
3
.
便利的文本数据格式转换与整并
。
每个人文学
积极引导高校
、
社会团体参与进来
,
形成合力
,
共同促
进网络资源开发利用
。
2
.
定期开展专业培训
,
建设专业人才队伍
=
3
?
。Do
者都有属于自己的数据整理方式
,
有的学者偏好使用
文本文件
,
有的学者偏好使用表格
,
有的学者甚至会
cusky
平台之所以能够成功搭建,主要在于吸引了各个
相关
业领域的人才
,
来自世界各地的学者在共同目
从不同的网络资源中下载文本数据
。
这些来源不一
、
格式相异的文本数据
,
利用
DocuSky
平台可方便地进
行处理
。
4
.
词频分析与可视化呈现。
词汇是文本当中最基本
标的基础上共同努力
。
Docusky
项目组定期还会开展相
应的交流讨论
、
研讨等活动
,
的不断推进
,
在
更广领域
、
更大范围地推广该平台
,
项目组也来大陆高
的组成元素之一
,
透过对词汇的词频分析
,
将有助于研
进行宣讲,根据公开报道
,
赴北京师范大学
、
南
究者更了解文本作者的写作意向
。
透过与
DocuSky
介
京大学
进行宣传介绍
,
都收到了很好的效果
,也
接的数字人文分析工具
,
以及由斯坦福大学
的
Palladio
可视化平台
,
研究者将取得更多元的方式
,将
文本与研究成果进行可视化呈现。
5.
GIS
使得研究多元而丰富
。
地理信息系统
(GIS
)
吸引了越来越多的学者
。
档案工具
性
有一定的
业性
,
档案管理
统具有一定的
专业性
,
与此同时
,
档案从业人员流动性较强,
长期从
档案工作的人
,
因此
,
定期的
业培训
业的
的运用
,
已经是当代人文研究者不可或缺的一项重要
工具
。
但是传统
GIS
工具处理不易
,甚至需要透过
GIS
人才队伍构建是必需的
。
3.
以用
中心
,
便利化的利用工具平
专家方能为个人的研究绘制图层
,
并在地图上予以呈
现
。
由台湾大学资讯网络与多媒
所建置的
GeoProt
和
DocuGIS
系两项与
DocuSky
介接
台。Docusky
平台的建设的主要目的是为用户提供更加
便捷的个性化服务
。
Docusky
平台非常注重用户服务
,
它给人文学者提供一系列的工具
,
使得人文学者不用
的地理信息系统工具
。
透过这两项工具
,
人文
者能
陷入复杂又冗长的程序编写和调试过程
,
可以更好地
利用已有的工具快捷便利地进行研究
。
因此
,
随着进入
地
个人
,
具有地理
标的数据
,
地
呈现
、
,
甚至是不同
的
,
,
大数据
、
智慧数据时代
,
档案工作更多的是与现代化的
大大
人文
者使用
GIS
的
,
使个人的
研究能够更为多元而丰富
。
统打道
,
下
,
档
统的功与人
众
对档案工作的期待还是有很大差距的
,
Docusky
平台为
四
、
Docusky
数位人文学术研究平台的启示
档
统平台的设
很好的
。
1.
间的交流合作
。
项目开源
、
开放协作
,
形
4
.
积极利用和融入社交媒体
,
增强公众参与度=
4
?
,
完
成前进合力
。
Docusky
是一个开放性的平台,
Docusky
项目平台的建立采用
方协作的模式
,
目前
Docusky
善相关的配套政策
。
网络资源存档工
并
没有引起足够的重视。
虽然国内有一些机构有所开展
,
但规模都小
、
发展慢
、
影响不大
。
相比较欧美在网络资
与美国
、
德国
、
荷兰等国家的高校进行合作
,
还
引更多的开发利用者参与到项目中来
,
最终形成更加
源存档方面的发展,我国差距明显
。
借鉴欧美国家的经
完善的
平台
。
利用者可以
请账号参与
验
,
档部门可以利用社交媒体工具进行推介
。
整合
档资源
工具*
、
docusky
项
目
(
)
中去
。
,
网络资源存档作为研究工具普及程度低
,
但
),
动
、
视频
公
与
,
的
理
、
前景良好叫我国的网络资源研究开发平台主要由各地
参与并支持这项工作
。
形成良性
、
可持续的社会互动
,
博物馆
、
图书馆
、
档案馆分别建设
,
相互之间缺乏有效
进一步推动网络资源采集和保存工作
。
同时
,
从国家和地区层面
,
针对新形势下网络资源
的沟通交流,不利于我国形成合力
,
并长久健康发展
。
因此
,
我国的网络资源研究开发平台建设应由政府部
存档的具
,
进行统一的
,
产
门主导
,
在加大网络资源收集的同时
,
打破各网络资源
开发、
利用
、
保管部门间的数据壁垒,
通过建立相关的
方的度
=
5
?
,不断
的政
度
,
下
真实
、
长久的数字网络记忆
。
(
参考文献下转第
68
页
)
62
!
兰台
世
界
LANTAI
WORLD
为数据基础
,
使用
CiteSpace
可视化软件绘制了关键词
合作
,
来的
关研究
,
学
共现知识图谱
、
关键词聚类知识图谱
、
突现词
、
作者合作
知识图谱以及机构合作知识图谱
,
综合利用布拉福德定
科
间学者的沟通与交流
。
(
4
)
从机构分布来看,利用普赖斯定律确定了我国
律
、
普赖斯定律等文献计量学基础理论
,
对
1325
篇文献
进行了定量与定性的科学分析
。主要研究结论如下
。
(1
)从发文时间来看
,
我国国内数字图书馆研究大
数字
案馆研究
机构
,
国
大学
大学
学
大学
大学
大
学等研究机构
我国数字
案馆研究的主要机构
从
致经历了起步阶段
、
快速发展阶段
、
成熟阶段,我国数
字图书馆的关研究
的不断发
,
取得
机构
间的合作关
来看
,
我国数字
案馆研究机构
间的合作关
待进一步强化合作
。
(
5
)
从研究
来看
,
当前我国数字档案馆的相关
,
机构
间
合作
,
新的研究成果
。
(
2
)从期刊来源来看
,
利用布拉福德定律探究了我
国数字档案馆研究的
期刊
,结果发现,
《
兰台世界
》
研究主要
数字
案馆的
、
数字
案馆的发
模式
、
数字档案馆的体系构建
、
知识共享等热点话题上
。
《
中国档案
》
《
浙江档案
》
《
档案学研究
》
等关期刊是我
国数字档案馆研究文献的核心发文期刊
。
(
3
)
从作者分布来看
,
利用普赖斯定律确定了潘连
(
6
)
从研究前沿来看,未来我国数字档案馆的相关
研究前沿将会主要
计算
、数字档案资源
、
生态
等我国数字案馆研究
的主要学者;从作者之间的合作关系来看
,
作者之间的
、
大数据
、
案馆
、
数字
案
、
案等
关
话题上
。
参考文献
[1]
赵跃
.
我国数字档案馆研究热点与前沿知识图谱
[J].
档案与
,
2014(6
)
:
8-13.
[2]
韩冬.加强领导统筹规划狠抓落实
—
—
国家档案局数字档案馆(室)建设领导小组近
d
成立
#N%,
中国档案报
,
2014-02-14(1
)
.
#3%
陈
,
.CiteSpace
知识图谱
论
[J].
科学学研究
,
2015(2
)
:
242-253.
[4]
小
,
谭晓
,
汪秀琼.
研究
知识
与
—
基于
1998
—
2015
年
CSSC
I
经济管理类期刊数据库的文
—
献计量分析
[J]
.
管理评论
,
2018(12
)
:
257-275.
[5]
王国
,
国
.
近
国外
研究知识图谱
[J].
报科学
,
2019(8
)
:
152-157+162.
[6]
牛金芳
.EAD
--------
种新兴的电子档案著录标准
[J].
档案管理
,
1999(
1
)
:
15-16.
[7]
张晓霞
,
王宇晖
,
王萍
.
数字档案馆
:
21
世纪档案馆的新发展
[J].
兰台世界
,
2000(1
)
:
19-20.
[8]
.
数字档案馆
题
[J].
档案管理
,
2003(4
)
:
6-10.
[9]
.
实档案馆信息
数字档案馆
实践探究
—
—
对温哥华市档案馆数字保存项目的实地调研
[J].
档案学研
究
,
2018
(
5
)
129-134.
[10]
周建
,
刘炎宝
,
刘佳佳.情感分析研究的知识结构及热点
{
沿探析
[J].
情报学报
,
2020(1
)
:
111-124.
[11]
,
.
:
数字档案馆
[J].
档案学
,
2015(4
)
:
50-55.
[12]
陈
,
.
SOA
数字档案资源合模式研究
[J].
档案学研究
,
2016(3
)
:
87-89.
[13]
郭伟
,
&
.
字塔模型数字档案馆顶层
[J].
档案学
,
2015(5
)
:
62-67.
[14]
薛四
,
晓
.
论数字档案馆共与共享
[J].
档案学研究
,
2010(2
)
:
64-67.
参考文献(上接第
62
页)
[1]
数位人文学术研究平台
[EB/OL].[2020-06-19]
/DocuSky/
.
[2]
赵珞琳人文社会科学领域网络资源存档利用现状综述
[J].
信息资源管理学报
,
2019(3
)
:33-40.
[3]
王文玲
,
曲云鹏
.
网络资源存档数据质量问题初探
[J].
数字图书馆论坛
,
2018(4
)
:8-13.
[4]
闫晓创
.
d
本网络资源存档项目实践研究
[J].
浙江档案
,
2017(12
)
:20-23.
[5]
闫晓创
.
国外网络资源存档服务实践—
—
以
Archive-it
为例
[J]
.
中国档案
,
2016(11
)
:72-73.
68
!
兰"
世
界
LANTAI
WORLD
版权声明:本文标题:台湾Docusky数位人文学术研究平台特色及启示 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1713611447a643279.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论