首页编程正文内容

基于Hadoop和Paoding的中文词频统计的实现

编程

更新时间：2025-06-08 12:57:28 24

admin 管理员组

文章数量: 1087139

2024年3月10日发(作者：流水线一般用什么电机)

龙源期刊网

基于Hadoop和Paoding的中文词频统计的

实现

作者：关辉

来源：《电脑知识与技术》2017年第22期

摘要：大数据分析技术近年来发展非常迅速，已经成功应用在多个行业和领域，词频统计

是大数据分析中经常要实现的一个功能。目前最为热门的开源大数据框架Hadoop中提供的经

典案例WordCount仅能进行英文词频分析。通过对Ha-doop相关技术的研究，对WordCount

进行了改写，利用中文分词器Paoding对中文语句进行分词，实现了中文词频统计的功能。

关键词：大数据分析；词频统计；Hadoop；MapReduce；Paoding

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）22-0007-03

1背景

近年来伴随着互联网、云计算、移动互联和物联网技术的迅猛发展，带动了电子商务、网

络金融等相关产业的发展，这些新一代信息技术正成为各行各业运营和发展的重要推动力。但

无处不在的移动设备、RFID、无线传感器等每时每刻都在产生数据，数以亿计用户的互联网

服务每分每秒都在产生巨量的交互，要处理的数据量以几何级数的形式增长，而业务需求和竞

争压力对数据处理的实时性、有效性又提出了更高的要求，传统的信息处理手段难以应对。从

2009年开始，“大数据”成为互联网信息技术行业的热门词汇，各种大数据处理技术纷至沓来，

为解决上述问题提供了新的方案。随着大数据时代的来临，大数据分析也应运而生。大数据分

析带给我们最直接的视觉感受就是利用图形或者表格来展示大数据背后所隐藏的内容，既真实

又直观。比如我们在各种媒体上经常看到的“词云”、“新闻热词”等实际上就是利用大数据分析

技术实现的词频统计的一种形式。

当前最为炙手可热的开源大数据框架Hadoop可以帮助我们来实现词频统计的功能。

Hadoop是一个能够对大量数据进行分布式处理的软件框架，它以一种可靠、高效、可伸缩的

方式进行数据处理。WordCount就是Hadoop中的一个经典案例，它可以对以空格划分的英文

进行词频统计，初学Hadoop的人都是从理解WordCount这个案例开始的。相比于英文，中文

的词频统计通常要复杂得多，因为中文涉及很多语义及分词的不同。就像大家经常用的Word

软件中的检查拼写和语法的功能，检查英文往往很准确，而它检查出的中文错误往往根本就没

有错误。不过，现在也出现了很多中文分词的工具组件，Pa-oding（庖丁）就是一款非常好用

高效的开源中文分词组件，填补了国内中文分词方面开源组件的空白。我们可以结合Hadoop

龙源期刊网

和Paoding这两种技术，利用Hadoop来实现分布式的数据处理，利用Paoding进行中文分词，

仿照WordCount案例来实现中文词频统计的功能。

2开源大数据框架Hadoop和中文分词组件Paoding

Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache基金会所开发的一个用

Java语言实现的开源分布式系统基础框架，实现在大量计算机组成的集群中对海量数据进行分

布式计算的功能。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集

群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop DistributedFile

svstem），简称HDFS，HDFS为海量的数据提供了存储。另外还实现了一个并行计算的编程

模型MapReduce，用户只要继承MapReduceBase，提供分别实现Map和Reduce的两个类，并

注册Job即可自动分布式运行。MapReduce为海量的数据提供了计算。

Paoding（庖丁）中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联

网、企业内部网使用的中文搜索引擎分词组件。它采用完全的面向对象设计，具有极高的效率

和扩展性。它采用基于不限制个数的词典文件对文章进行有效切分，能够对词汇进行分类定

义，并能对未知的词汇进行合理解析。

3中文词频统计的实现

3.1Hadoop开发环境配置

首先在用于开发的PC机上安装hadoop 2.7.0，并将hadoop-2.7.0/bin目录下的文

件拷贝到系统路径C：＼Win-dows＼System32下，还需在系统环境变量的path中添加hadoop

的bin目录路径，如图1所示。接着就需要在Java开发平台Eclipse中配置Hadoop开发环境。

在网上下载Hadoop插件，将文件拷贝到Eclipse的pl-

ugins目录下。然后进人Eclipse，依次打开Window→Preferenc-es，选中左边的Hadoop

Map/Reduce标签，在右边的文本框中指定到hadoop-2.7.0目录，点击OK按钮，如图2所示。

至此Ha-doop的开发环境准备完毕。

3.2中文分词组件Paoding的配置

从Paoding官网下载paoding-analysis压缩包，解压后找到四个jar包：lucene-analyzers，

iar、、和，拷贝到项目的WEB-INF/lib

目录。从paoding-analysis压缩包解压后的文件中找到dic文件夹，拷贝到Hadoop的安装目录

E：/pub/hadoop-2.7.0中。然后停止HDFS，再在文件末尾配置Paoding字典的环

境变量：添加export PAODING_DIC_HOME=E：/pub/hadoop-2.7.0/dic，添加完后重启HDFS。

3.3中文词频统计的原理

龙源期刊网

首先利用中文分词组件Paoding对HDFS中的输入数据进行切片，再通过Map方法将键值

映射，最后通过Reduce方法进行归约。为了减少Reduce的压力，有时还会在Map结束后在

每个Hadoop节点进行排序以及合并，如图3所示。

3.4中文词频统计的实现

将需要进行分析的文件拷贝到指定的临时目录temp中，并调用文档转换的方法对文件格

式进行转换，将各种常见类型的文档（如：pdf、doc等）转换为纯文本txt形式的文档。通过

运行MapReduce，对temp目录中需要分析的文件进行映射（M印）和归约（Reduce）。Map

和Reduce的输入、输出都采用键值对的形式进行传递。Map对输入的键值（键：偏移量，

值：一行文本）调用中文分词器Paoding进行切片分词，将每个单词作为键、单词标记（定值

1）作为值进行输出。Map的输出内容（键：单词，值：单词标记1）会作为Reduce的输入内

容进行归约处理，对相同键的列表进行累加，Reduce结束后返回整个MapReduce的输出内

容，即每个单词的计数。这些可以通过改写Hadoop的经典案例WordCount中的Mapper类和

Reducer类来实现。改写后的Mapper类和Reducer类的关键代码如下：

当MapReduce结束后，每个单词以及该单词在文件中出现的次数会以Json的形式传递给

前端，前端会调用d3js大数据可视化引擎对传递的Json数据进行各种形式的展示（如：词

云、柱形图、饼状图等）。例如：对中国古代四大名著之一的《红楼梦》进行词频统计并把结

果以“词云”形式展示出来的效果如图4所示。

4结束语

大数据分析技术近年来得到了飞速发展和快速应用，词频统计功能在大数据分析中经常用

到。利用开源大数据框架Ha-doop实现分布式数据处理，利用中文分词组件Paoding进行中文

分词，成功实现了中文词频统计的功能，并可以调用d3js大数据可视化引擎对统计结果进行图

形化展示。

龙源期刊网

本文标签：进行数据实现分词词频

版权声明：本文标题：基于Hadoop和Paoding的中文词频统计的实现内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1710067353a556167.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于Hadoop和Paoding的中文词频统计的实现

更多相关文章

路由器数据转发原理

禁用PSPhotoshop等一系列Adobe旗下软件联网外传用户数据操作

浩宇摘星卫星影像下载软件- Landsat9 数据下载

ZYNQ进阶之路14--PS端uart串口接收不定长数据

【python】采集每日必看黄色软件数据~

跟着团子学SAP PS：SAP PS与第三方PMS（P6MS Project）数据交互组件

【大模型】ChatGPT 数据分析与处理使用详解

数据透视表右侧字段不见了，怎么办？

R语言导入csv数据后，所有列变成一列怎么办？

SAS系统从入门到放弃？不能放弃，它是数据科学家必备技能

2021-02-06 如何批量下载风云卫星数据

巨量千川M-API开端：账户下的短视频计划数据获取（一）

大数据技术15：大数据常见术语汇总

c语言超大数计算,c语言中怎么办一个特别大的数据的运算

CDO（气象数据处理软件）安装的坑总结

数据分析师必看，盘点最常用的四种数据统计分析方法

30个高质量的数据集网站，你必须要试试！

android点击链接跳转到app,android实现通过浏览器点击链接打开本地应用（APP）并拿到浏览器传递的数据...

元数据管理系统

Linux网络之数据链路层协议

发表评论

推荐文章

Javascript Not Working on PHP page - Stack Overflow

Passing variables to Javascript using ClearScript - Stack Overflow

javascript - Argument of type &#39;void&#39; is not assignable to parameter of type &#39;Function&#39; - Stack O

What is &quot;JavaScript with Scope&quot; in MongoDB - Stack Overflow

U盘安装Win10系统全攻略：从制作启动盘到系统部署的完整流程

热门文章

Pass a javascript map to json wcf service - Stack Overflow

javascript - How do I list objects for Typeahead.js andor with the Bloodhound engine? - Stack Overflow

javascript - URL Routes with Java Servlets - Stack Overflow

javascript - Can I record the output of an &lt;audio&gt; without use of the microphone? - Stack Overflow

python - Numpy min of a function returns the function it self - Stack Overflow

javascript - Angular: returning a value from onValue() in firebase realtime database - Stack Overflow

javascript - Error : Only absolute URLs are supported in nextjs - Stack Overflow

windows环境安装OceanBase数据库并创建表、插入数据

利用Windows系统服务进行权限提升

【教程】Python Flask快速学习

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

Windows 安装和连接使用 PgSql数据库

cmd打开计算机D盘,Win7利用cmd命令进入d盘文件夹的操作方法

如何在VMare中制作Windows Embedded Standard 7 (WES 7)

开机、注销后自动登录Windows

【教程】Python Flask快速学习

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

javascript - Argument of type 'void' is not assignable to parameter of type 'Function' - Stack O

What is "JavaScript with Scope" in MongoDB - Stack Overflow

javascript - Can I record the output of an <audio> without use of the microphone? - Stack Overflow