首页技术日记正文内容

详解4种类型的爬虫技术

技术日记

更新时间：2026-05-08 21:08:17 93

admin 管理员组

文章数量: 1184232

2024年3月13日发(作者：string转inputstream)

计算机与网络

网事

■傅一平

聚焦爬虫技术

聚焦网络爬虫也就是主题网络爬虫

，它增加

了链接评价

和内容评价模块

，其

爬行策略实现要点就是评价页面内容以

及链接的重要性。

主要是以

Web页面作为半结基于链接评价的爬行策略

，

还

构化文档，其中拥有很多结构信息可用于评价链接重要性。

有一个是利用Web结构来评价链接价值的方法，也就是

HITS法，通过计算每个访问页面的Authority权重和Hub权

重来决定链接访问顺序

。

而基于内容评价的爬行策略

，主要

是将与文本相似的计

算法加以应用。Fish-Search算法就是把用户输入查询词当作

通过

Shark-Search算法就能利主题，在算法的进一步改进后

，

用空间向量模型计算页面和主题相关度大小

。

而面向主题爬虫与面向需求爬虫会针对某种特定的内容

去爬取信息，而且会保证信息和需求尽可能相关。

通用爬虫技术

通用爬虫技术也就是全网爬虫，其实现过程如下

。

第一，获取初始URL。初始URL地址可以由用户人为指

定

，

也可以由用户指定的某个或某几个初始爬取网页决定

。

第二，根据初始的URL爬取页面并获得新的URL。获得

初始的URL地址之后，需要先爬取对应URL地址中的网页

，

并且在爬取网页的同时，发

接着将网页存储到原始数据库中，

现新的URL地址，并将已爬取的URL地址存放到一个URL

列表中，用于去重及判断爬取的进程。

第三，将新的URL放到URL队列中，再于第二步内获取

下一个新的URL地址之后，再将新的URL地址放到URL队

列中。

从

URL队列中读取新的URL，第四

，

并依据新的URL爬

取网页，同时从新的网页中获取新的URL并重复上述的爬取

过程。

停止爬取。在编

第五，满足爬虫系统设置的停止条件时

，

如果没有设置停

写爬虫的时候，一般会设置相应的停止条件

。

一直到无法获取新的

URL止条件，爬虫便会一直爬取下去

，

地址为止，若设置了停止条件，爬虫则会在停止条件满足时停

止爬取

。

通用爬虫技术应用有着不同的爬取策略

，其中的广度

优

先策略以及深度优先策略都比较关键

，深度优先策略

的实施

是依照深度从低到高的顺序来访问下一级网页链接。

增量爬虫技术

某些网站会定时在原有网页数据的基础上更新一批数

据。

例如

某电影网站会实时更新一批最近热门的电影，小说网

站会根据作者创作的进度实时更新最新的章节数据等

。在遇

到类似的场景时，便可以采用增量式爬虫。

增量爬虫技术就是通过爬虫程序监测某网站数据更新的

情况，以便可以爬取到该网站更新后的新数据

。

关于如何进行增量式的爬取工作，以

下给出

3种检测重

复数据的思路

。

在发送请求之前判断这个URL是否曾爬取过；

在解析内容后判断这部分内容是否曾爬取过；

写入存储介质时判断内容是否已存在于介质中。

第一种思路适合不断有新页面出现的网站，比如小说的

新章节、每天的实时新闻等。

第二种思路则适合页面内容会定时更新的网站。

第三种思路则相当于最后一道防线

，这样做可以最大限

度地达到去重的目的。

不难发现，实现增量爬取的核心是去重，目前存在2种去

重方法

。

存储在

Redis第一，对爬取过程中产生的URL进行存储

，

的set中。当下次进行数据爬取时，首先在存储URL的set中

对即将发起的请求所对应的URL进行判断，

如果存在

则不进

行请求，否则进行请求

。

第二，对爬取到的网页内容进行唯一标识的制定（数据指

纹），然后将该唯一标识存储至Redis的set中。当下次爬取到

网页数据的时候，在进行持久化存储之前，可以先判断该数据

的唯一标识在Redis的set中是否存在，从而决定是否进行持

久化存储

。

深层网络爬虫技术

在互联网中，网页按存在方式可以分为表层网页和深层

网页两类

。

所谓的表层网页，是指不需要提交表单，使用静态链接

不

就能够到达的静态页面。而深层网页则隐藏在表单后面

，

能通过静态链接直接获取，是需要提交一定的关键词后才能

网事

计算机与网络

严代彪朴银

玥

中国人民解放军92228部队

以智能化运维管理为目标，

本文针对数据中心的特点

，

提

出了数据中心智能运维管理方案，设计了运维门户及展示管

运维监控监测告警

管理、运维资产配置管理、运维服务管理、

为数据

中心理、运维自动化管理及开放接口管理等主要内容

，

智能运维管理系统建设提供指导。

云计算、大数据、物联网及人工智能等新一代信息技术蓬

勃发展，数据中心的规划、设计、建设和运维呈现出绿色节能

、

向资本效率转型、智能化和智能运维管理等特点

。随着信息化

进程的日渐深化，智能化运维在数据中心的作用已经不仅限

数据中心业务对智能

于基础设施的建设、应用及工具的维护

，

化运维的依赖程度越来越大，这决定了智能化运维已经成为

数据中心价值链中不可或缺的重要一环。本文针对数据中心

提出了数据中

的发展趋势和特点，以智能化运维管理为目标，

运维

心智能运维管理方案，设计了智能运维门户及展示管理、

运维

资产配置管理、运维服务管理、运维监控监测告警管理、

自动化管理及开放接口管理等主要内容，为数据中心智能运

维管理系统建设提供指导

。

数据中心面临的挑战

管理角度

空间资源

和动环资源如首先就是经济性，包括网络资源

、

何有效地利用，以及缩减能源和维护人员的运行费用

；

其次是

灵活性方面，包括如何识别和降低过度部署和冗余

、

灵活扩展

空间、制冷和供电容量，及更快地响应业务；第三就是可用性

方面，如何实现精细化管理、及时排除隐患

、

处理复杂故障以

第四

就是管理性方面

，

及实现动态资源管理

；

如何进行有效地

数据分析支撑决策和规划、实现系统一体化、系统统一协作和

满

足大客户服务等级协议快速响应、（SLA）和自服务管理等

。

技术角度

首先面临的挑战就是运维海量数据的存储

、分析

和处理

问题。运维人员必须随时掌握服务器的运行状况，除了常规的

业务在运行时

会产生大服务器配置、资源占用情况等信息外

，

量的日志、异常、告警和状态报告等事件

。通常每

台服务器每

个时刻都会产生大量这样的事件，在有数万台服务器的场合

每

天产生的事件数量是数亿万计，

存储量在

TB级别的。下，数

如何统一、自

动化处理这些据中心的服务器规模往往比较大

，

事件的需求很强烈，毕竟登录查看日志这种方式效率很低

，

而

当前的监控软件只能收集和处理众多事件中的一部分，当服

二次开发能力

非常有限

。

务器数量多了以后，其扩展能力

、

其次面临的挑战是多维度、多数据源的复杂性问题

。多维

度数据不仅包括常用的时间、地点（哪个服务器或组件）、内容

机房、服务池、业务线、

（错误码或状态值），还应当包括地区

、

组合各

服务和接口等，而数据分析人员则需要使用各种维度、

种指标来生成报告、告警规章及Dashboard等。如何从异构的

服务延迟

数据源获取数据，还要考虑当其中某个数据源失效、

时，能否不影响整个系统的稳定性。

多数据源还有一个关键问

题就是如何做到数据和展现分离

，如果展现和数据的契合度

太高，那么随便一点变更就会导致前端界面展现部分的更改，

带来的工作量会非常大

。

第三个技术挑战就是复杂业务模型下的故障定位

。业务

模型（或系统部署结构）复杂带来的最直接影响就是定位故

需要多

部门合作，

开发、

障很困难，发现根源问题成本较高，

运维人员相互配合分析（现在的大规模系统很难找到一个能

掌控全局的人），即使这样有时得出的结论也不见得各方都

认可

。

在复杂、异构和各种技术混杂的业务系统中，如果想发

现问题并定位故障，在各个系统中就必须有一个可追踪、有

“一统

天下

”

共性的东西。

然

而，在现实中若想用某个体系来基

本不可能

，因为

各种非技术因素可能会让这种努力一直停留

在规划阶段，尤其是大公司，部门之间的鸿沟是技术人员无

法跨越的。

“集中化运维、一体

因此，面对以上挑战，数据中心应建设

的智能运维管理系统，才

能化管理、智能化分析、流程化控制

”

优

化实现智能化运维的管理目标，减少运维人员和维护成本

，

深层网络爬虫

最重要的部分即为表单填写够获取到的页面，

部分。

在互联网中深层网页的数量往往要比表层网页的数量多

很多，故而，我们需要想办法爬取深层网页

。

深层网络爬虫的基本构成包括

：

URL列表

、

LVS列表

（LVS指的是标签/数值集合，即填充表单的数据源）、爬行控

制器

、

解析器

、

LVS控制器

、

表单分析器、表单处理器以及响应

分析器。

深层网络爬虫的表单填写有2种类型：

基于领域知识的表单填写（建立一个填写表单的关键词

库，在需要时根据语义分析选择对应的关键词进行填写）；

基于网页结构分析的表单填写，一般在领域知识有限的

并自动进

行情况下使用，这种方式会根据网页结构进行分析

，

表单填写。

本文标签：运维爬虫管理网页

版权声明：本文标题：详解4种类型的爬虫技术内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/p/1710331688a568086.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

详解4种类型的爬虫技术

更多相关文章

如何将h5网页改成微信网页

影刀RPA-魔法指令-获取网页显示的日历信息，并保存到Excel表格中

网页上跳转直接添加QQ好友、加入QQ群

动态爬虫之手机版QQ空间登录

手机APP爬虫配置指南（以Windows系统为例）

Google浏览器打开时自动弹出2345网页

在微信的浏览器中显示网页不正常,vuejs不能显示

【python爬虫实战】—— Selenium 接管已经打开的浏览器（附案例代码）

如何通过192.168.1.1进入路由器管理界面并完成常用设置

高级电源管理：优化电脑续航与性能的终极指南

当浏览器沉默无法打开网页背后的技术谜团与情感波动

初学者秘籍：新电脑不依赖任何软件完成分区

告别关机烦恼：快速解决笔记本死机问题的秘诀

彻底解决笔记本关机拖延症，畅享高效生活

快速掌握：一步步教你将PDF格式漫画轻松转换为CBZCBR，解锁更多阅读方式！

电脑关机故障？只需几个简单步骤，马上重启无忧！

鼠标中键失灵了？跟着指南立刻动手修复，提高工作效率。

摆脱繁琐！用电脑轻松实现3GFAXorMYFAX无纸化传输

打印时卡壳？快速解决“本地打印后处理程序服务没有启动”问题指南。

高效文献管理：WPS插件与Zotero集成的全流程解决方案

发表评论

推荐文章

遇到无法打开的Flash？解决MFC71CHT.DLL的秘籍，轻松启动软件！

迅雷7引发的“IEXPLORE.EXE 遇到问题需要关闭”

配置U-Boot进行USB启动

推荐几款实用的Google浏览器插件（各种翻译）——AI时代 实现 无障碍阅读各种英文网站_谷歌浏览器翻译插件

导出excel，文件打不开_blob导出excel无法打开文件

热门文章

电脑慢，CPU内存却闲着？真相等你来解谜

Windows应用数据揭秘：在Windows 8开发中构建个性化应用程序

Unity内置资源如何打包避免冗余_createbuiltinresourcesbundle

Word 2003打不开Word 2000编辑的文件问题_word2003怎能打开007

DOTA2丢失steam_api.dll怎么办？刀塔2缺少steam_api.dll万能解决方案解析_unable to start program due to missing grow-voice-

USB设备无法识别问题的解决方法

电脑开机，总需要按F1，是什么原因造成的？_开机每次要按f1是怎么回事

tp-link设置为中继模式_tp路由器有线中继

深度学习实战火焰与烟雾检测_烟雾火焰检测

Qt 程序主窗口句柄_qt attachthreadinput

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

推荐几款实用的Google浏览器插件（各种翻译）——AI时代实现无障碍阅读各种英文网站_谷歌浏览器翻译插件