admin 管理员组

文章数量: 1184232


2024年3月13日发(作者:string转inputstream)

计算机与网络

网事

4

■傅一平

聚焦爬虫技术

聚焦网络爬虫也就是主题网络爬虫

,它增加

了链接评价

和内容评价模块

,其

爬行策略实现要点就是评价页面内容以

及链接的重要性。

主要是以

Web页面作为半结基于链接评价的爬行策略

构化文档,其中拥有很多结构信息可用于评价链接重要性。

有一个是利用Web结构来评价链接价值的方法,也就是

HITS法,通过计算每个访问页面的Authority权重和Hub权

重来决定链接访问顺序

而基于内容评价的爬行策略

,主要

是将与文本相似的计

算法加以应用。Fish-Search算法就是把用户输入查询词当作

通过

Shark-Search算法就能利主题,在算法的进一步改进后

用空间向量模型计算页面和主题相关度大小

而面向主题爬虫与面向需求爬虫会针对某种特定的内容

去爬取信息,而且会保证信息和需求尽可能相关。

通用爬虫技术

通用爬虫技术也就是全网爬虫,其实现过程如下

第一,获取初始URL。初始URL地址可以由用户人为指

也可以由用户指定的某个或某几个初始爬取网页决定

第二,根据初始的URL爬取页面并获得新的URL。获得

初始的URL地址之后,需要先爬取对应URL地址中的网页

并且在爬取网页的同时,发

接着将网页存储到原始数据库中,

现新的URL地址,并将已爬取的URL地址存放到一个URL

列表中,用于去重及判断爬取的进程。

第三,将新的URL放到URL队列中,再于第二步内获取

下一个新的URL地址之后,再将新的URL地址放到URL队

列中。

URL队列中读取新的URL,第四

并依据新的URL爬

取网页,同时从新的网页中获取新的URL并重复上述的爬取

过程。

停止爬取。在编

第五,满足爬虫系统设置的停止条件时

如果没有设置停

写爬虫的时候,一般会设置相应的停止条件

一直到无法获取新的

URL止条件,爬虫便会一直爬取下去

地址为止,若设置了停止条件,爬虫则会在停止条件满足时停

止爬取

通用爬虫技术应用有着不同的爬取策略

,其中的广度

先策略以及深度优先策略都比较关键

,深度优先策略

的实施

是依照深度从低到高的顺序来访问下一级网页链接。

增量爬虫技术

某些网站会定时在原有网页数据的基础上更新一批数

据。

例如

某电影网站会实时更新一批最近热门的电影,小说网

站会根据作者创作的进度实时更新最新的章节数据等

。在遇

到类似的场景时,便可以采用增量式爬虫。

增量爬虫技术就是通过爬虫程序监测某网站数据更新的

情况,以便可以爬取到该网站更新后的新数据

关于如何进行增量式的爬取工作,以

下给出

3种检测重

复数据的思路

在发送请求之前判断这个URL是否曾爬取过;

在解析内容后判断这部分内容是否曾爬取过;

写入存储介质时判断内容是否已存在于介质中。

第一种思路适合不断有新页面出现的网站,比如小说的

新章节、每天的实时新闻等。

第二种思路则适合页面内容会定时更新的网站。

第三种思路则相当于最后一道防线

,这样做可以最大限

度地达到去重的目的。

不难发现,实现增量爬取的核心是去重,目前存在2种去

重方法

存储在

Redis第一,对爬取过程中产生的URL进行存储

的set中。当下次进行数据爬取时,首先在存储URL的set中

对即将发起的请求所对应的URL进行判断,

如果存在

则不进

行请求,否则进行请求

第二,对爬取到的网页内容进行唯一标识的制定(数据指

纹),然后将该唯一标识存储至Redis的set中。当下次爬取到

网页数据的时候,在进行持久化存储之前,可以先判断该数据

的唯一标识在Redis的set中是否存在,从而决定是否进行持

久化存储

深层网络爬虫技术

在互联网中,网页按存在方式可以分为表层网页和深层

网页两类

所谓的表层网页,是指不需要提交表单,使用静态链接

就能够到达的静态页面。而深层网页则隐藏在表单后面

能通过静态链接直接获取,是需要提交一定的关键词后才能

37

网事

计算机与网络

严代彪朴银

中国人民解放军92228部队

以智能化运维管理为目标,

本文针对数据中心的特点

出了数据中心智能运维管理方案,设计了运维门户及展示管

运维监控监测告警

管理、运维资产配置管理、运维服务管理、

为数据

中心理、运维自动化管理及开放接口管理等主要内容

智能运维管理系统建设提供指导。

云计算、大数据、物联网及人工智能等新一代信息技术蓬

勃发展,数据中心的规划、设计、建设和运维呈现出绿色节能

向资本效率转型、智能化和智能运维管理等特点

。随着信息化

进程的日渐深化,智能化运维在数据中心的作用已经不仅限

数据中心业务对智能

于基础设施的建设、应用及工具的维护

化运维的依赖程度越来越大,这决定了智能化运维已经成为

数据中心价值链中不可或缺的重要一环。本文针对数据中心

提出了数据中

的发展趋势和特点,以智能化运维管理为目标,

运维

心智能运维管理方案,设计了智能运维门户及展示管理、

运维

资产配置管理、运维服务管理、运维监控监测告警管理、

自动化管理及开放接口管理等主要内容,为数据中心智能运

维管理系统建设提供指导

数据中心面临的挑战

管理角度

空间资源

和动环资源如首先就是经济性,包括网络资源

何有效地利用,以及缩减能源和维护人员的运行费用

其次是

灵活性方面,包括如何识别和降低过度部署和冗余

灵活扩展

空间、制冷和供电容量,及更快地响应业务;第三就是可用性

方面,如何实现精细化管理、及时排除隐患

处理复杂故障以

第四

就是管理性方面

及实现动态资源管理

如何进行有效地

数据分析支撑决策和规划、实现系统一体化、系统统一协作和

足大客户服务等级协议快速响应、(SLA)和自服务管理等

技术角度

首先面临的挑战就是运维海量数据的存储

、分析

和处理

问题。运维人员必须随时掌握服务器的运行状况,除了常规的

业务在运行时

会产生大服务器配置、资源占用情况等信息外

量的日志、异常、告警和状态报告等事件

。通常每

台服务器每

个时刻都会产生大量这样的事件,在有数万台服务器的场合

天产生的事件数量是数亿万计,

存储量在

TB级别的。下,数

如何统一、自

动化处理这些据中心的服务器规模往往比较大

事件的需求很强烈,毕竟登录查看日志这种方式效率很低

当前的监控软件只能收集和处理众多事件中的一部分,当服

二次开发能力

非常有限

务器数量多了以后,其扩展能力

其次面临的挑战是多维度、多数据源的复杂性问题

。多维

度数据不仅包括常用的时间、地点(哪个服务器或组件)、内容

机房、服务池、业务线、

(错误码或状态值),还应当包括地区

组合各

服务和接口等,而数据分析人员则需要使用各种维度、

种指标来生成报告、告警规章及Dashboard等。如何从异构的

服务延迟

数据源获取数据,还要考虑当其中某个数据源失效、

时,能否不影响整个系统的稳定性。

多数据源还有一个关键问

题就是如何做到数据和展现分离

,如果展现和数据的契合度

太高,那么随便一点变更就会导致前端界面展现部分的更改,

带来的工作量会非常大

第三个技术挑战就是复杂业务模型下的故障定位

。业务

模型(或系统部署结构)复杂带来的最直接影响就是定位故

需要多

部门合作,

开发、

障很困难,发现根源问题成本较高,

运维人员相互配合分析(现在的大规模系统很难找到一个能

掌控全局的人),即使这样有时得出的结论也不见得各方都

认可

在复杂、异构和各种技术混杂的业务系统中,如果想发

现问题并定位故障,在各个系统中就必须有一个可追踪、有

“一统

天下

共性的东西。

而,在现实中若想用某个体系来基

本不可能

,因为

各种非技术因素可能会让这种努力一直停留

在规划阶段,尤其是大公司,部门之间的鸿沟是技术人员无

法跨越的。

“集中化运维、一体

因此,面对以上挑战,数据中心应建设

的智能运维管理系统,才

能化管理、智能化分析、流程化控制

化实现智能化运维的管理目标,减少运维人员和维护成本

深层网络爬虫

最重要的部分即为表单填写够获取到的页面,

部分。

在互联网中深层网页的数量往往要比表层网页的数量多

很多,故而,我们需要想办法爬取深层网页

深层网络爬虫的基本构成包括

URL列表

LVS列表

(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控

制器

解析器

LVS控制器

表单分析器、表单处理器以及响应

分析器。

深层网络爬虫的表单填写有2种类型:

基于领域知识的表单填写(建立一个填写表单的关键词

库,在需要时根据语义分析选择对应的关键词进行填写);

基于网页结构分析的表单填写,一般在领域知识有限的

并自动进

行情况下使用,这种方式会根据网页结构进行分析

表单填写。

38


本文标签: 运维 爬虫 管理 网页