admin 管理员组文章数量: 1184232
2024年3月13日发(作者:string转inputstream)
计算机与网络
网事
4
■傅一平
聚焦爬虫技术
聚焦网络爬虫也就是主题网络爬虫
,它增加
了链接评价
和内容评价模块
,其
爬行策略实现要点就是评价页面内容以
及链接的重要性。
主要是以
Web页面作为半结基于链接评价的爬行策略
,
还
构化文档,其中拥有很多结构信息可用于评价链接重要性。
有一个是利用Web结构来评价链接价值的方法,也就是
HITS法,通过计算每个访问页面的Authority权重和Hub权
重来决定链接访问顺序
。
而基于内容评价的爬行策略
,主要
是将与文本相似的计
算法加以应用。Fish-Search算法就是把用户输入查询词当作
通过
Shark-Search算法就能利主题,在算法的进一步改进后
,
用空间向量模型计算页面和主题相关度大小
。
而面向主题爬虫与面向需求爬虫会针对某种特定的内容
去爬取信息,而且会保证信息和需求尽可能相关。
通用爬虫技术
通用爬虫技术也就是全网爬虫,其实现过程如下
。
第一,获取初始URL。初始URL地址可以由用户人为指
定
,
也可以由用户指定的某个或某几个初始爬取网页决定
。
第二,根据初始的URL爬取页面并获得新的URL。获得
初始的URL地址之后,需要先爬取对应URL地址中的网页
,
并且在爬取网页的同时,发
接着将网页存储到原始数据库中,
现新的URL地址,并将已爬取的URL地址存放到一个URL
列表中,用于去重及判断爬取的进程。
第三,将新的URL放到URL队列中,再于第二步内获取
下一个新的URL地址之后,再将新的URL地址放到URL队
列中。
从
URL队列中读取新的URL,第四
,
并依据新的URL爬
取网页,同时从新的网页中获取新的URL并重复上述的爬取
过程。
停止爬取。在编
第五,满足爬虫系统设置的停止条件时
,
如果没有设置停
写爬虫的时候,一般会设置相应的停止条件
。
一直到无法获取新的
URL止条件,爬虫便会一直爬取下去
,
地址为止,若设置了停止条件,爬虫则会在停止条件满足时停
止爬取
。
通用爬虫技术应用有着不同的爬取策略
,其中的广度
优
先策略以及深度优先策略都比较关键
,深度优先策略
的实施
是依照深度从低到高的顺序来访问下一级网页链接。
增量爬虫技术
某些网站会定时在原有网页数据的基础上更新一批数
据。
例如
某电影网站会实时更新一批最近热门的电影,小说网
站会根据作者创作的进度实时更新最新的章节数据等
。在遇
到类似的场景时,便可以采用增量式爬虫。
增量爬虫技术就是通过爬虫程序监测某网站数据更新的
情况,以便可以爬取到该网站更新后的新数据
。
关于如何进行增量式的爬取工作,以
下给出
3种检测重
复数据的思路
。
在发送请求之前判断这个URL是否曾爬取过;
在解析内容后判断这部分内容是否曾爬取过;
写入存储介质时判断内容是否已存在于介质中。
第一种思路适合不断有新页面出现的网站,比如小说的
新章节、每天的实时新闻等。
第二种思路则适合页面内容会定时更新的网站。
第三种思路则相当于最后一道防线
,这样做可以最大限
度地达到去重的目的。
不难发现,实现增量爬取的核心是去重,目前存在2种去
重方法
。
存储在
Redis第一,对爬取过程中产生的URL进行存储
,
的set中。当下次进行数据爬取时,首先在存储URL的set中
对即将发起的请求所对应的URL进行判断,
如果存在
则不进
行请求,否则进行请求
。
第二,对爬取到的网页内容进行唯一标识的制定(数据指
纹),然后将该唯一标识存储至Redis的set中。当下次爬取到
网页数据的时候,在进行持久化存储之前,可以先判断该数据
的唯一标识在Redis的set中是否存在,从而决定是否进行持
久化存储
。
深层网络爬虫技术
在互联网中,网页按存在方式可以分为表层网页和深层
网页两类
。
所谓的表层网页,是指不需要提交表单,使用静态链接
不
就能够到达的静态页面。而深层网页则隐藏在表单后面
,
能通过静态链接直接获取,是需要提交一定的关键词后才能
37
网事
计算机与网络
严代彪朴银
玥
中国人民解放军92228部队
以智能化运维管理为目标,
本文针对数据中心的特点
,
提
出了数据中心智能运维管理方案,设计了运维门户及展示管
运维监控监测告警
管理、运维资产配置管理、运维服务管理、
为数据
中心理、运维自动化管理及开放接口管理等主要内容
,
智能运维管理系统建设提供指导。
云计算、大数据、物联网及人工智能等新一代信息技术蓬
勃发展,数据中心的规划、设计、建设和运维呈现出绿色节能
、
向资本效率转型、智能化和智能运维管理等特点
。随着信息化
进程的日渐深化,智能化运维在数据中心的作用已经不仅限
数据中心业务对智能
于基础设施的建设、应用及工具的维护
,
化运维的依赖程度越来越大,这决定了智能化运维已经成为
数据中心价值链中不可或缺的重要一环。本文针对数据中心
提出了数据中
的发展趋势和特点,以智能化运维管理为目标,
运维
心智能运维管理方案,设计了智能运维门户及展示管理、
运维
资产配置管理、运维服务管理、运维监控监测告警管理、
自动化管理及开放接口管理等主要内容,为数据中心智能运
维管理系统建设提供指导
。
数据中心面临的挑战
管理角度
空间资源
和动环资源如首先就是经济性,包括网络资源
、
何有效地利用,以及缩减能源和维护人员的运行费用
;
其次是
灵活性方面,包括如何识别和降低过度部署和冗余
、
灵活扩展
空间、制冷和供电容量,及更快地响应业务;第三就是可用性
方面,如何实现精细化管理、及时排除隐患
、
处理复杂故障以
第四
就是管理性方面
,
及实现动态资源管理
;
如何进行有效地
数据分析支撑决策和规划、实现系统一体化、系统统一协作和
满
足大客户服务等级协议快速响应、(SLA)和自服务管理等
。
技术角度
首先面临的挑战就是运维海量数据的存储
、分析
和处理
问题。运维人员必须随时掌握服务器的运行状况,除了常规的
业务在运行时
会产生大服务器配置、资源占用情况等信息外
,
量的日志、异常、告警和状态报告等事件
。通常每
台服务器每
个时刻都会产生大量这样的事件,在有数万台服务器的场合
每
天产生的事件数量是数亿万计,
存储量在
TB级别的。下,数
如何统一、自
动化处理这些据中心的服务器规模往往比较大
,
事件的需求很强烈,毕竟登录查看日志这种方式效率很低
,
而
当前的监控软件只能收集和处理众多事件中的一部分,当服
二次开发能力
非常有限
。
务器数量多了以后,其扩展能力
、
其次面临的挑战是多维度、多数据源的复杂性问题
。多维
度数据不仅包括常用的时间、地点(哪个服务器或组件)、内容
机房、服务池、业务线、
(错误码或状态值),还应当包括地区
、
组合各
服务和接口等,而数据分析人员则需要使用各种维度、
种指标来生成报告、告警规章及Dashboard等。如何从异构的
服务延迟
数据源获取数据,还要考虑当其中某个数据源失效、
时,能否不影响整个系统的稳定性。
多数据源还有一个关键问
题就是如何做到数据和展现分离
,如果展现和数据的契合度
太高,那么随便一点变更就会导致前端界面展现部分的更改,
带来的工作量会非常大
。
第三个技术挑战就是复杂业务模型下的故障定位
。业务
模型(或系统部署结构)复杂带来的最直接影响就是定位故
需要多
部门合作,
开发、
障很困难,发现根源问题成本较高,
运维人员相互配合分析(现在的大规模系统很难找到一个能
掌控全局的人),即使这样有时得出的结论也不见得各方都
认可
。
在复杂、异构和各种技术混杂的业务系统中,如果想发
现问题并定位故障,在各个系统中就必须有一个可追踪、有
“一统
天下
”
共性的东西。
然
而,在现实中若想用某个体系来基
本不可能
,因为
各种非技术因素可能会让这种努力一直停留
在规划阶段,尤其是大公司,部门之间的鸿沟是技术人员无
法跨越的。
“集中化运维、一体
因此,面对以上挑战,数据中心应建设
的智能运维管理系统,才
能化管理、智能化分析、流程化控制
”
优
化实现智能化运维的管理目标,减少运维人员和维护成本
,
深层网络爬虫
最重要的部分即为表单填写够获取到的页面,
部分。
在互联网中深层网页的数量往往要比表层网页的数量多
很多,故而,我们需要想办法爬取深层网页
。
深层网络爬虫的基本构成包括
:
URL列表
、
LVS列表
(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控
制器
、
解析器
、
LVS控制器
、
表单分析器、表单处理器以及响应
分析器。
深层网络爬虫的表单填写有2种类型:
基于领域知识的表单填写(建立一个填写表单的关键词
库,在需要时根据语义分析选择对应的关键词进行填写);
基于网页结构分析的表单填写,一般在领域知识有限的
并自动进
行情况下使用,这种方式会根据网页结构进行分析
,
表单填写。
38
版权声明:本文标题:详解4种类型的爬虫技术 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/p/1710331688a568086.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论