admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:约瑟夫问题解法)

网络爬虫可以做什么

大多数状况下,爬虫其实就是在模拟上面的过程。当然爬虫不

会全部模拟一遍,而是会选择合适的步骤模拟。下面是我为您整

理的关于网络爬虫可以做什么,希望对你有所帮助。

网络爬虫可以做什么

爬虫基于用户必须求诞生。比如说有一天我感觉天天打开简书

首页看东西太累了,希望可以有一份邮件告诉我昨天我关注的专

栏更新的收录文章,或者告诉我简书喜爱量最多的文章TOP10。

我肯定不会蛋疼到雇一个人帮我一个一个翻(因为我没钱),但是

我会雇一个网络爬虫帮我解决这个问题(因为他只问我要电费和

带宽费)。

那爬虫是怎么工作的呢?想象你雇了一个富土康流水线的员工

帮你去互联网找东西,爬虫也就是这样工作。

1.向网站发起一个请求(request),比如说你打开一个视频页面

准备看;

2.中间经过好多了复杂的步骤,比如说验证你的身份

3.网站响应(response)了你请求的内容

第 1 页 共 4 页

4.爬虫解析响应内容种是否存在其他目标链接,如有重复第一

5.爬取的数据用于进一步的数据挖掘

〔python〕网络爬虫可以干什么

从网站某一个页面(通常是首页)开始,读取网页的内容,找到

在网页中的其它链接地址,然后通过这些链接地址寻找下一个网

页,这样一直循环下去,直到把这个网站所有的网页都抓取完为

止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这

个原理把互联网上所有的网页都抓取下来。

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,

更常常的称为网页追逐者),是一种按照一定的规则,自动的抓取

万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,

自动索引,模拟程序或者蠕虫。

用什么语言写爬虫?

C,C++。高效率,快速,合适通用搜索引擎做全网爬取。缺点,

开发慢,写起来又臭又长,例如:天网搜索源代码。

脚本语言:Perl, Python, Java, Ruby。简单,易学,优良的

文本处理能方便网页内容的细致提取,但效率往往不高,合适对

少量网站的聚焦爬取

第 2 页 共 4 页

C#?(貌似信息〔管理〕的人比较喜爱的语言)

为什么最终选择Python?

跨平台,对Linux和windows都有不错的支持。

科学计算,数值拟合:Numpy,Scipy

可视化:2d:Matplotlib(做图很美丽), 3d: Mayavi2

复杂网络:Networkx

统计:与R语言接口:Rpy

交互式终端

网站的快速开发?

怎么学习爬虫呢?

学习爬虫永远绕不开HTTP协议。如果你仔细思索一下写的代码,

你就会问一个问题,为啥要用Requests(Requests is the only

Non-GMO HTTP library for Python, safe for human

consumption.)。当你问这个问题的时候,请你去看一下百度词条

上 。当你对 协议有一个大致的了解,那么你就能理解为

啥会用到那些工具库了。

此外,基于必须求和兴趣的学习是效率最高的方法,比如说做

一个邮件推送功能,做一个图片自动下载器等。关于我而言,学

习爬虫有以下几个要求:

能够爬取多个网页,并且不断优化数据提取方法

第 3 页 共 4 页

能够模拟登陆新浪微博、知乎、豆瓣、简书、微信等

能够爬取通过js生成的网页内容

使用ip pool和user agent pool防止被ban

学会分布式爬取

我使用python学习爬虫,因为我只学过一点的C(大学老师竟

然没教C最核心的指针思想),不会〔java〕和C++,主要在Python

实战:一周学会爬取网页学的还不错。

现在使用python的scrapy框架,因为我想通过读源代码进行

深入学习。

第 4 页 共 4 页


本文标签: 爬虫 网页 爬取 网站