基于Python的网络爬虫技术的研究-Linux大棚

admin 管理员组

文章数量: 1086019

2024年1月11日发(作者：抽象类可以有私有方法吗)

ELECTRONICS WORLD・探索与观察基于Python的网络爬虫技术的研究桂林电子科技大学李彦本文介绍了Python技术的网络爬虫系统的特点和工作原理，对网络爬虫的应用逻辑做了详细的介绍，同时，通过对爬虫技术、数据分析在旅游行业的应用的研究，亦为爬虫技术、数据分析在其他行业如商务、医学、教育、科学与工程等各个方面的应用提供有价值的应用参考。网络爬虫（Crawler）作为一种古老的网络技术，它伴随着大数据与人工智能时代的来临而受到越来越多人的重视与青睐。具有足够丰富的功能的Python在网络爬虫技术中脱颖而出。在日常的工作中，给予了强大的数据信息支持技，解决了企业信息采集、市场数据分析、信息自动匹配等问题。通俗的讲爬虫就是把你手动打开窗口、输入数据等等操作用程序代替。用程序替你获取你想要的信息。爬虫的关键是：“匹配”“采集”“自动化”。1 网络爬虫技术的应用场景话说是因为有了web才有了爬虫，目前市面上的爬虫技术应用都是围绕着web网页进行的。现实生活中很多网络信息检索、存储之中都会通过网络爬虫技术来实现网页中数据爬取、分析和采集。比如人们在生活场景中常用到搜索引擎进行信息查阅，包括谷歌、百度、搜狗的等，都运用到了搜索技术；网络购物、互联网电商平台、线上旅游OTA平台等，要用到爬虫技术获取自身想要的网络数据信息从而实现数据分析的需求的场景，该技术得到了广泛的应用。2 Python语言的介绍Python语言是高级语言，由Guido van Russum在阿姆斯特丹于1989年的圣诞节期间首次被设计完成，1991年第一次公开发行文本。它是一种解释性语言，你可以用它来创建网页应用、游戏和搜索引擎。多个领域都会见到Python的身影，如：云计算、web开发、科学运算、人工智能、金融量化交易等。同时，该语言具有独特的语法结构，拥有较强的可读性，具备互交性、结构简单、代码清晰、可移植、源代码已维护、可嵌入以及可拓展等特点，适合完成高层人物，几乎可以再所有操作系统中运行。若要使用Python语言来实现网络爬虫技术，应当充分利用Python语言简洁以及资源丰富的优势。如在研发网络爬虫系统的获取网络数据信息时，无需较为复杂的代码编辑器、调试器等工具，可使用Eclipse通过插件作为Python语言的开发工具。3 Python语言编写网络爬虫系统的优势软件质量高。秉承了简洁、清晰的特点，拥有高度一致的编程模式，简单易学，容易上手。设计风格从始至终不做改变，可保证开发者在统一规则内设计出规范性的代码。如若出现错误代码，Python提供了合理的“退出机制”。开发速度快。Python不需要复杂的IDE，它可以简单到只用一个文本编辑器，对多数中小型应用进行开发。无需编译也无需调试，往往只需要几十行代码就可以开发出需要几百行C代码才能实现的功能。功能强大。为了实现更多的功能，Python内置了许多预编码的库工具。ScraPy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可运用到信息搜索、数据识别、存储历史数据等一系列程序中。同时，Python还有很多强大的框架帮助编程者实现更多功能。例如：TruboGears、Django、Pylons等。易于扩展。可通过C或者C++编写的模块进行拓展，也十分擅长做文本处理和字符串处理。4 基于Python网络爬虫技术的数据爬取研究通过获取网络数据的方式有两种：方式1：发出请求--->匹配网页代码--->解析成页面。方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中。爬虫要做的就是方式2；爬虫主要步骤：（1）分析目标网站，明晰目标网站结构，理清关键数据位置。（2）发起请求：使用http库或浏览器模拟工具向目标站点发起请求，即发送一个Request。（3）获取响应内容。如果得到了一个Response，Response包含：html，json，图片，视频等。说明浏览器能正常响应。（4）解析内容：解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，lxml等。解析json数据：json模块；通过解析html、json或其他数据，获得想要的关键数据信息，或者是下一个待爬取的URL地址。（5）保存数据。虽然网络爬虫可以方便地为人们获取感性区的信息数据，但在进行网络爬虫时，亦应了解网络爬虫引发的问题。网络爬虫的“性能”骚扰：web默认接受人类访问，由于网络爬虫的频繁访问会给服务器带来巨大的额资源开销。网络爬虫的法律风险：服务器上的数据有产权归属，网络爬虫获取数据牟利将带来法律风险。网络爬虫的隐私泄露：网络爬虫可能具备突破简单控制访问的能力，获取被保护的数据从而泄露个人隐私。•

•

ELECTRONICS WORLD・探索与观察5 Python网络爬虫应用关键技术页面请求：网络爬虫的第一个实现步骤就是模拟浏览器向目标网站的服务器发送请求，以获得页面的响应数据。目标网站的web可分为动态页面和静态页面两种，二者是存在区别的。在静态页面程序里，客户端通过网络，将web浏览器链接在服务器上，利用HTTP协议发起一个与需求一致的请求，将需求准确的告知服务区，web服务器接到请求后，服务器将会根据接收到的需求信息，从文件系统（存放了所有静态页面的磁盘）取出内容。之后通过web服务器返回给客户端，客户端接收到内容之后经过浏览器渲染解析，得到显示的效果。为了让静态web页面显示更加好看，使用javascript/VBScript/ajax.但是这些特效都是在客户端上借助于浏览器展现给用户的，所以在服务器上本身并没有任何的变化。静态页web的缺点是：因JS的大量使用，浏览器页面必须打开，大量的内存被占用，虽然减轻了服务端的压力，但客户端的压力加重了。动态web的不同之处在于所有的请求会先经过一个WEB Server来处理，虽然程序仍旧会用客户端和服务端，但可以通过网络连接到服务器上，使用HTTP协议发起请求，一定程度上减轻了服务端与客户端的压力。针对不同页面Python语言有相应的方便简单的页面获取库，例如requests库及Selenium库，而对于比较大型的网站，则可以使用scryapy开源架构。6 爬虫系统的功能应用举例旅游电商数据采集应用场景为例，基于爬虫的一日游与多日游数据分析系统需要实现以下功能：数据爬取功能：实现从主流旅游信息平台爬取多区域多省份的一日游/多日游项目的产品信息，信息内容包括地点名称，价格区间，店铺名称，产品销量，产品具体行程，用户评分。爬取过程应实现自动化的入口网址记录，产品详情页巡游，停止条件判断，关键信息定位及提取、异常处理及容错。数据清洗功能：包括处理缺失数据、添加默认值、删除不完整的行、删除不完整的列、规范化数据类型、必要的转换、重命名列名等。例如对于一日游与多日游源数据中的行程信息，需要对其进行二次转换，将行程数据中的地点名称进行分割。数据存储功能：实现对已清洗数据的格式化、持久化存储存储，考虑到系统的稳定性及对后续业务的支持，系统存储的方式包括文本文件存储、关系型数据库存储。数据呈现功能：将分析结果以直观、清晰的可视化图像呈现给使用者。•

•交互功能：实现使用者与系统的交互，如对一日游与多日游数据种类的选择，地区数据的选择等。以马蜂窝网站获取一日游数据为例，整个系统的业务逻辑为：数据爬取--数据清洗--数据存储--数据分析--分析结果可视化。因此，整个系统将划分为以下多个模块来实现，如图1所示红色虚线内所示。图1 系统架构图系统爬取马蜂窝所有目的地的区域编码思路如下：（1）向马蜂窝目的地首页'/mdd/'发送请求，获取页面响应html源码。（2）在响应的页面html源码中，找到class属性为'hot-list

clearﬁx'的

标签。（3）在class属性为'hot-list clearfix'的

标签内部，找到所有

。（4）在所有

里，找到附带href属性的标签，并从href属性的链接URL中提取马蜂窝地区代码。（5）保存所有地区代码。结束语：本文深入研究网路爬虫技术，深入理解网络爬虫的概念、运行机制、实现逻辑、技术难点等各个方面。满足不同的用户在不同场景下对数据信息的采集需求。编程者可通过自己在网络上搜索、分析转换为自己所需的数据，爬虫让互联网信息的世界变得简单化和清晰化。爬虫强大的文本处理库和网络支持库，可以加速实现互联网数据信息的整理，提高数据使用者的工作效率，在互联网经济中占据着不可忽视的地位。作者简介：李彦（1991—），女，广西桂林人，壮族，大学本科，助理工程师，研究方向：信息与通信工程，信息采集。

本文标签：数据爬虫网络信息实现

版权声明：本文标题：基于Python的网络爬虫技术的研究内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1704950495a467767.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于Python的网络爬虫技术的研究

更多相关文章

windows C语言读串口数据

CDO（气象数据处理软件）安装的坑总结

Oracle数据库分别在WindowsLinux环境下普通数据泵方式导入导出示例

Python远程获取Windows主机信息

星光 SaaS 伙伴汉得信息：企业级 SaaS 能力构建，云原生赋能数字化创新

超强干货之---Python-数据爬取（爬虫）

30个高质量的数据集网站，你必须要试试！

【愚公系列】《Python网络爬虫从入门到精通》015-案例：爬取豆瓣电影Top 250

Selenium如何让启动的浏览器和手动启动的浏览器信息一致

如何利用 Playwright 对已打开的浏览器进行爬虫

Unity学习辅助篇之Unity打包成安卓Android应用后，如何查看对应的版本信息（api版本，包名等，无需AndroidSutdio版），方便上架应用时的查看

《CWAP-404》，第4章：802.11 MAC 帧（4.1，802.11 帧类型，控制帧和数据帧）

Windows与网络基础-12-13-NTFS文件及文件夹权限

微信QQ网络上传文件很慢怎么办？

网络卡顿怎么办

100天精通Python（爬虫篇）——第118天：selenium自动化操作浏览器基础大总结

Linux网络之数据链路层协议

网络层之IP协议

二、修改虚拟机 windows网络配置，ping通（本机和外网）

联想小新16Pro待机或者关机后无网络问题（WiFi显示不出来）

发表评论

推荐文章

javascript - Prevent Esc Key from Exiting FullScreen App Mode on Website - Stack Overflow

CrashLoopBackOff for NVIDIA VSS Pod on MicroK8s – Troubleshooting Deployment Issues - Stack Overflow

javascript - Remove image from page if it already exists - Stack Overflow

javascript - Nodejs - MongoDB findone with exact match but case insensitive - Stack Overflow

javascript - HTML5 Canvas, excanvas.js &amp; IE. Text not showing in IE7 - Stack Overflow

热门文章

javascript - Spotify API: Error 401, &quot;no token provided&quot; - Stack Overflow

使用MDT将系统升级为Win10

jquery - Javascript: Non Linear Range Slider - Stack Overflow

javascript - Googlebot cannot access CSS and JS files? - Stack Overflow

windows - How to disable or change Ctrl+Alt+Down shortcut in AWS Amazon WorkSpaces? - Stack Overflow

javascript - Capture chrome tab without browse action - Stack Overflow

javascript - Validating Jquery autocomplete field using jquery validation plugin - Stack Overflow

App error on Reactor when instrumented with OTEL Java Agent - Stack Overflow

javascript - How to secure the password while it being sent using AJAX? - Stack Overflow

html - Load 3D model with HTML5 canvas element and Javascript - Stack Overflow

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

javascript - HTML5 Canvas, excanvas.js & IE. Text not showing in IE7 - Stack Overflow

javascript - Spotify API: Error 401, "no token provided" - Stack Overflow