admin 管理员组

文章数量: 1087139


2024年4月30日发(作者:结构体怎么初始化)

《Python获取数据》教案

【教学分析】

课标要求学生能根据需要,选择或编写合适的工具来采集数据。通过这节课的学

习,学生能掌握获取网页内容的request库和解析网页内容的beautifulsoup库

的安装和使用,能掌握获取网页内容的方法和解析网页标签内容的方法,认识到

网上数据的爬取应该遵循的法律和规范。

【学情分析】

本节课的授课对象是高一学生,已经学习了python的基本语法和python第三方

库的安装和使用。但是对如何从网页中爬取信息非常陌生,不具备网页的基础知

识,因此将教学的重点放在数据获取的步骤理解,对于不同网页数据爬取的实现

方法让有能力的同学进行课外扩展。

【教学目标】

1.针对不同网页上需要的信息组织方式不同,能比较不同的信息源,确定合理获

取信息的方式。(信息意识)

2.在认识数据爬取方法中,能采用计算机科学领域的思想和方法界定问题,建立

数据爬取的结构模型(计算思维)

3.能根据数据爬取的需要,在Python第三方库的安装过程,熟悉数字化学习环

境并掌握数字化学习方法,认识数字化学习的优势和困难。(数字化学习和创新)

4.在解决实际问题的过程中,具备信息安全意识,积极维护他人的合法权益和公

共信息安全(信息社会责任)

【教学重点】

1.认识通过python获取数据的流程。

2.认识requests库和beautifulsoup库在获取网页数据中起到的作用。

【教学难点】

1.根据网页的源代码设计获取网页内容的方法。

【教学过程】

教学

环节

教师活动 学生活动 设计意图

在日常生活中,我们有许多东西希望可

以从网上获取。比如网站上关于某个主

题的图片一次性下载下来。比如一类商

品在不同淘宝店铺的价格。比如某只股

激趣票每周的价格。你们有什么信息想要获

引课 取的呢?

教师分析学生想要获取信息的途径是否

方便,耗时是否比较小。提出如果我们

用Python程序获取信息能够更加的快捷

方便。

带领学生安装获取网页数据的requests

库和解析网页数据的BeautifulSoup库

学生操作实践,查看自己想要爬取网页的

源代码。告知学生使用爬虫可以取代浏览

器获得网页的数据。

一、数据爬取的方法和流程

1.教师讲解用户从服务器获得数据的原

理。

演示通过requests库中的get方法获取

网页内容并将其打印的方法。教师讲解解

析语句。

布置任务:学生将自己希望的网页源代码

通过python打印。

2.在爬取过程中发现问题,解决问题,展

示部分同学爬取的网页源代码出现乱码。

告知学生乱码的出现是因为编码方式有

误。引入语句讲根据内容猜想出来的编码

方式给它。。

二、爬取数据解析

使用requests库爬取的是整个网页的

html数据,我们有时候需要提取网页中我

们想要的数据时需要解析html文档,这

时候用到的第三方库我们叫它

beautifulsoup库。利用bs4的方法可以

熬制一锅汤给soup变量,这样soup就可

以解析网页各个由尖括号的标签。soup可

以调用find方法找到存放数据的表格,

并且直接定位到表格的分值(孩子)节点

tr,可以将每一个找到的td放在tds变

量后打印出来

学生列举想要获取

的信息,感知网上

资源丰富多样,能

高效获取数据非常

重要。

1. 学生理解

python可以取代

浏览器,当输入网

址时,能返回网页

的源代码。理解

python通过

requests库获取

网页内容的方法。

2. 学生爬取网

页,并将爬取网页

时遇到的问题反馈

给老师。在教师的

讲解下学生了解爬

取数据的时候需要

注意数据 的编码

方式。

3. 学生认识网页

上对内容是以标签

树的形势组织起来

的。

4. 学生理解利用

beautiful库解析

获得网页某标签中

内容的方法。

学生通过主

动举例激发

内心对信息

获取的渴望,

且教师列举

的例子都可

以通过mooc

上的视频教

程实行,有利

于学生扩展

学习

学生通过ppt

演示理解

python通过

第三方库获

取网页内容

的方法以及

解析网页内

容的方法。

通过实践操

作体验数据

爬取的过程。

数据爬取“盗亦有道”

教师提问学生数据爬取是可以毫无限制

的进行的吗?

引导学生理解网站服务器接收的访问请

求是有限制的。

学生回答一些重要

的网站无法爬取,

因为侵犯了网站的

权限。

学生认识到对此访

问数据可能会给网

站的服务器造成负

担。

通过数据爬

取盗亦有道

的探索可以

帮助学生建

立信息社会

责任素养,能

理解信息规

范性的合理。

完成当堂练习,总结我们这节课认识了两

个库,一个是获取网页内容,一个是根据

标签树解析网页内容。当我们想要从网页

课堂

上爬取需要的信息需要调用这两个库中

小结

的方法。

学生回忆总结,认

识网上数据爬取的

主要方法。

认识python第三总结、提升

方库在封装方法实

现各个功能上的优

越性


本文标签: 学生 数据 网页 爬取 方法