首页编程正文内容

我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南

编程

更新时间：2025-06-14 11:34:32 6

admin 管理员组

文章数量: 1087649

我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南

一、创建隔离开发环境

1. 使用虚拟环境（推荐`venv`）

# 在项目目录打开终端执行
python -m venv douban_env      # 创建虚拟环境
source douban_env/bin/activate # Linux/macOS激活
douban_env\Scripts\activate   # Windows激活

2. 安装依赖库

pip install requests beautifulsoup4 lxml

3. 生成依赖清单

pip freeze > requirements.txt

二、项目架构设计

douban_top250/
├── config/               # 配置文件
│   └── settings.py
├── core/                 # 核心逻辑
│   ├── spider.py
│   └── storage.py
├── utils/                # 工具函数
│   └── helper.py
├── output/               # 输出目录
├── main.py               # 主入口
└── requirements.txt      # 依赖清单

三、分步实现

步骤1：创建配置文件 `config/settings.py`

# 请求配置
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Referer': 'https://movie.douban/'
}

# 目标URL配置
BASE_URL = 'https://movie.douban/top250'

# 存储配置
OUTPUT_DIR = './output'
CSV_HEADERS = ['标题', '评分', '年份', '国家', '类型', '链接']

# 容错配置
SAFE_MODE = True  # 遇到错误时跳过条目而不是终止
UNKNOWN_PLACEHOLDER = "未知"  # 数据缺失时的占位符

步骤2：编写工具类 `utils/helper.py`

import random
import time

def random_delay(min=1, max=3):
    """随机延迟防止被封"""
    time.sleep(random.uniform(min, max))

def make_soup(html):
    """创建BeautifulSoup对象"""
    from bs4 import BeautifulSoup
    return BeautifulSoup(html, 'lxml')

步骤3：核心爬虫逻辑 `core/spider.py`

import requests
from config import settings
from utils.helper import random_delay, make_soup

class DoubanSpider:
    def __init__(self):
        self.session = requests.Session()
        self.session.headers.update(settings.HEADERS)

    def fetch_page(self, url):
        """获取页面内容"""
        try:
            random_delay()
            response = self.session.get(url)
            response.raise_for_status()  # 自动处理HTTP错误
            return response.text
        except requests.RequestException as e:
            print(f"请求失败: {str(e)}")
            return None

    def parse_page(self, html):
        """改进后的解析方法"""
        soup = make_soup(html)
        movies = []
        
        for item in soup.find_all('div', class_='item'):
            try:
                # 标题与链接
                title = item.find('span', class_='title').text.strip()
                rating = item.find('span', class_='rating_num').text.strip()
                link = item.find('a')['href']
                
                # 详细信息解析（稳健版）
                info_div = item.find('div', class_='bd')
                info_text = info_div.p.get_text(" ", strip=True)  # 用空格替代换行
                
                # 使用正则表达式提取年份/国家/类型
                import re
                pattern = r'(\d{4})[^/]*(.*?)\s+/\s+(.*?)$'
                match = re.search(pattern, info_text)
                
                if match:
                    year = match.group(1).strip()
                    country = match.group(2).strip().replace('/', ' ')  # 处理国家中的斜杠
                    genre = match.group(3).strip()
                else:
                    year = country = genre = "N/A"  # 无法解析时填充默认值
                    
                movies.append({
                    '标题': title,
                    '评分': rating,
                    '年份': year,
                    '国家': country,
                    '类型': genre,
                    '链接': link
                })
                
            except Exception as e:
                print(f"解析条目失败: {str(e)}")
                continue  # 跳过当前条目
                
        return movies

    def get_all_pages(self):
        """处理分页"""
        all_movies = []
        start = 0
        
        while True:
            url = f"{settings.BASE_URL}?start={start}"
            html = self.fetch_page(url)
            if not html:
                break
                
            movies = self.parse_page(html)
            if not movies:
                break
                
            all_movies.extend(movies)
            start += 25
            # 检查是否还有下一页
            if start >= 250:  # Top250最多250条
                break
        
        return all_movies

步骤4：数据存储模块 `core/storage.py`

import csv
import json
import os
from config import settings

class DataStorage:
    @staticmethod
    def save_csv(data, filename='douban_top250.csv'):
        os.makedirs(settings.OUTPUT_DIR, exist_ok=True)
        path = os.path.join(settings.OUTPUT_DIR, filename)
        
        with open(path, 'w', newline='', encoding='utf-8') as f:
            writer = csv.DictWriter(f, fieldnames=settings.CSV_HEADERS)
            writer.writeheader()
            writer.writerows(data)
        print(f"数据已保存至 {path}")

    @staticmethod
    def save_json(data, filename='douban_top250.json'):
        os.makedirs(settings.OUTPUT_DIR, exist_ok=True)
        path = os.path.join(settings.OUTPUT_DIR, filename)
        
        with open(path, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=2)
        print(f"数据已保存至 {path}")

步骤5：主程序 `main.py`

from core.spider import DoubanSpider
from core.storage import DataStorage

def main():
    # 检查robots协议
    print("豆瓣 robots.txt 重要条款：")
    print("User-agent: *")
    print("Disallow: /search")  # 实际需查看最新内容
    
    # 执行爬虫
    spider = DoubanSpider()
    movies_data = spider.get_all_pages()
    
    # 存储数据
    if movies_data:
        DataStorage.save_csv(movies_data)
        DataStorage.save_json(movies_data)
    else:
        print("未获取到有效数据")

if __name__ == '__main__':
    main()

四、运行与验证

在激活的虚拟环境中执行：

python main.py

检查 output/ 目录生成的 CSV 和 JSON 文件

五、高级优化建议

异常处理增强：

# 在spider类中添加重试机制
def fetch_page(self, url, retries=3):
    for attempt in range(retries):
        try:
            # ...原有代码...
        except requests.RequestException as e:
            if attempt == retries - 1:
                raise
            print(f"重试中 ({attempt+1}/{retries})...")
            time.sleep(2 ** attempt)  # 指数退避

请求头轮换：

# 在settings.py中添加多个User-Agent
USER_AGENTS = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15',
    'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36'
]

# 在helper.py中添加选择函数
def get_random_user_agent():
    return random.choice(settings.USER_AGENTS)

代理设置（如果需要）：

# 在spider初始化时添加
def __init__(self, proxy=None):
    if proxy:
        self.session.proxies = {'http': proxy, 'https': proxy}

六、法律合规检查

访问 https://www.douban/robots.txt 查看协议
重点条款：

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /forum/search
Disallow: /game/search

合规措施：

限制请求频率（代码中已实现随机延迟）
不绕过反爬机制
仅用于学习用途
不存储敏感信息

通过这个结构化的项目实现，你可以：

保持代码的可维护性
方便后续扩展功能（如添加代理支持）
符合Python最佳实践
有效管理依赖项

下一步可以尝试：

添加日志记录模块
实现数据库存储（MySQL/MongoDB）
使用Scrapy框架重构项目
部署到服务器定时运行

本文标签：爬虫豆瓣步骤指南程序

版权声明：本文标题：我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1749807595a2764333.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南

我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南

一、创建隔离开发环境

1. 使用虚拟环境（推荐venv）

2. 安装依赖库

3. 生成依赖清单

二、项目架构设计

三、分步实现

步骤1：创建配置文件 config/settings.py

步骤2：编写工具类 utils/helper.py

步骤3：核心爬虫逻辑 core/spider.py

步骤4：数据存储模块 core/storage.py

步骤5：主程序 main.py

四、运行与验证

五、高级优化建议

六、法律合规检查

更多相关文章

在Windows上使用MetaMCP的完整指南

解决Windows 7安装MySQL难题：API-MS-WIN-CORE-PATH-L1-1-0.DLL 下载指南

U盘安装Windows 10系统全流程指南

老包菜U盘安装Win7系统指南

CentOS 7安装指南

Windows单语言版显示语言限制解析与专业版升级实战指南

NI的LABVIEW工具安装及卸载步骤说明

win10写的程序在win7下面崩溃的问题 CLR20r3 MissingMethodException

解决“win7系统无法定位程序输入点 SetDefaultDllDirectories“问题

win10卸载程序灾难性故障_win10一直弹出卸载或更改应用程序的具体处理方法

Windows下把EXE 程序变成服务运行

xp系统后装linux系统安装教程,linux装机教程 linux安装系统步骤

硬盘格式化后的数据拯救：数之寻软件实战指南

Word中单页横向排版设置指南

KubeSphere 实战指南：KubeSphere 和 K8s 集群彻底卸载与重装全攻略

阮工的单片机编程经验集：如何做稳定单片机程序与上位机程序防卡顿,js等经验；阮丁远于20250529

【实战教程】AI编程助手CodeBuddy玩转网络爬虫：一键获取阴阳师高清壁纸

msvcr110.dll丢失怎么办？彻底解析msvcr110.dll错误原因及修复方法完整解决方案指南

守护你的数字家园：家庭网络安全实用指南

ThinkBook 16p笔记本系统重装全流程指南

发表评论

推荐文章

javascript - Wrap a console.log with infinite optional params - Stack Overflow

javascript - How to store value in HTML input through jQuery - Stack Overflow

javascript - Webpack an appropriate loader to handle this file type - Stack Overflow

锐捷服务器显示dns无法上网,上网常见故障排查指引-肇庆学院信息中心 Zhaoqing University Information Center...

领夹麦克风十大品牌，无线麦克风品牌排行榜，十大音质好的麦克风

热门文章

javascript - IE9 reports missing semicolon that exists - Stack Overflow

returning a PHP object from an ajax file to my javascript code - Stack Overflow

javascript - Mapbox GL JS: Coloring individual features in large GeoJSON - Stack Overflow

swift - How to make Model didset value trigger when i change textfield value in SwiftUI - Stack Overflow

arrays - Can&#39;t change global variable inside a function (Javascript) - Stack Overflow

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

《ChatGPT应用与实战》——ChatGPT中文应用指南

如何在 Windows 上安装 Apple 地图？只需要浏览器就能搞定

win7安装camera raw13.0.2详解。

U盘启动盘安装系统，使用Diskpart命令对磁盘进行分区

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

Windows系统更新，显示Windows启动管理器，进去后为重装系统界面的解决方法。

win11登录密码忘记了？别慌！无需重装系统，一个U盘轻松移除！

ThinkBook 16p笔记本系统重装全流程指南

openstack(train)创建网络与虚拟机

Java实现SNMP网络设备MIB信息采集系统设计与源代码分析

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

1. 使用虚拟环境（推荐`venv`）

步骤1：创建配置文件 `config/settings.py`

步骤2：编写工具类 `utils/helper.py`

步骤3：核心爬虫逻辑 `core/spider.py`

步骤4：数据存储模块 `core/storage.py`

步骤5：主程序 `main.py`

arrays - Can't change global variable inside a function (Javascript) - Stack Overflow