首页编程正文内容

国家企业信用信息公示系统爬取

编程

更新时间：2025-04-22 19:13:02 9

admin 管理员组

文章数量: 1086019

国家企业信用信息公示系统爬取

- 前言
- 反爬背景
- 测试
- 爬取策略
- 具体流程
- 流程图
- 效果图

前言

具体的分析爬取过程这边就直接省略了，不会分析的小伙伴直接百度下，网上有很多介绍细节的，我这边只要把我爬取中重要的几个环节写一下，加深下记忆，也给大家一个参考。
声明:我的爬虫程序是用C#写的，还有滑动和点序验证码直接对接的是第三方接口完成。

反爬背景

企业国家企业信用信息公示系统出现了大量反爬技术手段使得爬取网站信息变得非常困难，具体的反爬手段包括：加密混淆的js文件，IP封锁，验证码识别（滑动和语序点击并存），useragent检查，多重url拼接cookie等。

测试

公司ip（多次访问后）：查询界面出现语序验证码，多次之后被封ip（404报错）；
代理ip1，2，3规律：第一次查询无需验证码，之后是滑动验证码和语序验证码交替出现。大概30次左右：只出现语序验证码；（每次验证码成功解开再次查询又会出现无需验证码的情况，次数在0-3次之间）
特殊情况：
1.同一个ip火狐被封，谷歌没被封。
2.正常访问网站会出现521报错，刷新不出数据，空白页的情况

爬取策略

绕开验证码直接对接验证码的接口，然后直接封装需要的cookie进行伪装访问列表界面，解析出企业详情页的链接，然后依次去下载。

具体流程

1．访问http://www.gsxt.gov/SearchItemCaptcha获取名为__jsluid的cookie值和加密的JS然后通过两次解密JS获取名为__jsl_clearance的cookie值。
2．用第1步的两个cookie值再次访问http://www.gsxt.gov/SearchItemCaptcha，得到名为SECTOKEN，JSESSIONID，tlb_的cookie值和challenge、gt两个参数。
3．发送第2步的challenge，gt参数到验证码识别接口，获取validate参数（调用的是外部的验证码接口）。
4．访问http://www.gsxt.gov/corp-query-custom-geetest-image.gif?v=54，V（参数是当前时间分钟和秒的累加数），得到ASCII码的JS语句，解析JS语句得到参数location_inf。
5．访问http://www.gsxt.gov/corp-query-geetest-validate-input.html?token=（参数是第4步的location_inf）得到ASCII码的JS语句，解析JS语句得到参数token
6．拼接以上获得的参数，tab参数固定、province参数为空即可、其他参数填入前面动态获取的数据即可。
postData={ ‘tab’:‘ent_tab’, ‘province’:’’, ‘geetest_challenge’:challenge， ‘geetest_validate’:validate], ‘geetest_seccode’:validate+’|jordan’, ‘token’:token, ‘searchword’:keyword }
访问http://www.gsxt.gov/corp-query-search-advancetest.html提交post请求获取列表页面拿到需要的公司的各个详情页链接。
7．带着所有cookie去访问第6步的详情页链接抓取到需要的内容。

流程图

具体的代码就不贴了，太繁了。

效果图

平时不怎么上CSDN，这次上来看到好几个同学让我发代码，我也不一一发了，自己去下吧，供大家参考的小demo。
https://download.csdn/download/huanxiao8512/11191333添加链接描述

资源被CSDN官方删掉了，理由是违规，我换个地方，这个是19年的demo，需要的自己去下吧！https://item.taobao/item.htm?ft=t&id=618712985216

本文标签：企业信用国家系统信息

版权声明：本文标题：国家企业信用信息公示系统爬取内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1729172162a1339099.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Windows系统下的git操作

编程

16天前

Windows系统下的git操作打开cmd进入到本地仓库。（也就是自己放入项目的文件夹）如果没有初始化，在cmd中输入 git init 来建立本地仓库。接着cd进入到你

系统映像恢复进不了系统_如何从Windows系统映像中恢复特定文件

编程

16天前

系统映像恢复进不了系统 Windows provides a fail safe way of recovering your entire hard drive with system images, but what if you o

java程序在windows系统作为服务程序运行

编程

16天前

Java程序很多情况下是作为服务程序运行的，在Un*x平台下可以利用在命令后加“&”把程序作为后台服务运行，但在Windows下看作那个Console窗口在桌面上，你

Windows系统启动时自动运行自定义批处理文件

编程

16天前

在工作和学习的过程中会手动编写一些批处理文件，实现某些特定的功能。但每次都需要在Windows系统启动后，再手动运行批处理文件。这样子很不方便。因此就萌生了能否让Windows系统在启动时自动运行

windows下C语言取系统时间

编程

16天前

void printTime(){ LARGE_INTEGER tick; LARGE_INTEGER timestamp; ullong time; QueryPerformanceFrequency(&tick); Q

windows10组策略关闭系统更新方法

编程

16天前

windowsR，打开运行窗口，并输入services.msc 向下滑动，找到Windows Update 双击打开，然后按照图片进行操作

修改Windows2012系统环境变量的脚本记录

编程

16天前

echo off::设置java的安装路径，可方便切换不同的版本set inputC:Program FilesJavajre1.8.0_161echo jdk路径为%input%set javaPath%

Office各个windows版本支持哪些系统呢

编程

16天前

Office各个windows版本支持哪些系统呢?具体如下： Office 2019版(32位)：(只支持Win10系统，32位64位电脑都可以) Office 2019

windows服务器系统监控

编程

16天前

众所周知，Linux上的cacti、Nagios等开源免费的软件功能确实强大，再搭配一些相关组件，能满足大部分企业应用和互联网的需求。但是winodws上呢&#xff

Windows 10 系统设置系统环境变量和用户环境变量

编程

16天前

系统环境变量对整个系统有效用户环境变量只对当前用户有效方法一：1、首先选中桌面此电脑图标，右键选择属性。如果桌面没有此电脑图标，打开方式http:blog.

java调用window系统默认打印机

编程

16天前

import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import javax

windows7系统内存占用过高的解决方法

编程

15天前

电脑的内存空间取决了电脑的运行流畅度，时间一久内存就会爆满导致占用过高这样就会使电脑变得延迟，那么windows7系统内存占用过高怎么办呢?下面就一起来看看windows7系统内存占用过高的解决方

windows系统重装（安装）第一篇——老毛桃本地PE环境的安装

编程

15天前

此教程主要讲解怎么制作本地PE系统，如果已经有本地PE或者已经有U盘启动的请跳过这篇，直接查看-->>windows系统重装（安装）第二篇—

使用sony assist键启动VAIO Care恢复和还原系统

编程

15天前

恢复计算机可以将主内置存储设备还原到原始出厂配置。完成还原所需的时间各有不同，具体取决于要还原的软件数量和计算机的速度。在下列情况下可能需要恢复计算机： · 计算机已感染计算机病毒，无法使用所安装的防病毒程序进行修复。 · 计算

极客日记之U盘移动系统

编程

14天前

极客日记之U盘移动系统文章目录极客日记之U盘移动系统一、准备材料二、前期准备三、安装系统1、烧录U盘2、安装系统一、准备材料 Windows系统电脑、一个64G以上的U盘、一个8G以上的U盘二、前期准备在WIndows电脑中

Lenovo 50-80安装系统教程

编程

14天前

01 查询进入Bios配置的快捷键，设置为U盘启动 1⃣️ 点击开机后，重复且频繁点击FnF2，进入bios设置界面。 2⃣️ Boot -> Boot Mode改为

苹果切换windows系统

编程

14天前

苹果切换Windows系统：轻松掌握双系统安装指南对于那些既喜欢Mac的优雅设计又需要使用某些仅支持Windows平台软件的人来说，为Mac安装双系统成为了一个很好的解决方案。通过这种方式&a

Win10自动下载软件关闭指南：全面掌控你的系统更新

编程

14天前

Win10自动下载软件关闭指南：全面掌控你的系统更新在使用Windows 10系统的过程中，许多用户可能会遇到系统自动下载并安装软件更新或推广应用程序的情况。这种行为不仅可能占用宝贵的带宽资源，还可能对计算机性能产生负面影响，甚至干扰用

VMware虚拟机下如何安装一个64位的win7系统

编程

14天前

原文地址：http:www.xitongchengjiaochengwin7_article_21001.html VMware虚拟机软件可以在一台电脑上运行多个操作系统，一些网友想在VM

windows11系统打开开机启动文件夹,设置开机项

编程

14天前

键盘 winr 打开命令行在弹出的“运行”窗口中输入“shell:startup”（复制，不带引号），点击“确定”。将要设置开机启动的程序快捷方式拖

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

国家企业信用信息公示系统爬取

国家企业信用信息公示系统爬取

前言

反爬背景

测试

爬取策略

具体流程

流程图

效果图

更多相关文章

Windows系统下的git操作

系统映像恢复 进不了系统_如何从Windows系统映像中恢复特定文件

java程序在windows系统作为服务程序运行

Windows系统启动时自动运行自定义批处理文件

windows下C语言取系统时间

windows10组策略关闭系统更新方法

修改Windows2012系统环境变量的脚本记录

Office各个windows版本支持哪些系统呢

windows服务器系统监控

Windows 10 系统设置系统环境变量和用户环境变量

java调用window系统默认打印机

windows7系统内存占用过高的解决方法

windows系统重装（安装）第一篇——老毛桃本地PE环境的安装

使用sony assist键启动VAIO Care恢复和还原系统

极客日记之U盘移动系统

Lenovo 50-80安装系统教程

苹果切换windows系统

Win10自动下载软件关闭指南：全面掌控你的系统更新

VMware虚拟机下如何安装一个64位的win7系统

windows11系统打开开机启动文件夹,设置开机项

发表评论

推荐文章

javascript - jQuery - Why :first and :last work but not :nth-child(2) in my code? - Stack Overflow

javascript - ASP.NET Bootstrap Modal with UpdatePanel - possible solution? - Stack Overflow

Calling a Java function from C using Foreign Function &amp; Memory API - Stack Overflow

c# - How to create a date in JavascriptJQuery from day, month and year? - Stack Overflow

javascript - How to load dynamic data to react-native-chart-kit? - Stack Overflow

热门文章

javascript - How do I clear the collection or the comments and names on the screen from the console - Stack Overflow

嵌入式软件技术笔记

javascript - How to append HTML string to div via Ajax - Stack Overflow

Memory usage and speed of objects vs arrays in javascript - Stack Overflow

Additional Info on certificate based authentication errors on Apache Artemis using netty - Stack Overflow

c++ - Qt gives errors when playing audio - Stack Overflow

next.js - VPS sqlite issue on hostinger server - Stack Overflow

javascript - Custom button for fancy box - Stack Overflow

通过禁止用户权限来禁止Win10自动重启更新

plc - The TwinCAT System Manager does not allow communication with a CAN device (but only the first time after creating the conf

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

系统映像恢复进不了系统_如何从Windows系统映像中恢复特定文件

Calling a Java function from C using Foreign Function & Memory API - Stack Overflow