首页编程正文内容

给定公司名称excel列表在天眼查搜索爬取企业工商信息

编程

更新时间：2025-04-22 07:06:33 11

admin 管理员组

文章数量: 1086019

2024年3月11日发(作者：随机数发生器有什么用)

给定公司名称excel列表，在天眼查搜索爬取企业工商信息

上一篇写了天眼查公司详情页单页面爬取公司基本信

息（简单爬取天眼查数据），这里改进一步。需求提供公司

名称，需要获取公司工商注册信息，欲查找的公司名称存储

在excel里。步骤分解1.读取excel数据（1）打开工作簿import

xlrddef open_excel(: book =

_workbook( bookexcept Exception as e:print ('打开

工作簿'+file+'出错：'+str(e))（2）读取工作簿中所有工作表

def read_sheets(: book = open_excel(file) sheets =

()return sheetsexcept Exception as e:print ('读取

工作表出错：'+str(e))（3）读取某一工作表中数据某一列的

数据def read_data(sheet, n=0): dataset = []for r in

range(): col = (r, n).value

(col)return dataset2.打开浏览器因为是采用

selenium+浏览器，首先先打开浏览器（可用火狐、谷歌等

浏览器，只要配置好环境），这里采用了phantomjs这个无

头浏览器，并使用了useragent代理。此外，service_args参

数可调用ip代理。from selenium import webdriverfrom

d_capabilities import

DesiredCapabilitiesdef driver_open(): dcap =

dict(MJS)

dcap['ent'] = ('Mozilla/5.0

(Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,

like Gecko) Chrome/52.0.2743.82 Safari/537.36' )

service_args =

['--proxy=122.228.179.178:80','--proxy-type=http' ]

open_driver =

mJS(executable_path='D:/Anaconda2/pha

', desired_capabilities=dcap# ,

service_args=service_args # ip代理 )return open_driver3.获

取网页源代码根据提供的url和等待加载时间，返回网页源

码的BeautifulSoup对象。欲获取源代码的网页url有两种类

型，一种是搜索结果页面的url，一种是公司详情页的url。

根据分析，公司详情页的url末尾是一串数字，表示公司的

id，这个id是要保存下来，作为唯一识别码，因此增加一步

判断，判断url是否为公司详情页的url（最后一个'/'后面全

是数字），如果是，同时返回公司的id。import timefrom bs4

import BeautifulSoupdef get_content(url, waiting=3):

open_driver = driver_open() open_(url)# 等待

waiting秒，使js加载，时间可延长 (waiting)# 获

取网页内容 content =

open__('utf-8')print content

open_() res_soup = BeautifulSoup(content, 'lxml')

com_id = ('/')[-1]if com_t():return res_soup,

本文标签：公司浏览器打开爬取

版权声明：本文标题：给定公司名称excel列表在天眼查搜索爬取企业工商信息内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1710116056a558476.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

新edge浏览器快捷键

编程

16天前

目录 microsoft edge - shortcut key:general：special: microsoft edge - shortcut key: 推荐直接跳转Vim操作 general&#x

mac浏览器没有网络，通讯软件（QQ、微信、飞书等）正常

编程

16天前

网上的方法 1、在网络dns里加 114.114.114.114 或者8.8.8.8 【我自己试的是没有解决问题】 2、关闭网络代理中的一些勾选【我电脑里本来就没有勾选】 3、重置DNS【可能是mac版本不同 ，提示

txt pdf 等浏览器不直接打开下载程序

编程

16天前

$sava_nameuploadfile2014072620140726114913835.txt; header("Content-Type: applicationforce-download"); h

Vue 实现跳转浏览器新的标签页

编程

16天前

1: 一般单页面应用， vue 都是通过vue-router 来做跳转（this.$router.push， this.$router.replace&#xff0

matlab 帮助文档在内置浏览器显示

编程

16天前

matlab帮助文档设置，帮了我的大忙，感谢博主！ https:blog.csdnchichuhearticledetails78977465

Wampserver修改默认浏览器、默认编辑器的解决办法

编程

16天前

Wampserver修改默认浏览器、默认编辑器的解决办法由于我打开网页时是乱码，并不是编码的问题，所以想可能是谷歌浏览器的原因，所以换个浏览器试试。以下是Wampser

服务器配置tomcat，使用浏览器访问服务器资源

编程

16天前

配置服务器，并使用浏览器去访问服务器资源一、安装配置tomcat 1.安装软件 ：apache-tomcat-8.5.72.tar.gz 结尾的文件（下载地址https:

浏览器注入

编程

16天前

浏览器中引入外部jQuery： var scriptdocument.createElement("script")script.type"textjavascript&qu

react 组件监听浏览器窗口变化

编程

16天前

react 组件监听浏览器窗口变化 react 组件实现监听浏览器窗口变化，需要在window对象中添加监听事件，事件中参数1是监听的事件，参数2为事件调用的方法。

js 浏览器桌面通知notification

编程

16天前

Notification是HTML5新增的API，用于向用户配置和显示桌面通知。上次在别的网站上看到别人的通知弹窗，好奇之余也想知道如何实现的。实际去查一下发现并不复杂，且可

【双核浏览器ChromeCore播放视频出错，重影、有声音但黑屏、缺角······】

编程

16天前

目录一、【问题】二、【解决方法】 1、找客服【首选】 2、去官网下载新版本安装 （或者找客服要安装包） 一、【问题】这两天用双核浏览器打开哔哩哔哩播放视频时，却

Edge浏览器兼容性问题（以登录教资系统为例子）

编程

16天前

登录教资系统，发现使用Edge无法兼容，以下是解决办法： 1.打开设置页面2.再回到选择省份那个页面，再次打开Edge右边的更多&#xff0

google-chrome 浏览器 Linux rpm 版本下载安装

编程

16天前

下载地址： https:dl.googlelinuxdirectgoogle-chrome-stable_current_x86_64.rpm 安装： yum install goo

Kali 工具系列【3】kali Firefox浏览器下安装一些常用的渗透测试插件

编程

16天前

怎么做…… Firefox是一个非常灵活的浏览器，非常适合用来web渗透测试，并且他默认安装在Kali Linux中。我们需要稍微定制一下，可以使用以下步骤&#xf

ubuntu : google浏览器离线安装插件（

编程

16天前

.crx重命名为.zip 解压打开将解压后文件夹中_metadata重命名为metadata 浏览器extensions界面开发者模式加载已解压

IDM下载器插件让浏览器不在限速

编程

16天前

IDM下载器可提速（2到n倍）的使用方法，让浏览器不在限速前言 IDM 最佳的 Windows 下载工具官方网址: http:www.internetdownloadmanager.尽管现在要用到「下载工具」的时间相比

edge浏览器怎么设置activex_Edge浏览器ActiveX插件

编程

16天前

Microsoft Edge,这是微软为Windows10专门打造的一款全新的浏览器。由于发布的时间不久，还有很多功能不够完善，所以很多人用起来还不是很顺手。下面就来为大家介绍下Edge 浏览器的

微信内置浏览器调试模式

编程

16天前

1.下载devtools_resources.pak文件，如果不能下载，私信我解压之后，放在C:UsersfeiduAppDataRoamingTencent

win7 32位操作系统 ie8浏览器问题解决办法

编程

15天前

ie8在win7系统下怎么安装或重装？ （一）对于已卸载了IE8的用户因为微软并没有提供用于Windows 7系统的IE8独立安装包，Windows

浏览器事件

编程

13天前

浏览器事件常用浏览器事件与DOM事件，包括鼠标事件、键盘事件、框架对象事件、表单事件、剪贴板事件、打印事件、拖动事件、多媒体事件、动画事件、过渡事件。浏览器事件加载相关 onbeforeunload:

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

给定公司名称excel列表在天眼查搜索爬取企业工商信息

更多相关文章

新edge浏览器快捷键

mac浏览器没有网络，通讯软件（QQ、微信、飞书等）正常

txt pdf 等浏览器不直接打开下载程序

Vue 实现跳转浏览器新的标签页

matlab 帮助文档在内置浏览器显示

Wampserver修改默认浏览器、默认编辑器的解决办法

服务器配置tomcat，使用浏览器访问服务器资源

浏览器注入

react 组件监听浏览器窗口变化

js 浏览器桌面通知notification

【双核浏览器ChromeCore播放视频出错，重影、有声音但黑屏、缺角······】

Edge浏览器兼容性问题（以登录教资系统为例子）

google-chrome 浏览器 Linux rpm 版本 下载安装

Kali 工具系列【3】kali Firefox浏览器下安装一些常用的渗透测试插件

ubuntu : google浏览器离线安装插件（

IDM下载器插件 让浏览器不在限速

edge浏览器怎么设置activex_Edge浏览器ActiveX插件

微信内置浏览器调试模式

win7 32位操作系统 ie8浏览器问题解决办法

浏览器事件

发表评论

推荐文章

xp不能运行python3.6

javascript - jQuery&#39;s change() not working - Stack Overflow

javascript - How to share a dynamically generated image from react with react-share? - Stack Overflow

azure - When Merging the code, all pipeline getting triggered - Stack Overflow

javascript - Find 1, 2, 3 missing numbers in an array of first N natural numbers - Stack Overflow

热门文章

javascript - Angular, material form only say field is required after submit attempt - Stack Overflow

javascript - How to send DELETE request to server with Json data using AngularJS? - Stack Overflow

javascript - StandaloneSelf Contained Typescript Injected scripts - Stack Overflow

jquery - Delete Record from JSON Object Javascript - Stack Overflow

javascript - Message disappear after some time - Stack Overflow

Integration of CSS, Javascript and HTML - Stack Overflow

How to add a new line to HTML text using JavaScript? - Stack Overflow

html - Best way to use Babel to create a single JavaScript bundle - Stack Overflow

python - How to disable JavaScript in PhantomJS through Selenium WebDriver - Stack Overflow

javascript - Call function within function of AlpineJS - Stack Overflow

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

google-chrome 浏览器 Linux rpm 版本下载安装

IDM下载器插件让浏览器不在限速

javascript - jQuery's change() not working - Stack Overflow