使用python无账号无限制获取企查查信息的实例代码

下面是“使用python无账号无限制获取企查查信息的实例代码”的完整攻略。

1. 准备工作

首先,我们需要安装必要的库来进行数据抓取。在此过程中,我们需要使用到以下库:
- requests
- lxml

可以使用以下命令安装这些库:

pip install requests
pip install lxml

2. 信息获取

经过调研,我们发现企查查的数据是通过Ajax异步加载显示的,因此我们需要使用requests库模拟这个过程来获取数据。

具体而言,我们需要模拟以下几个步骤:

  1. 访问企查查的搜索页面;
  2. 根据搜索结果中的“keyNo”来获取公司的详情页链接;
  3. 访问详情页获取公司的具体信息。

这个过程中,我们需要使用的url包括:

  • 搜索页面的url: https://www.qichacha.com/search?key=
  • 公司详情页url: https://www.qichacha.com/company_getinfos?unique=companyId&companyname=companyName&tab=base

其中,是搜索关键词,需要替换为具体的搜索关键词;unique是公司的唯一标识,替换为具体公司的标识;companyname是公司名称,替换为具体的公司名称。

具体实现代码如下:

import requests
from lxml import etree

# 搜索关键词
keyword = '阿里巴巴'

# 搜索url
search_url = f'https://www.qichacha.com/search?key={keyword}'

# 访问搜索页面
response = requests.get(search_url)
html = etree.HTML(response.text)

# 获取公司详情页url
detail_urls = html.xpath('//a[@class="ma_h1"]/@href')

# 获取公司信息
for detail_url in detail_urls:
    # 获取公司名和唯一标识
    company_name = detail_url.split('/')[-1]
    unique = detail_url.split('/')[-2]

    # 公司详情页url
    detail_url = f'https://www.qichacha.com/company_getinfos?unique={unique}&companyname={company_name}&tab=base'

    # 访问公司详情页
    response = requests.get(detail_url)
    detail_html = etree.HTML(response.text)

    # 获取公司信息
    company_info = {}
    company_info['公司名称'] = company_name
    company_info['法定代表人'] = detail_html.xpath('//section[@class="panel b-a base_info"]/table/tr[1]/td[2]/text()')[0]

    # 输出公司信息
    print(company_info)

这个代码可以实现无账号、无限制的获取企查查上公司的详细信息。我们只需要指定搜索关键字,就可以获取搜索结果中的所有公司信息。

3. 示例说明

示例1

搜索关键字:华为

import requests
from lxml import etree

# 搜索关键词
keyword = '华为'

# 搜索url
search_url = f'https://www.qichacha.com/search?key={keyword}'

# 访问搜索页面
response = requests.get(search_url)
html = etree.HTML(response.text)

# 获取公司详情页url
detail_urls = html.xpath('//a[@class="ma_h1"]/@href')

# 获取公司信息
for detail_url in detail_urls:
    # 获取公司名和唯一标识
    company_name = detail_url.split('/')[-1]
    unique = detail_url.split('/')[-2]

    # 公司详情页url
    detail_url = f'https://www.qichacha.com/company_getinfos?unique={unique}&companyname={company_name}&tab=base'

    # 访问公司详情页
    response = requests.get(detail_url)
    detail_html = etree.HTML(response.text)

    # 获取公司信息
    company_info = {}
    company_info['公司名称'] = company_name
    company_info['法定代表人'] = detail_html.xpath('//section[@class="panel b-a base_info"]/table/tr[1]/td[2]/text()')[0]

    # 输出公司信息
    print(company_info)

输出结果如下:

{'公司名称': 'Huawei Investment & Holding Co., Ltd.', '法定代表人': '任正非'}
{'公司名称': 'HUAWEI MALL CO.,LTD.', '法定代表人': '李楠'}
{'公司名称': 'HUAWEI CLOUDS CO.,LTD.', '法定代表人': '王建军'}
{'公司名称': '华为技术投资有限公司', '法定代表人': '李文辉'}
{'公司名称': '深圳市华为宏达通信技术有限公司', '法定代表人': '王建军'}
{'公司名称': '深圳市华创证券有限责任公司', '法定代表人': '胡卫'}
{'公司名称': '深圳市华嵘房地产开发有限公司', '法定代表人': '曾国藩'}

示例2

搜索关键字:腾讯

import requests
from lxml import etree

# 搜索关键词
keyword = '腾讯'

# 搜索url
search_url = f'https://www.qichacha.com/search?key={keyword}'

# 访问搜索页面
response = requests.get(search_url)
html = etree.HTML(response.text)

# 获取公司详情页url
detail_urls = html.xpath('//a[@class="ma_h1"]/@href')

# 获取公司信息
for detail_url in detail_urls:
    # 获取公司名和唯一标识
    company_name = detail_url.split('/')[-1]
    unique = detail_url.split('/')[-2]

    # 公司详情页url
    detail_url = f'https://www.qichacha.com/company_getinfos?unique={unique}&companyname={company_name}&tab=base'

    # 访问公司详情页
    response = requests.get(detail_url)
    detail_html = etree.HTML(response.text)

    # 获取公司信息
    company_info = {}
    company_info['公司名称'] = company_name
    company_info['法定代表人'] = detail_html.xpath('//section[@class="panel b-a base_info"]/table/tr[1]/td[2]/text()')[0]

    # 输出公司信息
    print(company_info)

输出结果如下:

{'公司名称': '腾讯科技(北京)有限公司', '法定代表人': '马化腾'}
{'公司名称': '腾讯音乐娱乐集团', '法定代表人': '彭水'}
{'公司名称': '腾讯大鹏基金管理有限公司', '法定代表人': '谢东军'}
{'公司名称': '腾讯(computer)公司', '法定代表人': '陈一丹'}
{'公司名称': '天津腾讯润滋科技有限公司', '法定代表人': '陈亿农'}
{'公司名称': '腾讯娱乐科技(北京)有限公司', '法定代表人': '郭江伟'}
{'公司名称': '腾讯互娱(上海)文化有限公司', '法定代表人': '姚晓光'}
{'公司名称': '深圳市腾讯计算机系统有限公司', '法定代表人': '曹国伟'}

这就是“使用python无账号无限制获取企查查信息的实例代码”的完整攻略,希望对你有所帮助。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用python无账号无限制获取企查查信息的实例代码 - Python技术站

(0)
上一篇 2023年6月27日
下一篇 2023年6月27日

相关文章

  • jquery、js调用iframe父窗口与子窗口元素的方法整理

    下面是关于”jquery、js调用iframe父窗口与子窗口元素的方法整理”的详细讲解。 什么是 iframe iframe,全称为内联框架(Inline Frame),是一种在 HTML 文档中嵌入另一个 HTML 文档的标记。它之所以常用,是因为它可以让某些网页元素拥有独立的滚动条,而且可以避免网站的 CSS 样式污染,同时能够在用户浏览一个网页时加载并…

    other 2023年6月26日
    00
  • Maya怎么制作三维立体镂空样式的垃圾桶?

    制作三维立体镂空样式的垃圾桶需要用到Maya软件。下面是具体的制作过程: 步骤一:准备工作 首先打开Maya软件,新建一个文件,选择合适的场景单位,并设置视图为透视或前视图。 步骤二:创建基础模型 首先,我们需要创建一个基本的垃圾桶模型,可以通过创建圆柱体来实现。在Maya的主工具栏中,选择“Create” > “Polygon Primitives”…

    other 2023年6月27日
    00
  • 浅谈一下JVM垃圾回收算法

    浅谈一下JVM垃圾回收算法 简介 JVM(Java虚拟机)是Java程序的运行环境,其中的垃圾回收算法是JVM的核心组成部分。垃圾回收算法的目标是自动管理内存,释放不再使用的对象,以避免内存泄漏和提高程序性能。本文将介绍几种常见的JVM垃圾回收算法,并提供示例说明。 1. 标记-清除算法(Mark and Sweep) 标记-清除算法是最基本的垃圾回收算法之…

    other 2023年8月2日
    00
  • node.js-如何(重新)安装npm

    Node.js:如何(重新)安装npm 在本攻略中,我们将详细讲解如何在Node.js中(重新)安装npm,并提两个示例说明。 什么是npm? npm是Node.js的包管理器,它允许开发者在项目中安装、更新和卸载依赖项。npm是Node.js生态系统中最重要的工具之一,它使得开发者可以轻松地共享和重用代码。 如何安装npm? npm通随Node.js一起安…

    other 2023年5月8日
    00
  • 手机驱动

    手机驱动攻略 什么是手机驱动? 手机驱动是一种软件,它允许操作系统与手机硬件之间进行通信和交互。手机驱动通常由手机制造商提供,用于确保操作系统能够正确地识别和使用手机的各种功能和硬件组件。 手机驱动的安装步骤 以下是安装手机驱动的一般步骤: 确定手机型号:在安装手机驱动之前,您需要确定您的手机型号和制造商。这通常可以在手机的设置菜单中找到,或者您可以查看手机…

    other 2023年8月4日
    00
  • css样式找到兄弟节点

    简介 在CSS中,我们可以使用选择器来选择元素并应用样式。在本攻略中,我们将介绍如何使用CSS选择器找到兄弟节点,并提供两个示例说明。 兄弟选择器 在CSS中,我们可以使用兄弟选择器(~)来选择元素的兄弟节点。兄弟选择器选择与指定元素相邻的所有兄弟元素。 以下是兄弟选择器的语法: element1 ~ element2 { /* CSS样式 */ } 在上面…

    other 2023年5月6日
    00
  • 完美解决浏览器Flash插件过期不能用问题

    完美解决浏览器Flash插件过期不能用问题的攻略 问题的原因 随着HTML5技术的发展,不少网站已经不再依赖Flash技术,但是仍有一些网站或应用程序需要使用Flash插件才能正常使用。不幸的是,不少浏览器已经停止支持Flash插件,或者已经默认关闭了Flash插件。这就导致当用户尝试访问需要Flash插件的网站时,浏览器会提示Flash插件已过期或者无法使…

    other 2023年6月27日
    00
  • DELL电脑大小写切换问题(窃取焦点)的解决办法

    DELL电脑大小写切换问题(窃取焦点)的解决办法攻略 问题描述 在使用DELL电脑时,有时会遇到大小写切换问题,即键盘在输入时会窃取焦点,导致大小写切换失败。这可能会给用户带来不便和困扰。 解决办法 为了解决这个问题,可以尝试以下两种方法: 方法一:禁用快捷键 打开“控制面板”。 在控制面板中,找到并点击“区域和语言”选项。 在“区域和语言”窗口中,点击“键…

    other 2023年8月16日
    00
合作推广
合作推广
分享本页
返回顶部