Python Pandas - 扁平化嵌套的JSON

Python Pandas – 扁平化嵌套的JSON

2023年3月27日下午1:03 • python-answer

介绍

在处理数据时，常常会遇到数据嵌套的情况。而JSON是一种常见的数据嵌套格式，对于这种数据，我们可以使用Python的Pandas库来进行处理。本文将介绍如何使用Pandas来处理扁平化嵌套的JSON数据。

准备工作

在开始之前，需要确保已经使用pip (或者conda)安装了Pandas库。如果还未安装，可以在命令行中运行以下命令：

pip install pandas

还需要准备一个含有嵌套JSON数据的文件，例如下面这个例子：

{
    "name": "John",
    "age": 30,
    "address": {
        "street": "123 Main St.",
        "city": "New York",
        "state": "NY",
        "zip": "10001"
    },
    "phone_numbers": [
        {
            "type": "home",
            "number": "555-555-1234"
        },
        {
            "type": "work",
            "number": "555-555-5678"
        }
    ]
}

处理JSON数据

让我们先来看一个简单的例子，如何使用Pandas读取一个JSON文件并将其转换为DataFrame对象。可以使用Pandas的read_json()函数来读取JSON文件，并使用to_csv()函数将其转换为CSV文件。代码如下：

import pandas as pd

data = pd.read_json('example.json')
data.to_csv('example.csv', index=False)

上述代码中，我们使用read_json()函数将example.json文件读取，并将其转换为Pandas的DataFrame对象。我们还使用to_csv()函数将DataFrame对象转换为一个名为example.csv的CSV文件。如果需要排除索引列，可以将index参数设置为False。

但是这样处理之后仍然存在嵌套的数据，因此我们需要对其进行扁平化处理。

扁平化嵌套的JSON

在处理扁平化嵌套JSON数据时，我们需要按照以下步骤来操作：

将嵌套的数据展开，即将其转换为一系列标量值
将展开后的数据与其他数据合并到一起，形成一个扁平化的DataFrame对象

下面将分别介绍这两个步骤。

将嵌套的数据展开

对于嵌套的数据，我们需要递归地遍历数据，将每个嵌套的属性逐一展开。以下是一个展开函数的示例代码：

def flatten_json(nested_json, exclude=['']):
    out = {}
    def flatten(x, name=''):
        if type(x) is dict:
            for a in x:
                if a not in exclude: flatten(x[a], f"{name}{a}.")
        elif type(x) is list:
            i = 0
            for a in x:
                flatten(a, f"{name}{i}.")
                i += 1
        else:
            out[name[:-1]] = x
    flatten(nested_json)
    return out

在上述函数中，我们使用了递归的方式来遍历数据，并将每个嵌套的属性逐一展开。

将展开后的数据与其他数据合并

完成数据展开后，我们需要将展开后的数据与其他数据合并到一起，形成一个扁平化的DataFrame对象。

import pandas as pd
import json

# 读取JSON文件
with open('example.json', 'r') as f:
    nested_json = json.load(f)

# 展开JSON数据
flat_json = flatten_json(nested_json)

# 创建DataFrame对象
df = pd.DataFrame([flat_json])

# 将DataFrame转换为CSV文件
df.to_csv('example.csv', index=False)

上述代码中，我们首先使用read_json()函数读取JSON文件，并使用flatten_json()函数将其展开。然后我们使用DataFrame()函数创建了一个DataFrame对象，并将其转换为CSV文件。