下面是利用 pandas 读取中文数据集的详细攻略,分为以下几个步骤:
步骤一:安装 pandas
Pandas 是一款 Python 的数据分析库,支持大多数数据格式的导入、展示和处理,具有方便快捷、高效性的特点。
在命令行中输入以下命令,即可安装 pandas:
pip install pandas
如果出现权限问题,可以在命令前加上“sudo”。
或者在 Jupyter Notebook 中直接运行以下代码进行安装:
!pip install pandas
步骤二:选择数据集并下载
中文数据集可以在国内的数据共享平台、kaggle 上下载。
例如,我们选择在 kaggle 上下载 COVID-19 open source dataset 数据集。
步骤三:读取中文数据集
在 python 脚本中或 Jupyter Notebook 中导入 pandas 库,然后使用 read_csv
方法读取中文数据集。
import pandas as pd
df = pd.read_csv("corona.csv", encoding="utf-8")
# df 是 DataFrame 类型,即数据集的形式
其中参数 encoding
需要根据数据集的编码方式进行设置,常见的编码方式包括 "utf-8","gbk" 等。
值得注意的是,有些数据集可能存在缺失值或空值,这时候 pandas 可能会默认将其读取为 NaN 格式,可以通过 "keep_default_na=False"
参数解决。
df = pd.read_csv("corona.csv", encoding="utf-8", keep_default_na=False)
示例一:COVID-19 开放数据集的读取
现在我们以COVID-19 开放数据集为例,读取数据集中的留言板记录,具体步骤如下:
- 从数据集中提取 "forum.csv" 文件;
- 使用
pandas
库读取数据集; - 输出前 5 行数据;
import pandas as pd
df = pd.read_csv("corona_dataset/COVID19_open_line_list/COVID19_line_list_data.csv", encoding="utf-8")
forum_df = df[["ID", "reporting date", "location", "notes"]]
print(forum_df.head())
示例二:游戏销售数据的读取
如果我们需要读取一个游戏的销售数据集,并想对一些属性进行过滤或截取,可以按照以下步骤进行:
- 从数据集中提取 "vgsales.csv" 文件;
- 使用
pandas
库读取数据集; - 根据需要筛选或截取属性或记录;
- 输出前 5 行数据。
代码如下:
import pandas as pd
df = pd.read_csv("vgsales.csv")
game_df = df[["Name", "Platform", "Year", "Genre", "Publisher", "NA_Sales", "EU_Sales", "JP_Sales"]]
print(game_df.head())
以上就是利用 pandas 读取中文数据集的完整攻略了,具体步骤和示例都进行了详细说明,希望能对你有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:利用pandas读取中文数据集的方法 - Python技术站