【问题标题】:Storage of timeseries data in pythonpython中时间序列数据的存储
【发布时间】:2023-04-01 09:36:02
【问题描述】:

我有一个从 2015 年 2 月 1 日到 2015 年 10 月 31 日期间大约 8.5k 产品的亚马逊价格数据。目前,它采用字典的形式,键为从基准日期算起的天数并将值作为当天开始的新价格。例如,这里的价格从第 1 天开始为 10 美元,第 45 天变为 15 美元,然后在第 173 天变为 9 美元,此后不再变化。

{1:10,
 45:15,
 .
 .
 .
 173:9}

存储此类时间序列以便使用 python 轻松操作的最佳方法是什么?我想执行很多聚合,也想查询特定日期的价格。最后,我将执行一些固定效应回归并且很困惑存储这个时间序列的最佳方法是什么,这样我的编程工作就变得相对简单了。我可以存储为包含 273 列(每列一天)和对应于 8.5k 产品的行的表。我一直在寻找可以帮助我做到这一点的 pandas 模块,但是有更好的方法吗?谢谢!

【问题讨论】:

  • pandas 与 numpy 结合可能是一个不错的选择。
  • @SirParselot 我认为 pandas 本身在默认情况下严重依赖 numpy,但是您在这里看到 numpy 的特定用途吗?谢谢!
  • Pandas 确实经常使用 numpy,但我没有,但那是因为我真的不知道您将如何处理您的数据。我只是假设您会进行大量计算,并且 numpy 已针对此类内容进行了优化。
  • @harshal 提供有关产品名称列表的一些详细信息
  • @WoodChopper 产品名称列表只是每个产品的 id,因此有 8.5k 个不同的 id。

标签:
python
database
time-series
data-storage