Pandas是一个强大的数据分析工具,它的时间序列处理功能也非常强大。Pandas提供了一些专门用于处理时间序列的数据类型和函数,能够方便地对时间序列数据进行处理和分析。
下面将详细介绍Pandas时间序列的相关知识。
DatetimeIndex
在Pandas中,DatetimeIndex是一个表示时间序列的数据类型,它能够方便地对时间序列进行索引和切片操作。要创建DatetimeIndex,可以使用Pandas的to_datetime()函数将字符串转换为DatetimeIndex。例如:
import pandas as pd
date_str = ['2020-01-01', '2020-01-02', '2020-01-03']
date_index = pd.to_datetime(date_str)
print(date_index)
输出结果为:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq=None)
可以看到,to_datetime()函数将字符串列表转换为了DatetimeIndex,dtype为datetime64[ns],表示精确到纳秒级别。
DatetimeIndex可以用于对数据进行索引和切片操作。例如:
data = [1, 2, 3]
s = pd.Series(data, index=date_index)
print(s)
print(s['2020-01-02'])
print(s['2020-01'])
输出结果为:
2020-01-01 1
2020-01-02 2
2020-01-03 3
dtype: int64
2
2020-01-01 1
2020-01-02 2
2020-01-03 3
dtype: int64
可以看到,可以通过DatetimeIndex进行索引和切片操作,可以按年、月、日等不同时间粒度进行切片。
Pandas时间序列的生成方法
除了使用to_datetime()函数将字符串转换为DatetimeIndex外,Pandas还提供了一些其他方法用于生成时间序列。
pd.date_range()
pd.date_range()函数可以生成指定范围内的时间序列,常用的参数有start、end、periods、freq等。例如:
date_range = pd.date_range(start='2020-01-01', end='2020-01-10', freq='D')
print(date_range)
输出结果为:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
'2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
'2020-01-09', '2020-01-10'],
dtype='datetime64[ns]', freq='D')
可以看到,pd.date_range()函数生成了从2020-01-01到2020-01-10的时间序列,每隔一天生成一个时间点。
pd.period_range()
pd.period_range()函数可以生成指定范围内的时期序列,常用的参数有start、end、periods、freq等。例如:
period_range = pd.period_range(start='2020-01', end='2020-03', freq='M')
print(period_range)
输出结果为:
PeriodIndex(['2020-01', '2020-02', '2020-03'], dtype='period[M]', freq='M')
可以看到,pd.period_range()函数生成了2020年1月到3月的时期序列,每隔一个月生成一个时期。
pd.timedelta_range()
pd.timedelta_range()函数可以生成指定时间间隔的时间序列,常用的参数有start、end、periods、freq等。例如:
time_delta_range = pd.timedelta_range(start='1 day', end='3 day', freq='12H')
print(time_delta_range)
输出结果为:
TimedeltaIndex(['1 days 00:00:00', '1 days 12:00:00', '2 days 00:00:00',
'2 days 12:00:00', '3 days 00:00:00'],
dtype='timedelta64[ns]', freq='12H')
可以看到,pd.timedelta_range()函数生成了从1天到3天的时间序列,每隔12小时生成一个时间点。
Pandas 时间序列的操作方法
Pandas提供了一些用于处理时间序列的函数,能够方便地进行时间序列的操作。
重采样
重采样是指将时间序列从一个频率转换为另一个频率的过程,例如将每天的数据转换为每周的数据。Pandas提供了resample()函数用于重采样,常用的参数有rule、how、closed、label等。例如:
date_str = ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05', '2020-01-06', '2020-01-07']
data = [1, 2, 3, 4, 5, 6, 7]
s = pd.Series(data, index=pd.to_datetime(date_str))
s_resampled = s.resample('2D').sum()
print(s_resampled)
输出结果为:
2020-01-01 4
2020-01-03 9
2020-01-05 13
2020-01-07 7
dtype: int64
可以看到,resample()函数将原来每天的数据转换为每两天的数据,并求和。
移动窗口
移动窗口是指在时间序列上按照一个固定的窗口大小进行移动,计算每个窗口内的统计量,例如平均值、方差等。Pandas提供了rolling()函数用于移动窗口操作,常用的参数有window、min_periods、center等。例如:
date_str = ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05', '2020-01-06', '2020-01-07']
data = [1, 2, 3, 4, 5, 6, 7]
s = pd.Series(data, index=pd.to_datetime(date_str))
s_rolling = s.rolling(window=3).mean()
print(s_rolling)
输出结果为:
2020-01-01 NaN
2020-01-02 NaN
2020-01-03 2.000000
2020-01-04 3.000000
2020-01-05 4.000000
2020-01-06 5.000000
2020-01-07 6.000000
dtype: float64
可以看到,rolling()函数计算了每三天的移动平均值,并在每个窗口中心输出一个平均值。
时间偏移
时间偏移是指在时间轴上按照一定规则进行时间的加减,例如加一天、减一月等。Pandas提供了一些时间偏移对象,例如Day、Month、Year等,以及DateOffset对象,用于定义自定义的时间偏移规则。时间偏移可以通过加减运算符来进行操作。例如:
date_str = '2020-01-01'
date = pd.to_datetime(date_str)
date_offset = pd.offsets.MonthEnd()
date_end = date + date_offset
print(date_end)
输出结果为:
2020-01-31 00:00:00
可以看到,代码使用MonthEnd()对象定义了月末时间偏移,然后将2020年1月1日加上月末时间偏移,得到了2020年1月31日。
总结
Pandas的时间序列功能非常强大,能够方便地进行时间序列数据的处理和分析。本文介绍了Pandas的时间序列的生成方法和操作方法,包括时间序列的索引、生成方法和操作方法,例如重采样、移动窗口和时间偏移等。
本文链接:https://my.lmcjl.com/post/20054.html
4 评论