ExpandingCutoffSplitter#
- class ExpandingCutoffSplitter(cutoff, fh, step_length)[source]#
用于时间序列数据的扩展截止点分割器。
此分割器结合了 ExpandingWindowSplitter 和 CutoffSplitter 的元素来创建训练集和测试集。与 ExpandingWindowSplitter 不同,后者从固定的初始窗口开始,此分割器使用特定的截止点作为训练集的起始窗口。然后训练集在每次分割中递增扩展,直到达到序列的末尾。
测试集由相对于训练集中最后一点的预测范围定义,包含由 fh 参数指定数量的后续索引。
y 索引和截止点的有效配对类型为 datelike-datelike, datelike-int, 和 int-int。当日期类索引与 int 类型截止点结合时,截止点用作 iloc 索引器。当 int 类型索引与正 int 类型截止点配对时,截止点用作 loc 索引器。如果 int 类型截止点为负,它用作 iloc 索引器。
例如,对于
cutoff = 10
,step_length = 1
和fh = [1, 2, 3, 4, 5, 6]
,下面是折叠的表示:|---------------------|—-fh—-|------| | * * * * * * * * * * x x x x x x - - - | | * * * * * * * * * * * x x x x x x - - | | * * * * * * * * * * * * x x x x x x - | | * * * * * * * * * * * * * x x x x x x |
c
= 截止日期或索引。*
= 训练集。x
= 测试集。- 参数:
- cutoff (int or pd.Timestamp)
序列中的初始截止点,标志着第一个测试集的开始。
- fh (int, list, or np.array)
预测范围,确定测试集的大小和索引。它可以是整数、列表或数组。
- step_length (int)
每次分割中扩展训练集大小的步长。
示例
>>> import pandas as pd >>> from sktime.split import ExpandingCutoffSplitter >>> date_range = pd.date_range(start='2020-Q1', end='2021-Q3', freq='QS') >>> y = pd.DataFrame(index=pd.PeriodIndex(date_range, freq='Q')) >>> cutoff = pd.Period('2021-Q1') >>> cv = ExpandingCutoffSplitter(cutoff=cutoff, fh=[1, 2], step_length=1) >>> list(cv.split(y)) [(array([0, 1, 2, 3]), array([4, 5])), (array([0, 1, 2, 3, 4]), array([5, 6]))]
方法
clone
()获取一个具有相同超参数和配置的对象克隆。
clone_tags
(estimator[, tag_names])从另一个对象克隆标签作为动态覆盖。
create_test_instance
([parameter_set])使用第一个测试参数集构造类的实例。
create_test_instances_and_names
([parameter_set])创建所有测试实例列表及其名称列表。
get_class_tag
(tag_name[, tag_value_default])从类中获取类标签值,具有来自父类的标签级别继承。
从类中获取类标签,具有来自父类的标签级别继承。
获取自身的配置标志。
get_cutoffs
([y])在 .iloc[] 上下文中返回截止点。
get_fh
()返回预测范围。
get_n_splits
([y])返回分割数量。
获取对象的默认参数。
get_param_names
([sort])获取对象的参数名称。
get_params
([deep])获取此对象的参数值字典。
get_tag
(tag_name[, tag_value_default, ...])从实例中获取标签值,具有标签级别继承和覆盖。
get_tags
()从实例中获取标签,具有标签级别继承和覆盖。
get_test_params
([parameter_set])返回分割器的测试参数设置。
检查对象是否由其他 BaseObject 组成。
load_from_path
(serial)从文件位置加载对象。
load_from_serial
(serial)从序列化内存容器加载对象。
reset
()将对象重置为干净的初始化后状态。
save
([path, serialization_format])将序列化的自身保存到字节类对象或 (.zip) 文件。
set_config
(**config_dict)将配置标志设置为给定值。
set_params
(**params)设置此对象的参数。
set_random_state
([random_state, deep, ...])设置自身的 random_state 伪随机种子参数。
set_tags
(**tag_dict)将实例级别标签覆盖设置为给定值。
split
(y)获取 y 的训练/测试分割的 iloc 引用。
split_loc
(y)获取 y 的训练/测试分割的 loc 引用。
split_series
(y)将 y 分割成训练窗口和测试窗口。
- get_cutoffs(y: Series | DataFrame | ndarray | Index | None = None) ndarray [source]#
在 .iloc[] 上下文中返回截止点。
- 参数:
- ypd.Series 或 pd.Index,可选 (默认值=None)
要分割的时间序列
- 返回:
- cutoffs1D np.ndarray 类型为 int
截止索引相对于 y 的 iloc 位置索引
- classmethod get_test_params(parameter_set='default')[source]#
返回分割器的测试参数设置。
- 参数:
- parameter_setstr,默认值=”default”
要返回的测试参数集的名称,用于测试。如果某个值没有定义特殊参数,将返回
"default"
集。
- 返回:
- paramsdict 或 dict 列表,默认值 = {}
用于创建类的测试实例的参数。每个 dict 都是用于构造一个“有趣的”测试实例的参数,即
MyClass(**params)
或MyClass(**params[i])
创建一个有效的测试实例。create_test_instance
使用params
中的第一个(或唯一一个)字典。
- clone()[source]#
获取一个具有相同超参数和配置的对象克隆。
克隆是一个不同的对象,没有共享引用,处于初始化后状态。此函数等同于返回
self
的sklearn.clone
。等同于使用
self
的参数构造一个type(self)
的新实例,即type(self)(**self.get_params(deep=False))
。如果在
self
上设置了配置,克隆也将具有与原始对象相同的配置,等同于调用cloned_self.set_config(**self.get_config())
。在值上与调用
self.reset
也等效,不同之处在于clone
返回一个新对象,而不是像reset
那样修改self
。- 抛出:
- RuntimeError,如果克隆不符合要求,由于
__init__
有误。
- RuntimeError,如果克隆不符合要求,由于
- clone_tags(estimator, tag_names=None)[source]#
从另一个对象克隆标签作为动态覆盖。
每个
scikit-base
兼容对象都有一本标签字典。标签可用于存储有关对象的元数据,或控制对象的行为。clone_tags
从另一个对象estimator
设置动态标签覆盖。clone_tags
方法应仅在对象的__init__
方法中调用,即在构造期间或通过__init__
直接构造之后。动态标签被设置为
estimator
中标签的值,名称在tag_names
中指定。tag_names
的默认行为是将estimator
中的所有标签写入self
。当前标签值可以通过
get_tags
或get_tag
进行检查。estimator:class:BaseObject 或派生类的实例
- 要返回的测试参数集的名称,用于测试。如果某个值没有定义特殊参数,将返回 “default” 集。
使用第一个测试参数集构造类的实例。
- objscls 的实例列表
创建所有测试实例列表及其名称列表。
-
get_class_tag
方法是一个类方法,只考虑类级别标签值和覆盖来检索标签的值。 从类中获取类标签值,具有来自父类的标签级别继承。
每个
scikit-base
兼容对象都有一本标签字典。标签可用于存储有关对象的元数据,或控制对象的行为。clone_tags
从另一个对象estimator
设置动态标签覆盖。它从对象中返回名为
tag_name
的标签值,考虑标签覆盖,优先级按降序排列如下:在类的
_tags
属性中设置的标签。在父类的
_tags
属性中设置的标签,按继承顺序。
不考虑在实例上设置的动态标签覆盖,即通过
set_tags
或clone_tags
在实例上定义的标签。要检索可能带有实例覆盖的标签值,请改用
get_tag
方法。tag_namestr
-
get_class_tags
方法是一个类方法,只考虑类级别标签值和覆盖来检索标签的值。 从类中获取类标签,具有来自父类的标签级别继承。
每个
scikit-base
兼容对象都有一本标签字典。标签可用于存储有关对象的元数据,或控制对象的行为。clone_tags
从另一个对象estimator
设置动态标签覆盖。它返回一个字典,其键是类或其任何父类中设置的
_tags
的任何属性的键。值是相应的标签值,覆盖顺序按降序排列如下:
实例可以根据超参数覆盖这些标签。
在父类的
_tags
属性中设置的标签,按继承顺序。
不考虑在实例上设置的动态标签覆盖,即通过
set_tags
或clone_tags
在实例上定义的标签。若要包含来自动态标签的覆盖,请使用
get_tags
。collected_tagsdict
要检索可能带有实例覆盖的标签值,请改用
get_tag
方法。标签名称: 标签值 对的字典。通过嵌套继承从
_tags
类属性收集。不会被通过set_tags
或clone_tags
设置的动态标签覆盖。
-
get_config
返回动态配置,它们会覆盖默认配置。 获取自身的配置标志。
默认配置在类或其父类的类属性
_config
中设置,并被通过set_config
设置的动态配置覆盖。配置在
clone
或reset
调用中保留。config_dictdict
配置名称: 配置值 对的字典。通过嵌套继承从 _config 类属性收集,然后来自 _onfig_dynamic 对象属性的任何覆盖和新标签。
- 返回:
- get_fh() ForecastingHorizon [source]#
fhForecastingHorizon
- 预测范围
返回预测范围。
- 时间序列可以是任何 Series, Panel, 或 Hierarchical mtype 格式 要分割的时间序列的索引,或要分割的时间序列 如果是时间序列,则被视为等效 pandas 类型容器的索引:pd.DataFrame, pd.Series, pd-multiindex, 或 pd_multiindex_hier mtype
返回分割数量。
- default_dict: dict[str, Any]
键是
cls
中所有在__init__
中定义了默认值的参数。值是默认值,如__init__
中所定义。
- sortbool,默认值=True
是否按字母顺序排序返回参数名称 (True),或者按它们在类
__init__
中出现的顺序返回 (False)。
- 是否返回组件的参数。
获取此对象的参数值字典。
- 参数:
- 如果为
True
,将返回此对象的参数名称: 值字典,包括组件的参数(=BaseObject
值的参数)。 如果为
False
,将返回此对象的参数名称: 值字典,但不包括组件的参数。params键为 str 值的 dict
参数字典,paramname : paramvalue 键值对包括
- 如果为
- 返回:
- 总是:此对象的所有参数,如通过
get_param_names
获取的值是该键的参数值,这些值始终与构造时传递的值相同 如果
deep=True
,还包含组件参数的键/值对 组件的参数索引为[componentname]__[paramname]
componentname
的所有参数都以paramname
及其值的形式出现
- 总是:此对象的所有参数,如通过
-
通过
set_tags
或clone_tags
在实例上设置的标签, 从实例中获取标签值,具有标签级别继承和覆盖。
每个
scikit-base
兼容对象都有一本标签字典。标签可用于存储有关对象的元数据,或控制对象的行为。clone_tags
从另一个对象estimator
设置动态标签覆盖。在实例构造时。
要检索的标签名称
tag_value_default任意类型,可选;默认值=None
在父类的
_tags
属性中设置的标签,按继承顺序。
不考虑在实例上设置的动态标签覆盖,即通过
set_tags
或clone_tags
在实例上定义的标签。- 参数:
- 标签值的名称。
如果未找到标签,则使用的默认值/备用值
- raise_errorbool
未找到标签时是否抛出
ValueError
- tag_value任意类型
self
中tag_name
标签的值。如果未找到,则在raise_error
为 True 时抛出错误,否则返回tag_value_default
。
- 返回:
- ValueError,如果
raise_error
为True
。 如果
tag_name
不在self.get_tags().keys()
中,则会抛出ValueError
。
- ValueError,如果
- 抛出:
-
标签名称: 标签值 对的字典。通过嵌套继承从
_tags
类属性收集,然后来自_tags_dynamic
对象属性的任何覆盖和新标签。 从实例中获取标签,具有标签级别继承和覆盖。
每个
scikit-base
兼容对象都有一本标签字典。标签可用于存储有关对象的元数据,或控制对象的行为。clone_tags
从另一个对象estimator
设置动态标签覆盖。实例可以根据超参数覆盖这些标签。
要检索的标签名称
tag_value_default任意类型,可选;默认值=None
在父类的
_tags
属性中设置的标签,按继承顺序。
不考虑在实例上设置的动态标签覆盖,即通过
set_tags
或clone_tags
在实例上定义的标签。
- composite: bool
检查对象是否由其他 BaseObject 组成。
对象是否有任何参数,其值是
BaseObject
的后代实例。
-
反序列化的自身,其结果输出在
path
处,即cls.save(path)
的输出 从文件位置加载对象。
-
反序列化的自身,其结果输出
serial
,即cls.save(None)
的输出 从序列化内存容器加载对象。
-
一个
reset
调用会删除所有对象属性,除了 将对象重置为干净的初始化后状态。
超参数 = 写入
self
的__init__
参数,例如self.paramname
,其中paramname
是__init__
的一个参数包含双下划线(即字符串“__”)的对象属性。例如,名为“__myattr”的属性会保留。
配置属性,配置会保留不变。也就是说,在
reset
之前和之后get_config
的结果是相等的。类和对象方法以及类属性也不受影响。
等同于
clone
,不同之处在于reset
修改self
而不是返回一个新对象。
在调用
self.reset()
后,self
的值和状态与构造函数调用 ``type(self)(**self.get_params(deep=False))`` 后获得的对象相同。类实例重置为干净的初始化后状态,但保留当前的超参数值。
save(path=None, serialization_format='pickle')[source]#
- 返回:
- 引用
self
。 行为:如果
path
为 None,则返回内存中的序列化自身;如果path
是文件位置,则将自身在该位置存储为 zip 文件
- 引用
- 保存的文件是 zip 文件,包含以下内容:_metadata - 包含自身的类,即 type(self) _obj - 序列化的自身。此类使用默认序列化(pickle)。
将序列化的自身保存到字节类对象或 (.zip) 文件。
pathNone 或文件位置 (str 或 Path)
如果为 None,则将自身保存到内存对象 如果是文件位置,则将自身保存到该文件位置。如果
- 参数:
- path=”estimator”,则会在当前工作目录创建 zip 文件
estimator.zip
。 path=”/home/stored/estimator”,则会在
/home/stored/
中创建 zip 文件estimator.zip
。存储在
/home/stored/
中。serialization_format: str,默认值 = “pickle”
用于序列化的模块。可用选项为 “pickle” 和 “cloudpickle”。请注意,非默认格式可能需要安装其他软依赖。
- 如果
path
为 None - 内存中的序列化自身 如果
path
是文件位置 - ZipFile,引用该文件
- path=”estimator”,则会在当前工作目录创建 zip 文件
- 返回:
- displaystr,“diagram”(默认值)或“text”
将配置标志设置为给定值。
- 参数:
- get_fh() ForecastingHorizon [source]#
jupyter kernel 如何显示自身的实例
- “diagram” = html 框图表示
“text” = 字符串打印输出
print_changed_onlybool,默认值=True
打印自身时是否仅列出与默认值不同的自身参数 (False),或列出所有参数名称和值 (False)。不嵌套,即只影响自身,不影响组件估计器。
- warningsstr,“on”(默认值)或“off”
是否抛出警告,仅影响来自 sktime 的警告
- “on” = 将抛出来自 sktime 的警告
“off” = 将不抛出来自 sktime 的警告
backend:parallelstr,可选,默认值=”None”
用于广播/向量化时的并行处理后端,可选值为:
- “None”:顺序执行循环,简单的列表推导
“loky”, “multiprocessing” 和 “threading”:使用
joblib.Parallel
“joblib”:自定义和第三方
joblib
后端,例如spark
“dask”:使用
dask
,需要环境中安装dask
包“ray”:使用
ray
,需要环境中安装ray
包backend:parallel:paramsdict,可选,默认值={}(未传递参数)
作为配置传递给并行处理后端的额外参数。有效键取决于
backend:parallel
的值
- “None”:无额外参数,忽略
backend_params
“loky”, “multiprocessing” 和 “threading”:默认的
joblib
后端 任何joblib.Parallel
的有效键都可以传递,例如n_jobs
,但backend
除外,它由backend
直接控制。如果未传递n_jobs
,它将默认为-1
,其他参数将默认为joblib
的默认值。“joblib”:自定义和第三方
joblib
后端,例如spark
。任何joblib.Parallel
的有效键都可以传递,例如n_jobs
,在这种情况下必须将backend
作为backend_params
的一个键传递。如果未传递n_jobs
,它将默认为-1
,其他参数将默认为joblib
的默认值。“dask”:可以传递
dask.compute
的任何有效键,例如scheduler
“ray”:可以传递以下键:
“ray_remote_args”:
ray.init
的有效键字典“shutdown_ray”:bool,默认值=True;False 防止
ray
在并行处理后关闭。
- “logger_name”:str,默认值=”ray”;要使用的 logger 的名称。
“mute_warnings”:bool,默认值=False;如果为 True,则抑制警告
self引用自身。
注意
- 返回:
- 更改对象状态,将 config_dict 中的配置复制到 self._config_dynamic。
该方法适用于简单的 skbase 对象以及复合对象。参数键字符串
<component>__<parameter>
可用于复合对象(即包含其他对象的对象),以访问组件<component>
中的<parameter>
。如果引用是明确的(例如,没有两个组件参数同名<parameter>
),也可以使用不带<component>__
的字符串<parameter>
。
- **paramsdict
设置此对象的参数。
BaseObject 参数,键必须是
<component>__<parameter>
字符串。__
后缀可以在 get_params 键中唯一时用作完整字符串的别名。
-
根据
self_policy
,应用于self
中的random_state
参数,并且当且仅当deep=True
时应用于剩余的组件对象。 设置自身的 random_state 伪随机种子参数。
注意:即使
self
没有random_state
参数,或者没有任何组件具有random_state
参数,也会调用set_params
。因此,set_random_state
将重置任何scikit-base
对象,即使是那些没有random_state
参数的对象。random_stateint, RandomState 实例或 None,默认值=None
控制随机整数生成的伪随机数生成器。传递 int 可在多次函数调用中获得可重现的输出。
- 参数:
- 是否在 skbase 对象值参数(即组件估计器)中设置随机状态。
如果为 False,将仅设置
self
的random_state
参数(如果存在)。- 如果为
True
,将返回此对象的参数名称: 值字典,包括组件的参数(=BaseObject
值的参数)。 如果为 True,也会在组件对象中设置
random_state
参数。self_policystr,以下之一 {“copy”, “keep”, “new”},默认值=”copy”
“copy”:
self.random_state
设置为输入的random_state
- “keep”:
self.random_state
保持不变 “new”:
self.random_state
设置为一个新的随机状态,派生自输入的
random_state
,通常与之不同self引用自身
- 返回:
set_tags
将动态标签覆盖设置为tag_dict
中指定的值,其中键是标签名称,dict 值是要将标签设置为什么值。
-
set_tags
方法应仅在对象的__init__
方法中调用,即在构造期间或通过__init__
直接构造之后。 将实例级别标签覆盖设置为给定值。
每个
scikit-base
兼容对象都有一本标签字典。标签可用于存储有关对象的元数据,或控制对象的行为。clone_tags
从另一个对象estimator
设置动态标签覆盖。**tag_dictdict
标签名称: 标签值 对的字典。
estimator:class:BaseObject 或派生类的实例
- train1D np.ndarray 类型为 int
获取 y 的训练/测试分割的 iloc 引用。
- 参数:
- n_splitsint
分割的数量。
- 训练窗口索引,y 中训练索引的 iloc 引用
- test1D np.ndarray 类型为 int
测试窗口索引,y 中测试索引的 iloc 引用
- 测试1维 np.ndarray,数据类型为 int
测试窗口索引,对 y 中测试索引的 iloc 引用