load_UCR_UEA_dataset#

load_UCR_UEA_dataset(name, split=None, return_X_y=True, return_type=None, extract_path=None, y_dtype='str')[源代码]#

从 UCR UEA 时间序列存档加载数据集。

如果数据集尚未下载，则下载并提取。数据假定为标准 .ts 格式：每行是一个（可能是多元的）时间序列。每个维度由冒号分隔，序列中的每个值由逗号分隔。示例请参见 sktime.datasets.data.tsc。ArrowHead 是单变量等长问题的示例，BasicMotions 是多元等长问题的示例。

参数:

namestr

数据集名称。如果给定 tsc_dataset_names 中列出的数据集，此函数将首先在 extract_path 中查找，如果不存在，则尝试从 www.timeseriesclassification.com 下载数据，并将其保存到 extract_path。

splitNone or str{"train", "test"}，可选（默认值=None）

是否加载问题的训练或测试分区。默认情况下，它将两者加载到单个数据集中，否则它只查找格式为 <name>_TRAIN.ts 或 <name>_TEST.ts 的文件。

return_X_ybool，可选（默认值=False）

它返回两个对象，如果为 False，则将类别标签附加到 dataframe。

return_type: 有效的 Panel mtype str 或 None，可选（默认值=None=”nested_univ”）

返回 X 时使用的内存数据格式规范，None = “nested_univ” 类型。str 可以是任何受支持的 sktime Panel mtype，

mtypes 列表，请参见 datatypes.MTYPE_REGISTER
规范，请参见 examples/AA_datatypes_and_datasets.ipynb

常用规范

“numpy3D”/”numpy3d”/”np3D”: 3D np.ndarray（实例、变量、时间索引）
“numpy2d”/”np2d”/”numpyflat”: 2D np.ndarray（实例、时间索引）
“pd-multiindex”: 具有两级（实例、时间）MultiIndex 的 pd.DataFrame
“nested_univ: 嵌套的 pd.DataFrame，单元格中的 pd.Series

如果数据无法存储在请求的类型中，则会引发异常。

extract_pathstr，可选（默认值=None）

查找数据的路径。如果未提供路径，则函数会在 sktime/datasets/data/ 中查找。如果提供了路径，可以是绝对路径，

例如 C:/Temp，或相对路径，例如 Temp 或 ./Temp。

y_dtype: str，可选（默认值=’str’）

目标变量的 dtype。

返回值:

X: pd.DataFrame: 问题的时序数据，具有 n_cases 行和 n_dimensions 或 n_dimensions+1 列。第 1 列到第 n_dimensions 列是与每个案例相关的序列。如果 return_X_y 为 False，则第 n_dimensions+1 列包含类别标签/目标变量。
y: numpy 数组，可选: X 中每个案例的类别标签，如果 return_X_y 为 True，则单独返回，如果为 False，则附加到 X。

示例

>>> from sktime.datasets import load_UCR_UEA_dataset
>>> X, y = load_UCR_UEA_dataset(name="ArrowHead")