load_japanese_vowels#

load_japanese_vowels(split=None, return_X_y=True, return_type=None)[source]#

加载 JapaneseVowels 时间序列分类问题。

一个具有不等长序列的多元问题的示例。

参数:

split: None 或 “TRAIN”、“TEST” 之一，可选（默认为 None）

是否加载问题的训练集或测试集实例。默认情况下，它加载训练集和测试集实例（在一个容器中）。

return_X_y: bool，可选（默认为 True）

如果为 True，则单独返回 (features, target)，而不是返回一个包含 features 和 target 列的单个 dataframe。

return_type: 有效的 Panel mtype 字符串或 None，可选（默认为 None=”nested_univ”）

返回 X 的内存数据格式规范，None = “nested_univ” 类型。字符串可以是任何支持的 sktime Panel mtype，

有关 mtype 列表，请参阅 datatypes.MTYPE_REGISTER；有关规范，请参阅 examples/AA_datatypes_and_datasets.ipynb

常用的规范: “nested_univ: 嵌套的 pd.DataFrame，单元格中包含 pd.Series “numpy3D”/”numpy3d”/”np3D”: 3D np.ndarray (实例，变量，时间索引) “numpy2d”/”np2d”/”numpyflat”: 2D np.ndarray (实例，时间索引) “pd-multiindex”: 带有两级 (实例，时间) MultiIndex 的 pd.DataFrame

如果数据无法存储在请求的类型中，则会引发异常。

返回:

X: 包含 m 行 c 列的 pd.DataFrame: 问题的 m 个案例和 c 个维度的时间序列数据
y: numpy 数组: X 中每个案例的类别标签

注意

维度：多元，12 序列长度：7-29 训练案例：270 测试案例：370 类别数量：9

一个 UCI Archive 数据集。记录了 9 位日本男性说话者发元音“a”和“e”的声音。对原始录音应用“12 度线性预测分析”，以获得具有 12 个维度和序列长度介于 7 到 29 之间的时间序列。分类任务是预测说话者。因此，每个实例是一个转换后的发音，具有 12*29 个值和一个附加的类别标签 [1…9]。给定的训练集包含每位说话者 30 个发音，但测试集根据时间和实验可用性等外部因素分布各异，每位说话者有 24 到 88 个实例。参考：M. Kudo, J. Toyama 和 M. Shimbo. (1999). “使用通过区域的多维曲线分类”. Pattern Recognition Letters, Vol. 20, No. 11–13, pages 1103–1111. 数据集详情：http://timeseriesclassification.com/description.php ?Dataset=JapaneseVowels

示例

>>> from sktime.datasets import load_japanese_vowels
>>> X, y = load_japanese_vowels()