load_japanese_vowels#

load_japanese_vowels(split=None, return_X_y=True, return_type=None)[source]#

加载 JapaneseVowels 时间序列分类问题。

一个具有不等长序列的多元问题的示例。

参数:
split: None 或 “TRAIN”、“TEST” 之一,可选(默认为 None)

是否加载问题的训练集或测试集实例。默认情况下,它加载训练集和测试集实例(在一个容器中)。

return_X_y: bool,可选(默认为 True)

如果为 True,则单独返回 (features, target),而不是返回一个包含 features 和 target 列的单个 dataframe。

return_type: 有效的 Panel mtype 字符串或 None,可选(默认为 None=”nested_univ”)

返回 X 的内存数据格式规范,None = “nested_univ” 类型。字符串可以是任何支持的 sktime Panel mtype,

有关 mtype 列表,请参阅 datatypes.MTYPE_REGISTER;有关规范,请参阅 examples/AA_datatypes_and_datasets.ipynb

常用的规范

“nested_univ: 嵌套的 pd.DataFrame,单元格中包含 pd.Series “numpy3D”/”numpy3d”/”np3D”: 3D np.ndarray (实例,变量,时间索引) “numpy2d”/”np2d”/”numpyflat”: 2D np.ndarray (实例,时间索引) “pd-multiindex”: 带有两级 (实例,时间) MultiIndex 的 pd.DataFrame

如果数据无法存储在请求的类型中,则会引发异常。

返回:
X: 包含 m 行 c 列的 pd.DataFrame

问题的 m 个案例和 c 个维度的时间序列数据

y: numpy 数组

X 中每个案例的类别标签

注意

维度:多元,12 序列长度:7-29 训练案例:270 测试案例:370 类别数量:9

一个 UCI Archive 数据集。记录了 9 位日本男性说话者发元音“a”和“e”的声音。对原始录音应用“12 度线性预测分析”,以获得具有 12 个维度和序列长度介于 7 到 29 之间的时间序列。分类任务是预测说话者。因此,每个实例是一个转换后的发音,具有 12*29 个值和一个附加的类别标签 [1…9]。给定的训练集包含每位说话者 30 个发音,但测试集根据时间和实验可用性等外部因素分布各异,每位说话者有 24 到 88 个实例。参考:M. Kudo, J. Toyama 和 M. Shimbo. (1999). “使用通过区域的多维曲线分类”. Pattern Recognition Letters, Vol. 20, No. 11–13, pages 1103–1111. 数据集详情:http://timeseriesclassification.com/description.php ?Dataset=JapaneseVowels

示例

>>> from sktime.datasets import load_japanese_vowels
>>> X, y = load_japanese_vowels()