SingleSplit#

class SingleSplit(test_size=0.25, train_size=None, random_state=None, shuffle=True, stratify=None)[源]#

用于编排的辅助类,使用单个拆分进行训练和测试。

sklearn.model_selection.train_test_split 的包装器

参数:
*arrays具有相同长度/shape[0]的可索引序列

允许的输入包括列表、numpy 数组、scipy 稀疏矩阵或 pandas 数据框。

test_size浮点数、整数或 None,可选(默认值 0.25)

如果为浮点数,则应在 0.0 到 1.0 之间,表示包含在测试拆分中的数据集比例。如果为整数,则表示测试样本的绝对数量。如果为 None,则该值设置为训练大小的补数。默认情况下,该值设置为 0.25。默认值将在 0.21 版本中更改。仅当未指定 train_size 时,它才会保持 0.25,否则它将补充指定的 train_size

train_size浮点数、整数或 None,(默认值 None)

如果为浮点数,则应在 0.0 到 1.0 之间,表示包含在训练拆分中的数据集比例。如果为整数,则表示训练样本的绝对数量。如果为 None,则该值会自动设置为测试大小的补数。

random_state整数、RandomState 实例或 None,可选(默认值 None)

如果为整数,random_state 是随机数生成器使用的种子;如果为 RandomState 实例,random_state 是随机数生成器;如果为 None,则随机数生成器是 np.random 使用的 RandomState 实例。

shuffle布尔值,可选(默认值 True)

是否在拆分之前对数据进行洗牌。如果 shuffle=False,则 stratify 必须为 None。

stratify类数组或 None(默认值 None)

如果不是 None,则使用此类标签对数据进行分层拆分。

方法

get_n_splits()

返回拆分数量 (1)。

split(data[, y, groups])

将数据拆分为训练数据和测试数据。

split(data, y=None, groups=None)[源]#

将数据拆分为训练数据和测试数据。

参数:
datapandas 数据框

用于交叉验证的数据

返回值:
元组

(训练集, 测试集) 索引

static get_n_splits()[源]#

返回拆分数量 (1)。