scikit-learn
にてrandom_state
を指定したときの動作が何のオブジェクトを加えたかによって変わるので備忘録的にメモ。
from typing import Union, Optional
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
data = load_iris(as_frame=True)
X = data.data
y = data.target
数字で指定する場合
def test_train_test_split(
iter: int, random_state: Optional[Union[np.random.RandomState, int]]
) -> None:
X_train, X_test, y_train, y_test = train_test_split(
X, y, random_state=random_state, test_size=0.2
)
print(f"iter: {iter}")
display(y_train.to_frame().head(), y_test.to_frame().head())
for iter in range(3):
test_train_test_split(iter=iter, random_state=0)
iter: 0
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
iter: 1
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
iter: 2
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
同じ結果が得られる。
numpy.random.RandomStateで指定する場合
事前に変数として持っておくケース
rng_ = np.random.RandomState(0)
for iter in range(3):
test_train_test_split(iter=iter, random_state=rng_)
iter: 0
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
iter: 1
|
target |
52 |
1 |
131 |
2 |
113 |
2 |
98 |
1 |
30 |
0 |
|
target |
92 |
1 |
141 |
2 |
130 |
2 |
119 |
2 |
48 |
0 |
iter: 2
|
target |
107 |
2 |
90 |
1 |
9 |
0 |
147 |
2 |
148 |
2 |
|
target |
85 |
1 |
137 |
2 |
77 |
1 |
108 |
2 |
122 |
2 |
同じ結果にならない。
直接指定する場合
for iter in range(3):
test_train_test_split(iter=iter, random_state=np.random.RandomState(0))
iter: 0
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
iter: 1
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
iter: 2
|
target |
137 |
2 |
84 |
1 |
27 |
0 |
127 |
2 |
132 |
2 |
|
target |
114 |
2 |
62 |
1 |
33 |
0 |
107 |
2 |
7 |
0 |
数字で指定したのと同じ効果。再現できる。
考え方
上記の例だと少し複雑だが、簡単な例で書き換えると以下と同じ。
for i in range(3):
rng_ = np.random.RandomState(0)
print(rng_.rand())
0.5488135039273248
0.5488135039273248
0.5488135039273248
rng_ = np.random.RandomState(0)
for i in range(3):
print(rng_.rand())
0.5488135039273248
0.7151893663724195
0.6027633760716439