TensorFlow初始化器
初始化为常量
tf中使用 tf.constant_initializer(value) 类生成一个初始值为常量 value 的 tensor 对象。
constant_initializer 类的构造函数定义:
def __init__(self, value=0, dtype=dtypes.float32, verify_shape=False):
self.value = value
self.dtype = dtypes.as_dtype(dtype)
self._verify_shape = verify_shape
- value:指定的常量
- dtype: 数据类型
- verify_shape: 是否可以调整tensor的形状,默认可以调整
import tensorflow as tf
value = [0, 1, 2, 3, 4, 5, 6, 7]
init = tf.constant_initializer(value)
with tf.Session() as sess:
x = tf.get_variable('x', shape=[8], initializer=init)
x.initializer.run()
print(x.eval())
#output:
#[ 0. 1. 2. 3. 4. 5. 6. 7.]
神经网络中经常使用常量初始化方法来初始化偏置项。
当初始化一个维数很多的常量时,一个一个指定每个维数上的值很不方便,tf提供了 tf.zeros_initializer() 和 tf.ones_initializer() 类,分别用来初始化全 0 和全 1 的tensor 对象。
import tensorflow as tf
init_zeros=tf.zeros_initializer()
init_ones = tf.ones_initializer
with tf.Session() as sess:
x = tf.get_variable('x', shape=[8], initializer=init_zeros)
y = tf.get_variable('y', shape=[8], initializer=init_ones)
x.initializer.run()
y.initializer.run()
print(x.eval())
print(y.eval())
#output:
# [ 0. 0. 0. 0. 0. 0. 0. 0.]
# [ 1. 1. 1. 1. 1. 1. 1. 1.]
初始化为正态分布
初始化参数为正态分布在神经网络中应用的最多,可以初始化为标准正态分布和截断正态分布。
tf中使用 tf.random_normal_initializer() 类来生成一组符合标准正态分布的 tensor。
tf中使用 tf.truncated_normal_initializer() 类来生成一组符合截断正态分布的 tensor。
tf.random_normal_initializer 类和 tf.truncated_normal_initializer 的构造函数定义:
def __init__(self, mean=0.0, stddev=1.0, seed=None, dtype=dtypes.float32):
self.mean = mean
self.stddev = stddev
self.seed = seed
self.dtype = _assert_float_dtype(dtypes.as_dtype(dtype))
- mean: 正态分布的均值,默认值0
- stddev: 正态分布的标准差,默认值1
- seed: 随机数种子,指定seed的值可以每次都生成同样的数据
- dtype: 数据类型
import tensorflow as tf
init_random = tf.random_normal_initializer(mean=0.0, stddev=1.0, seed=None, dtype=tf.float32)
init_truncated = tf.truncated_normal_initializer(mean=0.0, stddev=1.0, seed=None, dtype=tf.float32)
with tf.Session() as sess:
x = tf.get_variable('x', shape=[10], initializer=init_random)
y = tf.get_variable('y', shape=[10], initializer=init_truncated)
x.initializer.run()
y.initializer.run()
print(x.eval())
print(y.eval())
#output:
# [-0.40236568 -0.35864913 -0.94253045 -0.40153521 0.1552504 1.16989613
# 0.43091929 -0.31410623 0.70080078 -0.9620409 ]
# [ 0.18356581 -0.06860946 -0.55245203 1.08850253 -1.13627422 -0.1006074
# 0.65564936 0.03948414 0.86558545 -0.4964745 ]
初始化为均匀分布
tf中使用 tf.random_uniform_initializer 类来生成一组符合均匀分布的 tensor。
tf.random_uniform_initializer 类构造函数定义:
def __init__(self, minval=0, maxval=None, seed=None, dtype=dtypes.float32):
self.minval = minval
self.maxval = maxval
self.seed = seed
self.dtype = dtypes.as_dtype(dtype)
- minval: 最小值
- maxval: 最大值
- seed:随机数种子
- dtype: 数据类型
import tensorflow as tf
init_uniform = tf.random_uniform_initializer(minval=0, maxval=10, seed=None, dtype=tf.float32)
with tf.Session() as sess:
x = tf.get_variable('x', shape=[10], initializer=init_uniform)
x.initializer.run()
print(x.eval())
# output:
# [ 6.93343639 9.41196823 5.54009819 1.38017178 1.78720832 5.38881063
# 3.39674473 8.12443542 0.62157512 8.36026382]
从输出可以看到,均匀分布生成的随机数并不是从小到大或者从大到小均匀分布的,这里均匀分布的意义是每次从一组服从均匀分布的数里边随机抽取一个数。
tf 中另一个生成均匀分布的类是 tf.uniform_unit_scaling_initializer(),构造函数是:
def __init__(self, factor=1.0, seed=None, dtype=dtypes.float32):
self.factor = factor
self.seed = seed
self.dtype = _assert_float_dtype(dtypes.as_dtype(dtype))
同样都是生成均匀分布,tf.uniform_unit_scaling_initializer 跟 tf.random_uniform_initializer 不同的地方是前者不需要指定最大最小值,是通过公式计算出来的:
max_val = math.sqrt(3 / input_size) * factor
min_val = -max_val
input_size是生成数据的维度,factor是系数。
import tensorflow as tf
init_uniform_unit = tf.uniform_unit_scaling_initializer(factor=1.0, seed=None, dtype=tf.float32)
with tf.Session() as sess:
x = tf.get_variable('x', shape=[10], initializer=init_uniform_unit)
x.initializer.run()
print(x.eval())
# output:
# [-1.65964031 0.59797513 -0.97036457 -0.68957627 1.69274557 1.2614969
# 1.55491126 0.12639415 0.54466736 -1.56159735]
初始化为变尺度正态、均匀分布
tf 中 tf.variance_scaling_initializer() 类可以生成截断正态分布和均匀分布的 tensor,增加了更多的控制参数。构造函数:
def __init__(self, scale=1.0,
mode="fan_in",
distribution="normal",
seed=None,
dtype=dtypes.float32):
if scale <= 0.:
raise ValueError("`scale` must be positive float.")
if mode not in {"fan_in", "fan_out", "fan_avg"}:
raise ValueError("Invalid `mode` argument:", mode)
distribution = distribution.lower()
if distribution not in {"normal", "uniform"}:
raise ValueError("Invalid `distribution` argument:", distribution)
self.scale = scale
self.mode = mode
self.distribution = distribution
self.seed = seed
self.dtype = _assert_float_dtype(dtypes.as_dtype(dtype))
- scale: 缩放尺度
- mode: 有3个值可选,分别是 “fan_in”, “fan_out” 和 “fan_avg”,用于控制计算标准差 stddev的值
- distribution: 2个值可选,”normal”或“uniform”,定义生成的tensor的分布是截断正态分布还是均匀分布
distribution选‘normal’的时候,生成的是截断正态分布,标准差 stddev = sqrt(scale / n), n的取值根据mode的不同设置而不同:
mode = "fan_in", n为输入单元的结点数;
mode = "fan_out",n为输出单元的结点数;
mode = "fan_avg",n为输入和输出单元结点数的平均值;
distribution 选 ‘uniform’,生成均匀分布的随机数 tensor,最大值 max_value和 最小值 min_value 的计算公式:
max_value = sqrt(3 * scale / n)
min_value = -max_value
其他初始化方式
函数:tf.glorot_normal_initializer
glorot_normal_initializer(
seed=None,
dtype=tf.float32
)
定义在:tensorflow/python/ops/init_ops.py
Glorot 正常初始化器,也称为 Xavier 正常初始化器.
它从以0为中心的截断正态分布中抽取样本,stddev = sqrt(2 / (fan_in + fan_out)),其中 fan_in 是权重张量的输入单元数,而 fan_out 是权重张量中的输出单位数.
参考:HTTP://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
参数:
- seed:一个 Python 整数,用于创建随机种子.参考 tf.set_random_seed 中的行为.
- dtype:数据类型.只支持浮点类型.
返回值:
返回一个初始化程序.
函数:tf.glorot_uniform_initializer
glorot_uniform_initializer(
seed=None,
dtype=tf.float32
)
定义在:tensorflow/python/ops/init_ops.py
Glorot 均匀初始化器,也称为 Xavier 均匀初始化器.
它从一个均匀分布的 [-limit, limit] 中抽取样本 , 其中 limit 是 sqrt(6 / (fan_in + fan_out)), 其中 fan_in 是在权重张量中输入单位的数量和 fan_out 是在权重张量中输出单位的数量.
参考:HTTP://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
参数:
- seed:一个 Python 整数,用于创建随机种子.参考 tf.set_random_seed 中的行为.
- dtype:数据类型.只支持浮点类型.
返回值:
返回一个初始化程序.
更多建议: