This is a bug fix for multi-replica training. When there is any parameter servers and more than one replica, replicas except the chief replica would complain un-initialized stale_counter variable since it doesn't live in parameter server.

PiperOrigin-RevId: 179421368
2017-12-18 07:42:47 -08:00 · 2017-12-18 07:42:47 -08:00 · 13a8558846
commit 13a8558846
parent 119f5d477b
1 changed files with 5 additions and 4 deletions
--- a/tensorflow/contrib/opt/python/training/drop_stale_gradient_optimizer.py
+++ b/tensorflow/contrib/opt/python/training/drop_stale_gradient_optimizer.py
@ -78,10 +78,11 @@ class DropStaleGradientOptimizer(optimizer.Optimizer):
  def apply_gradients(self, grads_and_vars, global_step=None, name=None):
    gradients = []
    # Number of stale gradients.
-    stale_counter = variable_scope.get_variable(
-        "stale_counter", [],
-        initializer=init_ops.zeros_initializer(),
-        trainable=False)
+    with ops.colocate_with(global_step):
+      stale_counter = variable_scope.get_variable(
+          "stale_counter", [],
+          initializer=init_ops.zeros_initializer(),
+          trainable=False)

    def _AcceptGradientOp():
      with ops.control_dependencies(