Add XLA implementation for tensor_scatter_nd_min and tensor_scatter_nd_max, and implement gradient for these functions.

PiperOrigin-RevId: 332948708 Change-Id: Ic5e3c138cd04a91a6d1fb1bccad464d146facadf
2020-09-21 15:30:57 -07:00 · 2020-09-21 15:30:57 -07:00 · 7d3979c5ce
commit 7d3979c5ce
parent d526d49e19
4 changed files with 100 additions and 0 deletions
--- a/tensorflow/compiler/jit/mark_for_compilation_pass.cc
+++ b/tensorflow/compiler/jit/mark_for_compilation_pass.cc
@ -2023,6 +2023,8 @@ absl::flat_hash_set<string> GetKnownXLAAllowlistOp() {
                                     "TensorListSplit",
                                     "TensorListStack",
                                     "TensorScatterAdd",
                                     "TensorScatterMax",
                                     "TensorScatterMin",
                                     "TensorScatterSub",
                                     "TensorScatterUpdate",
                                     "TridiagonalSolve",
--- a/tensorflow/compiler/tf2xla/kernels/scatter_nd_op.cc
+++ b/tensorflow/compiler/tf2xla/kernels/scatter_nd_op.cc
@ -182,6 +182,32 @@ class TensorScatterAddOp : public XlaOpKernel {
  }
 };
 class TensorScatterMaxOp : public XlaOpKernel {
 public:
  explicit TensorScatterMaxOp(OpKernelConstruction* context)
      : XlaOpKernel(context) {}
  void Compile(XlaOpKernelContext* context) override {
    CompileTensorScatter(context,
                         [](xla::XlaOp x, xla::XlaOp y, xla::XlaBuilder*) {
                           return xla::Max(x, y);
                         });
  }
 };
 class TensorScatterMinOp : public XlaOpKernel {
 public:
  explicit TensorScatterMinOp(OpKernelConstruction* context)
      : XlaOpKernel(context) {}
  void Compile(XlaOpKernelContext* context) override {
    CompileTensorScatter(context,
                         [](xla::XlaOp x, xla::XlaOp y, xla::XlaBuilder*) {
                           return xla::Min(x, y);
                         });
  }
 };
 class TensorScatterSubOp : public XlaOpKernel {
 public:
  explicit TensorScatterSubOp(OpKernelConstruction* context)
@ -207,6 +233,8 @@ class TensorScatterUpdateOp : public XlaOpKernel {
 };
 REGISTER_XLA_OP(Name("TensorScatterAdd"), TensorScatterAddOp);
 REGISTER_XLA_OP(Name("TensorScatterMax"), TensorScatterMaxOp);
 REGISTER_XLA_OP(Name("TensorScatterMin"), TensorScatterMinOp);
 REGISTER_XLA_OP(Name("TensorScatterSub"), TensorScatterSubOp);
 REGISTER_XLA_OP(Name("TensorScatterUpdate"), TensorScatterUpdateOp);
--- a/tensorflow/python/kernel_tests/array_ops/scatter_nd_ops_test.py
+++ b/tensorflow/python/kernel_tests/array_ops/scatter_nd_ops_test.py
@ -840,6 +840,45 @@ class ScatterNdTensorTest(test.TestCase):
      self.assertAllEqual(max_result,
                          constant_op.constant([1, 1, 1, 2, 1, 1, 1, 2]))
  def testUpdateMinMaxGradients(self):
    with self.cached_session():
      x = array_ops.ones([4], dtype=dtypes.float32)
      indices = constant_op.constant([[1], [2], [3], [3]])
      updates = constant_op.constant([2.0, 0.5, 1.0, 1.0], dtype=dtypes.float32)
      theoretical, _ = gradient_checker_v2.compute_gradient(
          lambda x: array_ops.tensor_scatter_max(x, indices, updates), [x])
      # Numerical gradient doesn't work for degenerate values because the
      # derivative is not continuous. The manually entered gradient divides
      # the gradient among all contributing elements at the discontinuity.
      manual = array_ops.reshape(
          array_ops.matrix_diag([1.0, 0.0, 1.0, 0.3333]), (1, 4, 4))
      self.assertAllClose(theoretical, manual, 5e-4, 5e-4)
      theoretical, _ = gradient_checker_v2.compute_gradient(
          lambda x: array_ops.tensor_scatter_min(x, indices, updates), [x])
      manual = array_ops.reshape(
          array_ops.matrix_diag([1.0, 1.0, 0.0, 0.3333]), (1, 4, 4))
      self.assertAllClose(theoretical, manual, 5e-4, 5e-4)
      theoretical, _ = gradient_checker_v2.compute_gradient(
          lambda updates: array_ops.tensor_scatter_max(x, indices, updates),
          [updates])
      manual = constant_op.constant(
          [[[0.0, 0.0, 0.0, 0.0], [1.0, 0.0, 0.0, 0.0], [0.0, 0.0, 0.0, 0.0],
            [0.0, 0.0, 0.3333, 0.3333]]],
          dtype=dtypes.float32)
      self.assertAllClose(theoretical, manual, 5e-4, 5e-4)
      theoretical, _ = gradient_checker_v2.compute_gradient(
          lambda updates: array_ops.tensor_scatter_min(x, indices, updates),
          [updates])
      manual = constant_op.constant(
          [[[0.0, 0.0, 0.0, 0.0], [0.0, 0.0, 0.0, 0.0], [0.0, 1.0, 0.0, 0.0],
            [0.0, 0.0, 0.3333, 0.3333]]],
          dtype=dtypes.float32)
      self.assertAllClose(theoretical, manual, 5e-4, 5e-4)
  def testTensorScatterUpdateWithForwarding(self):
    for dtype in (dtypes.int32, dtypes.float32):
--- a/tensorflow/python/ops/array_grad.py
+++ b/tensorflow/python/ops/array_grad.py
@ -1140,6 +1140,37 @@ def _TensorScatterAddGrad(op, grad):
  return [tensor_grad, None, updates_grad]
 def _TensorScatterMinOrMaxGrad(op, grad):
  """Gradient for TensorScatterMin and TensorScatterMax."""
  indices = op.inputs[1]
  x = op.inputs[0]
  y = op.inputs[2]
  output = op.outputs[0]
  x_indicators = math_ops.cast(math_ops.equal(x, output), grad.dtype)
  y_output = array_ops.gather_nd(output, indices)
  y_indicators = math_ops.cast(math_ops.equal(y, y_output), grad.dtype)
  ys_indicators = array_ops.scatter_nd(indices, y_indicators,
                                       array_ops.shape(x))
  indicators = x_indicators + ys_indicators  # All elements are >= 1.
  # If there are multiple minimum or maximum elements then the gradient will be
  # divided between them.
  x_grad = grad * x_indicators / indicators
  y_grad = array_ops.gather_nd(grad / indicators, indices) * y_indicators
  return [x_grad, None, y_grad]
@ops.RegisterGradient("TensorScatterMax")
 def _TensorScatterMaxGrad(op, grad):
  """Gradient for TensorScatterMax op."""
  return _TensorScatterMinOrMaxGrad(op, grad)
@ops.RegisterGradient("TensorScatterMin")
 def _TensorScatterMinGrad(op, grad):
  """Gradient for TensorScatterMin op."""
  return _TensorScatterMinOrMaxGrad(op, grad)
@ops.RegisterGradient("TensorScatterSub")
 def _TensorScatterSubGrad(op, grad):
  indices = op.inputs[1]