Remove the private test annotation for run_deprecated_v1().

Replaced it with ops.Graph().as_default(). Also add some TODOs to update the optimzier tests which is currently only run in graph mode. PiperOrigin-RevId: 295034134 Change-Id: I959142ae150c51d39d4d5861a1f930f5da961fef
2020-02-13 17:05:37 -08:00 · 2020-02-13 17:05:37 -08:00 · aaee3c6870
commit aaee3c6870
parent 9698ae1734
22 changed files with 1255 additions and 1250 deletions
--- a/tensorflow/python/keras/backend_test.py
+++ b/tensorflow/python/keras/backend_test.py
@ -1956,10 +1956,9 @@ class BackendGraphTests(test.TestCase):
    output_values = f([None, None])
    self.assertEqual(output_values, [5., 6.])

-  @test_util.run_deprecated_v1
  def test_function_tf_feed_symbols(self):
    # Test Keras backend functions with TF tensor inputs.
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      # Test feeding a resource variable to `function`.
      x1 = keras.backend.placeholder(shape=())
      x2 = keras.backend.placeholder(shape=())
@ -1990,14 +1989,13 @@ class BackendGraphTests(test.TestCase):
      outs = f([y5, y2, None])
      self.assertEqual(outs, [11., 2.])

-  @test_util.run_deprecated_v1
  def test_function_tf_fetches(self):
    # Additional operations can be passed to tf.compat.v1.Session().run() via
    # its `fetches` arguments. In contrast to `updates` argument of
    # keras.backend.function() these do not have control dependency on `outputs`
    # so they can run in parallel. Also they should not contribute to output of
    # keras.backend.function().
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      x = keras.backend.variable(0.)
      y = keras.backend.variable(0.)
      x_placeholder = keras.backend.placeholder(shape=())
@ -2013,14 +2011,13 @@ class BackendGraphTests(test.TestCase):
      self.assertEqual(keras.backend.get_session().run(fetches=[x, y]),
                       [11., 5.])

-  @test_util.run_deprecated_v1
  def test_function_tf_feed_dict(self):
    # Additional substitutions can be passed to `tf.compat.v1.Session().run()`
    # via its `feed_dict` arguments. Note that the feed_dict is passed once in
    # the constructor but we can modify the values in the dictionary. Through
    # this feed_dict we can provide additional substitutions besides Keras
    # inputs.
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      x = keras.backend.variable(0.)
      y = keras.backend.variable(0.)
      x_placeholder = keras.backend.placeholder(shape=())
@ -2046,9 +2043,8 @@ class BackendGraphTests(test.TestCase):
      self.assertEqual(keras.backend.get_session().run(fetches=[x, y]),
                       [30., 40.])

-  @test_util.run_deprecated_v1
  def test_function_tf_run_options_with_run_metadata(self):
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      x_placeholder = keras.backend.placeholder(shape=())
      y_placeholder = keras.backend.placeholder(shape=())

@ -2072,7 +2068,6 @@ class BackendGraphTests(test.TestCase):
      self.assertEqual(output1, [30.])
      self.assertEqual(len(run_metadata.partition_graphs), 0)

-  @test_util.run_deprecated_v1
  def test_function_fetch_callbacks(self):

    class CallbackStub(object):
@ -2085,7 +2080,7 @@ class BackendGraphTests(test.TestCase):
        self.times_called += 1
        self.callback_result = result

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      callback = CallbackStub()
      x_placeholder = keras.backend.placeholder(shape=())
      y_placeholder = keras.backend.placeholder(shape=())
--- a/tensorflow/python/keras/callbacks_v1_test.py
+++ b/tensorflow/python/keras/callbacks_v1_test.py
@ -26,6 +26,7 @@ import numpy as np

 from tensorflow.core.framework import summary_pb2
 from tensorflow.python import keras
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras import callbacks_v1
 from tensorflow.python.keras import testing_utils
@ -44,7 +45,6 @@ BATCH_SIZE = 5

 class TestTensorBoardV1(test.TestCase):

-  @test_util.run_deprecated_v1
  def test_TensorBoard(self):
    np.random.seed(1337)

@ -76,7 +76,7 @@ class TestTensorBoardV1(test.TestCase):
        i %= max_batch_index

    # case: Sequential
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = keras.models.Sequential()
      model.add(
          keras.layers.Dense(
@ -151,13 +151,12 @@ class TestTensorBoardV1(test.TestCase):
          data_generator(True), len(x_train), epochs=2, callbacks=cbks)
      assert os.path.exists(temp_dir)

-  @test_util.run_deprecated_v1
  def test_TensorBoard_multi_input_output(self):
    np.random.seed(1337)
    tmpdir = self.get_temp_dir()
    self.addCleanup(shutil.rmtree, tmpdir, ignore_errors=True)

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      filepath = os.path.join(tmpdir, 'logs')

      (x_train, y_train), (x_test, y_test) = testing_utils.get_test_data(
@ -227,7 +226,6 @@ class TestTensorBoardV1(test.TestCase):
                          callbacks=callbacks_factory(histogram_freq=1))
      assert os.path.isdir(filepath)

-  @test_util.run_deprecated_v1
  def test_Tensorboard_histogram_summaries_in_test_function(self):

    class FileWriterStub(object):
@ -272,7 +270,7 @@ class TestTensorBoardV1(test.TestCase):
    y_test = np_utils.to_categorical(y_test)
    y_train = np_utils.to_categorical(y_train)

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = keras.models.Sequential()
      model.add(
          keras.layers.Dense(
@ -305,7 +303,6 @@ class TestTensorBoardV1(test.TestCase):

      self.assertAllEqual(tsb.writer.steps_seen, [0, 1, 2, 3, 4, 5])

-  @test_util.run_deprecated_v1
  def test_Tensorboard_histogram_summaries_with_generator(self):
    np.random.seed(1337)
    tmpdir = self.get_temp_dir()
@ -317,7 +314,7 @@ class TestTensorBoardV1(test.TestCase):
      while True:
        yield x, y

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = testing_utils.get_small_sequential_mlp(
          num_hidden=10, num_classes=10, input_dim=100)
      model.compile(
@ -390,7 +387,6 @@ class TestTensorBoardV1(test.TestCase):

      assert os.path.exists(temp_dir)

-  @test_util.run_deprecated_v1
  def test_Tensorboard_batch_logging(self):

    class FileWriterStub(object):
@ -413,19 +409,19 @@ class TestTensorBoardV1(test.TestCase):
      def close(self):
        pass

-    temp_dir = self.get_temp_dir()
-    self.addCleanup(shutil.rmtree, temp_dir, ignore_errors=True)
+    with ops.Graph().as_default():
+      temp_dir = self.get_temp_dir()
+      self.addCleanup(shutil.rmtree, temp_dir, ignore_errors=True)

-    tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='batch')
-    tb_cbk.writer = FileWriterStub(temp_dir)
+      tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='batch')
+      tb_cbk.writer = FileWriterStub(temp_dir)

-    for batch in range(5):
-      tb_cbk.on_batch_end(batch, {'acc': batch})
-    self.assertEqual(tb_cbk.writer.batches_logged, [0, 1, 2, 3, 4])
-    self.assertEqual(tb_cbk.writer.summary_values, [0., 1., 2., 3., 4.])
-    self.assertEqual(tb_cbk.writer.summary_tags, ['batch_acc'] * 5)
+      for batch in range(5):
+        tb_cbk.on_batch_end(batch, {'acc': batch})
+      self.assertEqual(tb_cbk.writer.batches_logged, [0, 1, 2, 3, 4])
+      self.assertEqual(tb_cbk.writer.summary_values, [0., 1., 2., 3., 4.])
+      self.assertEqual(tb_cbk.writer.summary_tags, ['batch_acc'] * 5)

-  @test_util.run_deprecated_v1
  def test_Tensorboard_epoch_and_batch_logging(self):

    class FileWriterStub(object):
@ -446,25 +442,26 @@ class TestTensorBoardV1(test.TestCase):
      def close(self):
        pass

-    temp_dir = self.get_temp_dir()
-    self.addCleanup(shutil.rmtree, temp_dir, ignore_errors=True)
+    with ops.Graph().as_default():
+      temp_dir = self.get_temp_dir()
+      self.addCleanup(shutil.rmtree, temp_dir, ignore_errors=True)

-    tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='batch')
-    tb_cbk.writer = FileWriterStub(temp_dir)
+      tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='batch')
+      tb_cbk.writer = FileWriterStub(temp_dir)

-    tb_cbk.on_batch_end(0, {'acc': 5.0})
-    tb_cbk.on_train_end()
-    batch_step, batch_summary = tb_cbk.writer.batch_summary
-    self.assertEqual(batch_step, 0)
-    self.assertEqual(batch_summary.value[0].simple_value, 5.0)
+      tb_cbk.on_batch_end(0, {'acc': 5.0})
+      tb_cbk.on_train_end()
+      batch_step, batch_summary = tb_cbk.writer.batch_summary
+      self.assertEqual(batch_step, 0)
+      self.assertEqual(batch_summary.value[0].simple_value, 5.0)

-    tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='epoch')
-    tb_cbk.writer = FileWriterStub(temp_dir)
-    tb_cbk.on_epoch_end(0, {'acc': 10.0})
-    tb_cbk.on_train_end()
-    epoch_step, epoch_summary = tb_cbk.writer.epoch_summary
-    self.assertEqual(epoch_step, 0)
-    self.assertEqual(epoch_summary.value[0].simple_value, 10.0)
+      tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='epoch')
+      tb_cbk.writer = FileWriterStub(temp_dir)
+      tb_cbk.on_epoch_end(0, {'acc': 10.0})
+      tb_cbk.on_train_end()
+      epoch_step, epoch_summary = tb_cbk.writer.epoch_summary
+      self.assertEqual(epoch_step, 0)
+      self.assertEqual(epoch_summary.value[0].simple_value, 10.0)

  @test_util.run_in_graph_and_eager_modes
  def test_Tensorboard_eager(self):
@ -499,7 +496,6 @@ class TestTensorBoardV1(test.TestCase):

    self.assertTrue(os.path.exists(temp_dir))

-  @test_util.run_deprecated_v1
  def test_TensorBoard_update_freq(self):

    class FileWriterStub(object):
@ -522,46 +518,47 @@ class TestTensorBoardV1(test.TestCase):
      def close(self):
        pass

-    temp_dir = self.get_temp_dir()
-    self.addCleanup(shutil.rmtree, temp_dir, ignore_errors=True)
+    with ops.Graph().as_default():
+      temp_dir = self.get_temp_dir()
+      self.addCleanup(shutil.rmtree, temp_dir, ignore_errors=True)

-    # Epoch mode
-    tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='epoch')
-    tb_cbk.writer = FileWriterStub(temp_dir)
+      # Epoch mode
+      tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='epoch')
+      tb_cbk.writer = FileWriterStub(temp_dir)

-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 1})
-    self.assertEqual(tb_cbk.writer.batch_summaries, [])
-    tb_cbk.on_epoch_end(0, {'acc': 10.0, 'size': 1})
-    self.assertEqual(len(tb_cbk.writer.epoch_summaries), 1)
-    tb_cbk.on_train_end()
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 1})
+      self.assertEqual(tb_cbk.writer.batch_summaries, [])
+      tb_cbk.on_epoch_end(0, {'acc': 10.0, 'size': 1})
+      self.assertEqual(len(tb_cbk.writer.epoch_summaries), 1)
+      tb_cbk.on_train_end()

-    # Batch mode
-    tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='batch')
-    tb_cbk.writer = FileWriterStub(temp_dir)
+      # Batch mode
+      tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq='batch')
+      tb_cbk.writer = FileWriterStub(temp_dir)

-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 1})
-    self.assertEqual(len(tb_cbk.writer.batch_summaries), 1)
-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 1})
-    self.assertEqual(len(tb_cbk.writer.batch_summaries), 2)
-    self.assertFalse(tb_cbk.writer.epoch_summaries)
-    tb_cbk.on_train_end()
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 1})
+      self.assertEqual(len(tb_cbk.writer.batch_summaries), 1)
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 1})
+      self.assertEqual(len(tb_cbk.writer.batch_summaries), 2)
+      self.assertFalse(tb_cbk.writer.epoch_summaries)
+      tb_cbk.on_train_end()

-    # Integer mode
-    tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq=20)
-    tb_cbk.writer = FileWriterStub(temp_dir)
+      # Integer mode
+      tb_cbk = callbacks_v1.TensorBoard(temp_dir, update_freq=20)
+      tb_cbk.writer = FileWriterStub(temp_dir)

-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
-    self.assertFalse(tb_cbk.writer.batch_summaries)
-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
-    self.assertEqual(len(tb_cbk.writer.batch_summaries), 1)
-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
-    self.assertEqual(len(tb_cbk.writer.batch_summaries), 1)
-    tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
-    self.assertEqual(len(tb_cbk.writer.batch_summaries), 2)
-    tb_cbk.on_batch_end(0, {'acc': 10.0, 'size': 10})
-    self.assertEqual(len(tb_cbk.writer.batch_summaries), 2)
-    self.assertFalse(tb_cbk.writer.epoch_summaries)
-    tb_cbk.on_train_end()
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
+      self.assertFalse(tb_cbk.writer.batch_summaries)
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
+      self.assertEqual(len(tb_cbk.writer.batch_summaries), 1)
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
+      self.assertEqual(len(tb_cbk.writer.batch_summaries), 1)
+      tb_cbk.on_batch_end(0, {'acc': 5.0, 'size': 10})
+      self.assertEqual(len(tb_cbk.writer.batch_summaries), 2)
+      tb_cbk.on_batch_end(0, {'acc': 10.0, 'size': 10})
+      self.assertEqual(len(tb_cbk.writer.batch_summaries), 2)
+      self.assertFalse(tb_cbk.writer.epoch_summaries)
+      tb_cbk.on_train_end()


 if __name__ == '__main__':
--- a/tensorflow/python/keras/engine/network_test.py
+++ b/tensorflow/python/keras/engine/network_test.py
@ -24,6 +24,7 @@ from tensorflow.python import keras
 from tensorflow.python.eager import context
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import tensor_shape
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras import keras_parameterized
@ -48,7 +49,6 @@ except ImportError:

 class NetworkConstructionTest(keras_parameterized.TestCase):

-  @test_util.run_deprecated_v1
  def test_get_updates(self):

    class MyLayer(keras.layers.Layer):
@ -72,45 +72,46 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
                        inputs=True)
        return inputs + 1

-    x1 = input_layer_lib.Input(shape=(1,))
-    layer = MyLayer()
-    _ = layer(x1)
+    with ops.Graph().as_default():
+      x1 = input_layer_lib.Input(shape=(1,))
+      layer = MyLayer()
+      _ = layer(x1)

-    self.assertEqual(len(layer.updates), 2)
-    self.assertEqual(len(layer.get_updates_for(x1)), 1)
-    self.assertEqual(len(layer.get_updates_for(None)), 1)
+      self.assertEqual(len(layer.updates), 2)
+      self.assertEqual(len(layer.get_updates_for(x1)), 1)
+      self.assertEqual(len(layer.get_updates_for(None)), 1)

-    x2 = input_layer_lib.Input(shape=(1,))
-    y2 = layer(x2)
+      x2 = input_layer_lib.Input(shape=(1,))
+      y2 = layer(x2)

-    self.assertEqual(len(layer.updates), 3)
-    self.assertEqual(len(layer.get_updates_for(x1)), 1)
-    self.assertEqual(len(layer.get_updates_for(x2)), 1)
-    self.assertEqual(len(layer.get_updates_for(None)), 1)
+      self.assertEqual(len(layer.updates), 3)
+      self.assertEqual(len(layer.get_updates_for(x1)), 1)
+      self.assertEqual(len(layer.get_updates_for(x2)), 1)
+      self.assertEqual(len(layer.get_updates_for(None)), 1)

-    network = network_lib.Network(x2, y2)
-    self.assertEqual(len(network.updates), 3)
-    self.assertEqual(len(network.get_updates_for(x2)), 1)
-    self.assertEqual(len(network.get_updates_for(None)), 1)
+      network = network_lib.Network(x2, y2)
+      self.assertEqual(len(network.updates), 3)
+      self.assertEqual(len(network.get_updates_for(x2)), 1)
+      self.assertEqual(len(network.get_updates_for(None)), 1)

-    x3 = input_layer_lib.Input(shape=(1,))
-    _ = layer(x3)
-    self.assertEqual(len(network.updates), 4)
+      x3 = input_layer_lib.Input(shape=(1,))
+      _ = layer(x3)
+      self.assertEqual(len(network.updates), 4)

-    x4 = input_layer_lib.Input(shape=(1,))
-    _ = network(x4)
-    self.assertEqual(len(network.updates), 5)
-    self.assertEqual(len(network.get_updates_for(x2)), 1)
-    self.assertEqual(len(network.get_updates_for(x4)), 1)
-    self.assertEqual(len(network.get_updates_for(None)), 1)
+      x4 = input_layer_lib.Input(shape=(1,))
+      _ = network(x4)
+      self.assertEqual(len(network.updates), 5)
+      self.assertEqual(len(network.get_updates_for(x2)), 1)
+      self.assertEqual(len(network.get_updates_for(x4)), 1)
+      self.assertEqual(len(network.get_updates_for(None)), 1)

-    network.add_update(state_ops.assign_add(layer.a, [[1]]))
-    self.assertEqual(len(network.updates), 6)
-    self.assertEqual(len(network.get_updates_for(None)), 2)
+      network.add_update(state_ops.assign_add(layer.a, [[1]]))
+      self.assertEqual(len(network.updates), 6)
+      self.assertEqual(len(network.get_updates_for(None)), 2)

-    network.add_update(state_ops.assign_add(layer.b, x4), inputs=True)
-    self.assertEqual(len(network.updates), 7)
-    self.assertEqual(len(network.get_updates_for(x4)), 2)
+      network.add_update(state_ops.assign_add(layer.b, x4), inputs=True)
+      self.assertEqual(len(network.updates), 7)
+      self.assertEqual(len(network.get_updates_for(x4)), 2)

  @test_util.run_in_graph_and_eager_modes()
  def test_get_updates_bn(self):
@ -219,39 +220,39 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
    self.assertEqual(test_layer.input_shape, [(None, 32), (None, 32)])
    self.assertEqual(test_layer.output_shape, (None, 32))

-  @test_util.run_deprecated_v1
  def testBasicNetwork(self):
-    # minimum viable network
-    x = input_layer_lib.Input(shape=(32,))
-    dense = keras.layers.Dense(2)
-    y = dense(x)
-    network = network_lib.Network(x, y, name='dense_network')
+    with ops.Graph().as_default():
+      # minimum viable network
+      x = input_layer_lib.Input(shape=(32,))
+      dense = keras.layers.Dense(2)
+      y = dense(x)
+      network = network_lib.Network(x, y, name='dense_network')

-    # test basic attributes
-    self.assertEqual(network.name, 'dense_network')
-    self.assertEqual(len(network.layers), 2)  # InputLayer + Dense
-    self.assertEqual(network.layers[1], dense)
-    self._assertAllIs(network.weights, dense.weights)
-    self._assertAllIs(network.trainable_weights, dense.trainable_weights)
-    self._assertAllIs(network.non_trainable_weights,
-                      dense.non_trainable_weights)
+      # test basic attributes
+      self.assertEqual(network.name, 'dense_network')
+      self.assertEqual(len(network.layers), 2)  # InputLayer + Dense
+      self.assertEqual(network.layers[1], dense)
+      self._assertAllIs(network.weights, dense.weights)
+      self._assertAllIs(network.trainable_weights, dense.trainable_weights)
+      self._assertAllIs(network.non_trainable_weights,
+                        dense.non_trainable_weights)

-    # test callability on Input
-    x_2 = input_layer_lib.Input(shape=(32,))
-    y_2 = network(x_2)
-    self.assertEqual(y_2.shape.as_list(), [None, 2])
+      # test callability on Input
+      x_2 = input_layer_lib.Input(shape=(32,))
+      y_2 = network(x_2)
+      self.assertEqual(y_2.shape.as_list(), [None, 2])

-    # test callability on regular tensor
-    x_2 = array_ops.placeholder(dtype='float32', shape=(None, 32))
-    y_2 = network(x_2)
-    self.assertEqual(y_2.shape.as_list(), [None, 2])
+      # test callability on regular tensor
+      x_2 = array_ops.placeholder(dtype='float32', shape=(None, 32))
+      y_2 = network(x_2)
+      self.assertEqual(y_2.shape.as_list(), [None, 2])

-    # test network `trainable` attribute
-    network.trainable = False
-    self._assertAllIs(network.weights, dense.weights)
-    self.assertEqual(network.trainable_weights, [])
-    self._assertAllIs(network.non_trainable_weights,
-                      dense.trainable_weights + dense.non_trainable_weights)
+      # test network `trainable` attribute
+      network.trainable = False
+      self._assertAllIs(network.weights, dense.weights)
+      self.assertEqual(network.trainable_weights, [])
+      self._assertAllIs(network.non_trainable_weights,
+                        dense.trainable_weights + dense.non_trainable_weights)

  @test_util.run_in_graph_and_eager_modes
  def test_trainable_weights(self):
@ -295,25 +296,25 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
    self.assertListEqual(model.trainable_weights, [])
    self._assertAllIs(model.non_trainable_weights, weights)

-  @test_util.run_deprecated_v1
  def test_layer_call_arguments(self):
-    # Test the ability to pass and serialize arguments to `call`.
-    inp = keras.layers.Input(shape=(2,))
-    x = keras.layers.Dense(3)(inp)
-    x = keras.layers.Dropout(0.5)(x, training=True)
-    model = keras.models.Model(inp, x)
-    # Would be `dropout/cond/Merge` by default
-    self.assertIn('dropout', model.output.op.name)
+    with ops.Graph().as_default():
+      # Test the ability to pass and serialize arguments to `call`.
+      inp = keras.layers.Input(shape=(2,))
+      x = keras.layers.Dense(3)(inp)
+      x = keras.layers.Dropout(0.5)(x, training=True)
+      model = keras.models.Model(inp, x)
+      # Would be `dropout/cond/Merge` by default
+      self.assertIn('dropout', model.output.op.name)

-    # Test that argument is kept when applying the model
-    inp2 = keras.layers.Input(shape=(2,))
-    out2 = model(inp2)
-    self.assertIn('dropout', out2.op.name)
+      # Test that argument is kept when applying the model
+      inp2 = keras.layers.Input(shape=(2,))
+      out2 = model(inp2)
+      self.assertIn('dropout', out2.op.name)

-    # Test that argument is kept after loading a model
-    config = model.get_config()
-    model = keras.models.Model.from_config(config)
-    self.assertIn('dropout', model.output.op.name)
+      # Test that argument is kept after loading a model
+      config = model.get_config()
+      model = keras.models.Model.from_config(config)
+      self.assertIn('dropout', model.output.op.name)

  def test_node_construction(self):
    # test basics
@ -460,9 +461,8 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
    self.assertEqual(['out', 'out_1'], model.output_names)
    self.assertAllClose([2., 3.], model(1.))

-  @test_util.run_deprecated_v1
  def test_recursion(self):
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      a = keras.layers.Input(shape=(32,), name='input_a')
      b = keras.layers.Input(shape=(32,), name='input_b')

@ -647,44 +647,44 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
    with self.assertRaises(Exception):
      keras.models.Model([j, k], [m, n, 0])

-  @test_util.run_deprecated_v1
  def test_raw_tf_compatibility(self):
-    # test calling layers/models on TF tensors
-    a = keras.layers.Input(shape=(32,), name='input_a')
-    b = keras.layers.Input(shape=(32,), name='input_b')
+    with ops.Graph().as_default():
+      # test calling layers/models on TF tensors
+      a = keras.layers.Input(shape=(32,), name='input_a')
+      b = keras.layers.Input(shape=(32,), name='input_b')

-    dense = keras.layers.Dense(16, name='dense_1')
-    a_2 = dense(a)
-    b_2 = dense(b)
-    merged = keras.layers.concatenate([a_2, b_2], name='merge')
-    c = keras.layers.Dense(64, name='dense_2')(merged)
-    d = keras.layers.Dense(5, name='dense_3')(c)
+      dense = keras.layers.Dense(16, name='dense_1')
+      a_2 = dense(a)
+      b_2 = dense(b)
+      merged = keras.layers.concatenate([a_2, b_2], name='merge')
+      c = keras.layers.Dense(64, name='dense_2')(merged)
+      d = keras.layers.Dense(5, name='dense_3')(c)

-    model = keras.models.Model(inputs=[a, b], outputs=[c, d], name='model')
+      model = keras.models.Model(inputs=[a, b], outputs=[c, d], name='model')

-    j = keras.layers.Input(shape=(32,), name='input_j')
-    k = keras.layers.Input(shape=(32,), name='input_k')
-    self.assertEqual(len(model.inputs), 2)
-    m, n = model([j, k])
-    self.assertEqual(len(model.inputs), 2)
-    tf_model = keras.models.Model([j, k], [m, n])
+      j = keras.layers.Input(shape=(32,), name='input_j')
+      k = keras.layers.Input(shape=(32,), name='input_k')
+      self.assertEqual(len(model.inputs), 2)
+      m, n = model([j, k])
+      self.assertEqual(len(model.inputs), 2)
+      tf_model = keras.models.Model([j, k], [m, n])

-    j_tf = array_ops.placeholder(dtype=dtypes.float32, shape=(None, 32))
-    k_tf = array_ops.placeholder(dtype=dtypes.float32, shape=(None, 32))
-    m_tf, n_tf = tf_model([j_tf, k_tf])
-    self.assertListEqual(m_tf.shape.as_list(), [None, 64])
-    self.assertListEqual(n_tf.shape.as_list(), [None, 5])
+      j_tf = array_ops.placeholder(dtype=dtypes.float32, shape=(None, 32))
+      k_tf = array_ops.placeholder(dtype=dtypes.float32, shape=(None, 32))
+      m_tf, n_tf = tf_model([j_tf, k_tf])
+      self.assertListEqual(m_tf.shape.as_list(), [None, 64])
+      self.assertListEqual(n_tf.shape.as_list(), [None, 5])

-    # test merge
-    keras.layers.concatenate([j_tf, k_tf], axis=1)
-    keras.layers.add([j_tf, k_tf])
+      # test merge
+      keras.layers.concatenate([j_tf, k_tf], axis=1)
+      keras.layers.add([j_tf, k_tf])

-    # test tensor input
-    x = array_ops.placeholder(shape=(None, 2), dtype=dtypes.float32)
-    keras.layers.InputLayer(input_tensor=x)
+      # test tensor input
+      x = array_ops.placeholder(shape=(None, 2), dtype=dtypes.float32)
+      keras.layers.InputLayer(input_tensor=x)

-    x = keras.layers.Input(tensor=x)
-    keras.layers.Dense(2)(x)
+      x = keras.layers.Input(tensor=x)
+      keras.layers.Dense(2)(x)

  @test_util.run_in_graph_and_eager_modes()
  def test_basic_masking(self):
@ -693,7 +693,6 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
    model = keras.models.Model(a, b)
    self.assertEqual(model.output_mask.shape.as_list(), [None, 10])

-  @test_util.run_deprecated_v1
  def testMaskingSingleInput(self):

    class MaskedLayer(keras.layers.Layer):
@ -731,7 +730,6 @@ class NetworkConstructionTest(keras_parameterized.TestCase):
      y_2 = network(x_2)
      self.assertEqual(y_2.shape.as_list(), [None, 32])

-  @test_util.run_deprecated_v1
  def test_activity_regularization_with_model_composition(self):

    def reg(x):
@ -1454,10 +1452,9 @@ class DefaultShapeInferenceBehaviorTest(keras_parameterized.TestCase):

 class GraphUtilsTest(test.TestCase):

-  @test_util.run_deprecated_v1
  def testGetReachableFromInputs(self):

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      pl_1 = array_ops.placeholder(shape=None, dtype='float32')
      pl_2 = array_ops.placeholder(shape=None, dtype='float32')
      pl_3 = array_ops.placeholder(shape=None, dtype='float32')
--- a/tensorflow/python/keras/engine/sequential_test.py
+++ b/tensorflow/python/keras/engine/sequential_test.py
@ -26,7 +26,7 @@ from tensorflow.python.data.ops import dataset_ops
 from tensorflow.python.eager import context
 from tensorflow.python.eager import function
 from tensorflow.python.framework import dtypes
-from tensorflow.python.framework import test_util as tf_test_util
+from tensorflow.python.framework import ops
 from tensorflow.python.keras import keras_parameterized
 from tensorflow.python.keras import testing_utils
 from tensorflow.python.ops import array_ops
@ -166,9 +166,8 @@ class TestSequential(keras_parameterized.TestCase):

  # TODO(kaftan) This test fails w/ run_with_all_keras_modes. File ticket
  @parameterized.parameters((True,), (False,))
-  @tf_test_util.run_deprecated_v1
  def test_training_and_eval_methods_on_symbolic_tensors(self, deferred):
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():

      def get_model():
        if deferred:
--- a/tensorflow/python/keras/engine/training_dataset_test.py
+++ b/tensorflow/python/keras/engine/training_dataset_test.py
@ -27,7 +27,7 @@ import six
 from tensorflow.python import keras
 from tensorflow.python.data.experimental.ops import cardinality
 from tensorflow.python.data.ops import dataset_ops
-from tensorflow.python.framework import test_util as tf_test_util
+from tensorflow.python.framework import ops
 from tensorflow.python.keras import callbacks
 from tensorflow.python.keras import keras_parameterized
 from tensorflow.python.keras import metrics as metrics_module
@ -334,9 +334,8 @@ class TestTrainingWithDataset(keras_parameterized.TestCase):
        history.history['val_loss'],
        [inputs.sum() / 40, inputs.sum() / 40])

-  @tf_test_util.run_deprecated_v1
  def test_dataset_input_shape_validation(self):
-    with self.cached_session():
+    with ops.get_default_graph().as_default(), self.cached_session():
      model = testing_utils.get_small_functional_mlp(1, 4, input_dim=3)
      model.compile(optimizer='rmsprop', loss='mse')

--- a/tensorflow/python/keras/engine/training_test.py
+++ b/tensorflow/python/keras/engine/training_test.py
@ -34,6 +34,7 @@ from tensorflow.python.data.ops import dataset_ops
 from tensorflow.python.eager import context
 from tensorflow.python.eager import def_function
 from tensorflow.python.eager import function
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import tensor_shape
 from tensorflow.python.framework import test_util as tf_test_util
 from tensorflow.python.keras import keras_parameterized
@ -246,19 +247,19 @@ class CompileTest(keras_parameterized.TestCase):
          run_eagerly=testing_utils.should_run_eagerly(),
          experimental_run_tf_function=testing_utils.should_run_tf_function())

-  @tf_test_util.run_deprecated_v1
  def test_compile_with_session_kwargs(self):
-    model = testing_utils.get_small_sequential_mlp(
-        num_hidden=10, num_classes=2, input_dim=3)
+    with ops.Graph().as_default():
+      model = testing_utils.get_small_sequential_mlp(
+          num_hidden=10, num_classes=2, input_dim=3)

-    # Test that unknown arguments are not accepted
-    with self.assertRaisesRegexp(
-        TypeError,
-        r'Invalid keyword argument'):
-      model.compile(
-          optimizer='adam',
-          loss='mse',
-          foo=True)
+      # Test that unknown arguments are not accepted
+      with self.assertRaisesRegexp(
+          TypeError,
+          r'Invalid keyword argument'):
+        model.compile(
+            optimizer='adam',
+            loss='mse',
+            foo=True)


 class TrainingTest(keras_parameterized.TestCase):
@ -906,31 +907,31 @@ class TrainingTest(keras_parameterized.TestCase):
    with self.assertRaisesRegexp(ValueError, 'Please densify'):
      model.evaluate(test_inputs, test_outputs, batch_size=2)

-  @tf_test_util.run_deprecated_v1
  def test_training_on_sparse_data_with_dense_placeholders_v1(self):
-    if scipy_sparse is None:
-      return
+    with ops.Graph().as_default():
+      if scipy_sparse is None:
+        return

-    test_inputs = [
-        scipy_sparse.random(6, 3, density=0.25).tocsr() for _ in range(2)
-    ]
-    test_outputs = [
-        scipy_sparse.random(6, i, density=0.25).tocsr() for i in range(3, 5)
-    ]
-    in1 = keras.layers.Input(shape=(3,))
-    in2 = keras.layers.Input(shape=(3,))
-    out1 = keras.layers.Dropout(0.5, name='dropout')(in1)
-    out2 = keras.layers.Dense(4, name='dense_1')(in2)
-    model = keras.Model([in1, in2], [out1, out2])
-    model.predict(test_inputs, batch_size=2)
-    optimizer = 'rmsprop'
-    model.compile(
-        optimizer,
-        'mse',
-        metrics=['mae', metrics_module.CategoricalAccuracy()])
-    model.fit(test_inputs, test_outputs,
-              epochs=1, batch_size=2, validation_split=0.5)
-    model.evaluate(test_inputs, test_outputs, batch_size=2)
+      test_inputs = [
+          scipy_sparse.random(6, 3, density=0.25).tocsr() for _ in range(2)
+      ]
+      test_outputs = [
+          scipy_sparse.random(6, i, density=0.25).tocsr() for i in range(3, 5)
+      ]
+      in1 = keras.layers.Input(shape=(3,))
+      in2 = keras.layers.Input(shape=(3,))
+      out1 = keras.layers.Dropout(0.5, name='dropout')(in1)
+      out2 = keras.layers.Dense(4, name='dense_1')(in2)
+      model = keras.Model([in1, in2], [out1, out2])
+      model.predict(test_inputs, batch_size=2)
+      optimizer = 'rmsprop'
+      model.compile(
+          optimizer,
+          'mse',
+          metrics=['mae', metrics_module.CategoricalAccuracy()])
+      model.fit(test_inputs, test_outputs,
+                epochs=1, batch_size=2, validation_split=0.5)
+      model.evaluate(test_inputs, test_outputs, batch_size=2)

  @keras_parameterized.run_all_keras_modes
  def test_compile_with_sparse_placeholders(self):
@ -2482,142 +2483,141 @@ class TestDynamicTrainability(keras_parameterized.TestCase):

 class TestTrainingWithDataTensors(keras_parameterized.TestCase):

-  @tf_test_util.run_deprecated_v1
  def test_training_and_eval_methods_on_symbolic_tensors_single_io(self):
-    x = keras.layers.Input(shape=(3,), name='input')
-    y = keras.layers.Dense(4, name='dense')(x)
-    model = keras.Model(x, y)
+    with ops.Graph().as_default():
+      x = keras.layers.Input(shape=(3,), name='input')
+      y = keras.layers.Dense(4, name='dense')(x)
+      model = keras.Model(x, y)

-    optimizer = RMSPropOptimizer(learning_rate=0.001)
-    loss = 'mse'
-    model.compile(
-        optimizer,
-        loss,
-        metrics=['mae', metrics_module.CategoricalAccuracy()])
+      optimizer = RMSPropOptimizer(learning_rate=0.001)
+      loss = 'mse'
+      model.compile(
+          optimizer,
+          loss,
+          metrics=['mae', metrics_module.CategoricalAccuracy()])

-    inputs = keras.backend.zeros(shape=(10, 3))
-    targets = keras.backend.zeros(shape=(10, 4))
+      inputs = keras.backend.zeros(shape=(10, 3))
+      targets = keras.backend.zeros(shape=(10, 4))

-    model.fit(inputs, targets, epochs=1, steps_per_epoch=2, verbose=0)
-    model.evaluate(inputs, targets, steps=2, verbose=0)
-    model.predict(inputs, steps=2)
-    model.train_on_batch(inputs, targets)
-    model.test_on_batch(inputs, targets)
-    model.fit(inputs, targets,
-              epochs=1, steps_per_epoch=2, verbose=0,
-              validation_data=(inputs, targets), validation_steps=2)
+      model.fit(inputs, targets, epochs=1, steps_per_epoch=2, verbose=0)
+      model.evaluate(inputs, targets, steps=2, verbose=0)
+      model.predict(inputs, steps=2)
+      model.train_on_batch(inputs, targets)
+      model.test_on_batch(inputs, targets)
+      model.fit(inputs, targets,
+                epochs=1, steps_per_epoch=2, verbose=0,
+                validation_data=(inputs, targets), validation_steps=2)

-    # Test with dynamic shape
-    inputs = array_ops.placeholder_with_default(
-        np.zeros((2, 3)), shape=tensor_shape.TensorShape([None, 3]))
-    targets = array_ops.placeholder_with_default(
-        np.zeros((2, 4)), shape=tensor_shape.TensorShape([None, 4]))
-    self.assertEqual(inputs.shape.dims[0].value, None)
-    model.fit(inputs, targets, epochs=1, steps_per_epoch=2, verbose=0)
-    model.evaluate(inputs, targets, steps=2, verbose=0)
-    model.predict(inputs, steps=2)
-    model.train_on_batch(inputs, targets)
-    model.test_on_batch(inputs, targets)
-    model.fit(inputs, targets,
-              epochs=1, steps_per_epoch=2, verbose=0,
-              validation_data=(inputs, targets), validation_steps=2)
+      # Test with dynamic shape
+      inputs = array_ops.placeholder_with_default(
+          np.zeros((2, 3)), shape=tensor_shape.TensorShape([None, 3]))
+      targets = array_ops.placeholder_with_default(
+          np.zeros((2, 4)), shape=tensor_shape.TensorShape([None, 4]))
+      self.assertEqual(inputs.shape.dims[0].value, None)
+      model.fit(inputs, targets, epochs=1, steps_per_epoch=2, verbose=0)
+      model.evaluate(inputs, targets, steps=2, verbose=0)
+      model.predict(inputs, steps=2)
+      model.train_on_batch(inputs, targets)
+      model.test_on_batch(inputs, targets)
+      model.fit(inputs, targets,
+                epochs=1, steps_per_epoch=2, verbose=0,
+                validation_data=(inputs, targets), validation_steps=2)

-  @tf_test_util.run_deprecated_v1
  def test_training_and_eval_methods_on_symbolic_tensors_multi_io(self):
-    a = keras.layers.Input(shape=(3,), name='input_a')
-    b = keras.layers.Input(shape=(3,), name='input_b')
+    with ops.Graph().as_default():
+      a = keras.layers.Input(shape=(3,), name='input_a')
+      b = keras.layers.Input(shape=(3,), name='input_b')

-    dense = keras.layers.Dense(4, name='dense')
-    c = dense(a)
-    d = dense(b)
-    e = keras.layers.Dropout(0.5, name='dropout')(c)
+      dense = keras.layers.Dense(4, name='dense')
+      c = dense(a)
+      d = dense(b)
+      e = keras.layers.Dropout(0.5, name='dropout')(c)

-    model = keras.models.Model([a, b], [d, e])
+      model = keras.models.Model([a, b], [d, e])

-    optimizer = 'rmsprop'
-    loss = 'mse'
-    loss_weights = [1., 0.5]
-    model.compile(
-        optimizer,
-        loss,
-        metrics=['mae', metrics_module.CategoricalAccuracy()],
-        loss_weights=loss_weights)
+      optimizer = 'rmsprop'
+      loss = 'mse'
+      loss_weights = [1., 0.5]
+      model.compile(
+          optimizer,
+          loss,
+          metrics=['mae', metrics_module.CategoricalAccuracy()],
+          loss_weights=loss_weights)

-    input_a_tf = keras.backend.zeros(shape=(10, 3))
-    input_b_tf = keras.backend.zeros(shape=(10, 3))
+      input_a_tf = keras.backend.zeros(shape=(10, 3))
+      input_b_tf = keras.backend.zeros(shape=(10, 3))

-    output_d_tf = keras.backend.zeros(shape=(10, 4))
-    output_e_tf = keras.backend.zeros(shape=(10, 4))
+      output_d_tf = keras.backend.zeros(shape=(10, 4))
+      output_e_tf = keras.backend.zeros(shape=(10, 4))

-    model.fit(
-        [input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
-        epochs=1,
-        steps_per_epoch=2,
-        verbose=0)
-    with self.assertRaisesRegexp(ValueError,
-                                 'should specify the `steps_per_epoch`'):
      model.fit(
          [input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
          epochs=1,
-          batch_size=5,
+          steps_per_epoch=2,
          verbose=0)
-    model.train_on_batch([input_a_tf, input_b_tf], [output_d_tf, output_e_tf])
+      with self.assertRaisesRegexp(ValueError,
+                                   'should specify the `steps_per_epoch`'):
+        model.fit(
+            [input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
+            epochs=1,
+            batch_size=5,
+            verbose=0)
+      model.train_on_batch([input_a_tf, input_b_tf], [output_d_tf, output_e_tf])

-    # Test with dictionary inputs
-    model.fit(
-        {'input_a': input_a_tf,
-         'input_b': input_b_tf},
-        {'dense': output_d_tf,
-         'dropout': output_e_tf},
-        epochs=1,
-        steps_per_epoch=2,
-        verbose=0)
-    model.fit(
-        {'input_a': input_a_tf,
-         'input_b': input_b_tf},
-        {'dense': output_d_tf,
-         'dropout': output_e_tf},
-        validation_data=({'input_a': input_a_tf,
-                          'input_b': input_b_tf},
-                         {'dense': output_d_tf,
-                          'dropout': output_e_tf}),
-        epochs=1,
-        steps_per_epoch=2,
-        validation_steps=2,
-        verbose=0)
-    model.train_on_batch(
-        {'input_a': input_a_tf,
-         'input_b': input_b_tf},
-        {'dense': output_d_tf,
-         'dropout': output_e_tf})
+      # Test with dictionary inputs
+      model.fit(
+          {'input_a': input_a_tf,
+           'input_b': input_b_tf},
+          {'dense': output_d_tf,
+           'dropout': output_e_tf},
+          epochs=1,
+          steps_per_epoch=2,
+          verbose=0)
+      model.fit(
+          {'input_a': input_a_tf,
+           'input_b': input_b_tf},
+          {'dense': output_d_tf,
+           'dropout': output_e_tf},
+          validation_data=({'input_a': input_a_tf,
+                            'input_b': input_b_tf},
+                           {'dense': output_d_tf,
+                            'dropout': output_e_tf}),
+          epochs=1,
+          steps_per_epoch=2,
+          validation_steps=2,
+          verbose=0)
+      model.train_on_batch(
+          {'input_a': input_a_tf,
+           'input_b': input_b_tf},
+          {'dense': output_d_tf,
+           'dropout': output_e_tf})

-    # Test with validation data
-    model.fit(
-        [input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
-        validation_data=([input_a_tf, input_b_tf],
-                         [output_d_tf, output_e_tf]),
-        epochs=1,
-        steps_per_epoch=2,
-        validation_steps=2,
-        verbose=0)
-    # Test with validation split
-    with self.assertRaisesRegexp(ValueError,
-                                 'you cannot use `validation_split`'):
+      # Test with validation data
      model.fit(
          [input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
-          epochs=2,
+          validation_data=([input_a_tf, input_b_tf],
+                           [output_d_tf, output_e_tf]),
+          epochs=1,
          steps_per_epoch=2,
-          verbose=0,
-          validation_split=0.2,
-          validation_steps=2)
+          validation_steps=2,
+          verbose=0)
+      # Test with validation split
+      with self.assertRaisesRegexp(ValueError,
+                                   'you cannot use `validation_split`'):
+        model.fit(
+            [input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
+            epochs=2,
+            steps_per_epoch=2,
+            verbose=0,
+            validation_split=0.2,
+            validation_steps=2)

-    # Test evaluation / prediction methods
-    model.evaluate([input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
-                   steps=2, verbose=0)
-    model.predict([input_a_tf, input_b_tf], steps=2)
-    model.test_on_batch([input_a_tf, input_b_tf], [output_d_tf, output_e_tf])
+      # Test evaluation / prediction methods
+      model.evaluate([input_a_tf, input_b_tf], [output_d_tf, output_e_tf],
+                     steps=2, verbose=0)
+      model.predict([input_a_tf, input_b_tf], steps=2)
+      model.test_on_batch([input_a_tf, input_b_tf], [output_d_tf, output_e_tf])

-  @tf_test_util.run_deprecated_v1
  def test_model_with_input_feed_tensor(self):
    """We test building a model with a TF variable as input.

@ -2625,7 +2625,7 @@ class TestTrainingWithDataTensors(keras_parameterized.TestCase):
    by only passing them data for the placeholder inputs
    in the model.
    """
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      input_a_np = np.random.random((10, 3))
      input_b_np = np.random.random((10, 3))

@ -2797,9 +2797,8 @@ class TestTrainingWithDataTensors(keras_parameterized.TestCase):
      # evaluate
      _ = model.evaluate(input_a_np, [output_a_np])

-  @tf_test_util.run_deprecated_v1
  def test_model_with_external_loss(self):
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      # None loss, only regularization loss.
      a = keras.Input(shape=(3,), name='input_a')
      a_2 = keras.layers.Dense(4, name='dense_1',
@ -2923,9 +2922,8 @@ class TestTrainingWithDataTensors(keras_parameterized.TestCase):
      self.assertEqual(out[0].shape, (10 * 3, 4))
      self.assertEqual(out[1].shape, (10 * 3, 4))

-  @tf_test_util.run_deprecated_v1
  def test_target_tensors(self):
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      # single-output, as list
      model = keras.models.Sequential()
      model.add(keras.layers.Dense(4, input_shape=(4,), name='dense'))
@ -2989,9 +2987,8 @@ class TestTrainingWithDataTensors(keras_parameterized.TestCase):
      model.train_on_batch(input_val, None,
                           sample_weight={'dense_a': np.random.random((10,))})

-  @tf_test_util.run_deprecated_v1
  def test_model_custom_target_tensors(self):
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      a = keras.Input(shape=(3,), name='input_a')
      b = keras.Input(shape=(3,), name='input_b')

--- a/tensorflow/python/keras/layers/cudnn_recurrent_test.py
+++ b/tensorflow/python/keras/layers/cudnn_recurrent_test.py
@ -25,6 +25,7 @@ from absl.testing import parameterized
 import numpy as np

 from tensorflow.python import keras
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras import keras_parameterized
 from tensorflow.python.keras import testing_utils
@ -165,33 +166,33 @@ class CuDNNGraphOnlyTest(keras_parameterized.TestCase):
      ('cudnngru', keras.layers.CuDNNGRU),
      ('cudnnlstm', keras.layers.CuDNNLSTM),
  )
-  @test_util.run_deprecated_v1
  @test_util.run_gpu_only
  def test_regularizer(self, layer_class):
    input_size = 10
    timesteps = 6
    units = 2
    num_samples = 32
-    layer = layer_class(
-        units,
-        return_sequences=False,
-        input_shape=(timesteps, input_size),
-        kernel_regularizer=keras.regularizers.l1(0.01),
-        recurrent_regularizer=keras.regularizers.l1(0.01),
-        bias_regularizer='l2')
-    layer.build((None, None, input_size))
-    self.assertEqual(len(layer.losses), 3)
+    with ops.Graph().as_default():
+      layer = layer_class(
+          units,
+          return_sequences=False,
+          input_shape=(timesteps, input_size),
+          kernel_regularizer=keras.regularizers.l1(0.01),
+          recurrent_regularizer=keras.regularizers.l1(0.01),
+          bias_regularizer='l2')
+      layer.build((None, None, input_size))
+      self.assertEqual(len(layer.losses), 3)

-    layer = layer_class(
-        units,
-        return_sequences=False,
-        input_shape=(timesteps, input_size),
-        activity_regularizer='l2')
-    self.assertTrue(layer.activity_regularizer)
-    x = keras.backend.variable(
-        np.ones((num_samples, timesteps, input_size)))
-    layer(x)
-    self.assertEqual(len(layer.get_losses_for(x)), 1)
+      layer = layer_class(
+          units,
+          return_sequences=False,
+          input_shape=(timesteps, input_size),
+          activity_regularizer='l2')
+      self.assertTrue(layer.activity_regularizer)
+      x = keras.backend.variable(
+          np.ones((num_samples, timesteps, input_size)))
+      layer(x)
+      self.assertEqual(len(layer.get_losses_for(x)), 1)

  @parameterized.named_parameters(
      ('cudnngru', keras.layers.CuDNNGRU),
--- a/tensorflow/python/keras/layers/gru_v2_test.py
+++ b/tensorflow/python/keras/layers/gru_v2_test.py
@ -32,6 +32,7 @@ from tensorflow.python.eager import backprop
 from tensorflow.python.eager import context
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import random_seed
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras import keras_parameterized
@ -568,22 +569,22 @@ class GRUV2Test(keras_parameterized.TestCase):
      outputs_trimmed = lstm(inputs[:, :masksteps])
    self.assertAllClose(outputs_masked[:, -masksteps:], outputs_trimmed)

-  @test_util.run_deprecated_v1
  def test_v1_session_behavior(self):
-    # See b/139132348 for more details.
-    x = np.random.uniform(size=(100, 4, 8))
-    y = np.random.uniform(size=(100, 1))
-    dataset = dataset_ops.Dataset.from_tensor_slices(
-        (x, y)).shuffle(100).batch(32)
+    with ops.get_default_graph().as_default():
+      # See b/139132348 for more details.
+      x = np.random.uniform(size=(100, 4, 8))
+      y = np.random.uniform(size=(100, 1))
+      dataset = dataset_ops.Dataset.from_tensor_slices(
+          (x, y)).shuffle(100).batch(32)

-    inp = keras.layers.Input(shape=(4, 8))
-    layer = rnn.GRU(1)(inp)
-    layer = keras.layers.Dense(1)(layer)
+      inp = keras.layers.Input(shape=(4, 8))
+      layer = rnn.GRU(1)(inp)
+      layer = keras.layers.Dense(1)(layer)

-    model = keras.models.Model(inp, layer)
+      model = keras.models.Model(inp, layer)

-    model.compile(loss='mse', optimizer='sgd')
-    model.fit(dataset)
+      model.compile(loss='mse', optimizer='sgd')
+      model.fit(dataset)


 class GRULayerGradientTapeTest(test.TestCase):
--- a/tensorflow/python/keras/layers/kernelized_test.py
+++ b/tensorflow/python/keras/layers/kernelized_test.py
@ -27,6 +27,7 @@ import numpy as np
 from tensorflow.python.eager import context
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import random_seed
 from tensorflow.python.framework import tensor_shape
 from tensorflow.python.framework import test_util
@ -142,32 +143,32 @@ class RandomFourierFeaturesTest(test.TestCase, parameterized.TestCase):
  @parameterized.named_parameters(
      ('gaussian', 'gaussian'), ('laplacian', 'laplacian'),
      ('other', init_ops.random_uniform_initializer))
-  @test_util.run_deprecated_v1
  def test_call_on_placeholder(self, initializer):
-    inputs = array_ops.placeholder(dtype=dtypes.float32, shape=[None, None])
-    rff_layer = kernel_layers.RandomFourierFeatures(
-        output_dim=5,
-        kernel_initializer=initializer,
-        name='random_fourier_features')
-    with self.assertRaisesRegexp(
-        ValueError, r'The last dimension of the inputs to '
-        '`RandomFourierFeatures` should be defined. Found `None`.'):
-      rff_layer(inputs)
+    with ops.Graph().as_default():
+      inputs = array_ops.placeholder(dtype=dtypes.float32, shape=[None, None])
+      rff_layer = kernel_layers.RandomFourierFeatures(
+          output_dim=5,
+          kernel_initializer=initializer,
+          name='random_fourier_features')
+      with self.assertRaisesRegexp(
+          ValueError, r'The last dimension of the inputs to '
+          '`RandomFourierFeatures` should be defined. Found `None`.'):
+        rff_layer(inputs)

-    inputs = array_ops.placeholder(dtype=dtypes.float32, shape=[2, None])
-    rff_layer = kernel_layers.RandomFourierFeatures(
-        output_dim=5,
-        kernel_initializer=initializer,
-        name='random_fourier_features')
-    with self.assertRaisesRegexp(
-        ValueError, r'The last dimension of the inputs to '
-        '`RandomFourierFeatures` should be defined. Found `None`.'):
-      rff_layer(inputs)
+      inputs = array_ops.placeholder(dtype=dtypes.float32, shape=[2, None])
+      rff_layer = kernel_layers.RandomFourierFeatures(
+          output_dim=5,
+          kernel_initializer=initializer,
+          name='random_fourier_features')
+      with self.assertRaisesRegexp(
+          ValueError, r'The last dimension of the inputs to '
+          '`RandomFourierFeatures` should be defined. Found `None`.'):
+        rff_layer(inputs)

-    inputs = array_ops.placeholder(dtype=dtypes.float32, shape=[None, 3])
-    rff_layer = kernel_layers.RandomFourierFeatures(
-        output_dim=5, name='random_fourier_features')
-    rff_layer(inputs)
+      inputs = array_ops.placeholder(dtype=dtypes.float32, shape=[None, 3])
+      rff_layer = kernel_layers.RandomFourierFeatures(
+          output_dim=5, name='random_fourier_features')
+      rff_layer(inputs)

  @parameterized.named_parameters(('gaussian', 10, 'gaussian', 2.0),
                                  ('laplacian', 5, 'laplacian', None),
--- a/tensorflow/python/keras/layers/lstm_v2_test.py
+++ b/tensorflow/python/keras/layers/lstm_v2_test.py
@ -33,6 +33,7 @@ from tensorflow.python.data.ops import dataset_ops
 from tensorflow.python.eager import context
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import random_seed
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras import keras_parameterized
@ -775,22 +776,22 @@ class LSTMV2Test(keras_parameterized.TestCase):
      outputs_trimmed = lstm(inputs[:, :masksteps])
    self.assertAllClose(outputs_masked[:, -masksteps:], outputs_trimmed)

-  @test_util.run_deprecated_v1
  def test_v1_session_behavior(self):
-    # See b/139132348 for more details.
-    x = np.random.uniform(size=(100, 4, 8))
-    y = np.random.uniform(size=(100, 1))
-    dataset = dataset_ops.Dataset.from_tensor_slices(
-        (x, y)).shuffle(100).batch(32)
+    with ops.get_default_graph().as_default():
+      # See b/139132348 for more details.
+      x = np.random.uniform(size=(100, 4, 8))
+      y = np.random.uniform(size=(100, 1))
+      dataset = dataset_ops.Dataset.from_tensor_slices(
+          (x, y)).shuffle(100).batch(32)

-    inp = keras.layers.Input(shape=(4, 8))
-    layer = rnn.LSTM(1)(inp)
-    layer = keras.layers.Dense(1)(layer)
+      inp = keras.layers.Input(shape=(4, 8))
+      layer = rnn.LSTM(1)(inp)
+      layer = keras.layers.Dense(1)(layer)

-    model = keras.models.Model(inp, layer)
+      model = keras.models.Model(inp, layer)

-    model.compile(loss='mse', optimizer='sgd')
-    model.fit(dataset)
+      model.compile(loss='mse', optimizer='sgd')
+      model.fit(dataset)


@keras_parameterized.run_all_keras_modes(config=_config)
--- a/tensorflow/python/keras/layers/normalization_test.py
+++ b/tensorflow/python/keras/layers/normalization_test.py
@ -27,6 +27,7 @@ from tensorflow.python.eager import context
 from tensorflow.python.eager import def_function
 from tensorflow.python.eager import wrap_function
 from tensorflow.python.framework import constant_op
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import test_util as tf_test_util
 from tensorflow.python.keras import keras_parameterized
 from tensorflow.python.keras import testing_utils
@ -457,7 +458,6 @@ class NormalizationLayersGraphModeOnlyTest(
      x2 = model.predict(val_a)
      self.assertAllClose(x1, x2, atol=1e-7)

-  @tf_test_util.run_deprecated_v1
  def test_batchnorm_trainable(self, layer):
    """Tests that batchnorm layer is trainable when learning phase is enabled.

@ -469,7 +469,7 @@ class NormalizationLayersGraphModeOnlyTest(
    """
    # TODO(fchollet): enable in all execution modes when issue with
    # learning phase setting is resolved.
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      bn_mean = 0.5
      bn_std = 10.
      val_a = np.expand_dims(np.arange(10.), axis=1)
--- a/tensorflow/python/keras/optimizer_v2/adadelta_test.py
+++ b/tensorflow/python/keras/optimizer_v2/adadelta_test.py
@ -23,6 +23,7 @@ import numpy as np
 from tensorflow.python.eager import context
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras.optimizer_v2 import adadelta
 from tensorflow.python.ops import embedding_ops
@ -152,24 +153,26 @@ class AdadeltaOptimizerTest(test.TestCase):
    with context.eager_mode():
      self.doTestBasic(use_resource=True, use_callable_params=True)

-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariable(self):
-    for dtype in _DATA_TYPES:
-      var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
-      x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
+        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)

-      def loss():
-        pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
-        return pred * pred
+        def loss():
+          pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
+          return pred * pred

-      sgd_op = adadelta.Adadelta(1.0, 1.0, 1.0).minimize(loss, var_list=[var0])
-      self.evaluate(variables.global_variables_initializer())
-      # Fetch params to validate initial values
-      self.assertAllCloseAccordingToType([[1.0, 2.0]], self.evaluate(var0))
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[-111, -138]], self.evaluate(var0))
+        sgd_op = adadelta.Adadelta(1.0, 1.0, 1.0).minimize(
+            loss, var_list=[var0])
+        self.evaluate(variables.global_variables_initializer())
+        # Fetch params to validate initial values
+        self.assertAllCloseAccordingToType([[1.0, 2.0]], self.evaluate(var0))
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[-111, -138]], self.evaluate(var0))

  def testConstructAdadeltaWithLR(self):
    opt = adadelta.Adadelta(lr=1.0, rho=0.9, epsilon=1.)
--- a/tensorflow/python/keras/optimizer_v2/adagrad_test.py
+++ b/tensorflow/python/keras/optimizer_v2/adagrad_test.py
@ -248,266 +248,278 @@ class AdagradOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
        self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariable(self):
-    for dtype in _DATA_TYPES:
-      var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0], [3.0, 4.0]],
-                                                    dtype=dtype)
-      x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0], [3.0, 4.0]],
+                                                      dtype=dtype)
+        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)

-      def loss():
-        pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
-        return pred * pred
+        def loss():
+          pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
+          return pred * pred

-      sgd_op = adagrad.Adagrad(1.0).minimize(loss, var_list=[var0])
-      self.evaluate(variables.global_variables_initializer())
-      # Fetch params to validate initial values
-      self.assertAllCloseAccordingToType([[1.0, 2.0], [3.0, 4.0]],
-                                         self.evaluate(var0))
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[0, 1], [3, 4]],
-                                         self.evaluate(var0),
-                                         atol=0.01)
+        sgd_op = adagrad.Adagrad(1.0).minimize(loss, var_list=[var0])
+        self.evaluate(variables.global_variables_initializer())
+        # Fetch params to validate initial values
+        self.assertAllCloseAccordingToType([[1.0, 2.0], [3.0, 4.0]],
+                                           self.evaluate(var0))
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[0, 1], [3, 4]],
+                                           self.evaluate(var0),
+                                           atol=0.01)

-  @test_util.run_deprecated_v1
  def testTensorLearningRate(self):
-    for dtype in _DATA_TYPES:
-      var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
-      var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
-      grads0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      grads1_np = np.array([0.01, 0.01], dtype=dtype.as_numpy_dtype)
-      var0 = resource_variable_ops.ResourceVariable(var0_np)
-      var1 = resource_variable_ops.ResourceVariable(var1_np)
-      grads0 = constant_op.constant(grads0_np)
-      grads1 = constant_op.constant(grads1_np)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
+        var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
+        grads0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        grads1_np = np.array([0.01, 0.01], dtype=dtype.as_numpy_dtype)
+        var0 = resource_variable_ops.ResourceVariable(var0_np)
+        var1 = resource_variable_ops.ResourceVariable(var1_np)
+        grads0 = constant_op.constant(grads0_np)
+        grads1 = constant_op.constant(grads1_np)

-      learning_rate = constant_op.constant(3.0)
-      ada_opt = adagrad.Adagrad(learning_rate)
-      ada_update = ada_opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
-      # Fetch params to validate initial values
-      self.assertAllClose([1.0, 2.0], self.evaluate(var0))
-      self.assertAllClose([3.0, 4.0], self.evaluate(var1))
-      accum0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      accum1_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      # Run 3 steps of adagrad
-      for _ in range(3):
-        self.evaluate(ada_update)
-        var0_np, accum0_np = adagrad_update_numpy(var0_np, accum0_np, grads0_np,
-                                                  learning_rate)
-        var1_np, accum1_np = adagrad_update_numpy(var1_np, accum1_np, grads1_np,
-                                                  learning_rate)
-        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
-        self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))
+        learning_rate = constant_op.constant(3.0)
+        ada_opt = adagrad.Adagrad(learning_rate)
+        ada_update = ada_opt.apply_gradients(zip([grads0, grads1],
+                                                 [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())
+        # Fetch params to validate initial values
+        self.assertAllClose([1.0, 2.0], self.evaluate(var0))
+        self.assertAllClose([3.0, 4.0], self.evaluate(var1))
+        accum0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        accum1_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        # Run 3 steps of adagrad
+        for _ in range(3):
+          self.evaluate(ada_update)
+          var0_np, accum0_np = adagrad_update_numpy(
+              var0_np, accum0_np, grads0_np, learning_rate)
+          var1_np, accum1_np = adagrad_update_numpy(
+              var1_np, accum1_np, grads1_np, learning_rate)
+          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
+          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSparseBasic(self):
-    for dtype in _DATA_TYPES:
-      var0_np = np.array([1.0, 1.0, 2.0], dtype=dtype.as_numpy_dtype)
-      grads0_np = np.array([0.1, 0, 0.1], dtype=dtype.as_numpy_dtype)
-      var1_np = np.array([3.0, 3.0, 4.0], dtype=dtype.as_numpy_dtype)
-      grads1_np = np.array([0.01, 0, 0.01], dtype=dtype.as_numpy_dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0_np = np.array([1.0, 1.0, 2.0], dtype=dtype.as_numpy_dtype)
+        grads0_np = np.array([0.1, 0, 0.1], dtype=dtype.as_numpy_dtype)
+        var1_np = np.array([3.0, 3.0, 4.0], dtype=dtype.as_numpy_dtype)
+        grads1_np = np.array([0.01, 0, 0.01], dtype=dtype.as_numpy_dtype)

-      var0 = resource_variable_ops.ResourceVariable(var0_np)
-      var1 = resource_variable_ops.ResourceVariable(var1_np)
-      grads0_np_indices = np.array([0, 2], dtype=np.int32)
-      grads0 = ops.IndexedSlices(
-          constant_op.constant(grads0_np[grads0_np_indices]),
-          constant_op.constant(grads0_np_indices), constant_op.constant([3]))
-      grads1_np_indices = np.array([0, 2], dtype=np.int32)
-      grads1 = ops.IndexedSlices(
-          constant_op.constant(grads1_np[grads1_np_indices]),
-          constant_op.constant(grads1_np_indices), constant_op.constant([3]))
-      learning_rate = 3.0
-      ada_opt = adagrad.Adagrad(learning_rate)
-      ada_update = ada_opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
+        var0 = resource_variable_ops.ResourceVariable(var0_np)
+        var1 = resource_variable_ops.ResourceVariable(var1_np)
+        grads0_np_indices = np.array([0, 2], dtype=np.int32)
+        grads0 = ops.IndexedSlices(
+            constant_op.constant(grads0_np[grads0_np_indices]),
+            constant_op.constant(grads0_np_indices), constant_op.constant([3]))
+        grads1_np_indices = np.array([0, 2], dtype=np.int32)
+        grads1 = ops.IndexedSlices(
+            constant_op.constant(grads1_np[grads1_np_indices]),
+            constant_op.constant(grads1_np_indices), constant_op.constant([3]))
+        learning_rate = 3.0
+        ada_opt = adagrad.Adagrad(learning_rate)
+        ada_update = ada_opt.apply_gradients(zip([grads0, grads1],
+                                                 [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())

-      # Fetch params to validate initial values
-      self.assertAllClose([1.0, 1.0, 2.0], self.evaluate(var0))
-      self.assertAllClose([3.0, 3.0, 4.0], self.evaluate(var1))
+        # Fetch params to validate initial values
+        self.assertAllClose([1.0, 1.0, 2.0], self.evaluate(var0))
+        self.assertAllClose([3.0, 3.0, 4.0], self.evaluate(var1))

-      accum0_np = np.array([0.1, 0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      accum1_np = np.array([0.1, 0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        accum0_np = np.array([0.1, 0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        accum1_np = np.array([0.1, 0.1, 0.1], dtype=dtype.as_numpy_dtype)

-      # Run 3 step of sgd
-      for _ in range(3):
-        self.evaluate(ada_update)
+        # Run 3 step of sgd
+        for _ in range(3):
+          self.evaluate(ada_update)

-        var0_np, accum0_np = sparse_adagrad_update_numpy(
-            var0_np, accum0_np, grads0_np_indices, grads0_np[grads0_np_indices],
-            learning_rate)
-        var1_np, accum1_np = sparse_adagrad_update_numpy(
-            var1_np, accum1_np, grads1_np_indices, grads1_np[grads1_np_indices],
-            learning_rate)
-        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
-        self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))
+          var0_np, accum0_np = sparse_adagrad_update_numpy(
+              var0_np, accum0_np, grads0_np_indices,
+              grads0_np[grads0_np_indices], learning_rate)
+          var1_np, accum1_np = sparse_adagrad_update_numpy(
+              var1_np, accum1_np, grads1_np_indices,
+              grads1_np[grads1_np_indices], learning_rate)
+          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
+          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSparseSingleVarDim(self):
-    for dtype in _DATA_TYPES:
-      var0_np = np.array([1.0], dtype=dtype.as_numpy_dtype)
-      grads0_np = np.array([0.1], dtype=dtype.as_numpy_dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0_np = np.array([1.0], dtype=dtype.as_numpy_dtype)
+        grads0_np = np.array([0.1], dtype=dtype.as_numpy_dtype)

-      var0 = resource_variable_ops.ResourceVariable(var0_np)
-      grads0_np_indices = np.array([0], dtype=np.int32)
-      grads0 = ops.IndexedSlices(
-          constant_op.constant(grads0_np[grads0_np_indices]),
-          constant_op.constant(grads0_np_indices), constant_op.constant([3]))
-      learning_rate = 3.0
-      ada_opt = adagrad.Adagrad(learning_rate, epsilon=1.)
-      ada_update = ada_opt.apply_gradients(zip([grads0], [var0]))
-      self.evaluate(variables.global_variables_initializer())
+        var0 = resource_variable_ops.ResourceVariable(var0_np)
+        grads0_np_indices = np.array([0], dtype=np.int32)
+        grads0 = ops.IndexedSlices(
+            constant_op.constant(grads0_np[grads0_np_indices]),
+            constant_op.constant(grads0_np_indices), constant_op.constant([3]))
+        learning_rate = 3.0
+        ada_opt = adagrad.Adagrad(learning_rate, epsilon=1.)
+        ada_update = ada_opt.apply_gradients(zip([grads0], [var0]))
+        self.evaluate(variables.global_variables_initializer())

-      # Fetch params to validate initial values
-      self.assertAllClose([1.0], self.evaluate(var0))
+        # Fetch params to validate initial values
+        self.assertAllClose([1.0], self.evaluate(var0))

-      accum0_np = np.array([0.1], dtype=dtype.as_numpy_dtype)
+        accum0_np = np.array([0.1], dtype=dtype.as_numpy_dtype)

-      # Run 3 step of sgd
-      for _ in range(3):
-        self.evaluate(ada_update)
+        # Run 3 step of sgd
+        for _ in range(3):
+          self.evaluate(ada_update)

-        var0_np, accum0_np = sparse_adagrad_update_numpy(
-            var0_np,
-            accum0_np,
-            grads0_np_indices,
-            grads0_np[grads0_np_indices],
-            learning_rate,
-            epsilon=1.)
-        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
+          var0_np, accum0_np = sparse_adagrad_update_numpy(
+              var0_np,
+              accum0_np,
+              grads0_np_indices,
+              grads0_np[grads0_np_indices],
+              learning_rate,
+              epsilon=1.)
+          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))

-  @test_util.run_deprecated_v1
  def testSparseRepeatedIndices(self):
-    for dtype in _DATA_TYPES:
-      var_np = np.array([[1.0], [2.0]], dtype=dtype.as_numpy_dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var_np = np.array([[1.0], [2.0]], dtype=dtype.as_numpy_dtype)

-      repeated_index_update_var = resource_variable_ops.ResourceVariable(
-          var_np, dtype=dtype)
-      aggregated_update_var = resource_variable_ops.ResourceVariable(
-          var_np, dtype=dtype)
-      grad_repeated_index = ops.IndexedSlices(
-          constant_op.constant([0.1, 0.1], shape=[2, 1], dtype=dtype),
-          constant_op.constant([1, 1]), constant_op.constant([2, 1]))
-      grad_aggregated = ops.IndexedSlices(
-          constant_op.constant([0.2], shape=[1, 1], dtype=dtype),
-          constant_op.constant([1]), constant_op.constant([2, 1]))
-      repeated_update = adagrad.Adagrad(3.0).apply_gradients([
-          (grad_repeated_index, repeated_index_update_var)
-      ])
-      aggregated_update = adagrad.Adagrad(3.0).apply_gradients([
-          (grad_aggregated, aggregated_update_var)
-      ])
-      self.evaluate(variables.global_variables_initializer())
-      self.assertAllClose(
-          self.evaluate(aggregated_update_var),
-          self.evaluate(repeated_index_update_var))
-      for _ in range(3):
-        self.evaluate(repeated_update)
-        self.evaluate(aggregated_update)
+        repeated_index_update_var = resource_variable_ops.ResourceVariable(
+            var_np, dtype=dtype)
+        aggregated_update_var = resource_variable_ops.ResourceVariable(
+            var_np, dtype=dtype)
+        grad_repeated_index = ops.IndexedSlices(
+            constant_op.constant([0.1, 0.1], shape=[2, 1], dtype=dtype),
+            constant_op.constant([1, 1]), constant_op.constant([2, 1]))
+        grad_aggregated = ops.IndexedSlices(
+            constant_op.constant([0.2], shape=[1, 1], dtype=dtype),
+            constant_op.constant([1]), constant_op.constant([2, 1]))
+        repeated_update = adagrad.Adagrad(3.0).apply_gradients([
+            (grad_repeated_index, repeated_index_update_var)
+        ])
+        aggregated_update = adagrad.Adagrad(3.0).apply_gradients([
+            (grad_aggregated, aggregated_update_var)
+        ])
+        self.evaluate(variables.global_variables_initializer())
        self.assertAllClose(
            self.evaluate(aggregated_update_var),
            self.evaluate(repeated_index_update_var))
+        for _ in range(3):
+          self.evaluate(repeated_update)
+          self.evaluate(aggregated_update)
+          self.assertAllClose(
+              self.evaluate(aggregated_update_var),
+              self.evaluate(repeated_index_update_var))

-  @test_util.run_deprecated_v1
  def testSparseRepeatedIndicesByEmbeddingLookUp(self):
-    for dtype in _DATA_TYPES:
-      var_repeated = resource_variable_ops.ResourceVariable([1.0, 2.0],
-                                                            dtype=dtype)
-      loss_repeated = lambda: math_ops.reduce_sum(  # pylint: disable=g-long-lambda
-          embedding_ops.embedding_lookup(var_repeated, [0, 0]))  # pylint: disable=cell-var-from-loop
-      var_aggregated = resource_variable_ops.ResourceVariable([1.0, 2.0],
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var_repeated = resource_variable_ops.ResourceVariable([1.0, 2.0],
                                                              dtype=dtype)
-      loss_aggregated = lambda: 2 * math_ops.reduce_sum(  # pylint: disable=g-long-lambda
-          embedding_ops.embedding_lookup(var_aggregated, [0]))  # pylint: disable=cell-var-from-loop
-      update_op_repeated = adagrad.Adagrad(2.0).minimize(
-          loss_repeated, var_list=[var_repeated])
-      update_op_aggregated = adagrad.Adagrad(2.0).minimize(
-          loss_aggregated, var_list=[var_aggregated])
-      self.evaluate(variables.global_variables_initializer())
-      self.assertAllCloseAccordingToType(
-          self.evaluate(var_repeated), self.evaluate(var_aggregated))
-      for _ in range(3):
-        self.evaluate(update_op_repeated)
-        self.evaluate(update_op_aggregated)
+        loss_repeated = lambda: math_ops.reduce_sum(  # pylint: disable=g-long-lambda
+            embedding_ops.embedding_lookup(var_repeated, [0, 0]))  # pylint: disable=cell-var-from-loop
+        var_aggregated = resource_variable_ops.ResourceVariable([1.0, 2.0],
+                                                                dtype=dtype)
+        loss_aggregated = lambda: 2 * math_ops.reduce_sum(  # pylint: disable=g-long-lambda
+            embedding_ops.embedding_lookup(var_aggregated, [0]))  # pylint: disable=cell-var-from-loop
+        update_op_repeated = adagrad.Adagrad(2.0).minimize(
+            loss_repeated, var_list=[var_repeated])
+        update_op_aggregated = adagrad.Adagrad(2.0).minimize(
+            loss_aggregated, var_list=[var_aggregated])
+        self.evaluate(variables.global_variables_initializer())
        self.assertAllCloseAccordingToType(
            self.evaluate(var_repeated), self.evaluate(var_aggregated))
+        for _ in range(3):
+          self.evaluate(update_op_repeated)
+          self.evaluate(update_op_aggregated)
+          self.assertAllCloseAccordingToType(
+              self.evaluate(var_repeated), self.evaluate(var_aggregated))

-  @test_util.run_deprecated_v1
  def testSparseStability(self):
-    for dtype in [dtypes.half]:
-      shape = [1, 6]
-      var0_np = np.array(
-          [[0.00872496, -0.106952, 0.110467, 0.226505, -0.0147257, -0.0105945]],
-          dtype=dtype.as_numpy_dtype)
-      var0 = resource_variable_ops.ResourceVariable(var0_np)
-      grads0_np = np.array([[
-          -5.91278e-05, 5.31673e-05, -2.5779e-06, 4.29153e-05, -8.4877e-05,
-          -9.48906e-05
-      ]],
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half]:
+        shape = [1, 6]
+        var0_np = np.array([[0.00872496, -0.106952, 0.110467,
+                             0.226505, -0.0147257, -0.0105945]],
                           dtype=dtype.as_numpy_dtype)
-      grads0 = ops.IndexedSlices(
-          constant_op.constant(grads0_np), constant_op.constant([0]),
-          constant_op.constant(shape))
-      ada_opt = adagrad.Adagrad(1.0)
-      ada_update = ada_opt.apply_gradients(zip([grads0], [var0]))
-      slot0 = ada_opt.get_slot(var0, "accumulator")
-      init = variables.global_variables_initializer()
-      for _ in range(100):
-        self.evaluate(init)
-        self.evaluate(ada_update)
-        self.assertAllCloseAccordingToType(
-            np.array([[0.1, 0.1, 0.1, 0.1, 0.1, 0.1]]), self.evaluate(slot0))
-        self.assertAllCloseAccordingToType(
-            np.array([[
-                0.00891194, -0.10712013, 0.11047515, 0.22636929, -0.0144573,
-                -0.01029443
-            ]]), self.evaluate(var0))
+        var0 = resource_variable_ops.ResourceVariable(var0_np)
+        grads0_np = np.array([[
+            -5.91278e-05, 5.31673e-05, -2.5779e-06, 4.29153e-05, -8.4877e-05,
+            -9.48906e-05
+        ]],
+                             dtype=dtype.as_numpy_dtype)
+        grads0 = ops.IndexedSlices(
+            constant_op.constant(grads0_np), constant_op.constant([0]),
+            constant_op.constant(shape))
+        ada_opt = adagrad.Adagrad(1.0)
+        ada_update = ada_opt.apply_gradients(zip([grads0], [var0]))
+        slot0 = ada_opt.get_slot(var0, "accumulator")
+        init = variables.global_variables_initializer()
+        for _ in range(100):
+          self.evaluate(init)
+          self.evaluate(ada_update)
+          self.assertAllCloseAccordingToType(
+              np.array([[0.1, 0.1, 0.1, 0.1, 0.1, 0.1]]), self.evaluate(slot0))
+          self.assertAllCloseAccordingToType(
+              np.array([[
+                  0.00891194, -0.10712013, 0.11047515, 0.22636929, -0.0144573,
+                  -0.01029443
+              ]]), self.evaluate(var0))

-  @test_util.run_deprecated_v1
  def testSharing(self):
-    for dtype in _DATA_TYPES:
-      var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
-      grads0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
-      grads1_np = np.array([0.01, 0.01], dtype=dtype.as_numpy_dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
+        grads0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
+        grads1_np = np.array([0.01, 0.01], dtype=dtype.as_numpy_dtype)

-      var0 = resource_variable_ops.ResourceVariable(var0_np)
-      var1 = resource_variable_ops.ResourceVariable(var1_np)
-      grads0 = constant_op.constant(grads0_np)
-      grads1 = constant_op.constant(grads1_np)
+        var0 = resource_variable_ops.ResourceVariable(var0_np)
+        var1 = resource_variable_ops.ResourceVariable(var1_np)
+        grads0 = constant_op.constant(grads0_np)
+        grads1 = constant_op.constant(grads1_np)

-      learning_rate = 3.0
-      ada_opt = adagrad.Adagrad(learning_rate)
-      # Apply the optimizer twice.  Both applications will use
-      # the same accums.
-      ada_update1 = ada_opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
-      ada_update2 = ada_opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
-      slot0 = ada_opt.get_slot(var0, "accumulator")
-      self.assertEqual(slot0.shape, var0.shape)
-      slot1 = ada_opt.get_slot(var1, "accumulator")
-      self.assertEqual(slot1.shape, var1.shape)
-      self.evaluate(variables.global_variables_initializer())
+        learning_rate = 3.0
+        ada_opt = adagrad.Adagrad(learning_rate)
+        # Apply the optimizer twice.  Both applications will use
+        # the same accums.
+        ada_update1 = ada_opt.apply_gradients(zip([grads0, grads1],
+                                                  [var0, var1]))
+        ada_update2 = ada_opt.apply_gradients(zip([grads0, grads1],
+                                                  [var0, var1]))
+        slot0 = ada_opt.get_slot(var0, "accumulator")
+        self.assertEqual(slot0.shape, var0.shape)
+        slot1 = ada_opt.get_slot(var1, "accumulator")
+        self.assertEqual(slot1.shape, var1.shape)
+        self.evaluate(variables.global_variables_initializer())

-      # Fetch params to validate initial values.
-      self.assertAllClose([1.0, 2.0], self.evaluate(var0))
-      self.assertAllClose([3.0, 4.0], self.evaluate(var1))
-      # Mix the first and the second adagrad for 3 steps.
-      self.evaluate(ada_update1)
-      self.evaluate(ada_update2)
-      self.evaluate(ada_update1)
+        # Fetch params to validate initial values.
+        self.assertAllClose([1.0, 2.0], self.evaluate(var0))
+        self.assertAllClose([3.0, 4.0], self.evaluate(var1))
+        # Mix the first and the second adagrad for 3 steps.
+        self.evaluate(ada_update1)
+        self.evaluate(ada_update2)
+        self.evaluate(ada_update1)

-      accum0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      accum1_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
-      for _ in range(3):
-        var0_np, accum0_np = adagrad_update_numpy(var0_np, accum0_np, grads0_np,
-                                                  learning_rate)
-        var1_np, accum1_np = adagrad_update_numpy(var1_np, accum1_np, grads1_np,
-                                                  learning_rate)
-      self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
-      self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))
+        accum0_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        accum1_np = np.array([0.1, 0.1], dtype=dtype.as_numpy_dtype)
+        for _ in range(3):
+          var0_np, accum0_np = adagrad_update_numpy(
+              var0_np, accum0_np, grads0_np, learning_rate)
+          var1_np, accum1_np = adagrad_update_numpy(
+              var1_np, accum1_np, grads1_np, learning_rate)
+        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
+        self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

  def testConstructAdagradWithLR(self):
    opt = adagrad.Adagrad(lr=1.0)
--- a/tensorflow/python/keras/optimizer_v2/adam_test.py
+++ b/tensorflow/python/keras/optimizer_v2/adam_test.py
@ -110,10 +110,10 @@ def get_beta_accumulators(opt, dtype):

 class AdamOptimizerTest(test.TestCase):

-  @test_util.run_deprecated_v1
  def testSparse(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 1.0, 2.0], dtype=dtype.as_numpy_dtype)
@ -155,10 +155,11 @@ class AdamOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSparseDevicePlacement(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for index_dtype in [dtypes.int32, dtypes.int64]:
-      with self.cached_session(force_gpu=test.is_gpu_available()):
+      with ops.Graph().as_default(), self.cached_session(
+          force_gpu=test.is_gpu_available()):
        # If a GPU is available, tests that all optimizer ops can be placed on
        # it (i.e. they have GPU kernels).
        var = variables.Variable([[1.0], [2.0]])
@ -169,10 +170,10 @@ class AdamOptimizerTest(test.TestCase):
        variables.global_variables_initializer().run()
        minimize_op.run()

-  @test_util.run_deprecated_v1
  def testSparseRepeatedIndices(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session():
+      with ops.Graph().as_default(), self.cached_session():
        repeated_index_update_var = variables.Variable(
            [[1.0], [2.0]], dtype=dtype)
        aggregated_update_var = variables.Variable(
@ -353,10 +354,10 @@ class AdamOptimizerTest(test.TestCase):
              self.evaluate(aggregated_update_var),
              self.evaluate(repeated_index_update_var))

-  @test_util.run_deprecated_v1
  def testBasicWithLearningRateDecay(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for i, dtype in enumerate([dtypes.half, dtypes.float32, dtypes.float64]):
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
@ -400,10 +401,10 @@ class AdamOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testBasicWithLearningRateInverseTimeDecay(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for i, dtype in enumerate([dtypes.half, dtypes.float32, dtypes.float64]):
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
@ -449,10 +450,10 @@ class AdamOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testTensorLearningRate(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
@ -488,10 +489,10 @@ class AdamOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSharing(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
--- a/tensorflow/python/keras/optimizer_v2/adamax_test.py
+++ b/tensorflow/python/keras/optimizer_v2/adamax_test.py
@ -78,9 +78,10 @@ def get_beta_accumulators(opt, dtype):

 class AdamaxOptimizerTest(test.TestCase):

-  def doTestSparse(self, use_resource=False):
+  def testResourceSparse(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        zero_slots = lambda: np.zeros((3), dtype=dtype.as_numpy_dtype)  # pylint: disable=cell-var-from-loop
        m0, v0, m1, v1 = zero_slots(), zero_slots(), zero_slots(), zero_slots()
@ -124,14 +125,11 @@ class AdamaxOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, var0.eval())
          self.assertAllCloseAccordingToType(var1_np, var1.eval())

-  @test_util.run_deprecated_v1
-  def testResourceSparse(self):
-    self.doTestSparse(use_resource=True)
-
-  @test_util.run_deprecated_v1
  def testSparseDevicePlacement(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for index_dtype in [dtypes.int32, dtypes.int64]:
-      with self.cached_session(force_gpu=test.is_gpu_available()):
+      with ops.Graph().as_default(), self.cached_session(
+          force_gpu=test.is_gpu_available()):
        # If a GPU is available, tests that all optimizer ops can be placed on
        # it (i.e. they have GPU kernels).
        var = variables.Variable([[1.0], [2.0]])
@ -142,10 +140,10 @@ class AdamaxOptimizerTest(test.TestCase):
        variables.global_variables_initializer().run()
        minimize_op.run()

-  @test_util.run_deprecated_v1
  def testSparseRepeatedIndices(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session():
+      with ops.Graph().as_default(), self.cached_session():
        repeated_index_update_var = variables.Variable(
            [[1.0], [2.0]], dtype=dtype)
        aggregated_update_var = variables.Variable(
@ -278,10 +276,10 @@ class AdamaxOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1),
                                             rtol=1e-2)

-  @test_util.run_deprecated_v1
  def testTensorLearningRate(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
@ -315,10 +313,10 @@ class AdamaxOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, var0.eval())
          self.assertAllCloseAccordingToType(var1_np, var1.eval())

-  @test_util.run_deprecated_v1
  def testSharing(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1 = 0.0, 0.0, 0.0, 0.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
--- a/tensorflow/python/keras/optimizer_v2/ftrl_test.py
+++ b/tensorflow/python/keras/optimizer_v2/ftrl_test.py
@ -23,7 +23,6 @@ import numpy as np
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
 from tensorflow.python.framework import ops
-from tensorflow.python.framework import test_util
 from tensorflow.python.keras.optimizer_v2 import ftrl
 from tensorflow.python.ops import embedding_ops
 from tensorflow.python.ops import math_ops
@ -37,8 +36,9 @@ from tensorflow.python.training import gradient_descent
 class FtrlOptimizerTest(test.TestCase):

  def doTestFtrlwithoutRegularization(self, use_resource=False):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        if use_resource:
          var0 = resource_variable_ops.ResourceVariable([0.0, 0.0], dtype=dtype)
          var1 = resource_variable_ops.ResourceVariable([0.0, 0.0], dtype=dtype)
@ -69,18 +69,16 @@ class FtrlOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType(
            np.array([-0.28432083, -0.56694895]), v1_val)

-  @test_util.run_deprecated_v1
  def testFtrlWithoutRegularization(self):
    self.doTestFtrlwithoutRegularization(use_resource=False)

-  @test_util.run_deprecated_v1
  def testResourceFtrlWithoutRegularization(self):
    self.doTestFtrlwithoutRegularization(use_resource=True)

-  @test_util.run_deprecated_v1
  def testFtrlwithoutRegularization2(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
        var1 = variables.Variable([4.0, 3.0], dtype=dtype)
        grads0 = constant_op.constant([0.1, 0.2], dtype=dtype)
@ -107,10 +105,10 @@ class FtrlOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType(
            np.array([-0.28232238, -0.56096673]), v1_val)

-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariable(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)

@ -129,10 +127,10 @@ class FtrlOptimizerTest(test.TestCase):
                                           self.evaluate(var0),
                                           atol=0.01)

-  @test_util.run_deprecated_v1
  def testFtrlWithL1(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
        var1 = variables.Variable([4.0, 3.0], dtype=dtype)
        grads0 = constant_op.constant([0.1, 0.2], dtype=dtype)
@ -159,10 +157,10 @@ class FtrlOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType(
            np.array([-0.93460727, -1.86147261]), v1_val)

-  @test_util.run_deprecated_v1
  def testFtrlWithL1_L2(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
        var1 = variables.Variable([4.0, 3.0], dtype=dtype)
        grads0 = constant_op.constant([0.1, 0.2], dtype=dtype)
@ -190,7 +188,6 @@ class FtrlOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType(
            np.array([-0.02406147, -0.04830509]), v1_val)

-  @test_util.run_deprecated_v1
  def testFtrlWithL1_L2_L2Shrinkage(self):
    """Test the new FTRL op with support for l2 shrinkage.

@ -198,8 +195,9 @@ class FtrlOptimizerTest(test.TestCase):
    towards the origin causes the gradient descent trajectory to differ. The
    weights will tend to have smaller magnitudes with this parameter set.
    """
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
        var1 = variables.Variable([4.0, 3.0], dtype=dtype)
        grads0 = constant_op.constant([0.1, 0.2], dtype=dtype)
@ -228,11 +226,11 @@ class FtrlOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType(
            np.array([-0.14378493, -0.13229476]), v1_val)

-  @test_util.run_deprecated_v1
  def testFtrlWithL1_L2_L2ShrinkageSparse(self):
    """Tests the new FTRL op with support for l2 shrinkage on sparse grads."""
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        var0 = variables.Variable([[1.0], [2.0]], dtype=dtype)
        var1 = variables.Variable([[4.0], [3.0]], dtype=dtype)
        grads0 = ops.IndexedSlices(
@ -263,11 +261,11 @@ class FtrlOptimizerTest(test.TestCase):
        self.assertAllCloseAccordingToType([[-0.22578995], [2.]], v0_val)
        self.assertAllCloseAccordingToType([[4.], [-0.13229476]], v1_val)

-  @test_util.run_deprecated_v1
  def testFtrlWithL2ShrinkageDoesNotChangeLrSchedule(self):
    """Verifies that l2 shrinkage in FTRL does not change lr schedule."""
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True) as sess:
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True) as sess:
        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
        var1 = variables.Variable([1.0, 2.0], dtype=dtype)
        grads0 = constant_op.constant([0.1, 0.2], dtype=dtype)
@ -347,10 +345,10 @@ class FtrlOptimizerTest(test.TestCase):
  # with Adagrad.
  # So, basing on these two properties, we test if our implementation of
  # FTRL-Proximal performs same updates as Adagrad or GradientDescent.
-  @test_util.run_deprecated_v1
  def testEquivAdagradwithoutRegularization(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        val0, val1 = self.applyOptimizer(
            ftrl.Ftrl(
                3.0,
@ -361,17 +359,17 @@ class FtrlOptimizerTest(test.TestCase):
                l2_regularization_strength=0.0),
            dtype)

-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        val2, val3 = self.applyOptimizer(
            adagrad.AdagradOptimizer(3.0, initial_accumulator_value=0.1), dtype)

      self.assertAllCloseAccordingToType(val0, val2)
      self.assertAllCloseAccordingToType(val1, val3)

-  @test_util.run_deprecated_v1
  def testEquivSparseAdagradwithoutRegularization(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session():
+      with ops.Graph().as_default(), self.cached_session():
        val0, val1 = self.applyOptimizer(
            ftrl.Ftrl(
                3.0,
@ -383,7 +381,7 @@ class FtrlOptimizerTest(test.TestCase):
            dtype,
            is_sparse=True)

-      with self.cached_session():
+      with ops.Graph().as_default(), self.cached_session():
        val2, val3 = self.applyOptimizer(
            adagrad.AdagradOptimizer(3.0, initial_accumulator_value=0.1),
            dtype,
@ -392,10 +390,10 @@ class FtrlOptimizerTest(test.TestCase):
      self.assertAllCloseAccordingToType(val0, val2)
      self.assertAllCloseAccordingToType(val1, val3)

-  @test_util.run_deprecated_v1
  def testEquivSparseGradientDescentwithoutRegularization(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        val0, val1 = self.applyOptimizer(
            ftrl.Ftrl(
                3.0,
@ -407,7 +405,7 @@ class FtrlOptimizerTest(test.TestCase):
            dtype,
            is_sparse=True)

-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        val2, val3 = self.applyOptimizer(
            gradient_descent.GradientDescentOptimizer(3.0),
            dtype,
@ -416,10 +414,10 @@ class FtrlOptimizerTest(test.TestCase):
      self.assertAllCloseAccordingToType(val0, val2)
      self.assertAllCloseAccordingToType(val1, val3)

-  @test_util.run_deprecated_v1
  def testEquivGradientDescentwithoutRegularization(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32]:
-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        val0, val1 = self.applyOptimizer(
            ftrl.Ftrl(
                3.0,
@ -430,7 +428,7 @@ class FtrlOptimizerTest(test.TestCase):
                l2_regularization_strength=0.0),
            dtype)

-      with self.cached_session(use_gpu=True):
+      with ops.Graph().as_default(), self.cached_session(use_gpu=True):
        val2, val3 = self.applyOptimizer(
            gradient_descent.GradientDescentOptimizer(3.0), dtype)

--- a/tensorflow/python/keras/optimizer_v2/gradient_descent_test.py
+++ b/tensorflow/python/keras/optimizer_v2/gradient_descent_test.py
@ -149,28 +149,29 @@ class GradientDescentOptimizerTest(test.TestCase):
                                         self.evaluate(var0))
      self.assertAllCloseAccordingToType([3.0 - 1.0], self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariable(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
-      var1 = resource_variable_ops.ResourceVariable([3.0], dtype=dtype)
-      x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
+        var1 = resource_variable_ops.ResourceVariable([3.0], dtype=dtype)
+        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)

-      def loss():
-        pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
-        pred += var1  # pylint: disable=cell-var-from-loop
-        return pred * pred
+        def loss():
+          pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
+          pred += var1  # pylint: disable=cell-var-from-loop
+          return pred * pred

-      sgd_op = gradient_descent.SGD(1.0).minimize(loss, [var0, var1])
-      self.evaluate(variables.global_variables_initializer())
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      np_pred = 1.0 * 4.0 + 2.0 * 5.0 + 3.0
-      np_grad = 2 * np_pred
-      self.assertAllCloseAccordingToType(
-          [[1.0 - np_grad * 4.0, 2.0 - np_grad * 5.0]], self.evaluate(var0))
-      self.assertAllCloseAccordingToType([3.0 - np_grad], self.evaluate(var1))
+        sgd_op = gradient_descent.SGD(1.0).minimize(loss, [var0, var1])
+        self.evaluate(variables.global_variables_initializer())
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        np_pred = 1.0 * 4.0 + 2.0 * 5.0 + 3.0
+        np_grad = 2 * np_pred
+        self.assertAllCloseAccordingToType(
+            [[1.0 - np_grad * 4.0, 2.0 - np_grad * 5.0]], self.evaluate(var0))
+        self.assertAllCloseAccordingToType([3.0 - np_grad], self.evaluate(var1))

  def testTensorLearningRate(self):
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
@ -190,69 +191,72 @@ class GradientDescentOptimizerTest(test.TestCase):
      self.assertAllCloseAccordingToType([3.0 - 3.0 * 0.01, 4.0 - 3.0 * 0.01],
                                         self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testGradWrtRef(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      opt = gradient_descent.SGD(3.0)
-      values = [1.0, 3.0]
-      vars_ = [variables.Variable([v], dtype=dtype) for v in values]
-      loss = lambda: vars_[0] + vars_[1]  # pylint: disable=cell-var-from-loop
-      grads_and_vars = opt._compute_gradients(loss, vars_)
-      self.evaluate(variables.global_variables_initializer())
-      for grad, _ in grads_and_vars:
-        self.assertAllCloseAccordingToType([1.0], self.evaluate(grad))
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        opt = gradient_descent.SGD(3.0)
+        values = [1.0, 3.0]
+        vars_ = [variables.Variable([v], dtype=dtype) for v in values]
+        loss = lambda: vars_[0] + vars_[1]  # pylint: disable=cell-var-from-loop
+        grads_and_vars = opt._compute_gradients(loss, vars_)
+        self.evaluate(variables.global_variables_initializer())
+        for grad, _ in grads_and_vars:
+          self.assertAllCloseAccordingToType([1.0], self.evaluate(grad))

-  @test_util.run_deprecated_v1
  def testSparseBasic(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = variables.Variable([[1.0], [2.0]], dtype=dtype)
-      var1 = variables.Variable([[3.0], [4.0]], dtype=dtype)
-      grads0 = ops.IndexedSlices(
-          constant_op.constant([0.1], shape=[1, 1], dtype=dtype),
-          constant_op.constant([0]), constant_op.constant([2, 1]))
-      grads1 = ops.IndexedSlices(
-          constant_op.constant([0.01], shape=[1, 1], dtype=dtype),
-          constant_op.constant([1]), constant_op.constant([2, 1]))
-      sgd_op = gradient_descent.SGD(3.0).apply_gradients(
-          zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[1.0 - 3.0 * 0.1], [2.0]],
-                                         self.evaluate(var0))
-      self.assertAllCloseAccordingToType([[3.0], [4.0 - 3.0 * 0.01]],
-                                         self.evaluate(var1))
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = variables.Variable([[1.0], [2.0]], dtype=dtype)
+        var1 = variables.Variable([[3.0], [4.0]], dtype=dtype)
+        grads0 = ops.IndexedSlices(
+            constant_op.constant([0.1], shape=[1, 1], dtype=dtype),
+            constant_op.constant([0]), constant_op.constant([2, 1]))
+        grads1 = ops.IndexedSlices(
+            constant_op.constant([0.01], shape=[1, 1], dtype=dtype),
+            constant_op.constant([1]), constant_op.constant([2, 1]))
+        sgd_op = gradient_descent.SGD(3.0).apply_gradients(
+            zip([grads0, grads1], [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[1.0 - 3.0 * 0.1], [2.0]],
+                                           self.evaluate(var0))
+        self.assertAllCloseAccordingToType([[3.0], [4.0 - 3.0 * 0.01]],
+                                           self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSparseBasicWithLearningRateDecay(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = variables.Variable([[1.0], [2.0]], dtype=dtype)
-      var1 = variables.Variable([[3.0], [4.0]], dtype=dtype)
-      grads0 = ops.IndexedSlices(
-          constant_op.constant([0.1], shape=[1, 1], dtype=dtype),
-          constant_op.constant([0]), constant_op.constant([2, 1]))
-      grads1 = ops.IndexedSlices(
-          constant_op.constant([0.01], shape=[1, 1], dtype=dtype),
-          constant_op.constant([1]), constant_op.constant([2, 1]))
-      sgd_op = gradient_descent.SGD(
-          3.0, decay=0.5).apply_gradients(
-              zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
-      # Run 2 steps of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[1.0 - 3.0 * 0.1], [2.0]],
-                                         self.evaluate(var0))
-      self.assertAllCloseAccordingToType([[3.0], [4.0 - 3.0 * 0.01]],
-                                         self.evaluate(var1))
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = variables.Variable([[1.0], [2.0]], dtype=dtype)
+        var1 = variables.Variable([[3.0], [4.0]], dtype=dtype)
+        grads0 = ops.IndexedSlices(
+            constant_op.constant([0.1], shape=[1, 1], dtype=dtype),
+            constant_op.constant([0]), constant_op.constant([2, 1]))
+        grads1 = ops.IndexedSlices(
+            constant_op.constant([0.01], shape=[1, 1], dtype=dtype),
+            constant_op.constant([1]), constant_op.constant([2, 1]))
+        sgd_op = gradient_descent.SGD(
+            3.0, decay=0.5).apply_gradients(
+                zip([grads0, grads1], [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())
+        # Run 2 steps of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[1.0 - 3.0 * 0.1], [2.0]],
+                                           self.evaluate(var0))
+        self.assertAllCloseAccordingToType([[3.0], [4.0 - 3.0 * 0.01]],
+                                           self.evaluate(var1))

-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType(
-          [[1.0 - 3.0 * 0.1 - 2.0 * 0.1], [2.0]], self.evaluate(var0))
-      self.assertAllCloseAccordingToType(
-          [[3.0], [4.0 - 3.0 * 0.01 - 2.0 * 0.01]], self.evaluate(var1))
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType(
+            [[1.0 - 3.0 * 0.1 - 2.0 * 0.1], [2.0]], self.evaluate(var0))
+        self.assertAllCloseAccordingToType(
+            [[3.0], [4.0 - 3.0 * 0.01 - 2.0 * 0.01]], self.evaluate(var1))

  def testCapturingInDefunWhileExecutingEagerly(self):
    with context.eager_mode():
@ -359,37 +363,38 @@ class MomentumOptimizerTest(test.TestCase):
              3.98 - ((0.9 * 0.01 + 0.01) * 2.0)
          ]), self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testNesterovMomentum(self):
-    for dtype in [dtypes.float32, dtypes.float64]:
-      var0 = resource_variable_ops.ResourceVariable([1.0, 2.0],
-                                                    dtype=dtype,
-                                                    name="var0")
-      var1 = resource_variable_ops.ResourceVariable([3.0, 4.0],
-                                                    dtype=dtype,
-                                                    name="var1")
-      var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
-      var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
-      accum0_np = np.array([0.0, 0.0], dtype=dtype.as_numpy_dtype)
-      accum1_np = np.array([0.0, 0.0], dtype=dtype.as_numpy_dtype)
-      loss = lambda: 5 * var0 * var0 + 3 * var1  # pylint: disable=cell-var-from-loop
-      mom_op = gradient_descent.SGD(
-          learning_rate=2.0, momentum=0.9, nesterov=True)
-      opt_op = mom_op.minimize(loss, [var0, var1])
-      self.evaluate(variables.global_variables_initializer())
-      for _ in range(1, 5):
-        self.evaluate(opt_op)
-        var0_np, accum0_np = self._update_nesterov_momentum_numpy(
-            var0_np, accum0_np, var0_np * 10, 2.0, 0.9)
-        var1_np, accum1_np = self._update_nesterov_momentum_numpy(
-            var1_np, accum1_np, 3, 2.0, 0.9)
-        self.assertAllClose(var0_np, self.evaluate(var0))
-        self.assertAllClose(var1_np, self.evaluate(var1))
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.float32, dtypes.float64]:
+        var0 = resource_variable_ops.ResourceVariable([1.0, 2.0],
+                                                      dtype=dtype,
+                                                      name="var0")
+        var1 = resource_variable_ops.ResourceVariable([3.0, 4.0],
+                                                      dtype=dtype,
+                                                      name="var1")
+        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
+        var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
+        accum0_np = np.array([0.0, 0.0], dtype=dtype.as_numpy_dtype)
+        accum1_np = np.array([0.0, 0.0], dtype=dtype.as_numpy_dtype)
+        loss = lambda: 5 * var0 * var0 + 3 * var1  # pylint: disable=cell-var-from-loop
+        mom_op = gradient_descent.SGD(
+            learning_rate=2.0, momentum=0.9, nesterov=True)
+        opt_op = mom_op.minimize(loss, [var0, var1])
+        self.evaluate(variables.global_variables_initializer())
+        for _ in range(1, 5):
+          self.evaluate(opt_op)
+          var0_np, accum0_np = self._update_nesterov_momentum_numpy(
+              var0_np, accum0_np, var0_np * 10, 2.0, 0.9)
+          var1_np, accum1_np = self._update_nesterov_momentum_numpy(
+              var1_np, accum1_np, 3, 2.0, 0.9)
+          self.assertAllClose(var0_np, self.evaluate(var0))
+          self.assertAllClose(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSparseNesterovMomentum(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.float32, dtypes.float64]:
-      with self.cached_session() as sess:
+      with ops.Graph().as_default(), self.cached_session() as sess:
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
        var1_np = np.array([3.0, 4.0], dtype=dtype.as_numpy_dtype)
        accum0_np = np.array([0.0, 0.0], dtype=dtype.as_numpy_dtype)
@ -427,27 +432,27 @@ class MomentumOptimizerTest(test.TestCase):
          self.assertAllClose(var0_np, self.evaluate(var0))
          self.assertAllClose(var1_np, self.evaluate(var1))

-  @test_util.run_in_graph_and_eager_modes
-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariable(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)

-      # pylint: disable=cell-var-from-loop
-      def loss():
-        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
-        pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)
-        return pred * pred
+        # pylint: disable=cell-var-from-loop
+        def loss():
+          x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
+          pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)
+          return pred * pred

-      # pylint: enable=cell-var-from-loop
+        # pylint: enable=cell-var-from-loop

-      opt = gradient_descent.SGD(learning_rate=1.0, momentum=0.9)
-      sgd_op = opt.minimize(loss, [var0])
-      self.evaluate(variables.global_variables_initializer())
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[-111, -138]], self.evaluate(var0))
+        opt = gradient_descent.SGD(learning_rate=1.0, momentum=0.9)
+        sgd_op = opt.minimize(loss, [var0])
+        self.evaluate(variables.global_variables_initializer())
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[-111, -138]], self.evaluate(var0))

  @test_util.run_in_graph_and_eager_modes(reset_test=True)
  def testMinimizeWith2DIndicesForEmbeddingLookup(self):
@ -462,197 +467,200 @@ class MomentumOptimizerTest(test.TestCase):
    self.evaluate(sgd_op)
    self.assertAllCloseAccordingToType([[1, 1], [0, 0]], self.evaluate(var0))

-  @test_util.run_deprecated_v1
  def testTensorLearningRateAndMomentum(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = variables.Variable([1.0, 2.0], dtype=dtype)
-      var1 = variables.Variable([3.0, 4.0], dtype=dtype)
-      grads0 = constant_op.constant([0.1, 0.1], dtype=dtype)
-      grads1 = constant_op.constant([0.01, 0.01], dtype=dtype)
-      mom_opt = gradient_descent.SGD(
-          learning_rate=constant_op.constant(2.0),
-          momentum=constant_op.constant(0.9))
-      mom_update = mom_opt.apply_gradients(
-          zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
-      # Check we have slots
-      slot0 = mom_opt.get_slot(var0, "momentum")
-      self.assertEqual(slot0.shape, var0.shape)
-      slot1 = mom_opt.get_slot(var1, "momentum")
-      self.assertEqual(slot1.shape, var1.shape)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
+        var1 = variables.Variable([3.0, 4.0], dtype=dtype)
+        grads0 = constant_op.constant([0.1, 0.1], dtype=dtype)
+        grads1 = constant_op.constant([0.01, 0.01], dtype=dtype)
+        mom_opt = gradient_descent.SGD(
+            learning_rate=constant_op.constant(2.0),
+            momentum=constant_op.constant(0.9))
+        mom_update = mom_opt.apply_gradients(
+            zip([grads0, grads1], [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())
+        # Check we have slots
+        slot0 = mom_opt.get_slot(var0, "momentum")
+        self.assertEqual(slot0.shape, var0.shape)
+        slot1 = mom_opt.get_slot(var1, "momentum")
+        self.assertEqual(slot1.shape, var1.shape)

-      # Fetch params to validate initial values
-      self.assertAllClose([1.0, 2.0], self.evaluate(var0))
-      self.assertAllClose([3.0, 4.0], self.evaluate(var1))
-      # Step 1: the momentum accumulators where 0. So we should see a normal
-      # update: v -= grad * learning_rate
-      self.evaluate(mom_update)
-      # Check that the momentum accumulators have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([-0.2, -0.2]), self.evaluate(slot0))
-      self.assertAllCloseAccordingToType(
-          np.array([-0.02, -0.02]), self.evaluate(slot1))
-      # Check that the parameters have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([1.0 - (0.1 * 2.0), 2.0 - (0.1 * 2.0)]),
-          self.evaluate(var0))
-      self.assertAllCloseAccordingToType(
-          np.array([3.0 - (0.01 * 2.0), 4.0 - (0.01 * 2.0)]),
-          self.evaluate(var1))
-      # Step 2: the momentum accumulators contain the previous update.
-      self.evaluate(mom_update)
-      # Check that the momentum accumulators have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([(0.9 * (-0.2) - 2.0 * 0.1), (0.9 * (-0.2) - 2.0 * 0.1)]),
-          self.evaluate(slot0))
-      self.assertAllCloseAccordingToType(
-          np.array([(0.9 * (-0.02) - 2.0 * 0.01),
-                    (0.9 * (-0.02) - 2.0 * 0.01)]), self.evaluate(slot1))
-      # Check that the parameters have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([
-              1.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0),
-              2.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0)
-          ]), self.evaluate(var0))
-      self.assertAllCloseAccordingToType(
-          np.array([
-              2.98 - ((0.9 * 0.01 + 0.01) * 2.0),
-              3.98 - ((0.9 * 0.01 + 0.01) * 2.0)
-          ]), self.evaluate(var1))
+        # Fetch params to validate initial values
+        self.assertAllClose([1.0, 2.0], self.evaluate(var0))
+        self.assertAllClose([3.0, 4.0], self.evaluate(var1))
+        # Step 1: the momentum accumulators where 0. So we should see a normal
+        # update: v -= grad * learning_rate
+        self.evaluate(mom_update)
+        # Check that the momentum accumulators have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([-0.2, -0.2]), self.evaluate(slot0))
+        self.assertAllCloseAccordingToType(
+            np.array([-0.02, -0.02]), self.evaluate(slot1))
+        # Check that the parameters have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([1.0 - (0.1 * 2.0), 2.0 - (0.1 * 2.0)]),
+            self.evaluate(var0))
+        self.assertAllCloseAccordingToType(
+            np.array([3.0 - (0.01 * 2.0), 4.0 - (0.01 * 2.0)]),
+            self.evaluate(var1))
+        # Step 2: the momentum accumulators contain the previous update.
+        self.evaluate(mom_update)
+        # Check that the momentum accumulators have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([(0.9 * (-0.2) - 2.0 * 0.1), (0.9 * (-0.2) - 2.0 * 0.1)]),
+            self.evaluate(slot0))
+        self.assertAllCloseAccordingToType(
+            np.array([(0.9 * (-0.02) - 2.0 * 0.01),
+                      (0.9 * (-0.02) - 2.0 * 0.01)]), self.evaluate(slot1))
+        # Check that the parameters have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([
+                1.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0),
+                2.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0)
+            ]), self.evaluate(var0))
+        self.assertAllCloseAccordingToType(
+            np.array([
+                2.98 - ((0.9 * 0.01 + 0.01) * 2.0),
+                3.98 - ((0.9 * 0.01 + 0.01) * 2.0)
+            ]), self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testSparse(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = variables.Variable(array_ops.zeros([4, 2], dtype=dtype))
-      var1 = variables.Variable(constant_op.constant(1.0, dtype, [4, 2]))
-      grads0 = ops.IndexedSlices(
-          constant_op.constant([[.1, .1]], dtype=dtype),
-          constant_op.constant([1]), constant_op.constant([4, 2]))
-      grads1 = ops.IndexedSlices(
-          constant_op.constant([[.01, .01], [.01, .01]], dtype=dtype),
-          constant_op.constant([2, 3]), constant_op.constant([4, 2]))
-      mom_opt = gradient_descent.SGD(learning_rate=2.0, momentum=0.9)
-      mom_update = mom_opt.apply_gradients(
-          zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = variables.Variable(array_ops.zeros([4, 2], dtype=dtype))
+        var1 = variables.Variable(constant_op.constant(1.0, dtype, [4, 2]))
+        grads0 = ops.IndexedSlices(
+            constant_op.constant([[.1, .1]], dtype=dtype),
+            constant_op.constant([1]), constant_op.constant([4, 2]))
+        grads1 = ops.IndexedSlices(
+            constant_op.constant([[.01, .01], [.01, .01]], dtype=dtype),
+            constant_op.constant([2, 3]), constant_op.constant([4, 2]))
+        mom_opt = gradient_descent.SGD(learning_rate=2.0, momentum=0.9)
+        mom_update = mom_opt.apply_gradients(
+            zip([grads0, grads1], [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())

-      # Check we have slots
-      slot0 = mom_opt.get_slot(var0, "momentum")
-      self.assertEqual(slot0.shape, var0.shape)
-      slot1 = mom_opt.get_slot(var1, "momentum")
-      self.assertEqual(slot1.shape, var1.shape)
+        # Check we have slots
+        slot0 = mom_opt.get_slot(var0, "momentum")
+        self.assertEqual(slot0.shape, var0.shape)
+        slot1 = mom_opt.get_slot(var1, "momentum")
+        self.assertEqual(slot1.shape, var1.shape)

-      # Fetch params to validate initial values
-      self.assertAllClose([0, 0], self.evaluate(var0)[0])
-      self.assertAllClose([0, 0], self.evaluate(var0)[1])
-      self.assertAllClose([1, 1], self.evaluate(var1)[2])
+        # Fetch params to validate initial values
+        self.assertAllClose([0, 0], self.evaluate(var0)[0])
+        self.assertAllClose([0, 0], self.evaluate(var0)[1])
+        self.assertAllClose([1, 1], self.evaluate(var1)[2])

-      # Step 1: the momentum accumulators are 0. So we should see a normal
-      # update: v -= grad * learning_rate
-      self.evaluate(mom_update)
-      # Check that the momentum accumulators have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([0, 0]),
-          self.evaluate(slot0)[0])
-      self.assertAllCloseAccordingToType(
-          np.array([-2.0 * .1, -2.0 * .1]),
-          self.evaluate(slot0)[1])
-      self.assertAllCloseAccordingToType(
-          np.array([-2.0 * .01, -2.0 * .01]),
-          self.evaluate(slot1)[2])
-      # Check that the parameters have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([0, 0]),
-          self.evaluate(var0)[0])
-      self.assertAllCloseAccordingToType(
-          np.array([-(0.1 * 2.0), -(0.1 * 2.0)]),
-          self.evaluate(var0)[1])
-      self.assertAllCloseAccordingToType(
-          np.array([1.0 - (0.01 * 2.0), 1.0 - (0.01 * 2.0)]),
-          self.evaluate(var1)[2])
-      # Step 2: the momentum accumulators contain the previous update.
-      self.evaluate(mom_update)
-      # Check that the momentum accumulators have been updated.
-      self.assertAllClose(np.array([0, 0]), self.evaluate(slot0)[0])
-      self.assertAllCloseAccordingToType(
-          np.array([(0.9 * (-0.2) - 2.0 * 0.1), (0.9 * (-0.2) - 2.0 * 0.1)]),
-          self.evaluate(slot0)[1])
-      self.assertAllCloseAccordingToType(
-          np.array([(0.9 * (-0.02) - 2.0 * 0.01),
-                    (0.9 * (-0.02) - 2.0 * 0.01)]),
-          self.evaluate(slot1)[2])
-      # Check that the parameters have been updated.
-      self.assertAllClose(np.array([0, 0]), self.evaluate(var0)[0])
-      self.assertAllCloseAccordingToType(
-          np.array([
-              -(0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0),
-              -(0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0)
-          ]),
-          self.evaluate(var0)[1])
-      self.assertAllCloseAccordingToType(
-          np.array([
-              0.98 - ((0.9 * 0.01 + 0.01) * 2.0),
-              0.98 - ((0.9 * 0.01 + 0.01) * 2.0)
-          ]),
-          self.evaluate(var1)[2])
+        # Step 1: the momentum accumulators are 0. So we should see a normal
+        # update: v -= grad * learning_rate
+        self.evaluate(mom_update)
+        # Check that the momentum accumulators have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([0, 0]),
+            self.evaluate(slot0)[0])
+        self.assertAllCloseAccordingToType(
+            np.array([-2.0 * .1, -2.0 * .1]),
+            self.evaluate(slot0)[1])
+        self.assertAllCloseAccordingToType(
+            np.array([-2.0 * .01, -2.0 * .01]),
+            self.evaluate(slot1)[2])
+        # Check that the parameters have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([0, 0]),
+            self.evaluate(var0)[0])
+        self.assertAllCloseAccordingToType(
+            np.array([-(0.1 * 2.0), -(0.1 * 2.0)]),
+            self.evaluate(var0)[1])
+        self.assertAllCloseAccordingToType(
+            np.array([1.0 - (0.01 * 2.0), 1.0 - (0.01 * 2.0)]),
+            self.evaluate(var1)[2])
+        # Step 2: the momentum accumulators contain the previous update.
+        self.evaluate(mom_update)
+        # Check that the momentum accumulators have been updated.
+        self.assertAllClose(np.array([0, 0]), self.evaluate(slot0)[0])
+        self.assertAllCloseAccordingToType(
+            np.array([(0.9 * (-0.2) - 2.0 * 0.1), (0.9 * (-0.2) - 2.0 * 0.1)]),
+            self.evaluate(slot0)[1])
+        self.assertAllCloseAccordingToType(
+            np.array([(0.9 * (-0.02) - 2.0 * 0.01),
+                      (0.9 * (-0.02) - 2.0 * 0.01)]),
+            self.evaluate(slot1)[2])
+        # Check that the parameters have been updated.
+        self.assertAllClose(np.array([0, 0]), self.evaluate(var0)[0])
+        self.assertAllCloseAccordingToType(
+            np.array([
+                -(0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0),
+                -(0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0)
+            ]),
+            self.evaluate(var0)[1])
+        self.assertAllCloseAccordingToType(
+            np.array([
+                0.98 - ((0.9 * 0.01 + 0.01) * 2.0),
+                0.98 - ((0.9 * 0.01 + 0.01) * 2.0)
+            ]),
+            self.evaluate(var1)[2])

-  @test_util.run_deprecated_v1
  def testSharing(self):
-    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      var0 = variables.Variable([1.0, 2.0], dtype=dtype)
-      var1 = variables.Variable([3.0, 4.0], dtype=dtype)
-      grads0 = constant_op.constant([0.1, 0.1], dtype=dtype)
-      grads1 = constant_op.constant([0.01, 0.01], dtype=dtype)
-      mom_opt = gradient_descent.SGD(learning_rate=2.0, momentum=0.9)
-      mom_update1 = mom_opt.apply_gradients(
-          zip([grads0, grads1], [var0, var1]))
-      mom_update2 = mom_opt.apply_gradients(
-          zip([grads0, grads1], [var0, var1]))
-      self.evaluate(variables.global_variables_initializer())
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
+        var0 = variables.Variable([1.0, 2.0], dtype=dtype)
+        var1 = variables.Variable([3.0, 4.0], dtype=dtype)
+        grads0 = constant_op.constant([0.1, 0.1], dtype=dtype)
+        grads1 = constant_op.constant([0.01, 0.01], dtype=dtype)
+        mom_opt = gradient_descent.SGD(learning_rate=2.0, momentum=0.9)
+        mom_update1 = mom_opt.apply_gradients(
+            zip([grads0, grads1], [var0, var1]))
+        mom_update2 = mom_opt.apply_gradients(
+            zip([grads0, grads1], [var0, var1]))
+        self.evaluate(variables.global_variables_initializer())

-      slot0 = mom_opt.get_slot(var0, "momentum")
-      self.assertEqual(slot0.shape, var0.shape)
-      slot1 = mom_opt.get_slot(var1, "momentum")
-      self.assertEqual(slot1.shape, var1.shape)
+        slot0 = mom_opt.get_slot(var0, "momentum")
+        self.assertEqual(slot0.shape, var0.shape)
+        slot1 = mom_opt.get_slot(var1, "momentum")
+        self.assertEqual(slot1.shape, var1.shape)

-      # Fetch params to validate initial values
-      self.assertAllClose([1.0, 2.0], self.evaluate(var0))
-      self.assertAllClose([3.0, 4.0], self.evaluate(var1))
-      # Step 1: the momentum accumulators where 0. So we should see a normal
-      # update: v -= grad * learning_rate
-      self.evaluate(mom_update1)
-      # Check that the momentum accumulators have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([-0.2, -0.2]), self.evaluate(slot0))
-      self.assertAllCloseAccordingToType(
-          np.array([-0.02, -0.02]), self.evaluate(slot1))
-      # Check that the parameters have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([1.0 - (0.1 * 2.0), 2.0 - (0.1 * 2.0)]),
-          self.evaluate(var0))
-      self.assertAllCloseAccordingToType(
-          np.array([3.0 - (0.01 * 2.0), 4.0 - (0.01 * 2.0)]),
-          self.evaluate(var1))
-      # Step 2: the second momentum accumulators contain the previous update.
-      self.evaluate(mom_update2)
-      # Check that the momentum accumulators have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([(0.9 * (-0.2) - 2.0 * 0.1), (0.9 * (-0.2) - 2.0 * 0.1)]),
-          self.evaluate(slot0))
-      self.assertAllCloseAccordingToType(
-          np.array([(0.9 * (-0.02) - 2.0 * 0.01),
-                    (0.9 * (-0.02) - 2.0 * 0.01)]), self.evaluate(slot1))
-      # Check that the parameters have been updated.
-      self.assertAllCloseAccordingToType(
-          np.array([
-              1.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0),
-              2.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0)
-          ]), self.evaluate(var0))
-      self.assertAllCloseAccordingToType(
-          np.array([
-              2.98 - ((0.9 * 0.01 + 0.01) * 2.0),
-              3.98 - ((0.9 * 0.01 + 0.01) * 2.0)
-          ]), self.evaluate(var1))
+        # Fetch params to validate initial values
+        self.assertAllClose([1.0, 2.0], self.evaluate(var0))
+        self.assertAllClose([3.0, 4.0], self.evaluate(var1))
+        # Step 1: the momentum accumulators where 0. So we should see a normal
+        # update: v -= grad * learning_rate
+        self.evaluate(mom_update1)
+        # Check that the momentum accumulators have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([-0.2, -0.2]), self.evaluate(slot0))
+        self.assertAllCloseAccordingToType(
+            np.array([-0.02, -0.02]), self.evaluate(slot1))
+        # Check that the parameters have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([1.0 - (0.1 * 2.0), 2.0 - (0.1 * 2.0)]),
+            self.evaluate(var0))
+        self.assertAllCloseAccordingToType(
+            np.array([3.0 - (0.01 * 2.0), 4.0 - (0.01 * 2.0)]),
+            self.evaluate(var1))
+        # Step 2: the second momentum accumulators contain the previous update.
+        self.evaluate(mom_update2)
+        # Check that the momentum accumulators have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([(0.9 * (-0.2) - 2.0 * 0.1), (0.9 * (-0.2) - 2.0 * 0.1)]),
+            self.evaluate(slot0))
+        self.assertAllCloseAccordingToType(
+            np.array([(0.9 * (-0.02) - 2.0 * 0.01),
+                      (0.9 * (-0.02) - 2.0 * 0.01)]), self.evaluate(slot1))
+        # Check that the parameters have been updated.
+        self.assertAllCloseAccordingToType(
+            np.array([
+                1.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0),
+                2.0 - (0.1 * 2.0) - ((0.9 * 0.1 + 0.1) * 2.0)
+            ]), self.evaluate(var0))
+        self.assertAllCloseAccordingToType(
+            np.array([
+                2.98 - ((0.9 * 0.01 + 0.01) * 2.0),
+                3.98 - ((0.9 * 0.01 + 0.01) * 2.0)
+            ]), self.evaluate(var1))

  @test_util.run_in_graph_and_eager_modes
  def testConfig(self):
--- a/tensorflow/python/keras/optimizer_v2/learning_rate_schedule_test.py
+++ b/tensorflow/python/keras/optimizer_v2/learning_rate_schedule_test.py
@ -25,6 +25,7 @@ from absl.testing import parameterized
 from tensorflow.python.eager import backprop
 from tensorflow.python.eager import context
 from tensorflow.python.eager import def_function
+from tensorflow.python.framework import ops
 from tensorflow.python.framework import test_util
 from tensorflow.python.keras.optimizer_v2 import gradient_descent
 from tensorflow.python.keras.optimizer_v2 import learning_rate_schedule
@ -79,26 +80,27 @@ class LRDecayTestV2(test_util.TensorFlowTestCase, parameterized.TestCase):
      self.evaluate(step.assign(100))
      self.assertAllClose(self.evaluate(decayed_lr(step)), expected, 1e-6)

-  @test_util.run_deprecated_v1
  def testVariables(self, serialize):
-    step = variables.Variable(1)
-    assign_1 = step.assign(1)
-    assign_2 = step.assign(2)
-    assign_100 = step.assign(100)
-    decayed_lr = learning_rate_schedule.ExponentialDecay(
-        .1, 3, 0.96, staircase=True)
-    decayed_lr = _maybe_serialized(decayed_lr, serialize)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      step = variables.Variable(1)
+      assign_1 = step.assign(1)
+      assign_2 = step.assign(2)
+      assign_100 = step.assign(100)
+      decayed_lr = learning_rate_schedule.ExponentialDecay(
+          .1, 3, 0.96, staircase=True)
+      decayed_lr = _maybe_serialized(decayed_lr, serialize)

-    self.evaluate(variables.global_variables_initializer())
-    # No change to learning rate
-    self.evaluate(assign_1.op)
-    self.assertAllClose(self.evaluate(decayed_lr(step)), .1, 1e-6)
-    self.evaluate(assign_2.op)
-    self.assertAllClose(self.evaluate(decayed_lr(step)), .1, 1e-6)
-    # Decayed learning rate
-    self.evaluate(assign_100.op)
-    expected = .1 * 0.96**(100 // 3)
-    self.assertAllClose(self.evaluate(decayed_lr(step)), expected, 1e-6)
+      self.evaluate(variables.global_variables_initializer())
+      # No change to learning rate
+      self.evaluate(assign_1.op)
+      self.assertAllClose(self.evaluate(decayed_lr(step)), .1, 1e-6)
+      self.evaluate(assign_2.op)
+      self.assertAllClose(self.evaluate(decayed_lr(step)), .1, 1e-6)
+      # Decayed learning rate
+      self.evaluate(assign_100.op)
+      expected = .1 * 0.96**(100 // 3)
+      self.assertAllClose(self.evaluate(decayed_lr(step)), expected, 1e-6)

  @test_util.run_in_graph_and_eager_modes
  def testPiecewiseConstant(self, serialize):
--- a/tensorflow/python/keras/optimizer_v2/nadam_test.py
+++ b/tensorflow/python/keras/optimizer_v2/nadam_test.py
@ -23,7 +23,6 @@ import numpy as np
 from tensorflow.python.framework import constant_op
 from tensorflow.python.framework import dtypes
 from tensorflow.python.framework import ops
-from tensorflow.python.framework import test_util
 from tensorflow.python.keras.optimizer_v2 import nadam
 from tensorflow.python.ops import math_ops
 from tensorflow.python.ops import resource_variable_ops
@ -74,11 +73,11 @@ def nadam_update_numpy(param,

 class NadamOptimizerTest(test.TestCase):

-  @test_util.run_deprecated_v1
  def testSparse(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    sparse_epsilon = 1e-7
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session():
+      with ops.Graph().as_default(), self.cached_session():
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1, mcache = 0.0, 0.0, 0.0, 0.0, 1.0
        var0_np = np.array([1.0, 1.0, 2.0], dtype=dtype.as_numpy_dtype)
@ -122,10 +121,10 @@ class NadamOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, var0.eval())
          self.assertAllCloseAccordingToType(var1_np, var1.eval())

-  @test_util.run_deprecated_v1
  def testBasic(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for dtype in [dtypes.half, dtypes.float32, dtypes.float64]:
-      with self.cached_session():
+      with ops.Graph().as_default(), self.cached_session():
        # Initialize variables for numpy implementation.
        m0, v0, m1, v1, mcache = 0.0, 0.0, 0.0, 0.0, 1.0
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
--- a/tensorflow/python/keras/optimizer_v2/rmsprop_test.py
+++ b/tensorflow/python/keras/optimizer_v2/rmsprop_test.py
@ -101,10 +101,10 @@ class RMSpropOptimizerTest(test.TestCase):
        var_t[gindex] = var[gindex] - lr * gvalue / (np.sqrt(denom_t) + epsilon)
    return var_t, mg_t, rms_t, mom_t

-  @test_util.run_deprecated_v1
  def testDense(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for (dtype, learning_rate, rho, momentum, epsilon, centered) in _TESTPARAMS:
-      with test_util.use_gpu():
+      with ops.get_default_graph().as_default(), test_util.use_gpu():
        # Initialize variables for numpy implementation.
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
        grads0_np = np.array([0.1, 0.2], dtype=dtype.as_numpy_dtype)
@ -178,204 +178,208 @@ class RMSpropOptimizerTest(test.TestCase):
          self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
          self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testDenseWithLearningRateDecay(self):
-    var0_np = np.array([1.0, 2.0])
-    grads0_np = np.array([0.1, 0.2])
-    var1_np = np.array([3.0, 4.0])
-    grads1_np = np.array([0.01, 0.2])
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      var0_np = np.array([1.0, 2.0])
+      grads0_np = np.array([0.1, 0.2])
+      var1_np = np.array([3.0, 4.0])
+      grads1_np = np.array([0.01, 0.2])

-    var0 = resource_variable_ops.ResourceVariable(var0_np)
-    var1 = resource_variable_ops.ResourceVariable(var1_np)
-    grads0 = constant_op.constant(grads0_np)
-    grads1 = constant_op.constant(grads1_np)
-    learning_rate = 0.01
-    rho = 0.9
-    momentum = 0.0
-    epsilon = 1e-7
-    centered = False
-    decay = 0.5
-    opt = rmsprop.RMSprop(
-        learning_rate=learning_rate,
-        rho=rho,
-        momentum=momentum,
-        epsilon=epsilon,
-        centered=centered,
-        decay=decay)
+      var0 = resource_variable_ops.ResourceVariable(var0_np)
+      var1 = resource_variable_ops.ResourceVariable(var1_np)
+      grads0 = constant_op.constant(grads0_np)
+      grads1 = constant_op.constant(grads1_np)
+      learning_rate = 0.01
+      rho = 0.9
+      momentum = 0.0
+      epsilon = 1e-7
+      centered = False
+      decay = 0.5
+      opt = rmsprop.RMSprop(
+          learning_rate=learning_rate,
+          rho=rho,
+          momentum=momentum,
+          epsilon=epsilon,
+          centered=centered,
+          decay=decay)

-    update = opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
-    self.evaluate(variables.global_variables_initializer())
+      update = opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
+      self.evaluate(variables.global_variables_initializer())

-    rms0 = opt.get_slot(var0, "rms")
-    self.assertIsNotNone(rms0)
-    rms1 = opt.get_slot(var1, "rms")
-    self.assertIsNotNone(rms1)
-    if momentum > 0.:
-      mom0 = opt.get_slot(var0, "momentum")
-      mom1 = opt.get_slot(var1, "momentum")
-    else:
-      mom0 = None
-      mom1 = None
-
-    mg0_np = np.array([0.0, 0.0])
-    mg1_np = np.array([0.0, 0.0])
-    rms0_np = np.array([0.0, 0.0])
-    rms1_np = np.array([0.0, 0.0])
-    mom0_np = np.array([0.0, 0.0])
-    mom1_np = np.array([0.0, 0.0])
-
-    # Fetch params to validate initial values
-    self.assertAllClose([1.0, 2.0], self.evaluate(var0))
-    self.assertAllClose([3.0, 4.0], self.evaluate(var1))
-
-    # Run 4 steps of RMSprop
-    for t in range(2):
-      self.evaluate(update)
-
-      lr = learning_rate / (1 + decay * t)
-      var0_np, mg0_np, rms0_np, mom0_np = self._rmsprop_update_numpy(
-          var0_np, grads0_np, mg0_np, rms0_np, mom0_np, lr, rho, momentum,
-          epsilon, centered)
-      var1_np, mg1_np, rms1_np, mom1_np = self._rmsprop_update_numpy(
-          var1_np, grads1_np, mg1_np, rms1_np, mom1_np, lr, rho, momentum,
-          epsilon, centered)
-
-      # Validate updated params
-      self.assertAllCloseAccordingToType(rms0_np, self.evaluate(rms0))
-      self.assertAllCloseAccordingToType(rms1_np, self.evaluate(rms1))
+      rms0 = opt.get_slot(var0, "rms")
+      self.assertIsNotNone(rms0)
+      rms1 = opt.get_slot(var1, "rms")
+      self.assertIsNotNone(rms1)
      if momentum > 0.:
-        self.assertAllCloseAccordingToType(mom0_np, self.evaluate(mom0))
-        self.assertAllCloseAccordingToType(mom1_np, self.evaluate(mom1))
-      self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
-      self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))
+        mom0 = opt.get_slot(var0, "momentum")
+        mom1 = opt.get_slot(var1, "momentum")
+      else:
+        mom0 = None
+        mom1 = None
+
+      mg0_np = np.array([0.0, 0.0])
+      mg1_np = np.array([0.0, 0.0])
+      rms0_np = np.array([0.0, 0.0])
+      rms1_np = np.array([0.0, 0.0])
+      mom0_np = np.array([0.0, 0.0])
+      mom1_np = np.array([0.0, 0.0])
+
+      # Fetch params to validate initial values
+      self.assertAllClose([1.0, 2.0], self.evaluate(var0))
+      self.assertAllClose([3.0, 4.0], self.evaluate(var1))
+
+      # Run 4 steps of RMSprop
+      for t in range(2):
+        self.evaluate(update)
+
+        lr = learning_rate / (1 + decay * t)
+        var0_np, mg0_np, rms0_np, mom0_np = self._rmsprop_update_numpy(
+            var0_np, grads0_np, mg0_np, rms0_np, mom0_np, lr, rho, momentum,
+            epsilon, centered)
+        var1_np, mg1_np, rms1_np, mom1_np = self._rmsprop_update_numpy(
+            var1_np, grads1_np, mg1_np, rms1_np, mom1_np, lr, rho, momentum,
+            epsilon, centered)
+
+        # Validate updated params
+        self.assertAllCloseAccordingToType(rms0_np, self.evaluate(rms0))
+        self.assertAllCloseAccordingToType(rms1_np, self.evaluate(rms1))
+        if momentum > 0.:
+          self.assertAllCloseAccordingToType(mom0_np, self.evaluate(mom0))
+          self.assertAllCloseAccordingToType(mom1_np, self.evaluate(mom1))
+        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
+        self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testDenseWithLearningRateInverseTimeDecay(self):
-    var0_np = np.array([1.0, 2.0])
-    grads0_np = np.array([0.1, 0.2])
-    var1_np = np.array([3.0, 4.0])
-    grads1_np = np.array([0.01, 0.2])
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      var0_np = np.array([1.0, 2.0])
+      grads0_np = np.array([0.1, 0.2])
+      var1_np = np.array([3.0, 4.0])
+      grads1_np = np.array([0.01, 0.2])

-    var0 = resource_variable_ops.ResourceVariable(var0_np)
-    var1 = resource_variable_ops.ResourceVariable(var1_np)
-    grads0 = constant_op.constant(grads0_np)
-    grads1 = constant_op.constant(grads1_np)
-    learning_rate = 0.01
-    rho = 0.9
-    momentum = 0.0
-    epsilon = 1e-7
-    centered = False
-    decay = 0.5
-    lr_schedule = learning_rate_schedule.InverseTimeDecay(
-        learning_rate, decay_steps=1.0, decay_rate=decay)
-    opt = rmsprop.RMSprop(
-        learning_rate=lr_schedule,
-        rho=rho,
-        momentum=momentum,
-        epsilon=epsilon,
-        centered=centered)
+      var0 = resource_variable_ops.ResourceVariable(var0_np)
+      var1 = resource_variable_ops.ResourceVariable(var1_np)
+      grads0 = constant_op.constant(grads0_np)
+      grads1 = constant_op.constant(grads1_np)
+      learning_rate = 0.01
+      rho = 0.9
+      momentum = 0.0
+      epsilon = 1e-7
+      centered = False
+      decay = 0.5
+      lr_schedule = learning_rate_schedule.InverseTimeDecay(
+          learning_rate, decay_steps=1.0, decay_rate=decay)
+      opt = rmsprop.RMSprop(
+          learning_rate=lr_schedule,
+          rho=rho,
+          momentum=momentum,
+          epsilon=epsilon,
+          centered=centered)

-    update = opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
-    self.evaluate(variables.global_variables_initializer())
+      update = opt.apply_gradients(zip([grads0, grads1], [var0, var1]))
+      self.evaluate(variables.global_variables_initializer())

-    rms0 = opt.get_slot(var0, "rms")
-    self.assertIsNotNone(rms0)
-    rms1 = opt.get_slot(var1, "rms")
-    self.assertIsNotNone(rms1)
-    if momentum > 0.:
-      mom0 = opt.get_slot(var0, "momentum")
-      mom1 = opt.get_slot(var1, "momentum")
-    else:
-      mom0 = None
-      mom1 = None
-
-    mg0_np = np.array([0.0, 0.0])
-    mg1_np = np.array([0.0, 0.0])
-    rms0_np = np.array([0.0, 0.0])
-    rms1_np = np.array([0.0, 0.0])
-    mom0_np = np.array([0.0, 0.0])
-    mom1_np = np.array([0.0, 0.0])
-
-    # Fetch params to validate initial values
-    self.assertAllClose([1.0, 2.0], self.evaluate(var0))
-    self.assertAllClose([3.0, 4.0], self.evaluate(var1))
-
-    # Run 4 steps of RMSprop
-    for t in range(2):
-      self.evaluate(update)
-
-      lr = learning_rate / (1 + decay * t)
-      var0_np, mg0_np, rms0_np, mom0_np = self._rmsprop_update_numpy(
-          var0_np, grads0_np, mg0_np, rms0_np, mom0_np, lr, rho, momentum,
-          epsilon, centered)
-      var1_np, mg1_np, rms1_np, mom1_np = self._rmsprop_update_numpy(
-          var1_np, grads1_np, mg1_np, rms1_np, mom1_np, lr, rho, momentum,
-          epsilon, centered)
-
-      # Validate updated params
-      self.assertAllCloseAccordingToType(rms0_np, self.evaluate(rms0))
-      self.assertAllCloseAccordingToType(rms1_np, self.evaluate(rms1))
+      rms0 = opt.get_slot(var0, "rms")
+      self.assertIsNotNone(rms0)
+      rms1 = opt.get_slot(var1, "rms")
+      self.assertIsNotNone(rms1)
      if momentum > 0.:
-        self.assertAllCloseAccordingToType(mom0_np, self.evaluate(mom0))
-        self.assertAllCloseAccordingToType(mom1_np, self.evaluate(mom1))
-      self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
-      self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))
+        mom0 = opt.get_slot(var0, "momentum")
+        mom1 = opt.get_slot(var1, "momentum")
+      else:
+        mom0 = None
+        mom1 = None
+
+      mg0_np = np.array([0.0, 0.0])
+      mg1_np = np.array([0.0, 0.0])
+      rms0_np = np.array([0.0, 0.0])
+      rms1_np = np.array([0.0, 0.0])
+      mom0_np = np.array([0.0, 0.0])
+      mom1_np = np.array([0.0, 0.0])
+
+      # Fetch params to validate initial values
+      self.assertAllClose([1.0, 2.0], self.evaluate(var0))
+      self.assertAllClose([3.0, 4.0], self.evaluate(var1))
+
+      # Run 4 steps of RMSprop
+      for t in range(2):
+        self.evaluate(update)
+
+        lr = learning_rate / (1 + decay * t)
+        var0_np, mg0_np, rms0_np, mom0_np = self._rmsprop_update_numpy(
+            var0_np, grads0_np, mg0_np, rms0_np, mom0_np, lr, rho, momentum,
+            epsilon, centered)
+        var1_np, mg1_np, rms1_np, mom1_np = self._rmsprop_update_numpy(
+            var1_np, grads1_np, mg1_np, rms1_np, mom1_np, lr, rho, momentum,
+            epsilon, centered)
+
+        # Validate updated params
+        self.assertAllCloseAccordingToType(rms0_np, self.evaluate(rms0))
+        self.assertAllCloseAccordingToType(rms1_np, self.evaluate(rms1))
+        if momentum > 0.:
+          self.assertAllCloseAccordingToType(mom0_np, self.evaluate(mom0))
+          self.assertAllCloseAccordingToType(mom1_np, self.evaluate(mom1))
+        self.assertAllCloseAccordingToType(var0_np, self.evaluate(var0))
+        self.assertAllCloseAccordingToType(var1_np, self.evaluate(var1))

-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariable(self):
-    for dtype in _DATA_TYPES:
-      var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
-      x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
+        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)

-      def loss():
-        pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
-        return pred * pred
+        def loss():
+          pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
+          return pred * pred

-      sgd_op = rmsprop.RMSprop(
-          learning_rate=1.0, rho=0.0, momentum=0.0, epsilon=0.0,
-          centered=False).minimize(
-              loss, var_list=[var0])
-      self.evaluate(variables.global_variables_initializer())
-      # Fetch params to validate initial values
-      self.assertAllCloseAccordingToType([[1.0, 2.0]], self.evaluate(var0))
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[0., 1.]],
-                                         self.evaluate(var0),
-                                         atol=0.01)
+        sgd_op = rmsprop.RMSprop(
+            learning_rate=1.0, rho=0.0, momentum=0.0, epsilon=0.0,
+            centered=False).minimize(
+                loss, var_list=[var0])
+        self.evaluate(variables.global_variables_initializer())
+        # Fetch params to validate initial values
+        self.assertAllCloseAccordingToType([[1.0, 2.0]], self.evaluate(var0))
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[0., 1.]],
+                                           self.evaluate(var0),
+                                           atol=0.01)

-  @test_util.run_deprecated_v1
  def testMinimizeSparseResourceVariableCentered(self):
-    for dtype in _DATA_TYPES:
-      if test_util.is_xla_enabled() and dtype.is_complex:
-        self.skipTest("b/143578550")
-      var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
-      x = constant_op.constant([[4.0], [5.0]], dtype=dtype)
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
+    with ops.Graph().as_default():
+      for dtype in _DATA_TYPES:
+        if test_util.is_xla_enabled() and dtype.is_complex:
+          self.skipTest("b/143578550")
+        var0 = resource_variable_ops.ResourceVariable([[1.0, 2.0]], dtype=dtype)
+        x = constant_op.constant([[4.0], [5.0]], dtype=dtype)

-      def loss():
-        pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
-        return pred * pred
+        def loss():
+          pred = math_ops.matmul(embedding_ops.embedding_lookup([var0], [0]), x)  # pylint: disable=cell-var-from-loop
+          return pred * pred

-      # loss = lambda: pred * pred  # pylint: disable=cell-var-from-loop
-      sgd_op = rmsprop.RMSprop(
-          learning_rate=1.0, rho=0.0, momentum=0.0, epsilon=1.0,
-          centered=True).minimize(
-              loss, var_list=[var0])
-      self.evaluate(variables.global_variables_initializer())
-      # Fetch params to validate initial values
-      self.assertAllCloseAccordingToType([[1.0, 2.0]], self.evaluate(var0))
-      # Run 1 step of sgd
-      self.evaluate(sgd_op)
-      # Validate updated params
-      self.assertAllCloseAccordingToType([[-111, -138]],
-                                         self.evaluate(var0),
-                                         atol=0.01)
+        # loss = lambda: pred * pred  # pylint: disable=cell-var-from-loop
+        sgd_op = rmsprop.RMSprop(
+            learning_rate=1.0, rho=0.0, momentum=0.0, epsilon=1.0,
+            centered=True).minimize(
+                loss, var_list=[var0])
+        self.evaluate(variables.global_variables_initializer())
+        # Fetch params to validate initial values
+        self.assertAllCloseAccordingToType([[1.0, 2.0]], self.evaluate(var0))
+        # Run 1 step of sgd
+        self.evaluate(sgd_op)
+        # Validate updated params
+        self.assertAllCloseAccordingToType([[-111, -138]],
+                                           self.evaluate(var0),
+                                           atol=0.01)

-  @test_util.run_deprecated_v1
  def testSparse(self):
+    # TODO(tanzheny, omalleyt): Fix test in eager mode.
    for (dtype, learning_rate, rho, momentum, epsilon, centered) in _TESTPARAMS:
-      with test_util.use_gpu():
+      with ops.get_default_graph().as_default(), test_util.use_gpu():
        # Initialize variables for numpy implementation.
        var0_np = np.array([1.0, 2.0], dtype=dtype.as_numpy_dtype)
        grads0_np = np.array([0.1], dtype=dtype.as_numpy_dtype)
--- a/tensorflow/python/keras/saving/hdf5_format_test.py
+++ b/tensorflow/python/keras/saving/hdf5_format_test.py
@ -325,7 +325,6 @@ class TestWeightSavingAndLoading(test.TestCase, parameterized.TestCase):
    self.assertAllClose(keras.backend.get_value(ref_model.layers[1].kernel),
                        keras.backend.get_value(model.layers[1].kernel))

-  @test_util.run_deprecated_v1
  def test_sequential_weight_loading_group_name_with_incorrect_shape(self):
    if h5py is None:
      return
@ -337,7 +336,7 @@ class TestWeightSavingAndLoading(test.TestCase, parameterized.TestCase):
    num_hidden = 5
    input_dim = 3
    num_classes = 2
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      ref_model = keras.models.Sequential()
      ref_model.add(keras.layers.Dense(num_hidden, input_dim=input_dim,
                                       name='d1'))
@ -429,11 +428,10 @@ class TestWholeModelSaving(test.TestCase, parameterized.TestCase):
      # The model has been trained on two batches. So the tolerance is larger.
      self.assertAllClose(out, out2, atol=0.01)

-  @test_util.run_deprecated_v1
  def test_sequential_model_saving_without_input_shape(self):
    saved_model_dir = self._save_model_dir()
    save_format = testing_utils.get_save_format()
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = keras.models.Sequential()
      model.add(keras.layers.Dense(2))
      model.add(keras.layers.RepeatVector(3))
@ -482,12 +480,11 @@ class TestWholeModelSaving(test.TestCase, parameterized.TestCase):
      out2 = new_model.predict(x)
      self.assertAllClose(out, out2, atol=1e-05)

-  @test_util.run_deprecated_v1
  def test_sequential_model_saving_2(self):
    saved_model_dir = self._save_model_dir()
    save_format = testing_utils.get_save_format()

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      # test with custom optimizer, loss

      class CustomOp(keras.optimizers.RMSprop):
@ -516,11 +513,10 @@ class TestWholeModelSaving(test.TestCase, parameterized.TestCase):
      out2 = model.predict(x)
      self.assertAllClose(out, out2, atol=1e-05)

-  @test_util.run_deprecated_v1
  def test_functional_model_saving(self):
    saved_model_dir = self._save_model_dir()
    save_format = testing_utils.get_save_format()
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      inputs = keras.layers.Input(shape=(3,))
      x = keras.layers.Dense(2)(inputs)
      output = keras.layers.Dense(3)(x)
@ -687,11 +683,10 @@ class TestWholeModelSaving(test.TestCase, parameterized.TestCase):
      out2 = model.predict(x)
      self.assertAllClose(out, out2, atol=1e-05)

-  @test_util.run_deprecated_v1
  def test_model_saving_to_pre_created_h5py_file(self):
    saved_model_dir = self._save_model_dir()
    save_format = testing_utils.get_save_format()
-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      inputs = keras.Input(shape=(3,))
      x = keras.layers.Dense(2)(inputs)
      outputs = keras.layers.Dense(3)(x)
--- a/tensorflow/python/keras/tests/model_subclassing_test.py
+++ b/tensorflow/python/keras/tests/model_subclassing_test.py
@ -484,13 +484,12 @@ class ModelSubclassingTest(keras_parameterized.TestCase):

 class GraphSpecificModelSubclassingTests(test.TestCase):

-  @test_util.run_deprecated_v1
  def test_single_io_workflow_with_tensors(self):
    num_classes = 2
    num_samples = 10
    input_dim = 50

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = testing_utils.SmallSubclassMLP(
          num_hidden=32, num_classes=num_classes, use_dp=True, use_bn=True)
      model.compile(loss='mse', optimizer='rmsprop')
@ -501,13 +500,12 @@ class GraphSpecificModelSubclassingTests(test.TestCase):
      model.fit(x, y, epochs=2, steps_per_epoch=10, verbose=0)
      _ = model.evaluate(steps=10, verbose=0)

-  @test_util.run_deprecated_v1
  def test_multi_io_workflow_with_tensors(self):
    num_classes = (2, 3)
    num_samples = 10
    input_dim = 50

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = model_util.get_multi_io_subclass_model(
          num_classes=num_classes, use_dp=True, use_bn=True)
      model.compile(loss='mse', optimizer='rmsprop')
@ -520,7 +518,6 @@ class GraphSpecificModelSubclassingTests(test.TestCase):
      model.fit([x1, x2], [y1, y2], epochs=2, steps_per_epoch=10, verbose=0)
      _ = model.evaluate(steps=10, verbose=0)

-  @test_util.run_deprecated_v1
  def test_updates_and_losses_for_nested_models_in_subclassed_model(self):

    # Case 1: deferred-build sequential nested in subclass.
@ -535,7 +532,7 @@ class GraphSpecificModelSubclassingTests(test.TestCase):
      def call(self, x):
        return self.bn(self.fc(x))

-    with self.cached_session():
+    with ops.get_default_graph().as_default(), self.cached_session():
      model = TestModel1()

      x = array_ops.ones(shape=[100, 784], dtype='float32')
@ -556,7 +553,7 @@ class GraphSpecificModelSubclassingTests(test.TestCase):
      def call(self, x):
        return self.bn(self.fc(x))

-    with self.cached_session():
+    with ops.get_default_graph().as_default(), self.cached_session():
      model = TestModel2()

      x = array_ops.ones(shape=[100, 784], dtype='float32')
@ -565,36 +562,36 @@ class GraphSpecificModelSubclassingTests(test.TestCase):
      self.assertEqual(len(model.get_losses_for(x)), 1)

    # Case 3: functional-API model nested in subclass.
-    inputs = keras.Input((10,))
-    outputs = keras.layers.BatchNormalization(axis=1)(inputs)
-    bn = keras.Model(inputs, outputs)
+    with ops.get_default_graph().as_default():
+      inputs = keras.Input((10,))
+      outputs = keras.layers.BatchNormalization(axis=1)(inputs)
+      bn = keras.Model(inputs, outputs)

-    class TestModel3(keras.Model):
+      class TestModel3(keras.Model):

-      def __init__(self):
-        super(TestModel3, self).__init__()
-        self.fc = keras.layers.Dense(10, input_shape=(784,),
-                                     activity_regularizer='l1')
-        self.bn = bn
+        def __init__(self):
+          super(TestModel3, self).__init__()
+          self.fc = keras.layers.Dense(10, input_shape=(784,),
+                                       activity_regularizer='l1')
+          self.bn = bn

-      def call(self, x):
-        return self.bn(self.fc(x))
+        def call(self, x):
+          return self.bn(self.fc(x))

-    with self.cached_session():
-      model = TestModel3()
+      with self.cached_session():
+        model = TestModel3()

-      x = array_ops.ones(shape=[100, 784], dtype='float32')
-      model(x)
-      self.assertEqual(len(model.get_updates_for(x)), 2)
-      self.assertEqual(len(model.get_losses_for(x)), 1)
+        x = array_ops.ones(shape=[100, 784], dtype='float32')
+        model(x)
+        self.assertEqual(len(model.get_updates_for(x)), 2)
+        self.assertEqual(len(model.get_losses_for(x)), 1)

-  @test_util.run_deprecated_v1
  def test_multi_io_workflow_with_numpy_arrays_and_custom_placeholders(self):
    num_classes = (2, 3)
    num_samples = 1000
    input_dim = 50

-    with self.cached_session():
+    with ops.Graph().as_default(), self.cached_session():
      model = model_util.get_multi_io_subclass_model(
          num_classes=num_classes, use_dp=True, use_bn=True)
      model.compile(loss='mse', optimizer='rmsprop')