Use a MLIR generated kernel for tanh for the GPU backend (behind build flag).

Preliminary benchmark numbers on Titan V, rank 1 tensor with 262144 elements: Existing GPU kernel: 2.7887899999999983e-06 seconds (average of 200 runs) MLIR generated kernel: 7.366685000000019e-06 seconds (average of 200 runs) PiperOrigin-RevId: 315684120 Change-Id: I16de930fb9422f41ff18a2776ea6672564c67132
2020-06-10 07:06:07 -07:00 · 2020-06-10 07:06:07 -07:00 · fcfc8566c4
commit fcfc8566c4
parent 66579383a8
5 changed files with 166 additions and 1 deletions
--- a/tensorflow/core/kernels/BUILD
+++ b/tensorflow/core/kernels/BUILD
@ -18,6 +18,7 @@ load(
    "tf_opts_nortti_if_lite_protos",
 )
 load("@local_config_sycl//sycl:build_defs.bzl", "if_sycl")
+load("//tensorflow/core/kernels:build_defs.bzl", "if_mlir_generated_gpu_kernels_enabled")

 # buildifier: disable=same-origin-load
 load("//tensorflow:tensorflow.bzl", "if_nccl")
@ -126,6 +127,13 @@ config_setting(
    },
 )

+config_setting(
+    name = "mlir_generated_gpu_kernels_enabled",
+    values = {
+        "define": "tensorflow_enable_mlir_generated_gpu_kernels=1",
+    },
+)
+
 # Public support libraries ----------------------------------------------------

 cc_library(
@ -4134,8 +4142,22 @@ tf_kernel_library(

 tf_kernel_library(
    name = "cwise_op",
+    copts = if_mlir_generated_gpu_kernels_enabled(if_true = ["-DMLIR_GENERATED_GPU_KERNELS_ENABLED=1"]),
    prefix = "cwise_op",
-    deps = MATH_DEPS,
+    deps = MATH_DEPS + if_mlir_generated_gpu_kernels_enabled(if_true = [":mlir_generated_cwise_op"]),
+)
+
+tf_kernel_library(
+    name = "mlir_generated_cwise_op",
+    gpu_srcs = ["mlir_generated_cwise_op_gpu_tanh.cu.cc"],
+    deps = if_cuda([
+        "@com_google_absl//absl/strings",
+        "@com_google_absl//absl/types:span",
+        "//tensorflow/core:framework",
+        "//tensorflow/core:lib",
+        "//tensorflow/core:stream_executor",
+        "//tensorflow/core/kernels/cubin_headers:tanh_kernels",
+    ]),
 )

 tf_kernel_library(
--- a/tensorflow/core/kernels/build_defs.bzl
+++ b/tensorflow/core/kernels/build_defs.bzl
@ -0,0 +1,7 @@
+"""Defines build macros for tensorflow kernels."""
+
+def if_mlir_generated_gpu_kernels_enabled(if_true, if_false = []):
+    return select({
+        "//tensorflow/core/kernels:mlir_generated_gpu_kernels_enabled": if_true,
+        "//conditions:default": if_false,
+    })
--- a/tensorflow/core/kernels/cwise_op_gpu_tanh.cu.cc
+++ b/tensorflow/core/kernels/cwise_op_gpu_tanh.cu.cc
@ -20,7 +20,11 @@ limitations under the License.

 namespace tensorflow {
 namespace functor {
+#if MLIR_GENERATED_GPU_KERNELS_ENABLED
+DEFINE_UNARY(tanh, Eigen::half);
+#else
 DEFINE_UNARY3(tanh, Eigen::half, float, double);
+#endif
 DEFINE_SIMPLE_BINARY3(tanh_grad, Eigen::half, float, double);
 }  // namespace functor
 }  // namespace tensorflow
--- a/tensorflow/core/kernels/cwise_op_tanh.cc
+++ b/tensorflow/core/kernels/cwise_op_tanh.cc
@ -21,8 +21,12 @@ REGISTER5(UnaryOp, CPU, "Tanh", functor::tanh, float, Eigen::half, double,
          complex64, complex128);

 #if GOOGLE_CUDA || TENSORFLOW_USE_ROCM
+#if MLIR_GENERATED_GPU_KERNELS_ENABLED
+REGISTER(UnaryOp, GPU, "Tanh", functor::tanh, Eigen::half);
+#else
 REGISTER3(UnaryOp, GPU, "Tanh", functor::tanh, float, Eigen::half, double);
 #endif
+#endif

 #ifdef TENSORFLOW_USE_SYCL
 REGISTER2(UnaryOp, SYCL, "Tanh", functor::tanh, float, double);
--- a/tensorflow/core/kernels/mlir_generated_cwise_op_gpu_tanh.cu.cc
+++ b/tensorflow/core/kernels/mlir_generated_cwise_op_gpu_tanh.cu.cc
@ -0,0 +1,128 @@
+/* Copyright 2020 The TensorFlow Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+==============================================================================*/
+
+#include <memory>
+
+#include "absl/strings/string_view.h"
+#include "absl/types/span.h"
+#include "tensorflow/core/framework/op.h"
+#include "tensorflow/core/framework/op_kernel.h"
+#include "tensorflow/core/framework/tensor_types.h"
+#include "tensorflow/core/kernels/cubin_headers/tanh_f32_kernel.h"
+#include "tensorflow/core/kernels/cubin_headers/tanh_f64_kernel.h"
+#include "tensorflow/core/lib/core/errors.h"
+#include "tensorflow/core/lib/core/status.h"
+#include "tensorflow/core/platform/logging.h"
+#include "tensorflow/core/platform/stream_executor.h"
+
+namespace tensorflow {
+namespace {
+Status CreateKernel(absl::string_view kernel_name, uint64_t num_args,
+                    absl::string_view ptx, absl::Span<const uint8_t> cubin_data,
+                    se::StreamExecutor* stream_exec,
+                    std::unique_ptr<se::KernelBase>& kernel_base) {
+  se::MultiKernelLoaderSpec loader_spec(num_args);
+
+  if (!cubin_data.empty()) {
+    loader_spec.AddCudaCubinInMemory(
+        reinterpret_cast<const char*>(cubin_data.data()), kernel_name);
+  }
+
+  kernel_base.reset(new se::KernelBase(stream_exec));
+  return stream_exec->GetKernel(loader_spec, kernel_base.get());
+}
+
+class MlirGenerateTanhOp : public OpKernel {
+ public:
+  explicit MlirGenerateTanhOp(OpKernelConstruction* ctx) : OpKernel(ctx) {}
+
+  void Compute(OpKernelContext* ctx) override {
+    auto* stream = ctx->op_device_context()->stream();
+    se::KernelBase* kernel;
+    {
+      std::lock_guard<std::mutex> l(mu_);
+      if (!kernel_) {
+        OP_REQUIRES_OK(ctx, CreateKernel("tanh_kernel", 10, "", cubin_data_,
+                                         stream->parent(), kernel_));
+      }
+      kernel = kernel_.get();
+    }
+
+    const Tensor& inp = ctx->input(0);
+    Tensor* out = nullptr;
+    OP_REQUIRES_OK(
+        ctx, ctx->forward_input_or_allocate_output({0}, 0, inp.shape(), &out));
+
+    if (inp.NumElements() == 0) {
+      return;
+    }
+
+    se::KernelArgsArray<10> args;
+
+    args.add_device_memory_argument(
+        stream_executor::DeviceMemoryBase(inp.data(), inp.TotalBytes()));
+    args.add_device_memory_argument(
+        stream_executor::DeviceMemoryBase(inp.data(), inp.TotalBytes()));
+    args.add_argument<int64_t>(0);
+    args.add_argument<int64_t>(inp.NumElements());
+    args.add_argument<int64_t>(1);
+
+    args.add_device_memory_argument(
+        stream_executor::DeviceMemoryBase(out->data(), out->TotalBytes()));
+    args.add_device_memory_argument(
+        stream_executor::DeviceMemoryBase(out->data(), out->TotalBytes()));
+    args.add_argument<int64_t>(0);
+    args.add_argument<int64_t>(inp.NumElements());
+    args.add_argument<int64_t>(1);
+
+    // TODO(b/158649746): Choose block size and thread dim according to the
+    // number of input elements. For now, this supports at most 1024 elements.
+    OP_REQUIRES_OK(
+        ctx, stream->parent()->Launch(stream, se::ThreadDim(inp.NumElements()),
+                                      se::BlockDim(1), *kernel, args));
+  }
+
+ protected:
+  absl::Span<const uint8_t> cubin_data_;
+
+ private:
+  std::unique_ptr<se::KernelBase> kernel_;
+  std::mutex mu_;
+};
+
+class MlirGenerateTanhF32Op : public MlirGenerateTanhOp {
+ public:
+  explicit MlirGenerateTanhF32Op(OpKernelConstruction* ctx)
+      : MlirGenerateTanhOp(ctx) {
+    cubin_data_ = kTanhF32Kernel;
+  }
+};
+
+class MlirGenerateTanhF64Op : public MlirGenerateTanhOp {
+ public:
+  explicit MlirGenerateTanhF64Op(OpKernelConstruction* ctx)
+      : MlirGenerateTanhOp(ctx) {
+    cubin_data_ = kTanhF64Kernel;
+  }
+};
+}  // namespace
+
+REGISTER_KERNEL_BUILDER(
+    Name("Tanh").Device(DEVICE_GPU).TypeConstraint<float>("T"),
+    MlirGenerateTanhF32Op);
+REGISTER_KERNEL_BUILDER(
+    Name("Tanh").Device(DEVICE_GPU).TypeConstraint<double>("T"),
+    MlirGenerateTanhF64Op);
+}  // namespace tensorflow