1 files changed, 76 insertions, 12 deletions
diff --git a/compute/cker/include/cker/operation/Concatenation.h b/compute/cker/include/cker/operation/Concatenation.h
index 69a179c8c..394123e30 100644
--- a/compute/cker/include/cker/operation/Concatenation.h
+++ b/compute/cker/include/cker/operation/Concatenation.h
@@ -18,25 +18,17 @@
 #ifndef __NNFW_CKER_CONCATENATION_H__
 #define __NNFW_CKER_CONCATENATION_H__
 
-#include <cstdint>
-
 #include "cker/Shape.h"
+#include "cker/Types.h"
+
+#include <cstdint>
+#include <cmath>
 
 namespace nnfw
 {
 namespace cker
 {
 
-struct ConcatenationParams
-{
-  int8_t axis;
-  const int32_t *input_zeropoint;
-  const float *input_scale;
-  uint16_t inputs_count;
-  int32_t output_zeropoint;
-  float output_scale;
-};
-
 template <typename Scalar>
 inline void Concatenation(const ConcatenationParams &params, const Shape *const *input_shapes,
                           const Scalar *const *input_data, const Shape &output_shape,
@@ -87,6 +79,78 @@ inline void Concatenation(const ConcatenationParams &params, const Shape *const
   }
 }
 
+// quantized as it takes scale as a floating point value. This should be fixed
+// when optimizng this routine further.
+inline void ConcatenationWithScaling(const ConcatenationParams &params,
+                                     const Shape *const *input_shapes,
+                                     const uint8_t *const *input_data, const Shape &output_shape,
+                                     uint8_t *output_data)
+{
+  int axis = params.axis;
+  const int32_t *input_zeropoint = params.input_zeropoint;
+  const float *input_scale = params.input_scale;
+  int inputs_count = params.inputs_count;
+  const int32_t output_zeropoint = params.output_zeropoint;
+  const float output_scale = params.output_scale;
+
+  const int concat_dimensions = output_shape.DimensionsCount();
+  assert(axis <= concat_dimensions);
+
+  int64_t concat_size = 0;
+  for (int i = 0; i < inputs_count; i++)
+  {
+    assert(input_shapes[i]->DimensionsCount() == concat_dimensions);
+    for (int j = 0; j < concat_dimensions; j++)
+    {
+      if (j != axis)
+      {
+        assert(input_shapes[i]->Dims(j) == output_shape.Dims(j));
+      }
+    }
+    concat_size += input_shapes[i]->Dims(axis);
+  }
+  assert(concat_size == output_shape.Dims(axis));
+  int64_t outer_size = 1;
+  for (int i = 0; i < axis; ++i)
+  {
+    outer_size *= output_shape.Dims(i);
+  }
+  // For all input arrays,
+  // FlatSize() = outer_size * Dims(axis) * base_inner_size;
+  int64_t base_inner_size = 1;
+  for (int i = axis + 1; i < concat_dimensions; ++i)
+  {
+    base_inner_size *= output_shape.Dims(i);
+  }
+
+  const float inverse_output_scale = 1.f / output_scale;
+  uint8_t *output_ptr = output_data;
+  for (int k = 0; k < outer_size; k++)
+  {
+    for (int i = 0; i < inputs_count; ++i)
+    {
+      const int copy_size = input_shapes[i]->Dims(axis) * base_inner_size;
+      const uint8_t *input_ptr = input_data[i] + k * copy_size;
+      if (input_zeropoint[i] == output_zeropoint && input_scale[i] == output_scale)
+      {
+        memcpy(output_ptr, input_ptr, copy_size);
+      }
+      else
+      {
+        const float scale = input_scale[i] * inverse_output_scale;
+        const float bias = -input_zeropoint[i] * scale;
+        for (int j = 0; j < copy_size; ++j)
+        {
+          const int32_t value =
+              static_cast<int32_t>(std::round(input_ptr[j] * scale + bias)) + output_zeropoint;
+          output_ptr[j] = static_cast<uint8_t>(std::max(std::min(255, value), 0));
+        }
+      }
+      output_ptr += copy_size;
+    }
+  }
+}
+
 } // namespace cker
 } // namespace nnfw