kai/ukernels/matmul/imatmul_clamp_f16_f16p_f16p/kai_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa.c

Directory:	./
Coverage:	low: ≥ 0% medium: ≥ 75.0% high: ≥ 90.0%

	Coverage	Exec / Excl / Total
Lines:	100.0%	39 / 4 / 43
Functions:	100.0%	9 / 0 / 9
Branches:	-%	0 / 8 / 8

    kai/ukernels/matmul/imatmul_clamp_f16_f16p_f16p/kai_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa.c
    
        Line
        Branch
        Exec
        Source
      
        //
      
        // SPDX-FileCopyrightText: Copyright 2025 Arm Limited and/or its affiliates <open-source-office@arm.com>
      
        //
      
        // SPDX-License-Identifier: Apache-2.0
      
        //
      
        #if (!defined(__aarch64__) || !defined(__ARM_FEATURE_SVE2)) && !defined(_M_ARM64)
      
        #error This file must be compiled for AArch64, FEAT_SVE2.
      
        #else  // Architectural features check.
      
        #include "kai_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa.h"
      
        #include <stddef.h>
      
        #include <stdint.h>
      
        #include "kai/kai_common.h"
      
        typedef struct {
      
            const void* A;
      
            const void* B;
      
            void* C;
      
            uint64_t ldcb;
      
            uint64_t M;
      
            uint64_t N;
      
            uint64_t K;
      
            uint16_t min;
      
            uint16_t max;
      
            void* accumulator_buffer;
      
            uint64_t flags;
      
        } KernelArgs;
      
        static const size_t kai_mr = 2;
      
        static const size_t kai_nr = 2;
      
        static const size_t kai_kr = 2;
      
        void kai_kernel_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(KernelArgs* args);
      
        uint16_t kai_f16_from_float_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(float value);
      
        // Returns a constant value specific to this kernel that's relative to vector length
      
        14076
        static size_t kai_get_kernel_vec_length_constant(void) {
      
        14076
            const size_t kernel_vec_length_constant = kai_get_sme_vector_length_u16() / kai_kr;
      
        28152
            return kernel_vec_length_constant;
      
        14076
        }
      
        4692
        size_t kai_get_m_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(void) {
      
        4692
            return kai_mr * kai_get_kernel_vec_length_constant();
      
        }
      
        9384
        size_t kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(void) {
      
        9384
            return kai_nr * kai_get_kernel_vec_length_constant();
      
        }
      
        2346
        size_t kai_get_lhs_packed_offset_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
      
            size_t m_idx, size_t k_chunk_count, size_t k_chunk_length) {
      
        −
            KAI_ASSUME(m_idx % kai_get_m_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
      
        2346
            return m_idx * k_chunk_count * kai_roundup(k_chunk_length, kai_kr) * sizeof(uint16_t);
      
        }
      
        2346
        static size_t kai_get_rhs_packed_stride_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
      
            size_t k_chunk_count, size_t k_chunk_length) {
      
        4692
            return kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() *
      
        2346
                (sizeof(uint16_t) + k_chunk_count * kai_roundup(k_chunk_length, kai_kr) * sizeof(uint16_t));
      
        }
      
        2346
        size_t kai_get_rhs_packed_offset_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
      
            size_t n_idx, size_t k_chunk_count, size_t k_chunk_length) {
      
        −
            KAI_ASSUME(n_idx % kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
      
        2346
            const size_t block_idx = n_idx / kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa();
      
        7038
            return block_idx *
      
        2346
                kai_get_rhs_packed_stride_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
      
        2346
                       k_chunk_count, k_chunk_length);
      
        2346
        }
      
        2346
        size_t kai_get_dst_offset_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
      
            size_t m_idx, size_t n_idx, size_t dst_stride_row) {
      
        −
            KAI_ASSUME(m_idx % kai_get_m_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
      
        −
            KAI_ASSUME(n_idx % kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
      
        2346
            return m_idx * dst_stride_row + n_idx * sizeof(uint16_t);
      
        }
      
        2346
        size_t kai_get_dst_size_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(size_t m, size_t n) {
      
        2346
            return m * n * sizeof(uint16_t);
      
        }
      
        2347
        void kai_run_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
      
            size_t m, size_t n, size_t k_chunk_count, size_t k_chunk_length, const void* lhs_packed, const void* rhs_packed,
      
            void* dst, size_t dst_stride_row, float clamp_min, float clamp_max) {
      
        2347
            KernelArgs args;
      
        2347
            args.A = lhs_packed;
      
        2347
            args.B = rhs_packed;
      
        2347
            args.C = dst;
      
        2347
            args.ldcb = dst_stride_row;
      
        2347
            args.M = m;
      
        2347
            args.N = n;
      
        2347
            args.K = k_chunk_count * kai_roundup(k_chunk_length, kai_kr);
      
        2347
            args.min = kai_f16_from_float_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(clamp_min);
      
        2347
            args.max = kai_f16_from_float_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(clamp_max);
      
        2347
            args.accumulator_buffer = NULL;
      
        2347
            args.flags = 0;
      
        2347
            kai_commit_za();
      
        2347
            kai_kernel_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(&args);
      
        2347
        }
      
        #endif  // Architectural features check.

Line	Exec	Source
1		//
2		// SPDX-FileCopyrightText: Copyright 2025 Arm Limited and/or its affiliates <open-source-office@arm.com>
3		//
4		// SPDX-License-Identifier: Apache-2.0
5		//
6
7		#if (!defined(__aarch64__) \|\| !defined(__ARM_FEATURE_SVE2)) && !defined(_M_ARM64)
8		#error This file must be compiled for AArch64, FEAT_SVE2.
9		#else // Architectural features check.
10		#include "kai_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa.h"
11
12		#include <stddef.h>
13		#include <stdint.h>
14
15		#include "kai/kai_common.h"
16
17		typedef struct {
18		const void* A;
19		const void* B;
20		void* C;
21		uint64_t ldcb;
22		uint64_t M;
23		uint64_t N;
24		uint64_t K;
25		uint16_t min;
26		uint16_t max;
27		void* accumulator_buffer;
28		uint64_t flags;
29		} KernelArgs;
30
31		static const size_t kai_mr = 2;
32		static const size_t kai_nr = 2;
33		static const size_t kai_kr = 2;
34
35		void kai_kernel_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(KernelArgs* args);
36		uint16_t kai_f16_from_float_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(float value);
37
38		// Returns a constant value specific to this kernel that's relative to vector length
39	14076	static size_t kai_get_kernel_vec_length_constant(void) {
40	14076	const size_t kernel_vec_length_constant = kai_get_sme_vector_length_u16() / kai_kr;
41	28152	return kernel_vec_length_constant;
42	14076	}
43
44	4692	size_t kai_get_m_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(void) {
45	4692	return kai_mr * kai_get_kernel_vec_length_constant();
46		}
47
48	9384	size_t kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(void) {
49	9384	return kai_nr * kai_get_kernel_vec_length_constant();
50		}
51
52	2346	size_t kai_get_lhs_packed_offset_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
53		size_t m_idx, size_t k_chunk_count, size_t k_chunk_length) {
54	−	KAI_ASSUME(m_idx % kai_get_m_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
55	2346	return m_idx * k_chunk_count * kai_roundup(k_chunk_length, kai_kr) * sizeof(uint16_t);
56		}
57
58	2346	static size_t kai_get_rhs_packed_stride_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
59		size_t k_chunk_count, size_t k_chunk_length) {
60	4692	return kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() *
61	2346	(sizeof(uint16_t) + k_chunk_count * kai_roundup(k_chunk_length, kai_kr) * sizeof(uint16_t));
62		}
63
64	2346	size_t kai_get_rhs_packed_offset_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
65		size_t n_idx, size_t k_chunk_count, size_t k_chunk_length) {
66	−	KAI_ASSUME(n_idx % kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
67	2346	const size_t block_idx = n_idx / kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa();
68	7038	return block_idx *
69	2346	kai_get_rhs_packed_stride_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
70	2346	k_chunk_count, k_chunk_length);
71	2346	}
72
73	2346	size_t kai_get_dst_offset_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
74		size_t m_idx, size_t n_idx, size_t dst_stride_row) {
75	−	KAI_ASSUME(m_idx % kai_get_m_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
76	−	KAI_ASSUME(n_idx % kai_get_n_step_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa() == 0);
77
78	2346	return m_idx * dst_stride_row + n_idx * sizeof(uint16_t);
79		}
80
81	2346	size_t kai_get_dst_size_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(size_t m, size_t n) {
82	2346	return m * n * sizeof(uint16_t);
83		}
84
85	2347	void kai_run_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(
86		size_t m, size_t n, size_t k_chunk_count, size_t k_chunk_length, const void* lhs_packed, const void* rhs_packed,
87		void* dst, size_t dst_stride_row, float clamp_min, float clamp_max) {
88	2347	KernelArgs args;
89
90	2347	args.A = lhs_packed;
91	2347	args.B = rhs_packed;
92	2347	args.C = dst;
93	2347	args.ldcb = dst_stride_row;
94	2347	args.M = m;
95	2347	args.N = n;
96	2347	args.K = k_chunk_count * kai_roundup(k_chunk_length, kai_kr);
97	2347	args.min = kai_f16_from_float_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(clamp_min);
98	2347	args.max = kai_f16_from_float_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(clamp_max);
99	2347	args.accumulator_buffer = NULL;
100	2347	args.flags = 0;
101
102	2347	kai_commit_za();
103
104	2347	kai_kernel_imatmul_clamp_f16_f16p2vlx2_f16p2vlx2b_2vlx2vl_sme_mopa(&args);
105	2347	}
106
107		#endif // Architectural features check.
108

KleidiAI Coverage Report