Matmul_nbits kernel for mlas sqnbits to support Fp16 inputs #21807

liqunfu · 2024-08-20T22:26:53Z

Description

There are 2 ways to support Fp16:

At low level to use fp16 specific instructions:
Matmul-nbit to support fp16 activation #21760
This requires instruction support and, in case of avx, halfgemm support which is missing.
this PR can complete after blksum compute is moved away from sgemm (https://github.com/microsoft/onnxruntime/tree/liqun/blksum)
Convert Fp16 to Fp32 and use the mlas Fp32 version.
This PR is to implement the second approach.

Motivation and Context

support Fp16

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

Signed-off-by: liqunfu <liqun.fu@microsoft.com>

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

onnxruntime/contrib_ops/cpu/quantization/matmul_nbits_impl.cc

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

onnxruntime/core/mlas/lib/sqnbitgemm_kernel_avx2.cpp

onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc

Signed-off-by: liqunfu <liqun.fu@microsoft.com>

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

yufenglee

fajin-corp · 2024-09-13T23:27:39Z

onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc

+          bias_data_v.resize((const unsigned int)(bias->Shape().Size()));
+          ConvertFp16ToFp32(bias_data, &bias_data_v[0], bias_data_v.size());
+        }
+        std::vector<float> C_v((const unsigned int)(y->Shape().Size()));


std::vector C_v

may I know why output is using vector, but tmp_a is using allocator?

…icrosoft#21807)" This reverts commit a89bddd.

matmul_nbits kernel for mlas sqnbits to support Fp16 inputs

edef19c

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

liqunfu requested a review from a team as a code owner August 20, 2024 22:26

liqunfu marked this pull request as draft August 20, 2024 22:27

liqunfu and others added 6 commits August 21, 2024 21:40

fix fp16 for bias and zp

2e9e84f

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

-mf16c

f85f72f

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

unused args

4e8e284

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

change tol, lint

27ba1bf

Signed-off-by: liqunfu <liqun.fu@microsoft.com>

lint and tol

07242a2

Signed-off-by: liqunfu <liqun.fu@microsoft.com>

Float16Cuda, lint, ARM64 compile

e426458

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

github-advanced-security bot found potential problems Aug 22, 2024

View reviewed changes

onnxruntime/contrib_ops/cpu/quantization/matmul_nbits_impl.cc Fixed Show fixed Hide fixed

onnxruntime/contrib_ops/cpu/quantization/matmul_nbits_impl.cc Fixed Show fixed Hide fixed

liqunfu added 8 commits August 22, 2024 13:04

lint

fc2c7b7

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

size_t

bb1f3d6

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

PREFast check

eb2439d

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

dispatch fp32-16 conversion

a79d6ee

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

ConvertFp32ToFp16Avx

4e41549

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

x86 cpu failure due to dispatch == nullptr

67c6bbc

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

default conversion

89d88e5

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

Merge branch 'main' into liqun/mlas-sqnbit-kernel-fp16

729dfd3

liqunfu marked this pull request as ready for review September 5, 2024 18:31

yufenglee reviewed Sep 10, 2024

View reviewed changes

onnxruntime/core/mlas/lib/sqnbitgemm_kernel_avx2.cpp Outdated Show resolved Hide resolved

yufenglee reviewed Sep 10, 2024

View reviewed changes

onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc Outdated Show resolved Hide resolved

liqunfu and others added 9 commits September 11, 2024 21:13

New test skip Cuda EP

0bb7df0

Signed-off-by: liqunfu <liqun.fu@microsoft.com>

not to template the kernel class

0b46407

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

Merge branch 'main' into liqun/mlas-sqnbit-kernel-fp16

e77933c

undo emsdk

56fa3ee

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

cast error

d32b4ae

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

refactor with existing halftofloat\

a5ce5dc

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

x86 build

f63c474

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

kernel doc and dml

4b8a0f5

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

remove unused code

cd96fbb

Signed-off-by: Liqun Fu <liqfu@microsoft.com>

yufenglee approved these changes Sep 13, 2024

View reviewed changes

liqunfu merged commit a89bddd into main Sep 13, 2024
87 checks passed

liqunfu deleted the liqun/mlas-sqnbit-kernel-fp16 branch September 13, 2024 21:55

fajin-corp reviewed Sep 13, 2024

View reviewed changes

axodox added a commit to axodox/onnxruntime that referenced this pull request Sep 22, 2024

Revert "Matmul_nbits kernel for mlas sqnbits to support Fp16 inputs (m…

fb9ec53

…icrosoft#21807)" This reverts commit a89bddd.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Matmul_nbits kernel for mlas sqnbits to support Fp16 inputs #21807

Matmul_nbits kernel for mlas sqnbits to support Fp16 inputs #21807

liqunfu commented Aug 20, 2024

yufenglee left a comment

fajin-corp Sep 13, 2024

Matmul_nbits kernel for mlas sqnbits to support Fp16 inputs #21807

Matmul_nbits kernel for mlas sqnbits to support Fp16 inputs #21807

Conversation

liqunfu commented Aug 20, 2024

Description

Motivation and Context

yufenglee left a comment

Choose a reason for hiding this comment

fajin-corp Sep 13, 2024

Choose a reason for hiding this comment