transformers

Usage instructions: Transformers Tool Usage Documentation

Supported Models

The following models from Huggingface Transformers have been tested using the optimizer:

PyTorch:

BERT
DistilBERT
DistilGPT2
RoBERTa
ALBERT
GPT-2 (GPT2Model, GPT2LMHeadModel)

Tensorflow:

BERT

Most optimizations require exact match of a subgraph. Any layout change in subgraph might cause some optimization not working. Note that different versions of training or export tool might lead to different graph layouts. It is recommended to use latest released version of PyTorch and Transformers.

Models not in the list may only be partially optimized or not optimized at all.

Optimizer Options

input: input model path
output: output model path
model_type: (defaul: bert) There are 4 model types: bert (exported by PyTorch), gpt2 (exported by PyTorch), and bert_tf (BERT exported by tf2onnx), bert_keras (BERT exported by keras2onnx) respectively.
num_heads: (default: 12) Number of attention heads. BERT-base and BERT-large has 12 and 16 respectively.
hidden_size: (default: 768) BERT-base and BERT-large has 768 and 1024 hidden nodes respectively.
input_int32: (optional) Exported model usually uses int64 tensor as input. If this flag is specified, int32 tensors will be used as input, and it could avoid un-necessary Cast nodes and get better performance.
float16: (optional) By default, model uses float32 in computation. If this flag is specified, half-precision float will be used. This option is recommended for NVidia GPU with Tensor Core like V100 and T4. For older GPUs, float32 is likely faster.
use_gpu: (optional) When opt_level > 1, please set this flag for GPU inference.
opt_level: (optional) Set a proper graph optimization level of OnnxRuntime: 0 - disable all (default), 1 - basic, 2 - extended, 99 - all. If the value is positive, OnnxRuntime will be used to optimize graph first.
verbose: (optional) Print verbose information when this flag is specified.

Benchmark Results

These benchmarks were executed on V100 machines using the optimizer with IO binding enabled.

We tested on Tesla V100-PCIE-16GB GPU (CPU is Intel Xeon(R) E5-2690 v4) for different batch size (b) and sequence length (s). Below result is average latency of per inference in miliseconds.

bert-base-uncased (BertModel)

The model has 12 layers and 768 hidden, with input_ids as input.

engine	version	precision	b	s=8	s=16	s=32	s=64	s=128	s=256	s=512
torchscript	1.5.1	fp32	1	7.92	8.78	8.91	9.18	9.56	9.39	12.83
onnxruntime	1.4.0	fp32	1	1.38	1.42	1.67	2.15	3.11	5.37	10.74
onnxruntime	1.4.0	fp16	1	1.30	1.29	1.31	1.33	1.45	1.95	3.36
onnxruntime	1.4.0	fp32	4	1.51	1.93	2.98	5.01	9.13	17.95	38.15
onnxruntime	1.4.0	fp16	4	1.27	1.35	1.43	1.83	2.66	4.40	9.76

run_benchmark.sh is used to get the results.

gpt2 (GPT2LMHeadModel)

The model has 12 layers and 768 hidden, with input_ids, position_ids, attention_mask and past state as inputs.

engine	version	precision	b	s=4	s=8	s=32	s=128
torchscript	1.5.1	fp32	1	5.80	5.77	5.82	5.78
onnxruntime	1.4.0	fp32	1	1.42	1.42	1.43	1.47
onnxruntime	1.4.0	fp16	1	1.54	1.54	1.58	1.64
onnxruntime	1.4.0	fp32	8	1.83	1.84	1.90	2.13
onnxruntime	1.4.0	fp16	8	1.74	1.75	1.81	2.09
onnxruntime	1.4.0	fp32	32	2.19	2.21	2.45	3.34
onnxruntime	1.4.0	fp16	32	1.66	1.71	1.85	2.73
onnxruntime	1.4.0	fp32	128	4.15	4.37	5.15	8.61
onnxruntime	1.4.0	fp16	128	2.47	2.58	3.26	6.16

Since past state is used, sequence length in input_ids is 1. For example, s=4 means the past sequence length is 4 and the total sequence length is 5.

benchmark_gpt2.py is used to get the results like the following commands:

python -m onnxruntime.transformers.models.gpt2.benchmark_gpt2 --use_gpu -m gpt2 -o -v -b 1 8 32 128 -s 4 8 32 128 -p fp32
python -m onnxruntime.transformers.models.gpt2.benchmark_gpt2 --use_gpu -m gpt2 -o -v -b 1 8 32 128 -s 4 8 32 128 -p fp16

Name		Name	Last commit message	Last commit date
parent directory ..
models		models
notebooks		notebooks
Dev_Guide.md		Dev_Guide.md
README.md		README.md
__init__.py		__init__.py
affinity_helper.py		affinity_helper.py
benchmark.py		benchmark.py
benchmark_helper.py		benchmark_helper.py
bert_perf_test.py		bert_perf_test.py
bert_test_data.py		bert_test_data.py
compare_bert_results.py		compare_bert_results.py
constants.py		constants.py
convert_generation.py		convert_generation.py
convert_tf_models_to_pytorch.py		convert_tf_models_to_pytorch.py
convert_to_packing_mode.py		convert_to_packing_mode.py
dev_benchmark.cmd		dev_benchmark.cmd
dynamo_onnx_helper.py		dynamo_onnx_helper.py
float16.py		float16.py
fusion_attention.py		fusion_attention.py
fusion_attention_clip.py		fusion_attention_clip.py
fusion_attention_sam2.py		fusion_attention_sam2.py
fusion_attention_unet.py		fusion_attention_unet.py
fusion_attention_vae.py		fusion_attention_vae.py
fusion_bart_attention.py		fusion_bart_attention.py
fusion_base.py		fusion_base.py
fusion_bias_add.py		fusion_bias_add.py
fusion_biasgelu.py		fusion_biasgelu.py
fusion_biassplitgelu.py		fusion_biassplitgelu.py
fusion_conformer_attention.py		fusion_conformer_attention.py
fusion_embedlayer.py		fusion_embedlayer.py
fusion_fastgelu.py		fusion_fastgelu.py
fusion_gelu.py		fusion_gelu.py
fusion_gelu_approximation.py		fusion_gelu_approximation.py
fusion_gemmfastgelu.py		fusion_gemmfastgelu.py
fusion_gpt_attention.py		fusion_gpt_attention.py
fusion_gpt_attention_megatron.py		fusion_gpt_attention_megatron.py
fusion_gpt_attention_no_past.py		fusion_gpt_attention_no_past.py
fusion_group_norm.py		fusion_group_norm.py
fusion_layernorm.py		fusion_layernorm.py
fusion_nhwc_conv.py		fusion_nhwc_conv.py
fusion_options.py		fusion_options.py
fusion_qordered_attention.py		fusion_qordered_attention.py
fusion_qordered_gelu.py		fusion_qordered_gelu.py
fusion_qordered_layernorm.py		fusion_qordered_layernorm.py
fusion_qordered_matmul.py		fusion_qordered_matmul.py
fusion_quickgelu.py		fusion_quickgelu.py
fusion_reshape.py		fusion_reshape.py
fusion_rotary_attention.py		fusion_rotary_attention.py
fusion_shape.py		fusion_shape.py
fusion_simplified_layernorm.py		fusion_simplified_layernorm.py
fusion_skip_group_norm.py		fusion_skip_group_norm.py
fusion_skiplayernorm.py		fusion_skiplayernorm.py
fusion_transpose.py		fusion_transpose.py
fusion_utils.py		fusion_utils.py
huggingface_models.py		huggingface_models.py
import_utils.py		import_utils.py
io_binding_helper.py		io_binding_helper.py
large_model_exporter.py		large_model_exporter.py
machine_info.py		machine_info.py
metrics.py		metrics.py
onnx_exporter.py		onnx_exporter.py
onnx_model.py		onnx_model.py
onnx_model_bart.py		onnx_model_bart.py
onnx_model_bert.py		onnx_model_bert.py
onnx_model_bert_keras.py		onnx_model_bert_keras.py
onnx_model_bert_tf.py		onnx_model_bert_tf.py
onnx_model_clip.py		onnx_model_clip.py
onnx_model_conformer.py		onnx_model_conformer.py
onnx_model_gpt2.py		onnx_model_gpt2.py
onnx_model_phi.py		onnx_model_phi.py
onnx_model_sam2.py		onnx_model_sam2.py
onnx_model_t5.py		onnx_model_t5.py
onnx_model_tnlr.py		onnx_model_tnlr.py
onnx_model_unet.py		onnx_model_unet.py
onnx_model_vae.py		onnx_model_vae.py
onnx_utils.py		onnx_utils.py
optimizer.py		optimizer.py
profiler.py		profiler.py
pytest.ini		pytest.ini
quantize_helper.py		quantize_helper.py
requirements.txt		requirements.txt
run_benchmark.sh		run_benchmark.sh
shape_infer_helper.py		shape_infer_helper.py
shape_optimizer.py		shape_optimizer.py
torch_onnx_export_helper.py		torch_onnx_export_helper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

transformers

transformers

README.md

Usage instructions: Transformers Tool Usage Documentation

Supported Models

Optimizer Options

Benchmark Results

bert-base-uncased (BertModel)

gpt2 (GPT2LMHeadModel)

Files

transformers

Directory actions

More options

Directory actions

More options

Latest commit

History

transformers

Folders and files

parent directory

README.md

Usage instructions: Transformers Tool Usage Documentation

Supported Models

Optimizer Options

Benchmark Results

bert-base-uncased (BertModel)

gpt2 (GPT2LMHeadModel)