rms_norm1
fused_rms_norm1_add1
fused_dequantize4_NT_matmul8
rms_norm2
fused_rms_norm2_add2

Time: 22 minutes