<div dir="ltr">Hi, <div>I have the same problem during calculation of Eucledian distance in my project too.</div><div>Writing just to confirm that it is not a single case and I have got the same result during profiling.</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Sep 16, 2023 at 9:50 PM Jake Luciani <<a href="mailto:jake@apache.org">jake@apache.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi,<br>
<br>
I've been struggling with a problem recently using the vector api.<br>
It appears as reduceLanes is not using the intrinsic.<br>
<br>
          ns  percent  samples  top<br>
  ----------  -------  -------  ---<br>
 13240151836   88.21%     1324<br>
jdk.incubator.vector.FloatVector.reduceLanesTemplate<br>
  1349991099    8.99%      135<br>
jdk.incubator.vector.FloatVector.lanewiseTemplate<br>
<br>
I've tested openjdk 20 and 21 and my machine has AVX512.<br>
<br>
 When I PrintIntrinsics I see the following (among others):<br>
<br>
  ** missing constant: opr=RShiftI vclass=ConP etype=ConP vlen=ConI<br>
<br>
I've included a JMH benchmark that reproduces the issue.<br>
<br>
-Jake<br>
<br>
import jdk.incubator.vector.FloatVector;<br>
import jdk.incubator.vector.IntVector;<br>
import jdk.incubator.vector.ShortVector;<br>
import jdk.incubator.vector.VectorOperators;<br>
import org.openjdk.jmh.annotations.*;<br>
import org.openjdk.jmh.infra.Blackhole;<br>
<br>
import java.util.concurrent.ThreadLocalRandom;<br>
import java.util.concurrent.TimeUnit;<br>
<br>
<br>
@Warmup(iterations = 1, time = 5)<br>
@Measurement(iterations = 3, time = 5)<br>
@Fork(warmups = 1, value = 1, jvmArgsPrepend = {<br>
        "--add-modules=jdk.incubator.vector",<br>
        "--enable-preview"})<br>
public class VectorPerfBench<br>
{<br>
    private static final int SIZE = 8192;<br>
    private static final IntVector BF16_BYTE_SHIFT =<br>
IntVector.broadcast(IntVector.SPECIES_512, 16);<br>
<br>
    public static short float32ToBFloat16(float f) {<br>
        return (short) (Float.floatToIntBits(f) >> 16);<br>
    }<br>
    @State(Scope.Benchmark)<br>
    public static class Parameters {<br>
        final short[] s1 = new short[SIZE];<br>
        final short[] s2 = new short[SIZE];<br>
<br>
        public Parameters() {<br>
            for (int i = 0; i < SIZE; i++) {<br>
                s1[i] =<br>
float32ToBFloat16(ThreadLocalRandom.current().nextFloat());<br>
                s2[i] =<br>
float32ToBFloat16(ThreadLocalRandom.current().nextFloat());<br>
            }<br>
        }<br>
    }<br>
<br>
    @Benchmark<br>
    @OutputTimeUnit(TimeUnit.MILLISECONDS)<br>
    @BenchmarkMode(Mode.Throughput)<br>
    public void bfloatDot(Parameters p, Blackhole bh) {<br>
        FloatVector acc = FloatVector.zero(FloatVector.SPECIES_512);<br>
        for (int i = 0; i < SIZE; i += FloatVector.SPECIES_512.length()) {<br>
<br>
            var f1 = ShortVector.fromArray(ShortVector.SPECIES_256, p.s1, i)<br>
                    .convertShape(VectorOperators.ZERO_EXTEND_S2I,<br>
IntVector.SPECIES_512, 0)<br>
                    .lanewise(VectorOperators.LSHL, BF16_BYTE_SHIFT)<br>
                    .reinterpretAsFloats();<br>
<br>
            var f2 = ShortVector.fromArray(ShortVector.SPECIES_256, p.s2, i)<br>
                    .convertShape(VectorOperators.ZERO_EXTEND_S2I,<br>
IntVector.SPECIES_512, 0)<br>
                    .lanewise(VectorOperators.LSHL, BF16_BYTE_SHIFT)<br>
                    .reinterpretAsFloats();<br>
<br>
            acc = acc.add(f1.mul(f2));<br>
        }<br>
<br>
        bh.consume(acc.reduceLanes(VectorOperators.ADD));<br>
    }<br>
<br>
    public static void main(String[] args) throws Exception {<br>
        org.openjdk.jmh.Main.main(args);<br>
    }<br>
}<br>
</blockquote></div><br clear="all"><div><br></div><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr">Best regards,<br>Andrii Lomakin.<br><br></div></div></div></div>