<div dir="ltr">Hey tthere,<div><br></div><div>I'd like to parallelize this function:</div><div><br></div><div><pre>static int countDifferingBits(long[] array1, long[] array2) {
  int n = array1.length;
  int diff = 0;
  for (int i = 0; i < n; i++)
    diff += Long.bitCount(array1[i]^array2[i]);
  return diff;
}
</pre></div><div>The function calculates the difference between two shapes (pixel by pixel) and is the central piece of an image recognition I am making.</div><div><br></div><div>Example for a bunch of shapes (these are all the shapes found in the extended latin alphabet, in fact): <a href="https://botcompany.de/images/1103149">https://botcompany.de/images/1103149</a></div><div>Example for a shape comparison: <a href="https://botcompany.de/images/1103151">https://botcompany.de/images/1103151</a><br></div><div><br></div><div>The routine above is already mega-fast as is (thanks to HotSpot!), I can compare two 256 byte arrays in 29 CPU cycles. That's less than one cycle per 64 bit!<br></div><div><br></div><div>But I'd still like to try to vectorize it.</div><div><br></div><div>However, I think the bitCount function will prevent this because it doesn't seem to exist in a vectorized form. Or does it? (That would be my main question here.)</div><div><div><br></div><div>Many greetings,</div><div>Stefan</div><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><font face="monospace">== <a href="http://Gaz.AI" target="_blank">Gaz.AI</a> ==</font></div></div></div></div></div></div></div>