<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-ligatures:standardcontextual;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        mso-ligatures:none;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-US" link="#0563C1" vlink="#954F72" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal">I agree that for the first few elements on the key-value array, the result is not promising, because of the need to check after the loop for which condition caused the loop to exit.  But for searches that go further down the array, ccmp
 is a win on the machine I've tried it on (an Ampere Altra).<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Here's a table of times in nanoseconds for making 1B interface calls to various depths in an interface hierarchy, in a clone of JDK-21+19, and in JDK-21+19 with the loops done with ccmp:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Test       clone JDK-21+19   ccmp JDK-21+19<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 1  9,753,623,061   9,751,264,492<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 2 10,512,917,318   10,654,232,119<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 3 11,554,908,217   11,635,931,298<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 4 15,501,591,613   12,926,417,745<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 5 18,472,136,372   14,559,380,750<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 6 19,369,030,295   16,389,137,458<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 7 20,543,012,798   18,119,622,732<o:p></o:p></span></p>
<p class="MsoNormal" style="text-indent:.5in"><span style="font-size:10.0pt;font-family:"Courier New"">Interface 8 21,947,230,096   18,918,257,704<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">The differences will be halved if your change can eliminate one of the two loops in itable_stub.  Then using ccmp is has half the benefit.  I look forward to your patch.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">                                                ... peter<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="mso-margin-top-alt:0in;margin-right:0in;margin-bottom:12.0pt;margin-left:.5in">
<b><span style="font-size:12.0pt;color:black">From: </span></b><span style="font-size:12.0pt;color:black">Boris Ulasevich <boris.ulasevich@bell-sw.com><br>
<b>Date: </b>Saturday, April 29, 2023 at 04:40<br>
<b>To: </b>Peter Kessler OS <peter.kessler@os.amperecomputing.com><br>
<b>Cc: </b>hotspot-dev@openjdk.java.net <hotspot-dev@openjdk.java.net><br>
<b>Subject: </b>Re: JDK-8307137: aarch64 MacroAssembler::lookup_interface_method could use conditional compare instead of branch</span><span style="font-size:12.0pt;color:black;mso-ligatures:none"><o:p></o:p></span></p>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:0in;margin-right:0in;margin-bottom:12.0pt;margin-left:.5in">
Peter,<br>
<br>
I tried ccmp as part of improving itable stub on aarch64, and the results were not promising. Applying ccmp as suggested increased geomean from 15.7 ns to 15.9 ns on N1 and from 201 ns to 205 ns on A72. I don't think micro-architecture specialization in itable
 stub would bring universal benefits, it will only make code more complicated. I would appreciate your review of the AArch64 part of JDK-8305959 once I post it.<br>
<br>
thanks,<br>
Boris<o:p></o:p></p>
<div>
<p class="MsoNormal" style="margin-left:.5in">On 4/29/2023 1:48 PM, Boris Ulasevich wrote:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<p class="MsoNormal" style="mso-margin-top-alt:0in;margin-right:0in;margin-bottom:12.0pt;margin-left:.5in">
Hi Peter,<br>
<br>
Please have a look at JDK-8305959. I'm going to rewrite the itable stub codes to use a single pass over itable! I have an aarch64 implementation which shows improvement on
<span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white">
Ampere Altra.</span><br>
<br>
Boris<o:p></o:p></p>
<div>
<p class="MsoNormal" style="margin-left:.5in">On 4/29/2023 6:18 AM, Peter Kessler OS wrote:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<p class="MsoNormal" style="margin-left:.5in">I notice that <span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white">
src/hotspot/cpu/aarch64/macroAssembler_aarch64.cpp MacroAssembler::lookup_interface_method loops over the itable list with code that uses two branches: one to check for a null indicating the end of the list, and one to see if the appropriate entry has been
 found.  aarch64 has a "ccmp" instruction that can be used to evaluate two conditions with only one branch.  On an out-of-order implementation with more integer execution units than branch units, the trading of a branch for a ccmp can be beneficial.  The downside
 is that one has to check, after the loop has exited, which of the conditions cause the loop to exit, but if the loop executes more than once or twice, that is still a win.</span><o:p></o:p></p>
<p class="MsoNormal" style="margin-left:.5in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white"> </span><o:p></o:p></p>
<p class="MsoNormal" style="margin-left:.5in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white">There are other opportunities to use cmp;ccmp;br instead of cmp;br;cmp;br.  I happened to see the one in MacroAssembler::lookup_interface_method
 because it was in what passes for hand-written assembler in HotSpot.  For generic searches for a key in a key-value array the improvement can be ~10% on a Ampere Altra, depending on how far down the key-value array one has to look.</span><o:p></o:p></p>
<p class="MsoNormal" style="margin-left:.5in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white"> </span><o:p></o:p></p>
<p class="MsoNormal" style="margin-left:.5in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white">I am only proposing to fix the loop in MacroAssembler::lookup_interface_method, but I would be interested in talking to
 people about where else the ccmp style could be applied.</span><o:p></o:p></p>
<p class="MsoNormal" style="margin-left:.5in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white"> </span><o:p></o:p></p>
<p class="MsoNormal" style="margin-left:.5in"><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#172B4D;background:white">                                    ... peter</span><o:p></o:p></p>
</blockquote>
<p class="MsoNormal" style="margin-left:.5in"><span style="mso-ligatures:none"><o:p> </o:p></span></p>
</blockquote>
<p class="MsoNormal" style="margin-left:.5in"><span style="mso-ligatures:none"><o:p> </o:p></span></p>
</div>
</body>
</html>