May be you could deal with high initial variance of a smaller data set by capping the variance<br>(or using a "gentler surrogate" such as average absolute difference) in the padding calculations<br>until the sample population is sufficiently large (say 10 or so... 100 seems too much to wait for,<br>
even for skewed, non-normal statistics). I know, what is one ad-hoc'ism versus another here, and<br>I agree that any such change would have to be empirically tested for stability and performance etc.<br><br>My remark about this specific fix merely papering over a minor symptom while the<br>
larger problem of counter overflow remaining in other paces in the code still stands i think,<br>and fixing that issue once and for all would likely fix the symptom that Mikael is trying<br>to fix here.<br><br>But I haven't looked at all of this code carefully in a long time, so I'll let you folks deal with this<br>
as you think is correct in the long-term and expedient in the short-term.<br><br>-- ramki<br><br><div class="gmail_quote">On Wed, Apr 25, 2012 at 12:44 AM, Jon Masamitsu <span dir="ltr"><<a href="mailto:jon.masamitsu@oracle.com">jon.masamitsu@oracle.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Ramki,<br>
<br>
I'm having to reconstruct how I arrived at this code (and<br>
the reconstruction may be faulty) but I think the problem<br>
was that at VM initialization there was sometimes<br>
more variance in the pause times and I didn't want<br>
to be weighted toward a pause time that was atypically<br>
smaller or larger.   I know I had to do extra work to get the<br>
heap to grow quickly at the beginning in order to<br>
achieve throughput that was close to the throughput<br>
with a tuned heap.  This was on client benchmarks<br>
where the run times were short.<br>
<br>
In any event I don't think that we can just reason about<br>
the affects of t his code and then decide to remove<br>
it.  We would need to generate some data with<br>
and without the code before making a decision.<br>
<br>
Jon<div><div class="h5"><br>
<br>
<br>
On 4/24/2012 11:26 PM, Srinivas Ramakrishna wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
Hi Mikael --<br>
<br>
I am not convinced that the code here that is skeptical about using<br>
weighted averages until<br>
there are sufficiently many samples in the history is really that useful.<br>
I'd just as soon start using the<br>
original weight straightaway and dispense with the slow circumspective<br>
march towards its eventual use.<br>
For example, with weight = 75, which would weight the history 0.75 and the<br>
current sample 0.25 would need<br>
3 or 4 steps before it started using the original weight. If you agree,<br>
then you can lose that code<br>
and your change to it., and thus avoid the divide by 0 issue that you faced,<br>
<br>
As to the background of that piece of code -- Did the direct and immediate<br>
use of the weight cause the<br>
control circuits to oscillate initially? Has that been observed or is it<br>
just a theoretical fear? (Although my<br>
theory says we need not have any such fears, especially if we wait long<br>
enough before actuating the<br>
control surfaces.)<br>
<br>
Also, it appears as though there would be other serious problems, see<br>
LinearLeastSquaresFit,<br>
if count() were to overflow. In fact many of the calculations in<br>
LinearLeastSquareFit (and perhaps elsewhere<br>
where the count is used) would go unstable at such a transition point. May<br>
be what we really need<br>
is a way to cull the count periodically to avoid its overflow. I think one<br>
could probably do that without too<br>
much problem by keeping a boundary crossing (say at half the available<br>
range for count) at which to do so,<br>
by correspondingly scaling the relevant quantities down appropriately --<br>
sum_x, sum_x^2 etc.<br>
IIRC, this is a technique oftenused in digital filtering and signal<br>
processing, when implementing IIR filters.<br>
<br>
-- ramki<br>
<br>
<br>
On Tue, Apr 24, 2012 at 11:01 AM, Mikael Vidstedt<<br>
<a href="mailto:mikael.vidstedt@oracle.com" target="_blank">mikael.vidstedt@oracle.com</a>>  wrote:<br>
<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
Hi all,<br>
<br>
The statistical counters in gcUtil are used to keep track of historical<br>
information about various key metrics in the garbage collectors. Built in<br>
to the core AdaptiveWeightedAverage base class is the concept of aging the<br>
values, essentially treating the first 100 values differently and putting<br>
more weight on them since there's not yet enough historical data built up.<br>
<br>
In the class there is a 32-bit counter (_sample_count) that incremented<br>
for every sample and used to compute scale the weight of the added value<br>
(see compute_adaptive_average), and the scaling logic divides 100 by the<br>
count. In the normal case this is not a problem - the counters are reset<br>
every once in a while and/or grow very slowly. In some pathological cases<br>
the counter will however continue to increment and eventually<br>
overflow/wrap, meaning the 32-bit count will go back to zero and the<br>
division in compute_adaptive_average will lead to a div-by-zero crash.<br>
<br>
The test case where this is observed is a test that stress tests<br>
allocation in combination with the GC locker. Specifically, the test is<br></div></div>
multi-threaded which pounds on java.util.zip.Deflater.**<u></u>deflate, which<div class="im"><br>
internally uses the GetPrimitiveArrayCritical JNI function to temporarily<br>
lock out the GC (using the GC locker). The garbage collector used is in<br>
this case the parallel scavenger and the the counter that overflows is<br>
_avg_pretenured. _avg_pretenured is incremented/sampled every time an<br>
allocation is made directly in the old gen, which I believe is more likely<br>
when the GC locker is active.<br>
<br>
<br>
The suggested fix is to only perform the division in<br>
compute_adaptive_average when it is relevant, which currently is for the<br>
first 100 values. Once there are more than 100 samples there is no longer a<br>
need to scale the weight.<br>
<br>
This problem is tracked in 7158457 (stress: jdk7 u4 core dumps during<br>
megacart stress test run).<br>
<br>
Please review and comment on the webrev below:<br>
<br>
</div><a href="http://cr.openjdk.java.net/%7E**mikael/7158457/webrev.00" target="_blank">http://cr.openjdk.java.net/~**<u></u>mikael/7158457/webrev.00</a><<a href="http://cr.openjdk.java.net/%7Emikael/7158457/webrev.00" target="_blank">http:<u></u>//cr.openjdk.java.net/%<u></u>7Emikael/7158457/webrev.00</a>><br>

<br>
Thanks,<br>
Mikael<br>
<br>
<br>
</blockquote></blockquote>
</blockquote></div><br>