<div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><pre style="white-space:pre-wrap;color:rgb(0,0,0)">The version of Tiger benchmarked on
<a href="http://bench.cr.yp.to/results-hash.html">http://bench.cr.yp.to/results-hash.html</a> is Wei Dai's implementation
from Crypto++ (<a href="https://github.com/mmoss/cryptopp/blob/5a55f26b5e07e5effdbefe00df3a0588a11bfbf0/src/tiger.cpp">https://github.com/mmoss/cryptopp/blob/5a55f26b5e07e5effdbefe00df3a0588a11bfbf0/src/tiger.cpp</a>).
It has optimized assembly and SSE2. I don't know for sure if there
could be further optimizations to Tiger, but I would be surprised if
anyone could squeeze better than 10% more speed out of it.</pre></blockquote><div><br></div>64-bit multiplication with 32-bit integers requires about four instructions... I think?<div><br></div><div>That has been reduced to one instruction in modern architectures, a savings of about three instructions per round, 24 rounds, so 72 instructions? There is one multiplication each round in Tiger, I think.</div><div><br></div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><pre style="white-space:pre-wrap;color:rgb(0,0,0)">BLAKE (the immediate ancestor of BLAKE2) came out in 2008, and during
the SHA-3 competition BLAKE was probably subjected to more
cryptanalysis than Tiger has been in its entire 20-year life.</pre></blockquote><div><br></div><div>You may not be aware of this in economics, but there's a loss in efficiency when you increase inputs per unit of time.</div><div><br></div></div>