<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Sat, Oct 17, 2015 at 10:36 AM, Zooko Wilcox-OHearn <span dir="ltr"><<a href="mailto:zooko@leastauthority.com" target="_blank">zooko@leastauthority.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I don't believe that forensics is really safe with<br>
collision-vulnerable but pre-image-resistant hash functions.<br>
<br>
What if a bad actor generates a malicious or illegal file with the<br>
same MD5sum as an innocuous file and then submits the innocuous one to<br>
the forensics databases? How do we know that isn't already happening?<br></blockquote><div> </div><div>One important topic is understanding what constitutes an interesting match.<br><br>I suspect that the mentioned goals do not involve a single image but </div><div>involve significant trafficking or consumption of the illegal content.  A single hit or</div><div>discovered file is just too darn easy to be a false signal.  Any web site could have a </div><div>single pixel image that is not one pixel trouble and soil a computers hard</div><div>drive.</div><div><br>An illegal copy of Windows or Word is not one file but a set of files.<br>An illegal copy of one DVD or one music file is not interesting when</div><div>the multiplier of thousands is.<br><br></div><div>Child pornography raises hackles quickly still the interesting legal issues involve </div><div>trafficking and many many files, not the handful of  images in grandmas iPhone.</div><div><br></div><div>This simplifies the problem because it is darn hard to generate a hundred</div><div>different files (a set) that have a hash collision with a hundred other files. </div><div><br></div><div>There may be issues of extrodinary security where one file or data record is used to<br>discover a trespass or leak.    In such cases multiple hash functions, sums, bit counts </div><div>in whole or part can reinforce any specific hash function.  An inexpensive computation</div><div>would discard most and the false positives can be dismissed with additional expensive methods.  </div><div><br></div></div>Summary:</div><div class="gmail_extra">A collection of hits is less likely than just one.</div><div class="gmail_extra"><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr">  T o m    M i t c h e l l</div></div>
</div></div>