<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Mon, Feb 27, 2017 at 2:20 PM, Patrick Chkoreff <span dir="ltr"><<a href="mailto:patrick@rayservers.net" target="_blank">patrick@rayservers.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span class="gmail-">Jerry Leichter wrote on 02/27/2017 01:44 PM:<br>
 problem back when MD5 failed!<br>
><br>
> De-duplication engines may well have the same issues.  These run in<br>
> backup programs, in cloud services (e.g., Dropbox) - even (very<br>
> slightly different use case) in rsync.  In some cases, these are very<br>
> high performance hardware boxes which likely do their hashing in<br>
> dedicated hardware.<br>
><br>
> Compared to these, fixing git is child's play.<br>
<br>
</span>Yes, I once considered doing some hash-based de-duping of my own, and I<br></blockquote><div><br></div><div>Now I need to look under the hood at:</div><div>  <span style="background-color:rgb(238,238,238);color:rgb(68,68,68);font-family:verdana,helvetica,arial,sans-serif;font-size:16px">fdupes - finds duplicate files in a given set of directories</span></div><div> </div>MD5 signatures seem OK for now.<br>They do say...<br>When using -d or --delete, care should be taken to insure against accidental data loss.<br></div><br>Detecting duplicates can be optimized and I/O minimized.<br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr">  T o m    M i t c h e l l</div></div>
</div></div>