<div dir="ltr">A sample from this thread will do - a snippet for the beginning yields:<div><br></div><div><div> 858  </div><div> 506 e</div><div> 442 t</div><div> 362 a</div><div> 350 o</div><div> 312 n</div><div> 307 i</div><div> 285 r</div><div> 241 s</div><div> 215 h</div><div> 175 l</div><div> 174 </div><div> 159 c</div><div> 144 _</div><div> 134 y</div><div> 131 p</div><div> 130 d</div><div> 122 u</div><div> 112 g</div><div> 105 m</div><div>  96 w</div><div>  94 f</div><div>  85 .</div><div>  73 b</div><div>  72 -</div><div>  36 2</div><div>  35 :</div><div>  34 ,</div><div>  33 k</div><div>  33 0</div><div>  30 q</div><div>  29 ></div><div>  29 /</div><div>  26 v</div><div>  23 T</div><div>  22 x</div><div>  21 I</div><div>  20 z</div><div>  18 1</div><div>  16 D</div><div>  15 @</div><div>  14 E</div><div>  13 '</div><div>  13 "</div><div>  11 F</div><div>  11 A</div><div>  11 7</div><div>  10 W</div><div>  10 =</div><div>  10 <</div><div>   9 j</div><div>   9 O</div><div>   8 R</div><div>   7 S</div><div>   6 M</div><div>   6 C</div><div>   6 )</div><div>   5 K</div><div>   5 H</div><div>   5 (</div><div>   4 U</div><div>   4 P</div><div>   4 4</div><div>   3 L</div><div>   3 ?</div><div>   3 5</div><div>   3 3</div><div>   2 G</div><div>   2 B</div><div>   2 6</div><div>   1 ]</div><div>   1 [</div><div>   1 Y</div><div>   1 V</div><div>   1 J</div><div>   1 ;</div><div>   1 9</div><div>   1 %</div><div>   1 !</div></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 23 December 2017 at 01:26, Tom Mitchell <span dir="ltr"><<a href="mailto:mitch@niftyegg.com" target="_blank">mitch@niftyegg.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span class="">On Wed, Dec 20, 2017 at 1:02 AM, Robin Wood <span dir="ltr"><<a href="mailto:robin@digi.ninja" target="_blank">robin@digi.ninja</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi<div>Something a little less technical than a normal question...</div><div><br></div><div>I'm working on a bit of crypto with my young daughter and we are about to look at frequency analysis. Are there any short UK English paragraphs where the frequency of letters is about what you would expect based on frequency charts? i.e. E then T, A and O.</div><div><br></div><div>Bonus if the digraphs are also roughly in order.</div><div><br></div><div>I want to count the letters by hand so don't want anything too long and it has to be PG content.</div></div></blockquote></span><div><br>If you believe WP this is harder to do than it sounds.</div><div><br>I would go to Project Gutenberg and grab a pile of age appropriate books, poems and stories.<br>Pull them in to a page sampler with automated counter and test.<br><br></div><div>This has promise... <a href="https://www.gutenberg.org/ebooks/20532" target="_blank">https://www.gutenbe<wbr>rg.org/ebooks/20532</a><br>as does.. <a href="https://www.gutenberg.org/files/40063/40063-h/40063-h.htm" target="_blank">https://www.gutenberg.o<wbr>rg/files/40063/40063-h/40063-h<wbr>.htm</a><br><br>An assertion that Morris code was organized to shorten transmissions </div><div>is worthy of a test.<br><br><a href="https://en.wikipedia.org/wiki/Letter_frequency" target="_blank">https://en.wikipedia.org/wiki/<wbr>Letter_frequency</a><br>"<span style="font-family:sans-serif;font-size:14px">Letter frequencies, like</span><span style="font-family:sans-serif;font-size:14px"> </span><a href="https://en.wikipedia.org/wiki/Word_frequencies" class="m_-7807407516549812759m_8334532258614570923gmail-mw-redirect" title="Word frequencies" style="font-family:sans-serif;font-size:14px;background:none;text-decoration-line:none;color:rgb(11,0,128)" target="_blank">word frequencies</a><span style="font-family:sans-serif;font-size:14px">, tend to vary, both by writer and by subject. One cannot write an essay about x-rays without using frequent Xs, and the essay will have an idiosyncratic letter frequency if the essay is about the frequent use of x-rays to treat zebras in Qatar. Different authors have habits which can be reflected in their use of letters.</span><span style="font-family:sans-serif;font-size:14px"> </span><a href="https://en.wikipedia.org/wiki/Ernest_Hemingway" title="Ernest Hemingway" style="font-family:sans-serif;font-size:14px;background:none;text-decoration-line:none;color:rgb(11,0,128)" target="_blank">Hemingway</a><span style="font-family:sans-serif;font-size:14px">'s writing style, for example, is visibly different from</span><span style="font-family:sans-serif;font-size:14px"> </span><a href="https://en.wikipedia.org/wiki/William_Faulkner" title="William Faulkner" style="font-family:sans-serif;font-size:14px;background:none;text-decoration-line:none;color:rgb(11,0,128)" target="_blank">Faulkner</a><span style="font-family:sans-serif;font-size:14px">'s. Letter,</span><span style="font-family:sans-serif;font-size:14px"> </span><a href="https://en.wikipedia.org/wiki/Bigram" title="Bigram" style="font-family:sans-serif;font-size:14px;background:none;text-decoration-line:none;color:rgb(11,0,128)" target="_blank">bigram</a><span style="font-family:sans-serif;font-size:14px">,</span><span style="font-family:sans-serif;font-size:14px"> </span><a href="https://en.wikipedia.org/wiki/Trigram" title="Trigram" style="font-family:sans-serif;font-size:14px;background:none;text-decoration-line:none;color:rgb(11,0,128)" target="_blank">trigram</a><span style="font-family:sans-serif;font-size:14px">, word frequencies, word length, and sentence length can be calculated for specific authors, and used to prove or disprove authorship of texts, even for authors whose styles are not so divergent.</span><p style="margin:0.5em 0px;line-height:inherit;font-family:sans-serif;font-size:14px">Accurate average letter frequencies can only be gleaned by analyzing a large amount of representative text. With the availability of modern computing and collections of large <a href="https://en.wikipedia.org/wiki/Corpus_linguistics" title="Corpus linguistics" style="text-decoration-line:none;color:rgb(11,0,128);background:none" target="_blank">text corpora</a>, such calculations are easily made. Examples can be drawn from a variety of sources (press reporting, religious texts, scientific texts and general fiction) and there are differences especially for general fiction with the position of 'h' and 'i', with H becoming more common."</p> <br><a href="http://www.metzdowd.com/mailman/listinfo/cryptography" rel="noreferrer" target="_blank"></a>Long poems like Longfellow's Evangeline might be sampled to see if a five or ten line sample from ten places in<br>the poem matched.<span class="HOEnZb"><font color="#888888"><br><br></font></span></div><span class="HOEnZb"><font color="#888888"><div><br></div><div><br></div></font></span></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><div><br></div>-- <br><div class="m_-7807407516549812759m_8334532258614570923gmail_signature"><div dir="ltr">  T o m    M i t c h e l l</div></div>
</font></span></div></div>
<br>______________________________<wbr>_________________<br>
The cryptography mailing list<br>
<a href="mailto:cryptography@metzdowd.com">cryptography@metzdowd.com</a><br>
<a href="http://www.metzdowd.com/mailman/listinfo/cryptography" rel="noreferrer" target="_blank">http://www.metzdowd.com/<wbr>mailman/listinfo/cryptography</a><br></blockquote></div><br></div>