<div dir="ltr">I don't know how there is still enough demand to continue development on Itanium, which ought to be the real question.<div><br></div><div>The obvious answer to me is (optional) x86 hardware emulation, and stricter virtualization, with eDRAM buffers and barrel multiprocessing. Technically MS-DOS is a virtual machine in the same sense that a burrito is a sandwich. The difference between a proper software and hardware implementation is only parsing speed.</div><div><br></div><div>Arguably the only part of a CPU that needs to be implemented in silicon is the ALU, everything else can be implemented in a FPGA. Allows for even more product binning ( a bit further than agner's idea <a href="http://www.agner.org/optimize/blog/read.php?i=421#421">http://www.agner.org/optimize/blog/read.php?i=421#421</a> ). This is amazing: <a href="https://github.com/cliffordwolf/picorv32">https://github.com/cliffordwolf/picorv32</a> . 2000 slices for something as fast as a Pentium III or IV. </div><div><br></div><div>Regardless, synthetic benchmarks are pointless if no one focuses on the amount of cycles spent waiting for data. <a href="https://gist.github.com/jboner/2841832">https://gist.github.com/jboner/2841832</a></div><div>Forty million cycles to read from disk. </div><div><br></div><div>I have no idea how many branches are computed typically, but apparently it is around a dozen? <a href="http://www.agner.org/optimize/microarchitecture.pdf">http://www.agner.org/optimize/microarchitecture.pdf</a> Seems like a waste in power, to get around the endless spurts and stops.</div><div><br></div><div><br></div><div>Ideally Google or Amazon would appoint Agner Fog as CPU Czar. They both have the spare cash to actually build an entire chip fab.</div></div>