Der Compiler darf (und wird, wenn er vernünftig optimiert) die Befehle umsortieren, und zwar unabhängig von der Architektur. Das macht die CPU aber noch lange nicht zu einer Out-Of-Order-Architektur.
Die-Space ist teuer und inzwischen nichtmal mehr vollständig nutzbar (Heat Envelope oder Dark Silicon, realisiert als z.B. Turbo Mode bei Intel), daher ist es schon sinnvoll, möglichst viel überflüssige Intelligenz aus der CPU zu entfernen. Außerdem muss so ein µOp-Scheduler in Echtzeit arbeiten, während ein "echter" Compiler vergleichsweise unendlich viel Zeit zum Optimieren und gleichzeitig deutlich mehr Kontext zur Verfügung hat.
Beide Ansätze existieren (vgl. Mali und PowerVR bei embedded-GPUs), was zeigt, dass es eigentlich keine Rolle spielt. Andere Metriken sind wichtiger (geworden) als Performance.