Ich bin ja immer ein Freund von solchen Ideen, aber ich würde sie nicht mit Geschwindigkeit begründen. Deswegen stellt sich mir die Frage, wie du zu der Annahme kommst, dass das schneller ist. Was da aus meiner Sicht dagegen spricht: Ich kann mir schwer vorstellen, dass die Division in der FPU schneller ist (da komplexer), ich glaube der Overhead für den Transfer der Eingaben in bzw. Ergebnisse aus der FPU wird dominieren (geht da nicht alles über den Speicher?) und der Code dafür ist relativ komplex.
Wenn du dich tatsächlich irgendwann mal ernsthaft mit FPU-Programmierung beschäftigen willst, dann kannst du vielleicht was mit Kapitel 14 von The Art of Assembly Language Programming anfangen.