Wenn es nicht gleich 20 sein müssen kannst du das auch ein Stückweit mit
SIMD befehlen machen.
Die GPU dafür zu nehmen halte ich im Hobby OS Bereich für so gut wie Ausgeschlossen. GPUs sind in der Regel nicht sonderlich gut Dokumentiert und (vermutlich) auch deutlich komplexer zu handhaben.
Wenn wir uns jetzt nicht auf HobbyOS' beschränken geht das natürlich – zumindest mit den passenden Grafikkarten.
Dann wird z.B. in OpenCL Programmiert das ganze dann für die entsprechende Grafikkarte Kompiliert auf die Karte geladen und ausgeführt.
Wenn es dir mehr um Parallelisierung geht und nicht so sehr um OS-Dev sind neben OpenCL, CUDA, HSA (Heterogeneous System Architecture)[GPU] auch OpenMP und Open MPI [CPU] interessant.