Lowlevel

OffZone => Offtopic => Thema gestartet von: Dimension am 30. November 2012, 12:47

Titel: binäre Division
Beitrag von: Dimension am 30. November 2012, 12:47

Zur Evaluierung und Ausarbeitung verschieder Ansätze für parallele Architekturen habe ich letztens ein paar Schaltungen für Addierer und Multiplizierer konstruiert. Kurz: Addierer mit n Chipfläche und in log(n) Zeit, sowie Multiplizierer mit 2n Fläche und 2log(n)+x Zeit für Bitbreite n=128 und kleinem x. Packed integer werden unterstützt.

Einen Multiplizierer mit log(n) Zeit und n^2 Platz habe ich verworfen.

Pro Instruktion sind mehrere Schaltungen parallel vorgesehen. Die Kosten berechne ich näherungsweise mit Taktzyklen * Transistoren(d.h. Chipfläche), würde aber kürzere Taktzyklen bevorzugen (Serialisierung).

Nun bin ich auf der Suche nach Ideen für die Division, welche über die schriftliche Division hinausgehen. In der englischen Wikipedia gibt es dazu den Artikel: Division algorithm (http://en.wikipedia.org/wiki/Division_algorithm#Newton.E2.80.93Raphson_division), der sich mir jedoch nicht ganz erschließt.

Kennt jemand die Schaltungen in aktuellen Prozessoren von Intel/ARM/GraKas etc?

Ich habe bisher noch keinen guten EDA-Designer gefunden, die freien sind etwas unhandlich, oder es fehlt etwas, bspw Logikbausteine, Timing-Simulation oder Export in ein standardisiertes Format.

SORRY NOCH NICHT FERTIG... bis gleich : )

Titel: Re: binäre Division
Beitrag von: chris12 am 30. November 2012, 13:00

http://www.informatik.uni-ulm.de/ni/Lehre/SS01/TI/folien/arithC2.pdf

da hst du sogar ein blockschaltbild :D

Titel: Re: binäre Division
Beitrag von: Dimension am 30. November 2012, 15:06

Zitat von: chris12 am 30. November 2012, 13:00

http://www.informatik.uni-ulm.de/ni/Lehre/SS01/TI/folien/arithC2.pdf

da hst du sogar ein blockschaltbild :D

Danke für den Link.

Mein Problem ist halt, dass die Subtraktionen voneinander abhängen und ich sie nicht parallelisieren kann. Um alle Fälle abzudecken bräuchte man jede Menge Register und Addierer.

Dieses SRT interessiert mich, da die Operanden zuvor analysiert werden.

Alles in allem scheint die Division eine teure Angelegenheit zu werden.

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 02. December 2012, 17:27

Hallo Dimension,

eine Frage vorweg: Integer oder Floating-Point?
Die Newton-Raphson Division ist eher für Floating-Point ausgelegt da das Reziprok des Divisors ja kleiner als 1.0 ist falls der Divisor größer 1.0 ist ansonsten natürlich umgedreht (Newton-Raphson kommt mit beidem gleich gut zurecht).

Falls Du Integer meinst lässt sich die schriftliche Division eigentlich ziemlich effizient (was Flächenbedarf pro Performance angeht) in Hardware implementieren.
Wichtig ist das Du im ersten Schritt alle Sonderfälle wegschaffst: Divisor==0 und Dividend<Divisor*2.
Außerdem musst Du zur Vorbereitung noch ermitteln um wie viele Bits der Divisor für den ersten Schritt tatsächlich nach links geshiftet werden muss (also wo wahrscheinlich das höchste Bit im Quotient steht).

Bei einer Hardwareumsetzung würde ich aber nicht den Divisor shiften sondern den Dividend.
Beschleunigen lässt sich das Ganze indem pro Takt nicht nur ein Bit vom Quotienten sondern z.B. 2 Bits ermittelt werden, dazu wird der Inhalt des aktuellen Fensters vom Dividend nicht nur mit dem Divisor verglichen sondern parallel auch mit Divisor*2 und Divisor*3 (das kostet nur 2 zusätzliche Vergleicher dafür musst Du alle anderen Shift-Operationen und auch die Vorbereitungsopertionen auf vielfache von 2 ausrichten). Wenn als zusätzliche Abbruchbedingung noch Dividend==0 (also den aktuellen bearbeiteten Dividend) vorhanden ist gehen auch Divisionen wie 100'000'000/10'000'000 in wenigen Takten durch.

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 03. December 2012, 11:27

Hallo,

Zitat von: Dimension am 30. November 2012, 15:06

Mein Problem ist halt, dass die Subtraktionen voneinander abhängen und ich sie nicht parallelisieren kann.

Das ist nun mal der Kern einer jeden Division, deswegen baut man das ganze ja als getaktete State-Maschine in dem pro Takt immer nur eine (oder wenige) Bit vom Quotienten ermittelt werden und somit pro Takt auch nur eine (oder wenige aber parallele) Subtraktion erforderlich ist. Man kann natürlich auch alle diese Stufen jeweils in Hardware realisieren und ohne Zwischenregister hintereinander schalten was aber den maximalen Takt auf ein n-tel begrenzt (weil diese riesige Logik-Schaltung eine enorm lange Durchlaufzeit hat).

Zitat von: Dimension am 30. November 2012, 15:06

Dieses SRT interessiert mich, da die Operanden zuvor analysiert werden.

Falls Du nicht wirklich vor hast einen ASIC zu designen würde ich von SRT eher die Finger lassen. Der Kern von SRT geht davon aus das Du z.B. bei einer Radix-4-Division nicht immer den kompletten Divisor mit dem kompletten aktuellem Fenster des Dividenden vergleichst sondern von beidem z.B. nur die obersten 5 Bit nimmst (was auch bedeutet das man auch beim Divisor genau wissen muss wo das höchste Bit ist) und damit für die 2 Bit des Quotienten nicht nur die Werte +0...+3 sondern -1...+4 erhalten kannst da so eine Schätzung ja auch mal daneben gehen kann und dann in der nächsten Stelle korrigiert werden muss. Der Hintergedanke dazu ist das man sich gerade bei großen Bittiefen der beteiligten Zahlen versucht die doch recht lange Durchlaufzeit einer vollständigen Subtraktion zu ersparen. In Takten gerechnet würde ich vermuten (nicht wissen) das eine SRT-Division eher ein oder zwei Takte mehr benötigt (wegen komplexerer Vorbereitungen und Nachbereitungen) aber dafür z.B. 20% höheren Takt ermöglicht weil die Subtraktionen in der eigentlichen Kernschleife abgekürzt werden, bei 128Bit : 64Bit und Radix-4 lohnt sich das durchaus (in absoluter Zeit gerechnet) da die 2 Zusatztakte nicht mal 10% von den 32 Takten für die Kernschleife ausmachen. Dafür dürfte der Transistorbedarf deutlich höher liegen (ich schätze mal mindestens das doppelte) und auch das Design ist enorm komplexer (und fehleranfälliger wie Intel vorgemacht hat) da Du überlegen musst wie viele Stellen des Quotienten Du pro Takt korrigieren kannst und diese Schätzfunktion (anstelle eines korrekten Vergleichs) ist sicher auch nicht ganz ohne. Auch wenn Du Deine Logik einmal in einem FPGA realisieren möchtest würde ich von SRT abraten da FPGAs üblicherweise über Carry-Chains verfügen mit denen sich auch breite Subtraktionen/Additionen/Vergleiche relativ performant umsetzen lassen, in einer Soft-CPU in einem FPGA ist eine Subtraktionen mit voller Bitbreite sicher nicht der kritische Pfad der den maximalen Takt limitiert. SRT lohnt sich IMHO nur bei echten CPUs wo man vermeiden möchte das die Division den maximalen Takt zu stark limitiert und man deswegen gerne ein paar Transistoren mehr auf das Silizium verteilt wenn man dafür die Konkurrenz wieder mal überholen kann.

Zitat von: Dimension am 30. November 2012, 15:06

Alles in allem scheint die Division eine teure Angelegenheit zu werden.

Ja, das hast Du absolut korrekt erkannt. ;)

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 30. December 2012, 14:06

Welches EDA-Tool ist am Besten geeignet für die Entwicklung von CMOS-ICs? Ich habe die Lite-Versionen von CircuitLogix und OrCAD probiert und zuvor KTechLab. KiCad und gEDA habe ich nicht zum Laufen gebracht.

Was mir gefehlt hat:
- Konstruktion in CMOS, also kein TTL
- Simulation mit analogen Signalen und Timing
- Setzen und Lesen von Buswerten, in hex, nicht binär
- Export nach EDIF

Gibt es dafür evtl etwas von den bekannten Anbietern von EDA-Software? Ich bin auch in der Lage mir eine Testversion zu laden.

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 30. December 2012, 21:32

Hallo,

ich schätze mal das Deine speziellen Fragen hier etwas ungünstig platziert sein könnten. Ich selber habe noch keine Designs für echte CMOS-ICs gemacht und kenne da auch kaum Leute, ich weiß aber aus zuverlässiger Quelle das die großen Firmen (wie AMD/Intel/NVidia/....) alle VHDL oder Verilog benutzen. Wenn Du bei ARM eine richtige Core-Lizenz kaufst (was sicher mindestens einen 7-stelligen Euro-Betrag erfordert) bekommst Du auch "nur" Verilog-Quell-Code geliefert (zusammen mit ein paar Scripten und etwas nicht synthesefähigen Verilog-Code (der eine fiktive Umgebung für den CPU-Core bildet) für eine Simulation in ModelSim (http://model.com/)). Hardware noch auf Basis von Gattern oder gar Transistoren zu designen ist seit mehr als 30 Jahren old-fashioned.

Falls Du keine eigene IC-Fertigung betreiben möchtest wird das ganze darauf hinauslaufen das Du Deinen Quell-Code (VHDL oder Verilog) mit den Tools des Auftragsfertigers (also einer Foundry (http://de.wikipedia.org/wiki/Foundry) wie TSMC) "synthetisierst" und dieses Ergebnis dann bei der Foundry selber noch auf das Silizium Layoutet (Placing und Routing) wird. Die Tools für FPGAs machen das ähnlich: die synthetisieren erst den Quell-Code indem die gewünschte Funktionalität auf die Logik-Elemente des FPGAs abgebildet wird (das Ergebnis ist hier manchmal eine Netzliste im EDIF-Format) und im zweiten Schritt werden diese Logik-Elemente dann im FPGA platziert und dazu die Verbindungen durch die im FPGA fest vorhandene aber flexible Verbindungsmatrix gerouted. Die Tools der Foundrys sind auch alle ganz speziell auf den konkreten Herstellungsprozess den diese Foundry benutzt optimiert, da gibt es keinerlei Kompatibilität und mWn auch nichts generisches. Die Portabilität entsteht durch passend geschriebenen VHDL/Verilog-Quell-Code (ich behaupte mal das man große Teile des VHDL-Codes den ich in den letzten 10 Jahren geschrieben hab auf allen FPGAs und auch auf echten CMOS-ICs mit verschiedenen Herstellungstechnologien umsetzen könnte, mit einer maximalen Taktrate die dem jeweiligen FPGA bzw. Herstellungsprozess entspricht).

Simuliert wird digitale Logik auch üblicherweise nicht auf analogem Niveau (wo jedes Signal echte Anstiegszeiten usw. hat) sondern einfach mit passenden Laufzeiten wo der neue Pegel einfach erst nach einer gewissen Zeit (inklusive Reserve für schwankende Temperaturen, Versorgungsspannungen und Fertigungstoleranzen) ankommt und vorher noch der alte Pegel anliegt. Falls Du wirklich vor hast mal etwas im Umfeld der IC-Entwicklung zu machen solltest Du Dir zuvor mal das Entwickeln mit FPGAs genauer anschauen, wenn Du möchtest kann ich dazu gerne noch ein paar Dinge schreiben.

Das man mit gEDA auch ICs designen kann ist mir neu, ich habe damit bisher nur normale Schaltungen und passende Leiterplatten gemacht, OrCAD fällt wimre in die selbe Kategorie, von allen anderen von Dir genannten Tools habe ich noch nie gehört (trotz fast 15 Jahren Berufserfahrung in der Industrie).

Was genau ist Dein eigentliches Ziel?

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 31. December 2012, 02:07

Mit welchem Programm kann man Logik-Gatter mit Timing simulieren? Ich will das design parallel zu VHDL per Schaltbild machen, da die Verdrahtung einen bedeutenden Anteil an der Gesamtfläche hat.

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 31. December 2012, 15:25

Hallo Dimension,

Zitat von: Dimension am 31. December 2012, 02:07

Mit welchem Programm kann man Logik-Gatter mit Timing simulieren?

Das geht ganz sicher auch mit ModelSim, man kann in VHDL schließlich auch Gatter beschreiben und auch die Durchlaufzeiten durch ein Gatter mit angeben und auch die Durchlaufzeiten von Leitungen kann man in VHDL abbilden. Alles was Du dazu bräuchtest wäre ein Synthese-Tool das Deinen normalen VHDL-Code nimmt und daraus eben Schaltungen nur mit AND/OR/NAND/NOR/NOT/XOR-Gattern baut und alle Laufzeiten passend einbaut, ob es sowas gibt weiß ich aber nicht. Der Macher von MyCPU.eu hat wimre geschrieben das er seine CPU auf Gatter-Ebene mit Laufzeiten simuliert hat, vielleicht kann er ja sagen womit (ist immerhin ein Deutscher).

Zitat von: Dimension am 31. December 2012, 02:07

Ich will das design parallel zu VHDL per Schaltbild machen

Das klingt für mich so als würdest Du ein Programm zusätzlich zu C++ auch noch mal parallel in Assembler umsetzen wollen (inklusive Optimierungen), diesen erheblichen zusätzlichen Aufwand würde ich nur Treiben wenn es dafür auch wirklich einen triftigen Grund gibt.

Zitat von: Dimension am 31. December 2012, 02:07

da die Verdrahtung einen bedeutenden Anteil an der Gesamtfläche hat

Auf einem echten CMOS-IC belegt die Verdrahtung keine zusätzliche Fläche da diese über dem Silizium in mehreren Kupfer-Ebenen gemacht wird.
(http://upload.wikimedia.org/wikipedia/commons/d/df/Aufbau_CMOS-Chip_2000er.svg) das Bild ist aus http://de.wikipedia.org/wiki/Integrierter_Schaltkreis#Front-End (http://de.wikipedia.org/wiki/Integrierter_Schaltkreis#Front-End)
Das eigentliche Silizium ist nur die untere Hälfte von FEOL und die Verdrahtung ist in BEOL.

Was genau ist Dein eigentliches Ziel?

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 31. December 2012, 19:35

Zitat von: erik.vikinger am 31. December 2012, 15:25

Zitat von: Dimension am 31. December 2012, 02:07
da die Verdrahtung einen bedeutenden Anteil an der Gesamtfläche hat
Auf einem echten CMOS-IC belegt die Verdrahtung keine zusätzliche Fläche da diese über dem Silizium in mehreren Kupfer-Ebenen gemacht wird.

Die Funktionen werden iterativ auf das Register angewendet. log2(128)=7, also muss 7-Fach verschaltet werden.

Im Schaltbild setze ich nur die (platz&zeit-)kritischen Instruktionen um. Das Prinzip an sich tut jedenfalls schon mal was es soll.

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 02. January 2013, 19:44

Hallo Dimension,

Zitat von: Dimension am 31. December 2012, 19:35

Die Funktionen werden iterativ auf das Register angewendet. log2(128)=7, also muss 7-Fach verschaltet werden.

Hä? Was tust Du da meinen?

Zitat von: Dimension am 31. December 2012, 19:35

Im Schaltbild setze ich nur die (platz&zeit-)kritischen Instruktionen um.

Gerade das dürfte ein automatisches Synthesetool deutlich besser als Du schaffen, hier passt der Vergleich zwischen Assembler und einer Hochsprache mit gutem Compiler durchaus. Wenn es auf möglichst kurze Durchlaufzeit ankommt werden binäre Addition/Subtraktion (und auch Multiplikation) schon lange nicht mehr aus einfachen 1Bit-Addierern zusammengesetzt, da gibt es deutlich effizientere Methoden.

Bitte beschriebe doch erst mal was Du eigentlich konkret erreichen willst.
Hast Du wirklich vor einen echten eigenen CMOS-IC zu entwickeln?

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 03. January 2013, 21:32

was mir gerade aufgefallen ist: die iterative funktion bringt nur eine transistorerparnis von etwa 25% (ich hatte mit min. 80% gerechnet) ohne da viel herumoptimieren zu wollen werde ich die schaltung für den addierer nun in ungetakteter logik machen.

und wens interessiert: die parallele architektur ist fürs loop unrolling und die spekulative ausführung gedacht. bei 8 128-bit addierern etwa 32 ausführungspfade mit 32 bit werten. oder halt 8 128 bit werte parallel. die compare- und bit-instruktionen können auch alle gepackt werden, fallen aber gegenüber multiplikation (2 einheiten) und division (1 einheit) sowieso nicht ins gewicht.

die parallelen kerne sind als ausweich-cache und für paralellisierbare ausführungspfade gedacht, sowie für unabhängige prozesse. jeweils eine kleine gruppe von kernen hat eine eigene anbindung an den hauptspeicher. die kommunikation zwischen prozessen geschieht über routing im speichercontroller, links zu benachbarten kernen und einen hochgetakteten message-bus.

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 04. January 2013, 09:54

sorry, aber ich habe kein einziges Wort verstanden,
Bitte erkläre doch erst mal in ein paar Sätzen was Du eigentlich willst (im Groben und dann auch im Feinen für Dein aktuelles Problem)

Titel: Re: binäre Division
Beitrag von: Dimension am 04. January 2013, 10:22

Was genau hast du denn nicht verstanden?

Ich will viele Kerne auf wenig Chipfläche bringen. Diese sollen selbst parallel auf einem Branch rechnen können. Jeder Kern soll mit 50-80% der Chipfläche aus cache bestehen und diesen unabhängig von anderen Kernen mit dem DRAM synchronisieren können.

Es geht mir erstmal nur um die reine Machbarkeit, ob daraus mal ein CMOS gebastelt wird, oder ich mir selbst einen abgespeckten FPGA baue ist mir wurscht.

Titel: Re: binäre Division
Beitrag von: Dimension am 04. January 2013, 12:55

Kann man SRAM-Cache mit der doppelten Schaltgeschindigkeit eines Transistors takten?
/ Adresse 1 S <- Adress-Pipeline <- Multiplexer - ... R \ Adresse n A M -> Daten-Pipeline -> packed mask and shift

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 04. January 2013, 16:56

Hallo,

Zitat von: Dimension am 04. January 2013, 10:22

Was genau hast du denn nicht verstanden?

Alles.

Zitat von: Dimension am 04. January 2013, 10:22

Ich will viele Kerne auf wenig Chipfläche bringen.

Okay, so weit so gut.

Zitat von: Dimension am 04. January 2013, 10:22

Diese sollen selbst parallel auf einem Branch rechnen können.

Branch von was? Und was meinst Du mit rechnen? Also was genau ist der gewünschte Funktionsumfang eines Kerns? Sollen das normale General-Purpose-CPU-Kerne werden?

Zitat von: Dimension am 04. January 2013, 10:22

Jeder Kern soll mit 50-80% der Chipfläche aus cache bestehen

Das ergibt sich von allein wenn die Caches groß genug sind. Man sagt nicht umsonst das Intel der größte SRAM-Hersteller auf diesem Planeten ist.

Zitat von: Dimension am 04. January 2013, 10:22

und diesen unabhängig von anderen Kernen mit dem DRAM synchronisieren können.

Das erfordert ein wirklich sehr gutes Kohärenz-Protokoll und sowas ist wahrlich keine einfache Aufgabe. Du kannst ja mal probieren die große Version der HyperTransport-Spezifikation (also die Version die Kohärenz beinhaltet und leider nicht frei verfügbar ist) zu bekommen, falls Du das schaffst hast Du auf jeden Fall guten Lesestoff (HyperTransport soll in diesem Bereich recht gut sein, vor allem die High-Node-Count-Version (http://www.hypertransport.org/default.cfm?page=HighNodeCountSpecification)), für eine Kopie wäre ich sehr dankbar. Ich selber möchte auch SMP (ccNUMA) erreichen und das dürfte eine der härtesten Nüssen sein die ich für mein Projekt knacken muss.

Zitat von: Dimension am 04. January 2013, 10:22

Es geht mir erstmal nur um die reine Machbarkeit

Machbar ist das bestimmt, die Frage ist ob Du es schaffst alle Detail-Probleme auf dem Weg dahin zu lösen.

Zitat von: Dimension am 04. January 2013, 12:55

Kann man SRAM-Cache mit der doppelten Schaltgeschindigkeit eines Transistors takten?

Eher nicht. Eine Taktperiode sollte mindestens 5 bis 10 Transistor-Schaltzeiten + die zugehörigen Signallaufzeiten zwischen den Transistoren umfassen damit die Logik auch wenigstens ein klein wenig sinnvolle Arbeit pro Takt verrichten kann. Der L1-Cache in aktuellen Intel-CPUs hat etwa 3 bis 4 Takte Latenz (was etwa 1.5 bis 2.0 ns entspricht) und die ergibt sich wimre im wesentlichen aus den Signallaufzeiten (da selbst der kleine L1-Cache in Relation zur Ausbreitungsgeschwindigkeit bereits eine recht große Fläche belegt) und weniger aus der Schaltgeschwindigkeit der Transistoren. Aktuelle L2-Caches (bei AMD und Intel) liegen so im Bereich von 20 bis 30 Takten. Dazu kommt das man bei jedem Zugriff auf eine Cache-Line auch den zugehörigen Tag aktualisieren muss (falls man eine bessere Ersetzungsstrategie als Round-Robin verwenden will).

Zitat von: Dimension am 04. January 2013, 12:55

mit der doppelten Schaltgeschindigkeit eines Transistors takten?

Was glaubst Du mit was für Elementen das Taktsignal auf einem CMOS-IC verteilt/verstärkt wird? Selbst eine halbe Taktperiode muss mindestens ein vielfaches der normalen Transistor-Schaltzeit betragen, pro Takt muss ein Transistor zum Takt-Transport ja immer genau zwei mal schalten.

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 05. January 2013, 19:50

Aktualisierte Zahlen:

Für die Addiererstufen in 128 bit brauche ich, neben etwa 32 x128 Transistoren für die erste Stufe
bei ungetakteter Logik: 7 Stufen x 64 Funktionen x 4 Auswahl x 14 Transistoren = 25088 Transistoren
bei iterativer Auswahl: 128 Funktionen x 4 Register x 36 Transistoren = 18432 Transistoren

Wieviel Transistoren wird ein SRT-Dividierer mit 128 bit in etwa verbrauchen?

Ich will mit einem Kern insgesamt unter 1m Transistoren kommen, zzgl. Cache.

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 06. January 2013, 00:28

Hallo,

hast Du meine Beiträge eigentlich vollständig gelesen?

Zitat von: Dimension am 05. January 2013, 19:50

Wieviel Transistoren wird ein SRT-Dividierer mit 128 bit in etwa verbrauchen?

Ich vermute mal das es kaum mehr als 100 Menschen auf diesem Planeten gibt die dazu wirklich echte Zahlen nennen können. Auf was beziehen sich die 128 Bit, auf den Dividend oder den Divisor?

Zitat von: Dimension am 05. January 2013, 19:50

Ich will mit einem Kern insgesamt unter 1m Transistoren kommen, zzgl. Cache.

Dann dürfte nicht sehr viel mehr als ein besserer 486 bei raus kommen (wobei ich jetzt nicht weiß wie viele von dessen gut 1M-Transistoren auf den Cache entfallen), falls Du ein schlankes RISC-Design nimmst sollte aber zumindest eine gewisse Menge an Instruction-Level-Parallelism und eventuell sogar Superscalar-Execution möglich sein. Der 486 hatte übrigens keinen SRT-Dividierer.

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 06. January 2013, 11:00

Zitat von: erik.vikinger am 04. January 2013, 16:56

Der L1-Cache in aktuellen Intel-CPUs hat etwa 3 bis 4 Takte Latenz (was etwa 1.5 bis 2.0 ns entspricht) und die ergibt sich wimre im wesentlichen aus den Signallaufzeiten (da selbst der kleine L1-Cache in Relation zur Ausbreitungsgeschwindigkeit bereits eine recht große Fläche belegt) und weniger aus der Schaltgeschwindigkeit der Transistoren.

Sollte die Ausbreitungsgeschwindigkeit nicht bei grob 10 cm pro Takt bei 1 GHz sein?

Wenn
c ~ 3E8 m/s
vel ~ 0.3c = 1E8 m/s = 0.1 m/ns

Ich dachte natürlich an die doppelte Schaltdauer, also die halbe Schaltgeschwindigkeit! Eine Pipeline ohne Latches quasi, mit dem richtigen Align am Demultiplexer. Die Frage ist eher, wie Groß die Toleranzen der Signallaufzeiten sind.

Ist das der Turbo bei x86-CPUs?

Und ja, ich lese alle Beiträge sehr sorgfältig, im Rahmen der Möglickeiten auf dem kleinen Android-Display.

Titel: Re: binäre Division
Beitrag von: Svenska am 06. January 2013, 15:06

Zitat von: Dimension am 06. January 2013, 11:00

Die Frage ist eher, wie Groß die Toleranzen der Signallaufzeiten sind.

Uns wurde in der Vorlesung gesagt, dass die Toleranzen ne Größenordnung mehr sind als die eigentlichen Signallaufzeiten, je nachdem, wie das Synthese-Tool das grad aufbaut.

Zitat von: Dimension am 06. January 2013, 11:00

Ist das der Turbo bei x86-CPUs?

Der Turbo-Modus bei Intel-CPUs (ob AMD etwas ähnliches hat, weiß ich nicht) hält alle Kerne bis auf einen an, der dann dafür höher getaktet wird. Könnte man theoretisch mit allen Kernen machen, aber dann ist die Verlustleistung so hoch, dass man die Wärme nicht mehr wegkühlen kann.

Gruß,
Svenska

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 07. January 2013, 13:52

Hallo,

Zitat von: Dimension am 06. January 2013, 11:00

Und ja, ich lese alle Beiträge sehr sorgfältig, im Rahmen der Möglickeiten auf dem kleinen Android-Display.

Sicher? Dann vermute ich mal das Android keine Fragezeichen darstellen kann, Du hast genau 12 Stück davon in meinen Beiträgen komplett übersehen und nur dieses eine beachtet.

Grüße
Erik

Titel: Re: binäre Division
Beitrag von: Dimension am 07. January 2013, 18:25

Zitat von: erik.vikinger am 07. January 2013, 13:52

Dann vermute ich mal das Android keine Fragezeichen darstellen kann

Eines letzten Dinge, die noch funktionieren.

Zu deinen Fragen:

128 bit Dividend, Divisor gerne weniger.

Ein Branch des Ausführungs-Graphen. Also alles zwischen Bedingungen und Schleifen.

Jeder Kern ist für allgemeine Zwecke vorgesehen. Es sollen nur wenige Instruktionen angeboten werden, darunter Integer-Arithmetik, Bit-Manipulation und Vergleiche (alles gepackt in 8, 16, 32, 64 oder 128 bit), dazu Bedingungen und Schleifen, anstelle von Sprungbefehlen.

Vergleiche werden im Register gespeichert. Es gibt überhaupt keine Flags.

Bedingungen und Schleifen stellen nicht parallelisierbare Befehle dar. Ein Paket an parallelisierbaren Instruktionen wird zuerst komplett abgearbeitet.

Gruß

Titel: Re: binäre Division
Beitrag von: Dimension am 07. January 2013, 19:16

Die Instruktionen verwenden den lokalen SRAM, anstelle von Registern. Daten werden explizit und 4k-seitenweise aus dem RAM geladen.

Der Zugriff auf Peripherie und Stringbefehle laufen im Speichercontroller.

Weitere Instruktionen betreffen die Verwaltung und den Nachrichtenaustausch zwischen den Kernen.

Damit viele weitere Fragen aufgeworfen zu haben fürchtend,
Gruß

Aaron

Titel: Re: binäre Division
Beitrag von: erik.vikinger am 07. January 2013, 19:53

Hallo,

Zitat von: Dimension am 07. January 2013, 18:25

Zitat von: erik.vikinger am 07. January 2013, 13:52
Dann vermute ich mal das Android keine Fragezeichen darstellen kann
Eines letzten Dinge, die noch funktionieren.

Soso, da bin ich aber froh das ich keines dieser smarten Phönchen habe.

Zitat von: Dimension am 07. January 2013, 18:25

128 bit Dividend, Divisor gerne weniger.

Aber die Größe des Divisors gibt vor wie viel Logik die Divisions-HW kostet, der Divisor bestimmt die Breite der Subtraktionen/Vergleiche und der Dividend gibt nur vor wie breit das Shift-Register ist von dem immer ein kleiner Teil (der so groß ist wie der Divisor) bearbeitet wird. Für meine CPU hab ich mir überlegt das ich zwei leicht unterschiedliche Divisionseinheiten haben will (wenn im FPGA noch Platz ist): eine mit voller Breite 128:64 = 64,64 (Dividend:Divisior = Quotient,Rest) die immer nur ein Bit pro Takt errechnet und eine mit reduziertem Divisor 128:24 = 64,24 die immer 4 Bit pro Takt errechnet. Da ich in der Slow-ALU eh mindestens einen Takt zum Vorbereiten der Parameter und selektieren der zuständigen Logik benötige kann ich dabei auch prüfen wie viele Bits im Divisor tatsächlich benutzt werden und damit sicher einen Großteil der Divisionen erheblich beschleunigen.

Zitat von: Dimension am 07. January 2013, 18:25

Ein Branch des Ausführungs-Graphen. Also alles zwischen Bedingungen und Schleifen.

Aha, Dir geht es also um Loop-Unrolling in Hardware. Das schätze ich mal als relativ Aufwendig ein da dabei die HW selbstständig ermitteln muss welche Variablen (Register) bei jeder Iteration neu benutzt werden (also parallelisiert werden können) und welche Variablen den Schleifenzähler darstellen (das muss nicht nur eine Variable sein und die muss auch nicht simpel Inkrementiert/Dekrementiert werden) und welche Variablen für alle Iterationen immer Konstant sind. Dazu kommt das die Hardware zuverlässig erkennen können muss welche Schleifen nicht parallelisierbar sind (selbst wenn die Abhängigkeit zwischen den Iterationen nicht linear ist und nur über den Speicher geht), schau Dir dazu mal den RC4-Verschlüsselungsalgorithmus an (das ist ein tolles Beispiel für sehr simplen Code bei dem man trotzdem nicht erkennen kann welche Iteration von welcher abhängt). Ich vermute mal das es einfacher ist sowas dem Compiler zu überlassen und dafür ein bisschen mehr Code-Cache zu haben (damit die Schleifen auch größer sein dürfen). Beim Pentium 4 war Loop-Unrolling extrem effektiv weil diese CPU relativ viele Befehle aktiv haben kann und der L1-Code-Cache hinter dem Decoder sitzt (die damaligen Intel-Compiler haben das Loop-Unrolling auch bis ins extrem getrieben und damit auch einen echten Vorteil gegenüber dem gcc raus geholt).

Zitat von: Dimension am 07. January 2013, 18:25

Jeder Kern ist für allgemeine Zwecke vorgesehen. Es sollen nur wenige Instruktionen angeboten werden, darunter Integer-Arithmetik, Bit-Manipulation und Vergleiche (alles gepackt in 8, 16, 32, 64 oder 128 bit), dazu Bedingungen und Schleifen

Also RISC mit SIMD.

Zitat von: Dimension am 07. January 2013, 18:25

anstelle von Sprungbefehlen.

Um allgemeine Sprungbefehle wirst Du nicht umhin kommen, überlege mal wie Du ein switch-Konstrukt umsetzen möchtest.

Zitat von: Dimension am 07. January 2013, 18:25

Vergleiche werden im Register gespeichert. Es gibt überhaupt keine Flags.

Also sowas wie Alpha, der hat auch keine Flags und prüft bei bedingten Befehlen direkt den Inhalt eines beliebigen Registers ob dies bestimmten Kriterien entspricht. Hast Du Dir schon mal überlegt was für Nachteile dieses Konzept haben kann? Meiner persönlichen Meinung nach ist es effektiver den Vergleich und den bedingten Sprung in einen Befehl zu vereinen also einen bedingten Sprung bauen der das Verhältnis zwischen 2 beliebigen Registern prüft (das geht sogar für Floating-Point ganz einfach), solange Du genug Bits in den Befehlen hast sollte das kein Problem sein (das Sprungziel muss auch nicht allzu viele Bits haben da bedingte Sprünge üblicherweise nur kurze Strecken springen).

Zitat von: Dimension am 07. January 2013, 18:25

Bedingungen und Schleifen stellen nicht parallelisierbare Befehle dar.

Das ist aber doof, Sprünge stellen ein interessantes Betätigungsfeld für spekulative Ausführung dar.

Hast Du schon mal an VLIW oder EPIC gedacht?
Kannst Du Bitte noch ein paar Sätze mit einer allgemeineren Zielbeschreibung dazu packen? Damit man auch mal das große Ganze etwas besser erkennen kann.

Grüße
Erik