Lowlevel

Zitat von: erik.vikinger am 07. January 2013, 13:52
Dann vermute ich mal das Android keine Fragezeichen darstellen kann
Eines letzten Dinge, die noch funktionieren.

Soso, da bin ich aber froh das ich keines dieser smarten Phönchen habe.

128 bit Dividend, Divisor gerne weniger.

Aber die Größe des Divisors gibt vor wie viel Logik die Divisions-HW kostet, der Divisor bestimmt die Breite der Subtraktionen/Vergleiche und der Dividend gibt nur vor wie breit das Shift-Register ist von dem immer ein kleiner Teil (der so groß ist wie der Divisor) bearbeitet wird. Für meine CPU hab ich mir überlegt das ich zwei leicht unterschiedliche Divisionseinheiten haben will (wenn im FPGA noch Platz ist): eine mit voller Breite 128:64 = 64,64 (Dividend:Divisior = Quotient,Rest) die immer nur ein Bit pro Takt errechnet und eine mit reduziertem Divisor 128:24 = 64,24 die immer 4 Bit pro Takt errechnet. Da ich in der Slow-ALU eh mindestens einen Takt zum Vorbereiten der Parameter und selektieren der zuständigen Logik benötige kann ich dabei auch prüfen wie viele Bits im Divisor tatsächlich benutzt werden und damit sicher einen Großteil der Divisionen erheblich beschleunigen.

Ein Branch des Ausführungs-Graphen. Also alles zwischen Bedingungen und Schleifen.

Aha, Dir geht es also um Loop-Unrolling in Hardware. Das schätze ich mal als relativ Aufwendig ein da dabei die HW selbstständig ermitteln muss welche Variablen (Register) bei jeder Iteration neu benutzt werden (also parallelisiert werden können) und welche Variablen den Schleifenzähler darstellen (das muss nicht nur eine Variable sein und die muss auch nicht simpel Inkrementiert/Dekrementiert werden) und welche Variablen für alle Iterationen immer Konstant sind. Dazu kommt das die Hardware zuverlässig erkennen können muss welche Schleifen nicht parallelisierbar sind (selbst wenn die Abhängigkeit zwischen den Iterationen nicht linear ist und nur über den Speicher geht), schau Dir dazu mal den RC4-Verschlüsselungsalgorithmus an (das ist ein tolles Beispiel für sehr simplen Code bei dem man trotzdem nicht erkennen kann welche Iteration von welcher abhängt). Ich vermute mal das es einfacher ist sowas dem Compiler zu überlassen und dafür ein bisschen mehr Code-Cache zu haben (damit die Schleifen auch größer sein dürfen). Beim Pentium 4 war Loop-Unrolling extrem effektiv weil diese CPU relativ viele Befehle aktiv haben kann und der L1-Code-Cache hinter dem Decoder sitzt (die damaligen Intel-Compiler haben das Loop-Unrolling auch bis ins extrem getrieben und damit auch einen echten Vorteil gegenüber dem gcc raus geholt).

Jeder Kern ist für allgemeine Zwecke vorgesehen. Es sollen nur wenige Instruktionen angeboten werden, darunter Integer-Arithmetik, Bit-Manipulation und Vergleiche (alles gepackt in 8, 16, 32, 64 oder 128 bit), dazu Bedingungen und Schleifen

Also RISC mit SIMD.

anstelle von Sprungbefehlen.

Um allgemeine Sprungbefehle wirst Du nicht umhin kommen, überlege mal wie Du ein switch-Konstrukt umsetzen möchtest.

Vergleiche werden im Register gespeichert. Es gibt überhaupt keine Flags.

Also sowas wie Alpha, der hat auch keine Flags und prüft bei bedingten Befehlen direkt den Inhalt eines beliebigen Registers ob dies bestimmten Kriterien entspricht. Hast Du Dir schon mal überlegt was für Nachteile dieses Konzept haben kann? Meiner persönlichen Meinung nach ist es effektiver den Vergleich und den bedingten Sprung in einen Befehl zu vereinen also einen bedingten Sprung bauen der das Verhältnis zwischen 2 beliebigen Registern prüft (das geht sogar für Floating-Point ganz einfach), solange Du genug Bits in den Befehlen hast sollte das kein Problem sein (das Sprungziel muss auch nicht allzu viele Bits haben da bedingte Sprünge üblicherweise nur kurze Strecken springen).

Zitat von: Dimension am 06. January 2013, 11:00

Bedingungen und Schleifen stellen nicht parallelisierbare Befehle dar.

Das ist aber doof, Sprünge stellen ein interessantes Betätigungsfeld für spekulative Ausführung dar.

Hast Du schon mal an VLIW oder EPIC gedacht?
Kannst Du Bitte noch ein paar Sätze mit einer allgemeineren Zielbeschreibung dazu packen? Damit man auch mal das große Ganze etwas besser erkennen kann.

Grüße
Erik

Offtopic / Re: binäre Division

« am: 07. January 2013, 13:52 »

Hallo,

Und ja, ich lese alle Beiträge sehr sorgfältig, im Rahmen der Möglickeiten auf dem kleinen Android-Display.

Sicher? Dann vermute ich mal das Android keine Fragezeichen darstellen kann, Du hast genau 12 Stück davon in meinen Beiträgen komplett übersehen und nur dieses eine beachtet.

Grüße
Erik

Offtopic / Re: Logisim CPU

« am: 07. January 2013, 13:44 »

Hallo,

Der Frame-Pointer ist eher eine reine Software-Angelegenheit für Hochsprachen-Compiler aber er sollte trotzdem vorhanden sein und flexibles Adressieren mit positiven und negativen Displacements ermöglichen.

Zitat von: Svenska am 06. January 2013, 17:03

... im Interrupthandler alle Register sichern können musst ...

Dazu gehören auch die Flags (deswegen hab ich die einfach in ein normales Register gelegt) und alles andere was zum Zustand eines Threads/Task gehört. Dieses Sichern und Wiederherstellen muss übrigens Zerstörungsfrei sein (darf den zu sichernden/wiederherzustellenden Zustand nicht beeinflussen).

Zitat von: erik.vikinger am 05. January 2013, 18:41

Floating-Point soll bei mir integraler (aber optionaler) Bestandteil der CPU sein

Damit ist gemeint das bei meiner CPU die Floating-Point-Befehle u.a. die selben Flags benutzen so das man z.B. nach einem FSUB die selben bedingten Sprünge nutzen kann um das Ergebnis auszuwerten wie nach einem SUB (reine CMP/FCMP wird es auf meiner CPU nicht geben so das man für Vergleiche immer SUB/FSUB nutzen und ein Register verschwenden muss). Auch bedeutet dass das z.B. IDIV das selbe "Divide-by-Zero"-Flag setzt (und damit auch die selbe Exception auslösen kann) wie FDIV um diese Art von Fehler zu signalisieren. Dazu kommt der Vorteil das der Scheduler im OS-Kernel nur einen Register-Satz sichern/wiederherstellen muss um den Zustand eines Threads immer komplett verwalten zu können.

Grüße
Erik

Offtopic / Re: binäre Division

« am: 06. January 2013, 00:28 »

Hallo,

hast Du meine Beiträge eigentlich vollständig gelesen?

Zitat von: Dimension am 05. January 2013, 19:50

Wieviel Transistoren wird ein SRT-Dividierer mit 128 bit in etwa verbrauchen?

Ich vermute mal das es kaum mehr als 100 Menschen auf diesem Planeten gibt die dazu wirklich echte Zahlen nennen können. Auf was beziehen sich die 128 Bit, auf den Dividend oder den Divisor?

Zitat von: Dimension am 05. January 2013, 19:50

Ich will mit einem Kern insgesamt unter 1m Transistoren kommen, zzgl. Cache.

Dann dürfte nicht sehr viel mehr als ein besserer 486 bei raus kommen (wobei ich jetzt nicht weiß wie viele von dessen gut 1M-Transistoren auf den Cache entfallen), falls Du ein schlankes RISC-Design nimmst sollte aber zumindest eine gewisse Menge an Instruction-Level-Parallelism und eventuell sogar Superscalar-Execution möglich sein. Der 486 hatte übrigens keinen SRT-Dividierer.

Grüße
Erik

Offtopic / Re: Logisim CPU

« am: 05. January 2013, 19:21 »

Hallo,

Zitat von: Martin Erhardt am 05. January 2013, 18:43

Ich weiß aber garnicht ob RISC CPUs überhaupt ein explizite Stackpointerregister haben....

Eigentlich nicht, echte RISC-CPUs geben nicht mal vor ob der Stack nach unten oder nach oben wächst (das ist dann eine Vorgabe des OS oder Compilers). Bei ARM sind im Assembler z.B. PUSH und POP nur Aliase für Speicherzugriffe mit R13 (ist bei ARM der "offizielle" Stackpointer) und Pre-Decrement bzw. Post-Inkrement aber das könnte man auch ganz anders lösen da diese Befehle mit jedem Register als Adressregister umgehen können.
Das Problem ist eher der erforderliche Schaltungsaufwand in der CPU (jedes beliebige Register als Adressregister benutzen zu können erfordert mehr Logik als immer nur bestimmte Register zu benutzen) und der verfügbare Platz in den OpCodes (PUSH und POP für die normalen Register sind bei 8086 nur 1 Byte groß aber bei ARM immer 32Bit, früher war das durchaus relevant aber bei heutigen Speicherpreisen ist das nicht mehr so schlimm). Ein anderes Problem sind die verfügbaren Adressierungsmodi, bei x86 gibt es kein Pre/Post-Inkrement/Dekrement so das sich PUSH und POP gar nicht ohne zusätzliche Rechenbefehle (die dann auch noch die Flags modifizieren) mit normalen Speicherzugriffen ersetzen ließen.
Ein anderes Problem ist die Performance. So ist z.B.

Code: [Auswählen]

pop  ecx
pop  ebx
pop  eax

langsamer als

Code: [Auswählen]

mov  ecx,[esp]
mov  ebx,[esp+4]
mov  eax,[esp+8]
add  esp,12

da im ersten Code jeder der POP-Befehle warten muss bis der vorangegangene POP-Befehl ESP fertig modifiziert hat bevor er weiß von wo er Daten lesen soll wohingegen im zweiten Code alle 4 Befehle parallel ausgeführt werden können (zumindest theoretisch) solange sichergestellt ist das die Modifikation an ESP durch den ADD-Befehl erst dann sichtbar wird wenn alle vorangegangenen Befehle ESP gelesen haben (der eigentliche Speicherzugriff muss deswegen noch nicht fertig sein).

@Tufelix:
mach Deine CPU erst mal so einfach wie irgend möglich, die komplexeren Dinge kommen später (und Performance noch viel später).

Grüße
Erik

Offtopic / Re: Logisim CPU

« am: 05. January 2013, 18:41 »

Hallo,

Zitat von: kevin am 04. January 2013, 19:32

Vermutlich. Und der einzige, der noch keine Ergebnisse hat. *duck*

Hm, vielleicht bin ich aber auch der einzige der ein Projekt hat bei dem man auf keinen Fall am Ende feststellen möchte das man am Anfang etwas falsch gemacht hat (egal wie klein dieses etwas auch sein mag).
Deswegen beschäftige ich mich zur Zeit mit der Funktionsweise von Floating-Point-Befehlen obwohl ich erstmal gar keine implementieren möchte, nur um Heute schon Flag-Register/Exception-Handling/.... anständig designen zu können (Floating-Point soll bei mir integraler (aber optionaler) Bestandteil der CPU sein und nicht als zusätzliches Rechenwerk oder gar zusätzlicher Coprozessor realisiert werden) und hoffentlich später nicht feststellen muss das ich etwas übersehen habe und dann entscheiden darf ob ich eine Krücke dranbastle oder noch mal von vorne anfange.

Zitat von: kevin am 04. January 2013, 19:32

Womit hätte ich denn sonst C lernen sollen, wenn nicht mit einem Projekt, das mich interessiert?

Soll das heißen das es im User-Mode nichts gibt was Dich mal interessieren würde?

Zitat von: Tufelix am 05. January 2013, 13:06

jeder der 2 Kerne bekommt dann seinen eigenen Ram und Programmspeicher und über das Round-Robin-Verfahren könnten dann jeder der 2 Kerne auf das externe Bussystem zugreifen.

Wenn Du da "Ram" und "Programmspeicher" gegen L1-Data/Code-Cache austauscht und dann noch anständige Cache-Kohärenz schaffst hast Du echtes SMP (was Du beschreibst ist AMP).
Ich will jetzt wirklich nicht überheblich klingen aber ich schätze mal dass das Heute die Grenzen Deiner Möglichkeiten ein ganz klein wenig überschreitet.
Du solltest wirklich erst mal mit was ganz einfachem Anfangen: erst mal eine kleine CPU nach Harvard und als einzigste Peripherie ein paar Taster und LEDs (noch nicht mal Data-RAM, für die ersten kleinen Programmchen reichen die Register). Erst nachdem Du das erfolgreich geschafft hast würde ich mal einen UART als Schnittstelle zur Außenwelt und RAM dazu packen und erst dann wenn Deine Programme deutlich komplexer werden und wirklich mehr Möglichkeiten brauchen solltest Du weiter denken. Vor allem sammelst Du so Erfahrungen noch bevor die Größe Deines Projekts in Mann-Jahre gemessen werden muss und ein Fehlschuss in zu vielen Tränen endet.

Dein CPU-Diagramm sieht nach einem realistischem Plan aus, beim BUS fehlen noch 2 Byte-Enable-Leitungen falls Du nicht nur 16Bit-Weise zugreifen willst und die Adressleitung A0 kann eventuell eingespart werden (wird durch die 2 Byte-Enables erledigt) falls Du Byteweise adressieren möchtest (falls Dein BUS als kleines Datum 16Bit-Werte verarbeitet/adressiert ist er so aber Okay).

Grüße
Erik

Softwareentwicklung / Re: Batch - Dateiverwaltung

« am: 04. January 2013, 17:24 »

Hallo,

Zitat von: Manello am 04. January 2013, 15:12

Dass heist alles spricht dafür als nächstes C zu lernen, da ein OS pur aus ASM nicht viel Sinn macht.

Ja.

Zitat von: Manello am 04. January 2013, 15:12

Könnt ihr da evt. ein gutes buch empfehlen?

Auch wenn das hier wohl einige Leute anders sehen so empfehle ich da eher das man wenigstens mal ein paar normale Programme entwickelt (mit ansteigendem Schwierigkeitsgrad) um mit den erforderlichen Werkzeugen auch den sicheren Umgang zu üben bevor man sich an ein eigenes OS macht. Bücher über C gibt es ne Menge, wimre gab es da mal ne Liste im Wiki.

Grüße
Erik

Offtopic / Re: Logisim CPU

« am: 04. January 2013, 17:16 »

Hallo,

Zitat von: kevin am 03. January 2013, 12:25

Protected Mode war eigentlich kein Ziel [....]. Damit es ein Ziel hätte sein können, hätte ich ja genau wissen müssen, was das überhaupt ist.

Vor allem hättest Du auch die Alternativen kennen müssen um Dich überhaupt bewusst für oder gegen Konzepte wie PM oder Flat-Memory entscheiden zu können.

Zitat von: kevin am 03. January 2013, 12:25

*hust* Willst du raten, was mein erstes richtiges Projekt in C war, mit dem ich die Sprache eigentlich gelernt habe?

Bin ich hier eigentlich der einzigste der auch nur halbwegs strukturiert vorgeht?

Zitat von: kevin am 03. January 2013, 12:25

und ich habe das Gefühl, dass sich seither nur das Niveau der Ahnungslosigkeit verschoben hat.

Mir fehlen die Worte!

Zitat von: Tufelix am 03. January 2013, 16:45

Mhh, ich glaub es ist zunächst besser wieder zu logisim zurück zu kehren und wenn ich dann ein besseres Verständniss für Hardware hab zu versuchen

Ja, das klingt nach einem guten Plan.

Zitat von: Tufelix am 03. January 2013, 16:45

so ein Demo-board zu bauen.

Und was soll dann da drauf?
Wenn Du wirklich eine CPU entwickeln möchtest dann empfehle ich Dir so ein FPGA-Board mit gut DRAM und einigen Schnittstellen. Ich weiß das man da durchaus mit 250 Euronen (eventuell auch etwas mehr) dabei ist aber dafür bekommt man auch ein echt tolles Spielzeug auf dem das Basteln an einer eigenen CPU richtig viel Spaß machen kann.

Zitat von: Tufelix am 04. January 2013, 15:16

Nun ich hab mir jetzt überlegt das ich nen Cisc-CPU mit 5 Pipline stufen baue.

Also von CISC würde ich eher abraten da es heute günstiger ist wenige schnelle Befehle zu haben als viele langsame und komplexe Befehle. Vor allem würde ich davon abraten das prinzipiell jeder Befehl in der Lage ist auf den Speicher zuzugreifen. Ist aber nur meine persönliche subjektive Meinung.

Zitat von: Tufelix am 04. January 2013, 15:16

wie kann ich löst man am besten solche Pipeline-Hazard ohne das Lücken entstehen?

Gar nicht. Wenn Du diese Lücken nicht willst dann musst du echte Out-of-Order-Execution schaffen damit Du die Pipeline mit voneinander unabhängigen Befehlen befüllen kannst.

Grüße
Erik

Offtopic / Re: binäre Division

« am: 04. January 2013, 16:56 »

Hallo,

Was genau hast du denn nicht verstanden?

Alles.

Ich will viele Kerne auf wenig Chipfläche bringen.

Okay, so weit so gut.

Diese sollen selbst parallel auf einem Branch rechnen können.

Branch von was? Und was meinst Du mit rechnen? Also was genau ist der gewünschte Funktionsumfang eines Kerns? Sollen das normale General-Purpose-CPU-Kerne werden?

Jeder Kern soll mit 50-80% der Chipfläche aus cache bestehen

Das ergibt sich von allein wenn die Caches groß genug sind. Man sagt nicht umsonst das Intel der größte SRAM-Hersteller auf diesem Planeten ist.

und diesen unabhängig von anderen Kernen mit dem DRAM synchronisieren können.

Das erfordert ein wirklich sehr gutes Kohärenz-Protokoll und sowas ist wahrlich keine einfache Aufgabe. Du kannst ja mal probieren die große Version der HyperTransport-Spezifikation (also die Version die Kohärenz beinhaltet und leider nicht frei verfügbar ist) zu bekommen, falls Du das schaffst hast Du auf jeden Fall guten Lesestoff (HyperTransport soll in diesem Bereich recht gut sein, vor allem die High-Node-Count-Version), für eine Kopie wäre ich sehr dankbar. Ich selber möchte auch SMP (ccNUMA) erreichen und das dürfte eine der härtesten Nüssen sein die ich für mein Projekt knacken muss.

Zitat von: Dimension am 04. January 2013, 12:55

Es geht mir erstmal nur um die reine Machbarkeit

Machbar ist das bestimmt, die Frage ist ob Du es schaffst alle Detail-Probleme auf dem Weg dahin zu lösen.

Kann man SRAM-Cache mit der doppelten Schaltgeschindigkeit eines Transistors takten?

Eher nicht. Eine Taktperiode sollte mindestens 5 bis 10 Transistor-Schaltzeiten + die zugehörigen Signallaufzeiten zwischen den Transistoren umfassen damit die Logik auch wenigstens ein klein wenig sinnvolle Arbeit pro Takt verrichten kann. Der L1-Cache in aktuellen Intel-CPUs hat etwa 3 bis 4 Takte Latenz (was etwa 1.5 bis 2.0 ns entspricht) und die ergibt sich wimre im wesentlichen aus den Signallaufzeiten (da selbst der kleine L1-Cache in Relation zur Ausbreitungsgeschwindigkeit bereits eine recht große Fläche belegt) und weniger aus der Schaltgeschwindigkeit der Transistoren. Aktuelle L2-Caches (bei AMD und Intel) liegen so im Bereich von 20 bis 30 Takten. Dazu kommt das man bei jedem Zugriff auf eine Cache-Line auch den zugehörigen Tag aktualisieren muss (falls man eine bessere Ersetzungsstrategie als Round-Robin verwenden will).

Zitat von: Dimension am 04. January 2013, 12:55

mit der doppelten Schaltgeschindigkeit eines Transistors takten?

Was glaubst Du mit was für Elementen das Taktsignal auf einem CMOS-IC verteilt/verstärkt wird? Selbst eine halbe Taktperiode muss mindestens ein vielfaches der normalen Transistor-Schaltzeit betragen, pro Takt muss ein Transistor zum Takt-Transport ja immer genau zwei mal schalten.

Grüße
Erik

Offtopic / Re: binäre Division

« am: 04. January 2013, 09:54 »

sorry, aber ich habe kein einziges Wort verstanden,
Bitte erkläre doch erst mal in ein paar Sätzen was Du eigentlich willst (im Groben und dann auch im Feinen für Dein aktuelles Problem)

Softwareentwicklung / Re: Batch - Dateiverwaltung

« am: 02. January 2013, 21:14 »

Hallo Manello,

Wenn ich ein OS schreibe, wäre es schneller, ressurcen sparender mit C oder Assembler?

Mit sehr hoher Wahrscheinlichkeit die C-Variante, unter der Voraussetzung das Du in beiden Wegen die selben Algorithmen umsetzt (da die Wahl des richtigen Algorithmus oft deutlich mehr ausmacht als die Wahl der richtigen Programmiersprache, gute Compiler können nicht nur die Leute hinter einer Sprache schreiben und mache Compiler haben für mehrere Sprachen ein gutes Front-End so das oft ein sehr ähnliches Ergebnis bei raus kommt). Die Frage ist eher ob ein durchschnittlicher Assembler-Programmierer ein besseres Ergebnis hinbekommt als ein moderner Compiler (der von echten Profis auf diesem Gebiet entwickelt wird, diese Leute arbeiten manchmal sogar mit dem CPU-Hersteller zusammen oder bekommen zumindest besseren Support als irgendwer anders) und das dürfte eindeutig zu Gunsten des modernen Compilers ausgehen.

Und was wäre mit der GUI, in Assembler habe ich noch nie eine "richtige" GUI geschrieben.

Selbe Antwort wie zuvor.

Dies ist ein Zitat aus der wiki, und weis jetzt nicht was ich davon halten soll.

Klar gibt es einzelne Situationen in denen ein Compiler mal nicht unbedingt den optimalen Code abliefert aber ich denke die sind bei modernen Compilern schon ziemlich selten (solange man die gut ausgetrampelten Standard-Pfade der jeweiligen Programmiersprache nicht zu sehr verlässt) und deswegen würde ich mich lieber mit dem Ergebnis eines 99%-tigem Compilers zufrieden geben (und gegebenenfalls an der einen oder anderen Stelle meinen Hochsprachen-Quell-Code ein bisschen anders formulieren damit der Compiler das besser rafft) als selber anzufangen den x-fachen (x dürfte wohl größer als 10 sein, je nach CPU) Quell-Code-Umfang in Assembler zu bauen. Eine Frage die Du Dir selber stellen solltest ist die ob Du noch vor Deinem Tod fertig werden willst.

Hatten wir diese Diskussion hier nicht schon mal vor etwas über einem Jahr?

Grüße
Erik