Stable Diffusion One-Click-Installer

https://stable-diffusion-ui.github.io/

Installiert Stable Diffusion inkl. Web-UI. Wie seriös das Paket ist, kann ich leider nicht bewerten.

Meine AMD-Grafikkarte wurde erst für die Berechnungen verwendet, nachdem ich den ausführenden Linux-Benutzer in die Gruppen render und video eingetragen hatte.

LLMs: Chain-of-thought prompting

Man konnte zeigen, dass man von Large Language Models (wie ) bei einigen Fragestellungen häufiger richtige Antworten erhält, wenn man der Frage beispielsweise das Zusatzkommando „Let’s think step by step“ hinzufügt. Das Modell generiert dann ggf. eine Wortfolge, die wie eine schrittweise Herleitung des Ergebnisses aussieht. M. E. ist daran interessant, dass solche Modelle, obwohl sie keinerlei Verständnis von Frage und Antwort haben, auf diese Weise bessere Antworten generieren.

Ein entsprechendes Paper findet sich hier: https://openreview.net/pdf?id=e2TBb5y0yFf

Im Paper wird folgendes Beispiel genannt:

„Q: A juggler can juggle 16 balls. Half of the balls are golf balls, and half of the golf balls are blue. How many blue golf balls are there?
A: Let’s think step by step.

(Output) There are 16 balls in total. Half of the balls are golf balls. That means that there are 8 golf balls. Half of the golf balls are blue. That means that there are 4 blue golf balls.“

Ohne die Zusatzanweisung „Let’s think step by step“ hätte das Modell, das im Beispiel verwendet wurde, eine falsche Antwort gegeben: Es hätte „8“ geantwortet.

Gerade weil das Modell kein Verständnis davon hat, welche Wortfolgen erzeugt werden, muss man dabei im Auge behalten, dass auch diese Methode nicht zu fehlerfreien Antworten führt. Bei vielen Antworten wird es sich weiterhin um „Halluzinationen“ handeln.

„Like previous GPT models, the GPT-4 base model was trained to predict the next word in a document“

Was bedeutet das nach meinem Verständnis:

Bei ist es so, dass es sich den bestehenden Text „anschaut“ und dann, anhand von dem, was da bereits steht, das nächste Wort errechnet (immer nur ein Wort). Bei der Berechnung werden die wahrscheinlichsten Kandidaten für das nächste Wort ermittelt. Dann schreibt GPT einen der Kandidaten hin* und fängt erneut an. Text „lesen“, nächstes Wort ausrechnen. Text „lesen“, nächstes Wort ausrechnen. Usw. usf.

(Wobei intern keine Worte sondern nur Zahlen verwendet werden.)

Wenn ein Mensch etwas sinnvolles schreibt, hat er / sie vermutlich schon vorher eine gewisse Vorstellung von dem, was er / sie schreiben will.

Wenn ein Mensch schreibt „Delphine sind Säugetiere, weil sie lebende Nachkommen auf die Welt bringen und Milch geben.“, dann hat er / sie sich evtl. aus den Tatsachen hinter dem „weil“ die vorhergehende Aussage „Säugetier“ hergeleitet.

Bei GPT kann das nicht passieren. GPT schreibt das Wort „weil“ einfach nur, weil der Algorithmus dies (basierend auf den Wörtern, die bereits vorhanden sind) errechnet hat.

Die Wahrscheinlichkeiten werden beim „Training“ des Modells ermittelt. Das Modell wird mit Unmengen an Text gefüttert und leitet sich daraus die Wahrscheinlichkeiten ab.

* Es hat sich gezeigt, dass die Texte „besser“ und interessanter werden, wenn nicht immer das wahrscheinlichste Wort verwendet wird. Eigentlich handelt es sich auch nicht unbedingt um Wörter sondern um sogenannte Token. Dabei kann es sich u. a. um Worte, Teilworte oder einzelne Buchstaben handeln.

BIOS / UEFI-Reset von Asrock Mainboard

Ich hatte bei meinem Asrock Mainboard den Ultra Fast Boot Modus aktiviert. Leider konnte ich danach nicht mehr in das UEFI-Einstellungsmenü gelangen. Laut Handbuch können die Einstellungen mittels Jumper zurückgesetzt werden. Das hat bei mir leider nicht funktioniert. Geholfen hat ein Entfernen der SSD. Nach dem Einschalten ohne SSD ist der Computer in das UEFI-Einstellungsmenü gewechselt. Dort konnte ich den Ultra Fast Boot Modus deaktivieren.

Kinder können das Logo für eine echte Raumfahrtmission gestalten


Bis zum 15. April gibt es eine Malaktion des Zentrums für Luft- und Raumfahrt:

https://www.dlr.de/content/de/artikel/news/2023/01/20230222_mal-aktion-fuer-junge-forschende

So wie ich das verstehe, handelt es sich dabei NICHT um einen Wettbewerb. Stattdessen wird aus den eingeschickten Logos ein Mosaik erstellt, das dann mit in den Weltraum fliegt.

Subjektiver Vergleich von Videoaufnahmen (RX100 M4, Galaxy S21 Ultra, Pixel 6 Pro)

Ich habe drei Videos einer Tanzveranstaltung aus unterschiedlichen Perspektiven (daher ist kein echter Vergleich möglich). Die Videos wurden in einem Innenraum bei „normaler“ Beleuchtung aufgenommen:

Video 1: Fotokamera Sony RX100 M4, Full HD, 50 FPS, 50 Mbit/s, H264-Codec

Video 2: Smartphone Samsung Galaxy S21 Ultra, 4K UHD, 60 FPS, ca. 50 Mbit/s, H265-Codec

Video 3: Smartphone Google Pixel 6 Pro, Full HD, 30 FPS, weniger als 20 Mbit/s, H265-Codec

Auf einem 4K-Fernseher sieht Video 1 am besten aus. Die beiden Smartphone-Videos sehe so aus, als wären sie zu stark komprimiert worden (Video 2 sieht besser aus als Video 3). Leider bieten die Standard-Kamera-Apps der beiden Telefone keine Möglichkeit, um Änderungen an den Kompressionsparameter vorzunehmen. Insb. die Bitrate ist nicht konfigurierbar.