amiga-news ENGLISH VERSION
.
Links| Forum| Kommentare| News melden
.
Chat| Umfragen| Newsticker| Archiv
.

[Login] [Registrieren] [Passwort vergessen?]

< Nächste MeldungVorige Meldung >
02.Feb.2022



Textanzeiger: NEXT 4.1
2002 hatte uns Jürgen Klawitter zum letzten Mal eine neue Version seines Textanzeigers NEXT (Version 3.5) gemeldet, die letzte öffentliche Version 4.0 stammte von 31. Mai 2011. Wie der Autor schreibt, ist NEXT aber weit mehr als ein reiner Textanzeiger: es ist ebenso Amigaguide-Ersatz, HTML-Offline-Browser, DataTypes Viewer, Entcruncher, Entpacker von Archiven, Dateikonvertierer, Druckutility und einiges mehr. Diese Vielseitigkeit ist auch der Grund, warum das Programm von Anfang an auf meinem Amiga 1200, eingebunden mittels ToolsMenu, installiert war. Next hat ebenso eine sehr leistungsfähige Suchfunktion, die alle Vorkommen eines gesuchten Begriffs gleichzeitig markiert und die Suche mit Wildcards und in Binärdateien ermöglicht.

Wie uns der Autor auf Nachfrage erläutert, hat er sich seit 2011 nicht mehr mit Programmieren und dem Amiga beschäftigt und sich anderen Hobbies gewidmet. Seine Amiga-Hardware, ein A3000 und ein zweites Diskettenlaufwerk, wurden abgegeben. Einzig ein Zip-Laufwerk, welches vorher allerdings nie benutzt wurde, liegt im Depot. Seine damalige Abkehr vom Amiga hatte unter anderem auch damit zu tun, dass er keine PDFs und sonstige Dateien, die in PC-Welt üblich waren, lesen oder benutzen konnte.

Die Rückkehr zum Programmieren, so berichtet Jürgen Klawitter weiter, kam in diesem Winter 2021/22, der auch ihn in seinen Freizeitaktivitäten einschränkte und für Langeweile sorgte. So kam er auf die Idee, WinUAE auf seinem Laptop zu installieren:

"Nachdem das gelungen war, habe ich ausprobiert, wie viel von meinen einstigen Programmierkenntnissen noch übrig war. Erstaunlich viel, eigentlich war alles noch da! Trotzdem gab es Schwierigkeiten, den Source Code der umfangreicheren Programme wieder zu verstehen. Next hat ca. 20000 Zeilen, Anno (Kalender) und OMon (Systemmonitor) jeweils etwa 6000 Zeilen.

Teile davon sind ziemlich kompliziert. Ich habe dann angefangen, kleine Verbesserungen zu realisieren, erst bei Anno, später bei Next. Bei Next hat mich vor allem gewurmt, dass ich es nicht geschafft hatte, den konvertierten Text von docx-Dateien in eine vernünftige Form zu bringen. Ich fand schließlich im Internet Angaben zum Format und einen Tag (), der für die Gliederung in Absätze zuständig ist. Das war der Durchbruch."

NEXT formatiert geladenen Text, bevor er angezeigt wird. Dabei werden zu lange Zeilen an Wortgrenzen umgebrochen und nicht darstellbare Zeichen durch Leerzeichen ersetzt. Farb-, Stil- und Drucksteuersequenzen bleiben erhalten.

Abschließend soll einer kleiner Test zeigen, wie Word-Dateien geladen werden, wozu uns das folgende Beispielgedicht - in Word 2010 geschrieben und abgespeichert - dienen soll:


Zum Laden eines Word-Dokuments wird entweder UnZip benötigt oder das XAD-System. Für die Verwendung des letztgenannten geht man entweder über den Menüpunkt "Use XAD" oder erzeugt sich eine "next.prefs"-Textdatei unter Prefs/Env-Archive mit dem Inhalt "XAD". In dieser Konfigurationsdatei kann man u.a. außerdem auch Fensterdimensionen, Font und Farben zur Textdarstellung festlegen.

Wie Jürgen Klawitter schreibt, werden aus Dateien der Microsoft-Textverarbeitungen Word und Write (Endungen .doc bzw. .docx und .wri) der reine Text extrahiert und formatiert. Bei Word-Dokumenten mit der Endung .doc werden Verweise auf Fußnoten und die Fußnoten selbst durchnumeriert ([1],[2]...). Dasselbe gilt für Anmerkungen, erkennbar am vorangestellten "A"([A1],[A2]...). Da eine docx-Datei immer ein Zip-Archiv sei, bedürfe es zweier Schritte, um an den Text zu gelangen: Next präsentiert nach Auswahl einer docx-Datei den Inhalt in einem kleinen Fenster. Jedes Archiv enthält 10 und mehr xml-Dateien, die neben Stylesheets auch Bilder, Kommentare und Fußnoten enthalten, von denen aber nur eine den Text beinhaltet:


Durch Auswahl von "word/document.xml" bekommt man nun den Text zu sehen:


Wie man sieht, führt die Konvertierung von .docx-Dateien zu reinem Fließtext, ohne Stile. Die Information darüber befindet sich in Stylesheets, die sich in den anderen Dateien verbergen. Wie der Autor schreibt, würde die "Berücksichtigung von Stylesheets einen unverhältnismäßig hohen Mehraufwand erfordern, den ich nicht leisten will – sofern überhaupt möglich." (dr)

[Meldung: 02. Feb. 2022, 07:49] [Kommentare: 4 - 08. Feb. 2022, 21:23]
[Per E-Mail versenden]  [Druck-Version]  [ASCII-Version]
< Nächste MeldungVorige Meldung >

.
Impressum | Datenschutzerklärung | Netiquette | Werbung | Kontakt
Copyright © 1998-2024 by amiga-news.de - alle Rechte vorbehalten.
.