pdf heißt: portable document format, also übertragbares
Dokumentenformat. Dies ist ein Format der Firma Adobe, welches eine
identische Anzeige von Dokumenten unter verschiedenen
Betriebsbedingungen und -umgebungen ermöglichen soll. Das
Standardanzeigeprogramm für pdf-Dokumente ist der von der Firma Adobe
kostenlos verteilte Acrobat-Reader (u.a. auch für Linux verfügbar —
Kommando acroread
). Ein freies Anzeigeprogramm für pdf-Dokumente
ist xpdf
.
Umwandlung von PDF in andere Formate
PDF-Dokumente können direkt erzeugt werden aus latex
, docbook
,
texinfo
, scribus
, gnumeric
(über den Drucken-Dialog)…(?)
Es gibt aber auch Wege der Umwandlung von anderen Formaten nach pdf:
Zur Erstellung von PDF-Dateien aus HTML-Dokumenten
bzw. Dokumentsammlungen dient das programm htmldoc
.
Grafikdateien kann man auch direkt in PDF-Dateien umwandeln mit Hilfe
von convert
(z.B. alle jpegs in ein
pdf-dok):
$ convert -page a4 *.jpg foo.pdf
(Enthaltenen Text kann man natürlich (sogutwie) vergessen.)
(convert gehört zum Imagemagick-Paket.)
Fast alle Textverarbeitungsprogramme erlauben das Drucken in eine
Datei statt auf einem Drucker. Dabei werden in der Regel
PostScript-Dateien erstellt. Diese PostScript-Dateien können mit
hilfe von ps2pdf
in pdf umgewandelt werden (ps2pdf
verwendet
ghostscript
zur erstellung von pdf-Dokumenten).
Dabei werden allerdings keine Verweise (links), Lesezeichen (bookmarks) und Vorschaubilder (thumbnails) erzeugt. Außerdem hängt es von den verwendeten Schriften ab, ob der Text in der erzeugten Datei a) am Bildschirm gut dargestellt werden kann und b) noch als solcher verwendbar ist (zum Beispiel versagt mitunter die Suchfunktion bei Zeichenketten, die Umlaute und andere Sonderzeichen enthalten oder überhaupt für solche, die länger als ein Zeichen sind usw.).
Um die in PDF-Dokumenten enthalteten Bilder als Grafikdateien zu speichern, verwende man das Kommando
pdfimages -f 1 datei.pdf Verzeichnis
Das Standardformat der Bilder ist ppm oder pbm.
Mit der Option -j
kann man die Bilder im jpeg-Format speichern.
Den Text des PDF-Dokuments speichert man als Textdatei mit dem Kommando
pdftotext file.pdf file.txt
Wenn die PDF-Datei Text enthält, der als Bild gespeichert wurde (weil er einfach nur eingescannt worden ist), kann man zuerst das Bild als pbm-Datei speichern, dieses in ein tiff-Bild umwandeln und dann mit einem Texterkennungsprogramm (OCR) bearbeiten.
(Die Werkzeuge pdfimages
und pdftotext
gehören übrigens zum Paket
xpdf
.)
Zur Umwandlung von PDF-Dateien in das PostScript-Format dient das Kommando
pdf2ps dateiname.pdf
Das Resultat heißt dann dateiname.ps
. (Man kann dann auch versuchen,
die Postscript-Dateien mit hilfe von ps2ascii
oder pstotext
in
Text zu verwandeln, um den Text selbst weiterverwenden zu können).