Website in PDF mit Links(!) speichern? Kein Printpdf

  • Hallo,

    gibt es eine Möglichkeit (am besten als Addon für Windows- und Linux-Firefox) Webseiten zu persönlichen Archivierungszwecken als PDF-Seiten zu speichern, die allerdings in der Lage sind, auch die unsichtbaren Ziele der Links

    Code
    <a href="http://www.meinedomain.de">Ankertext</a>

    , die sich hinter dem Ankertext verstecken im jeweiligen PDF-Dokument zu speichern? Auf (exploit anfällige) Javascript-Integration kann dagegen gut und gerne im PDF-Dokument verzichtet werden, auf die Nachvollziehbarkeit der Links aber nicht.

    Ich kann mit zwei Arten der Linkspeicherung in einem PDF vorstellen:

    1. Der URL wird beim Markieren des Ankertextes also des Wortes in einem PDF-Dokument oder Drüberfahren mit der Maus sichtbar. Und ausserdem müßte es für Copy&Paste auch an greifbarer Stelle im PDF-Dokument gespeichert sein, z.B. als Bemerkung.
    2. Hinter jedem Ankertext würde eine fortlaufende Nummer z.B. in eckigen Klammern als Verweis erzeugt und am Ende des Textes als Fußnote auftauchen.

    Ich würde natürlich die Möfglichkeit #1 stark bevorzugen.

    Leider bieten mir alle bekannten Möglichkeiten, eine Webseite an den PDF-Drucker umzuleiten, nicht die Möglichkeit der Linksspiecherung, da es sich ja um die Erstellung einer Druckvorstufe handelt, die nur das anzeigt, was man in einem HTML-Dokument auch sieht.

    Scrapbook ist mir bekannt aber das Ziel sollen PDF-Dokumente sein. Aber vielleicht wäre es möglich, dass was ich oben suche stattdessen (weil es als Addon nicht funktionieren kann) als Skript für Scrapbook-Ergebnisse zu schreiben? Also zuerst die Seite mit Scrapbook speichern und dann ein Skript über das jeweilige ergeniss laufen lassen, dass eine entsprechende PDF-Datei erzeugt.

    Danke schon mal für Eure Anregungen, Ideen oder sogar konkrete Lösungen

  • Es gibt doch diesbezüglich einige Onlinedienste. Bspw. http://www.htm2pdf.co.uk/

    Zitat

    Ich kann mit zwei Arten der Linkspeicherung in einem PDF vorstellen:

    1. Der URL wird beim Markieren des Ankertextes also des Wortes in einem PDF-Dokument oder Drüberfahren mit der Maus sichtbar. Und ausserdem müßte es für Copy&Paste auch an greifbarer Stelle im PDF-Dokument gespeichert sein

    Einen geeigneten PDF-Viewer vorausgesetzt, sollte doch Rechtsklick+kopieren ausreichen.

  • Zitat von boardraider

    Es gibt doch diesbezüglich einige Onlinedienste. Bspw. http://www.htm2pdf.co.uk/

    Diese Dienste kenne ich aber die geht es nichts an, welche web-sites ich als PDF lese und vor allem archiviere.

    Zitat

    Ich kann mit zwei Arten der Linkspeicherung in einem PDF vorstellen:

    1. Der URL wird beim Markieren des Ankertextes also des Wortes in einem PDF-Dokument oder Drüberfahren mit der Maus sichtbar. Und ausserdem müßte es für Copy&Paste auch an greifbarer Stelle im PDF-Dokument gespeichert sein

    Zitat

    Einen geeigneten PDF-Viewer vorausgesetzt, sollte doch Rechtsklick+kopieren ausreichen.

    Klar, aber das ist natürlich nicht das Problem, sondern wie oben von Dir angedeutet, kann man HTML-Seiten als PDF nur mit Zusatzdiensten abspeichern, wenn man gleichzeitig die aktiven Elemente (wobei ich davon nur die Links) im PDF haben will.

    Das Problem ist, dass die lokalen PDF-Lösungen wohl alle auf ghostscript und der reinen Druckdarstellung basieren und damit nicht in der Lage sind, hyperlinks zu speichern.

    Eine Lösung wäre wohl etwa mit xslt und entsprechendem Framework zu realisieren (das ganze am Ende als fertige lib), aber da ist der Aufwand wohl etwas größer als die üblichen ghostcript "wir machen ein PDF" Geschichten.

  • Zitat

    Diese Dienste kenne ich aber die geht es nichts an

    Richtig.

    Zitat

    sondern wie oben von Dir angedeutet, kann man HTML-Seiten als PDF nur mit Zusatzdiensten abspeichern

    Ich habe nicht behauptet, dass dafür Online-Dienste die einzige Möglichkeit darstellen.

    Zitat

    Das Problem ist, dass die lokalen PDF-Lösungen wohl alle auf ghostscript und der reinen Druckdarstellung basieren und damit nicht in der Lage sind, hyperlinks zu speichern.

    Keineswegs, es gibt auch dafür auch andere Tools. Google liefert dazu bspw. http://code.google.com/p/wkhtmltopdf/

  • Zitat von boardraider

    Sehr interessant. Jetzt wäre natürlich die Frage, wie man diese Lösung als Firefox-Addon realisieren könnte. Vielleicht statt Datei "Drucken" irgendwie das mit voreingestellten Parametern nach wkhtmltopdf "pipen" und Ergebnis in eine Datei umlenken, die den Namen des HTML-Titels übernimmt und nach Wunsch dem ganzen noch einen Datums/Uhrzeitstempel im voreingestelltem Format verpasst.

    Ist sowas automatisiert (deswegen am besten als addon) mit Firefox unter Windows und Linux möglich?

    Der andere Vorschlag mit Speichern einer HTML-Seite, öffnen mit OO und Export als PDF ist zu umständlich, für das tägliche Surfen und Archivieren einzelner Websites in fast einem Rutsch.

    Danke für die konstruktiven Vorschläge

    minze