Nachdem mich immer noch Anfragen bezüglich einer hochwertigen Umwandlung von pdfs in Fließtextformate (epub/mobi) erreichen, habe ich mich dazu durchgerungen hier einen Beitrag zu erstellen in dem ich noch einmal auf Besonderheiten bei der Umwandlung eingehe, und meine bereits geposteten Beiträge zum Thema verlinke und spiegle (um sie in einem Beitrag gesammelt zu haben).
--
Benötigte Programme:
Briss (zum cropen der pdfs (Seitenränder und Seitenzahlen beseitigen))
briss | Download briss software for free at SourceForge.net
Mobipocket Creator
Mobipocket eBook Creator
oder
ABBYY Finereader 10 (kostenpflichtig)
ABBYY FineReader - Professionelle OCR-Software für Dokumenten- und PDF-Konvertierung
- Achtung nicht auf Version 11 updaten! Warum, siehe weiter unten
oder
Omnipage Professional 18 (kostenpflichtig)
Nuance - OmniPage
Sigil zum Nacheditieren
sigil - Project Hosting on Google Code
edit: Achtung! Bitte Sigil 0.4.2 nutzen. Höhere Sigil Versionen (derzeit nur Betas) haben ein neues Ersetzen "Widget" das deutlich langsamer als das alte arbeitet, hoffentlich wird es zum nächsten vollen Release noch gefixt.
Calibre (ebook Managment und (verlustfreies) Konvertieren von textbasierten Formaten)
calibre - E-book management
-
Ja, es geht auch schneller, ja es geht auch einfacher - Calibre selbst kann zB direkt von pdf nach epub, oder mobi konvertieren, aber das Ergebnis ist in den wenigsten Fällen ansprechend. Nimmt man sich die Zeit mit Finereader, oder Omnipage zu konvertieren (15-30 Minuten), darf man am Ende davon ausgehen ein zu 98% perfektes epub, oder mobi in der Hand zu haben.
-
Die weniger zeitintensive Methode (mit Mobipocket Creator / 2 Minuten)
pdf>Briss>pdf cropped>Mobipocket Creator>html>Sigil>epub>(Calibre>Endformat)
findet ihr hier beschrieben:
Neuer Amazon Kindle
(Zeilenumbrüche werden nicht immer korrekt erkannt, hat manchmal Probleme mit Sonderzeichen und Schriftarten die nicht Standard sind, liefert aber für 2 Minuten Aufwand die besten Ergebnisse. In der aktuellen Version hat Calibre kein Problem mehr html zu verarbeiten, sodass man nach dem Workflow pdf>Briss>pdf cropped>Mobipocket Creator>html>Sigil>epub>(Calibre>Endformat) vorgehen kann und sollte. Den Zwischenschritt über rtf kann man sich mittlerweile sparen.)
--
Die Methode die die besseren Ergebnisse liefert (Finereader)
pdf>Briss>pdf cropped>Finereader>html>Sigil>epub>(Calibre>Endfor mat)
Achtung: Bitte bleibt bei Finereader 10, nicht auf Version 11 updaten! Den (einstweiligen?) Grund findet ihr hier (
http://www.boerse.bz/boerse/dok...ssion.html ) beschrieben.
findet ihr hier beschrieben:
edit: whoknowsit hat sich die Mühe gemacht eine bebilderte Anleitung für die Finereader Methode zu schreiben, die ich dann zusammen mit ihm bearbeitet und abschließend nachkorrigiert habe. Ihr findet sie ab sofort unter:
http://bit.ly/pdfinepub
(
http://is.gd/Cj8r6k)
Die alte Anleitung von mir findet ihr weiterhin unter:
**Internal Linking (Threads)
**Internal Linking (Threads)
--
Die Methode die auch sehr gute Ergebnisse liefert, aber viel schneller als das die mit Finereader ist (Omnipage)
pdf>Briss>pdf cropped>Omnipage>Kindle doc>Atlantis Word Processor>epub>Sigil>epub>(Calibre>Endformat)
findet ihr hier beschrieben:
**Internal Linking (Threads)
**Internal Linking (Threads)
(Die Omnipage Methode hat mit der Finereader Methode viel gemeinsam. Unter anderem, dass sich beide nicht auf den Text der bereits in der pdf zu finden ist verlassen, sonder sie neu einem OCR unterwerfen.
Die Omnipage Methode ist einfacher als die Finereader Methode und braucht weniger Zeit (10 Minuten pro Buch vom Anfang bis zum 98% perfekten ePub). Auch behält sie "Buchformatierungen" vom Anfang bis zum Ende in den Dateien. Bei der Finereader Methode gehen spezielle Absatzabstände, Einrückungen, usw. erstmal verloren - das verwirrt Anfänger gerne mal.
Tatsächlich ist es aber so, dass man diese Formatierungen in Sigil innerhalb von einigen Sekunden wieder hergestellt hat - und dass das Beibehalten der Formatierungen, wie es bei der Omnipage Methode der Fall ist, große Nachteile mit sich bringt, wenn man versucht das Buch später über den Stylesheet individueller zu gestalten/anzupassen.
Sie hat auch drei wesentliche Nachteile, neben dem genannten. Die Erkennungsgenauigkeit ist etwas schlechter als bei Finereader (geschätzte 5%), der Quelltext den die Omnipage Methode am Ende liefert ist alles andere als sauber, und es ist in Omnipage praktisch unmögliche "viele" Änderungen an den Erkennungsbereichen vorzunehmen die die Automatische Erkennung definiert. Der Grund hierfür ist ein unglaublich schlecht designtes Userinterface. In vielen Fällen verlässt man sich hier, mehr noch als bei Finereader auf die automatische Erkennung und ändert danach vielleicht noch mal ein Bild, oder löscht einen Erkennungsbereich.
Auch die Erkennung von Kopf und Fusszeilen in Omnipage ist deutlich schlechter. Aber um uns damit nicht plagen zu müssen, haben wir ja Briss.)
---
Ich habe eine zeitlang überlegt auch Neueinsteigern gleich zur Omnipage Methode zu raten. Sie ist nun mal die Methode die am wenigsten Fragezeichen aufwerfen wird, und die am schnellsten, brauchbare Ergebnisse liefert. mobipocket creator ist noch schneller, aber brauchbar (im Sinne eines 98% perfekten eBooks als Endergebnis) - nunja...
Es ist aber so, dass ihr viel an Wissen das ihr für die ePub Erstellung generell brauchen könnt besser lernt, wenn ihr euch die Finereader Methode anseht. Ihr arbeitet nicht mit "Füllformaten" wie *.doc, sondern geht den direkten Weg einer guten ePub Erstellung - OCR>html>epub, ihr lernt die Eigenheiten von html, und wie ihr Formatierungen im Stylesheet setzt. Ihr lernt sogar besser, wie ihr mit Sigil arbeitet.
Ihr habt jetzt also die Wahl. Wenn es euch reicht einfach ein Tutorial abzuarbeiten und am Ende schnell ein Ordentliches Ergebnis zu haben, wählt die Omnipage Methode. Wenn ihr am Ergebnis dann noch etwas verändern wollt, oder wissen wollt was ihr mit der ePub die ihr am Ende da rausbekommt in der Hand habt. Schaut euch die Finereader Methode an. Inklusive des ePub Formatierungs-Tutorials im nächsten Beitrag.
Es lohnt sich beide Methoden, ihre Vor- und Nachteile kennenzulernen. Ich sage aber auch dazu, dass ich mittlerweile häufiger mit der Omnipage Methode arbeite. Gerade aber da man bei ihr so sehr auf die Automatische Erkennung angewiesen ist, gibt es von Zeit zu Zeit aber immer Fälle - wo ich mit Omnipage nicht weiter komme. Das sind dann die Momente wo ich wieder Finereader starte.
Falls ihr vor habt ein Buch nach der Konvertierung in ePub zu veröffentlichen - geht eher über die Finereader Methode. Das Ergebnis ist professioneller - auch wenn es auf den ersten Blick vielleicht nicht für alles sofort erkennbar ist.
Hier erst weiterlesen,
wenn man bereits eine der drei Methoden "erlernt" und ausprobiert/angewendet hat
Ansonsten gibts noch kleinere Kniffe, auf die man mit der Zeit kommt.
[Alle Methoden]
1. Beginnt immer zuerst mit Briss briss | Download briss software for free at SourceForge.net und entfernt die Seitenränder, Kopfzeilen und Seitenzahlen aus dem pdf. Die will man im Normalfall im Fließtext nicht haben, und jedes andere Programm braucht länger und entfernt sie nach Umständen ungenauer, bzw. hat Probleme zu raten was eine Kopf und was eine Fußzeile ist.
[Finereader Methode]
2. Wenn man in Finereader über den Text geht, immer zuerst die gesamte linke Seite (Bilder) korrigieren, dann erneut einlesen lassen, dann erst die rechte Seite (Text) korrigieren. Der Erfahrung nach reicht es in vielen Fällen aus das Bildauswahltool ausgewählt zu haben um Bildabschnitte neu zu definieren.
Zur Navigation in Finereader: Wer nicht die BildAuf BildAb (PageUp PageDown) Tasten auf seiner Tastatur (neben der Pos1 und Ende Taste) benutzt, ist selbst schuld.
Finereader hat selten Probleme Text als Text zu identifizieren, versucht nur manchmal auch Text aus Bildern herauszulesen, die eigentlich Bilder bleiben sollten.
Wenn man mit dem Bildauswahltool über mehrere Erkennungskästchen drüberzieht, werden alle über die man das neue Kästchen ziehst automatisch gelöscht, was Zeit spart.
Wenn das Kästchen richtig gesetzt, aber der falsche Erkennungstyp zugeordnet worden ist (zb Text statt Bild), dann bekommt man das mit einem rechtsclick und umdefinieren schnell geregelt.
3. Beim korrigieren der rechten Seite (Text), versucht Fehler zu finden die gehäuft auftreten. Manchmal werden bestimmte Buchstabenkombinationen von Finereader als andere Buchstaben erkannt (zb. jk als ß, oder 0er anstatt Os) passiert selten, aber doch hin und wieder. Wenn man die entdeckt hat, geht man mit der Suchfunktion (strg+F) über den Text und sucht gezielt nach diesen besonderen Kombinationen. In vielen Fällen sind es Buchstabenkombinationen die im deutschen eher selten vorkommen, sodass man hier nicht zu viel Zeit mit dem Nachkorrigieren verbringt. Sollte sich ein kryptischer Erkennungsfehler bei bestimmten Worten eingeschlichen haben, kann man mit strg+H (Ersetzen) gleich alle Instanzen dieses Worts auf einmal korrigieren (alle ersetzen).
4. Achtet auf Seiten mit besonders vielen Unsicherheiten. Dort ist die Texterkennung nicht optimal verlaufen und die Fehlerwahrscheinlichkeit ist besonders groß. Ziel ist es nicht jede Unsicherheit des Programms nachzukorrigieren (die Trefferwahrscheinlichkeit von Finereader ist hoch, sondern mögliche Schwachpunkte in der Erkennung zu finden und zu korrigieren. Um wirklich jeden Fehler auszumerzen muss man seit jeher und muss man immer noch - korrekturlesen, das macht man aber besser am eReader und nicht im Programm).
Man kann Finereader auch auf ein bestimmtes Schriftbild "anlernen", aber das dauert erfahrungsgemäß länger als bei der Standarderkennung nachzukorrigieren. Ich möchte hier nur darauf hinweisen, dass die Möglichkeit besteht, falls jemand einmal an eine Schriftart gerät, mit der Finereader überhaupt nicht zurecht kommt.
5. Wenn man nach dem Einlesen, und während des Korrigierens im rechten Abschnitt (Text) einen Formatierungsfehler (links) findet, korrigiert man ihn nach, liest aber nicht das komplette Dokument neu ein (Korrekturen im Textteil (rechts) gehen verloren!), sondern nur die entsprechende Seite (rechtsklick Kontextmenü).
6. Vergesst im Finereader nicht die Bildqualität für Bilder im Fließtext in den Optionen von html Output zu ändern. jpegs mit 95% sind qualitativ ok, jpegs mit 60% nicht.
[Alle Methoden]
7. Aus dem Finereader oder aus mobipocket Creator speichert man ins html Format (das erzeugt eine html und einen Ordner mit Bildern und dem css sheet ("Design Datei")). Die html kann man direkt in Sigil öffnen und dort die Ebook spezifischen Format Eigenheiten hinzufügen. (Kapitel, Seitenumbrüche, ..) Aus Omnipage speichert ihr eine doc aus der ihr über Atlantis direkt eine ePub generiert. Im Omnipage Tutorial gehe ich gleich direkt darauf ein wie ihr Kapitel generiert. Für die Methode mit Finereader schaut eich das ePub Formatierungs-Tutorial im nächsten Beitrag an.
In Sigil kann man auch unnötige Absätze die durch Seitenumbrüche im Original PDF entstanden sind (erkennbar daran, dass ein neuer Paragraph plötzlich mitten in einem Satz beginnt), schnell entfernen (meist gehts mit regular expressions, aber selbst mit der Hand dauert das "nur" vielleicht 10-15 Minuten pro Buch, und dann ist man schon sehr pedantisch). Wie es mit Regular expressions (RegEx) geht, steht hier:
http://www.boerse.bz/boerse/dok...ost3117619 (html aus Mobipocket Creator)
und hier
http://www.boerse.bz/boerse/dok...ost3117617 (html aus Finereader)
Falls ihr der Finereader Methode folgt, schaut euch das bebilderte Tutorial von "whoknowsit" an, dort bekommt ihr ebenfalls eine schöne Beschreibung wie ihr mit den Regex hier arbeitet.
http://bit.ly/pdfinepub
(
http://is.gd/Cj8r6k)
Im Tutorial zur Omnipage Methode ist dieser Schritt ebenfalls bereits inkludiert.
8. Alle Textformatierungen die noch korrigiert werden sollten korrigiert man am Besten in der html in Sigil (html in Sigil ist besser als epub in Sigil, bei letzterem Format ist der Fließtext bereits in mehrere Unterabschnitte aufgeteilt, sodass man jeden Abschnitt einzeln korrigieren muss). Nicht in Finereader. Nicht in Omnipage. Das Interface in Sigil ist einfach besser dazu geeignet. Danach speichert man die Datei als epub ab, und ist entweder bereits fertig, oder importiert sie in Calibre. Ein Cover kann man sowohl in Sigil, als auch in Calibre einfügen, mit Calibre gehts einfacher - aber auch unter Sigil ist das kein Ding (Images Folder, add Image, dann Rechtsclick und add Syntax>Cover.
9. Es gibt Dokumente die eignen sich weniger, oder nicht dafür in Fließtext (+ Bilder) gebracht zu werden. Problematisch sind zB. "... for Dummies" Bücher, die auf beinahe jeder Seite Symbole (wie Geheimtipp!, oder Technische Besonderheit!) neben Textparagraphen stehen haben - und bei denen Finereader Probleme hat diese einwandfrei als Bilder zu erkennen. Das Nachkorrigieren in diesen Fällen nimmt einfach zu viel Zeit in Anspruch (alles was über eine Stunde pro Buch, oder Dokument hinausgeht ist imho zu viel, alles was über eine halbe Stunde hinausgeht ist viel .).
Nicht geeignet sind Texte mit mathematischen Formeln. Jedes epub und jedes mobi ist im Grunde eine html Datei, dh. Zeichen für die ein üblicher html Zeichensatz (mit Sonderzeichen) nicht ausreicht, lassen sich schwer, bis gar nicht in Fließtext umwandeln.