[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 554: include_once(./includes/auth/auth_punbb.php) [function.include-once]: failed to open stream: No such file or directory
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 554: include_once() [function.include]: Failed opening './includes/auth/auth_punbb.php' for inclusion (include_path='.:/usr/share/php:..')
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 1042: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 1042: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 1042: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4688: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4690: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4691: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4692: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
MandrivaUser.de • Thema anzeigen - [ungelöst erledigt] PDF --> Text

MandrivaUser.de

Die deutschsprachige Mandriva-Benutzercommunity
Aktuelle Zeit: 23.05.2013, 07:15

Alle Zeiten sind UTC + 1 Stunde




Ein neues Thema erstellen Auf das Thema antworten  [ 36 Beiträge ]  Gehe zu Seite 1, 2, 3  Nächste
Autor Nachricht
 Betreff des Beitrags: [ungelöst erledigt] PDF --> Text
BeitragVerfasst: 02.12.2010, 10:12 
Offline
Site Admin
Benutzeravatar

Registriert: 04.09.2003, 04:26
Beiträge: 30346
Wohnort: Da wo das Gold war!
Ich habe eine PDF-Datei, die ich in Text umwandeln will, wobei mir egal ist, welches Textformat (siehe Titel). Die PDF-Datei wurde mir vom Rechteinhaber zugeschickt und ich bekam die ausdrückliche Erlaubnis, sie nach belieben zu verwenden und auch zu veröffentlichen. Soweit die Rechtslage, damit solche Fragen den Thread garnicht erst stören.

Das Script pdf2txt habe ich versucht, das scheitert anscheinend an der Grafik, die am Anfang der Seite steht, das Resultat ist eine Datei mit 3 Byte.
Irgendwie ist das auch seltsam, ich habe im Okular die Datei geöffnet und dann im Menü "Datei - Exportieren - Text" gewählt. Resultat war eine Textdatei mit 0 Byte.
Dann habe ich mich erinnert, dass man doch eigentlich Textteile mit der Maus markieren kann und diese dann als Text irgendwo pasten. Das geht nicht, Was immer ich markiere steht nur zur Kopie als Bild zur Verfügung.

Die Googlesuche im Forum habe ich angewendet, da kamen zwar Treffer, aber nichts Lösungsnahes dabei.

Hintergrund: ich will den Text mit Google übersetzen lassen und dann die Übersetzung nachbearbeiten. Bei 3 Druckseiten mag man mir diese Faulheit nachsehen.

_________________
Fragt nicht, was wir für euch tun können! Lest das Artikel-Wiki!
-----
Meine elektronische Seite: http://www.wolf-b.de
Meine dunkle Seite: http://wobo46.wordpress.com/


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 10:14 
Offline
Site Admin
Benutzeravatar

Registriert: 10.01.2004, 13:04
Beiträge: 2815
Wohnort: Berlin
Dann ist es ein PDF was aus Bildern erstellt wurde. Hatte ich auch schon mal. Totaler Mist.

_________________
MfG Ole
---
"Jemandem zu sagen: »Idiot!« - das ist keine Beleidigung, sondern Diagnose."
Julian Tuwim


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 10:21 
Offline
Site Admin
Benutzeravatar

Registriert: 04.09.2003, 04:26
Beiträge: 30346
Wohnort: Da wo das Gold war!
Ah, das erklärt Einiges, ich dachte PDF ist PDF.
Dann muss ich eben tippen..... :cry:

_________________
Fragt nicht, was wir für euch tun können! Lest das Artikel-Wiki!
-----
Meine elektronische Seite: http://www.wolf-b.de
Meine dunkle Seite: http://wobo46.wordpress.com/


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 10:38 
Offline

Registriert: 07.07.2007, 14:22
Beiträge: 3930
Wohnort: Dresden
Wenn man in Okular Text markieren will, muss man explizit die Text-Auswahl auswählen.
Ansonsten soll doch auch OpenOffice einen PDF-Import haben oder?
Dass das PDF aus Bilder besteht, kann natürlich sein. Wollte hier nur kurz die beiden Sachen ergänzen.

Gruß

_________________
Bilder von der Internationalen Luft- und Raumfahrtausstellung (ILA) in Berlin findet ihr hier

Willst du Mandriva helfen? Arbeite am Wiki mit! Du kannst Artikel selber schreiben oder Artikel ins deutsche übersetzten.
Hast du noch Fragen? Dann schreib mir einfach!


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 10:54 
Offline
Site Admin
Benutzeravatar

Registriert: 04.09.2003, 04:26
Beiträge: 30346
Wohnort: Da wo das Gold war!
Danke für den Tipp, aber die Textauswahl lässt sich nicht durchführen - es ist wohl so, dass mir der Absender eine gescannte Version des Drucks geschickt hat. :(

_________________
Fragt nicht, was wir für euch tun können! Lest das Artikel-Wiki!
-----
Meine elektronische Seite: http://www.wolf-b.de
Meine dunkle Seite: http://wobo46.wordpress.com/


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 13:18 
Offline
Benutzeravatar

Registriert: 12.12.2004, 18:14
Beiträge: 10342
Wohnort: Leipzig
Besser wäre da reiner Text im PDF oder ein Sandwich-PDF, wo der gescannte Text, der per OCR erkannt wurde, über das Bild gelegt wird,
so ist das Dokument durchsuchbar, und auch für Texte/Objekte, die nicht erkannt wurden, kann man trotzdem das Originalbild im Hintergrund bemühen.

Du kannst aber spaßeshalber das PDF seitenweise per Stapelverarbeitung in Grafiken exportieren, und die dann durch ein OCR-Programm jagen ;)

_________________
Wer lesen kann, ist klar im Vorteil!
--
Mageia - The magic continues ...


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 16:36 
Offline
Benutzeravatar

Registriert: 11.11.2009, 18:40
Beiträge: 1390
Wohnort: Dresden
Versuchs mal online: http://www.convertpdftoword.net/

_________________
Klug zu fragen ist schwieriger, als klug zu antworten. (persisches Sprichwort)


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 16:48 
Offline
Site Admin
Benutzeravatar

Registriert: 04.09.2003, 04:26
Beiträge: 30346
Wohnort: Da wo das Gold war!
Danke für den Tipp - das war eine lustige Nummer. PDF hochgeladen, nach 5 Sekunden wurde die .doc-Datei heruntergeladen. Im OpenOffice Writer geöffnet und ich sehe mein Dokument als Doc!

Zu früh gefreut! Wie ich mit dem Cursor in den Text gehe ("Bearbeiten") wird die ganze Seite als Bild markiert! Diese (bei Download kostenpflichtige) Software kommt genau so weit wie die kostenfreie Linux-Software. Das ist - wenn jemand das tatsächlich kauft - nichts als Beutelschneiderei! Aber ein Versuch wars wert. :)

_________________
Fragt nicht, was wir für euch tun können! Lest das Artikel-Wiki!
-----
Meine elektronische Seite: http://www.wolf-b.de
Meine dunkle Seite: http://wobo46.wordpress.com/


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 17:41 
Offline

Registriert: 26.01.2009, 01:50
Beiträge: 2447
Wohnort: Mengen-Rulfingen
Ohne OCR kommst du da nicht weiter.
Ich kann noch PDFedit empfehlen. Das Programm ist zwar nicht besonders benutzerfreundlich aber man sieht wie die PDF erstellt wurde. Da fällt es einem sofort auf, ob da nur ein Bild drin steckt.

_________________
Bei mir läuft ne Tor-Bridge und bei dir?


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 17:43 
Offline
Benutzeravatar

Registriert: 11.11.2009, 18:40
Beiträge: 1390
Wohnort: Dresden
wobo hat geschrieben:
Wie ich mit dem Cursor in den Text gehe ("Bearbeiten") wird die ganze Seite als Bild markiert!

Ich habe jetzt durchprobiert:
- Handbuch Drucker
- Broschüren
Bis jetzt kann ich den Text immer ändern.
Kann es möglich sein, dass der Text schon vorher im Bild eingebettet war,
bzw. das Dokument geschützt ist ?

_________________
Klug zu fragen ist schwieriger, als klug zu antworten. (persisches Sprichwort)


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 17:45 
Offline
Benutzeravatar

Registriert: 11.11.2009, 18:40
Beiträge: 1390
Wohnort: Dresden
@wanne: Pdfedit schaue ich mir auch gerade an - keine Chance !

_________________
Klug zu fragen ist schwieriger, als klug zu antworten. (persisches Sprichwort)


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 17:53 
Offline
Site Admin
Benutzeravatar

Registriert: 04.09.2003, 04:26
Beiträge: 30346
Wohnort: Da wo das Gold war!
Pitti hat geschrieben:
Kann es möglich sein, dass der Text schon vorher im Bild eingebettet war,

Ja, diese Annahme haben wir schon hier geäussert.. Ich habe mich auch damit abgefunden, einen Versuch mit OCR mache ich noch, das hat dann aber nichts mehr mit dem Thema des Threads zu tun.

Ich setze das mal auf "ungelöst erledigt"

_________________
Fragt nicht, was wir für euch tun können! Lest das Artikel-Wiki!
-----
Meine elektronische Seite: http://www.wolf-b.de
Meine dunkle Seite: http://wobo46.wordpress.com/


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 18:10 
Offline

Registriert: 26.01.2009, 01:50
Beiträge: 2447
Wohnort: Mengen-Rulfingen
Pitti hat geschrieben:
@wanne: Pdfedit schaue ich mir auch gerade an - keine Chance !
Why? Darf ich die pdf mal sehen?

_________________
Bei mir läuft ne Tor-Bridge und bei dir?


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 18:43 
Offline
Benutzeravatar

Registriert: 20.10.2003, 21:14
Beiträge: 7789
Wohnort: Langenhagen
wobo hat geschrieben:
Pitti hat geschrieben:
Ich habe mich auch damit abgefunden, einen Versuch mit OCR mache ich noch

Abby Fine Reader brüstet sich damit, das besonders gut zu können.
Die Version 9 hätte ich zur Hand.

_________________
Mandriva-Linux fluppt einfach!
LINUX is like a Wigwam: No Windows, no Gates and an Apache inside.


Nach oben
 Profil  
 
BeitragVerfasst: 02.12.2010, 22:14 
Offline
Benutzeravatar

Registriert: 02.09.2005, 19:54
Beiträge: 2644
Wohnort: Plettenberg ex Ichenhausen
Hallo!

Gib nochmal Linux eine Chance!

Importiere das PDF-Bild in GIMP!
Skaliere das Bild auf 300dpi
Code:
[juergen@multimedia ~]$ cuneiform -l ger -f rtf -o Gewaesser.rtf Gewaesserordnung.bmp

(Das Bild als png-Ausschnitt und der Text als txt-Datei, weil Bilder Größenbeschränkungen haben und rtf's nicht erlaubt sind.

Nachstehend, das was raus kam:

Gruß
J.


Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.

_________________
Der Mann "aus" Bayern, jetzt wieder heavy on the wire :)


Nach oben
 Profil  
 
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Ein neues Thema erstellen Auf das Thema antworten  [ 36 Beiträge ]  Gehe zu Seite 1, 2, 3  Nächste

Alle Zeiten sind UTC + 1 Stunde


Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste


Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.

Suche nach:
Gehe zu:  
Powered by phpBB® Forum Software © phpBB Group
Deutsche Übersetzung durch phpBB.de