[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 554: include_once(./includes/auth/auth_punbb.php) [function.include-once]: failed to open stream: No such file or directory
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 554: include_once() [function.include]: Failed opening './includes/auth/auth_punbb.php' for inclusion (include_path='.:/usr/share/php:..')
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 1042: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 1042: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/session.php on line 1042: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4688: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4690: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4691: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
[phpBB Debug] PHP Warning: in file [ROOT]/includes/functions.php on line 4692: Cannot modify header information - headers already sent by (output started at [ROOT]/includes/functions.php:3823)
MandrivaUser.de • Thema anzeigen - cuneiform OCR

MandrivaUser.de

Die deutschsprachige Mandriva-Benutzercommunity
Aktuelle Zeit: 19.06.2013, 14:14

Alle Zeiten sind UTC + 1 Stunde




Ein neues Thema erstellen Auf das Thema antworten  [ 22 Beiträge ]  Gehe zu Seite 1, 2  Nächste
Autor Nachricht
 Betreff des Beitrags:
BeitragVerfasst: 20.09.2008, 15:11 
Offline

Registriert: 03.01.2005, 11:02
Beiträge: 2557
Hallo Mandrivisten,

jetzt gibt's Konkurrenz zu tesseract-OCR : https://launchpad.net/cuneiform-linux

Das unscheinbare Kommandozeilen-Programm kann im Gegensatz zu tesseract sogar Formatierungen (zentrierter, linksbündiger Text, fett, kursiv, unterstrichen) erkennen, und speichert dann den formatierten Text in einer HTML-Datei ab.

Ich hab das mal mit einer Einladung probiert, die mit Arial 12pt geschrieben war und diverse verschiedene Formatierungen und auch die deutschen Umlaute und "ß" beinhaltete.
Zunächst habe ich die Vorlage mit xsane mit 300dpi im TIFF-Format gespeichert. Dann auf der Konsole ein simples:
Code:
cuneiform -l ger --html <zu konvertierende Grafik>.tiff

Das Ergebnis konnte sich wirklich sehen lassen! Genial, so langsam wird das was mit OCR unter Linux.
Zu Text konvertieren läßt sich übrigens alles, was sich mit ImageMagick öffnen läßt.

Hier meine SPEC zum Programm:
Code:
##### GENERAL STUFF #####
%define version      0.4
%define release      %mkrel 1

Name:      cuneiform
Summary:   An OCR system
Version:   %{version}
Release:   %{release}
License:   BSD
URL:      https://launchpad.net/cuneiform-linux
Group:      Text tools
Source0:   %{name}-%{version}.tar.bz2
BuildRequires:   cmake
BuildRequires:   ImageMagick
BuildRoot:   %{_tmppath}/%{name}-%{version}-%{release}-buildroot


##### DESCRIPTION #####
%description
Cuneiform is an multi-language OCR system originally developed
and open sourced by Cognitive Technologies. Cuneiform was
originally a Windows program, which was ported to Linux
by Jussi Pakkanen.



##### PREP #####
%prep
%setup -q


##### BUILD #####
%build
%cmake
%make



##### INSTALL #####
%install
rm -rf %{buildroot}
cd build
%makeinstall_std



##### CLEAN #####
%clean
rm -rf %{buildroot}



##### POST & POSTUN INSTALL SCRIPTS #####
%post
%postun



##### FILE LIST #####

##### tesseract-ocr #####
%files
%defattr(-,root,root)

%doc issues.txt *readme.rtf readme.txt
%{_bindir}/%{name}
%{_datadir}/%{name}/*.dat
%{_libdir}/*.so



##### CHANGELOG #####
%changelog
* Sat Sep 20 2008 MaxiPunkt <email@domain.de> 0.4-1max
- First built for Mandriva


Zuletzt geändert von MadMax am 20.09.2008, 15:21, insgesamt 1-mal geändert.

Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 20.09.2008, 15:24 
Offline
Site Admin
Benutzeravatar

Registriert: 04.09.2003, 04:26
Beiträge: 30346
Wohnort: Da wo das Gold war!
HabenwillHabenwillHabenwill!!!!1

Wenns geht gleich für die 2009.0 ....

wobo

_________________
Fragt nicht, was wir für euch tun können! Lest das Artikel-Wiki!
-----
Meine elektronische Seite: http://www.wolf-b.de
Meine dunkle Seite: http://wobo46.wordpress.com/


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 20.09.2008, 15:41 
Offline
Site Admin
Benutzeravatar

Registriert: 28.03.2006, 08:52
Beiträge: 11162
Wohnort: Horb am Neckar / Freiburg im Breisgau
Schon dabei...

Oliver

_________________
Oliver aka obgr_seneca

Mageia.Org


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 20.09.2008, 16:38 
Offline

Registriert: 03.01.2005, 11:02
Beiträge: 2557
Man kann mit cuneiform übrigens auch im RTF-Format abspeichern:

Code:
cuneiform -l ger -f rtf <zu konvertierende Grafik>.tiff

Danach kann man das Ganze gleich mit OpenOffice öffnen und den letzten Feinschliff geben.

Ich bin begeistert! :)


Unicode-Unterstützung hat die Version 0.4 übrigens noch nicht, es wird nur ISO-kodiert abgespeichert. Was allerdings nur auffällt, wenn man zu reinem Text konvertiert (und wer will das schon...).

UTF8 wird es aber schon in der kommenden Version geben:
https://bugs.launchpad.net/cuneiform-linux/+bug/262660


Jetzt fehlt nur noch die Erkennung von mehrspaltigen Texten - das kann cuneiform leider noch nicht...


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 20.09.2008, 17:06 
Offline

Registriert: 03.01.2005, 11:02
Beiträge: 2557
Ich werd verrückt - mehrspaltige Texte funktionieren doch!

Das es nicht funktionieren soll, habe ich nur irgendwo beim googeln gelesen. Man sollte also immer erst selbst probieren, bevor man veraltete Informationen nachplappert. :D


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 19.11.2008, 14:13 
Offline

Registriert: 03.01.2005, 11:02
Beiträge: 2557
Seit kurzem ist das OCR-Programm in neuer Version verfügbar:

Code:
##### GENERAL STUFF #####
%define version      0.5.0
%define release      %mkrel 1
%define tar_ver      0.5

Name:      cuneiform
Summary:   An OCR system
Version:   %{version}
Release:   %{release}
License:   BSD
URL:      https://launchpad.net/cuneiform-linux
Group:      Text tools
Source0:   %{name}-%{tar_ver}.tar.bz2
BuildRequires:   cmake
BuildRequires:   ImageMagick
BuildRoot:   %{_tmppath}/%{name}-%{version}-%{release}-buildroot


##### DESCRIPTION #####
%description
Cuneiform is an multi-language OCR system originally developed
and open sourced by Cognitive Technologies. Cuneiform was
originally a Windows program, which was ported to Linux
by Jussi Pakkanen.



##### PREP #####
%prep
%setup -q



##### BUILD #####
%build
%cmake
%make



##### INSTALL #####
%install
rm -rf %{buildroot}
cd build
%makeinstall_std



##### CLEAN #####
%clean
rm -rf %{buildroot}



##### POST & POSTUN INSTALL SCRIPTS #####
%post
%postun



##### FILE LIST #####
%files
%defattr(-,root,root,-)
%doc issues.txt *readme.rtf readme.txt
%{_bindir}/%{name}
%{_datadir}/%{name}/*.dat
%{_libdir}/*.so



##### CHANGELOG #####
%changelog
* Wed Nov 19 2008 MaxiPunkt <email@domain.de> 0.5.0-1max
- New version
* Sat Sep 20 2008 MaxiPunkt <email@domain.de> 0.4-1max
- First built for Mandriva


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 15:45 
Offline
Benutzeravatar

Registriert: 02.09.2005, 19:54
Beiträge: 2644
Wohnort: Plettenberg ex Ichenhausen
Hallo!

Zitat:
[root@multimedia juergen]# urpmi cuneiform
Kein Paket mit dem Namen cuneiform gefunden

:?

..auf x86_64

Gruß
J.

_________________
Der Mann "aus" Bayern, jetzt wieder heavy on the wire :)


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 16:18 
Offline
Site Admin
Benutzeravatar

Registriert: 28.03.2006, 08:52
Beiträge: 11162
Wohnort: Horb am Neckar / Freiburg im Breisgau
Ja, weil wir keinen x86_64-Rechner im RPM-Team mehr hatten, auf den ftp läd aber eben das src.rpm hoch, dauert noch etwa 40 Minuten, dann Du könntest einen Rebuild machen...

Oliver

_________________
Oliver aka obgr_seneca

Mageia.Org


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 16:32 
Offline
Benutzeravatar

Registriert: 02.09.2005, 19:54
Beiträge: 2644
Wohnort: Plettenberg ex Ichenhausen
Danke!
...schon geholt
Gruß
J.

_________________
Der Mann "aus" Bayern, jetzt wieder heavy on the wire :)


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 16:47 
Offline
Site Admin
Benutzeravatar

Registriert: 28.03.2006, 08:52
Beiträge: 11162
Wohnort: Horb am Neckar / Freiburg im Breisgau
Ähm...
laut meinem Upload-Manager ist der Upload aber gerade jetzt erst abgeschlossen. Da hast Du wohl ein unvollständiges Paket...

Deswegens schrieb ich ja
Zitat:
dauert noch etwa 40 Minuten

Oliver

_________________
Oliver aka obgr_seneca

Mageia.Org


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 19:46 
Offline
Benutzeravatar

Registriert: 02.09.2005, 19:54
Beiträge: 2644
Wohnort: Plettenberg ex Ichenhausen
Hallo!

Ich habe meinen Bürostuhl umgedreht und einen x86_32 (i586) gestartet.

Die Erkennungsrate ist tatsächlich enorm gegenüber dem, was man sonst so erwarten kann.
Nur wenn ich an den Erstbericht erinnere, dort ist von *.tiff's die Rede, cuneiform will allerdings *.bmp!
Sowas wie dieses:
Code:
cuneiform -l ger -f rtf *.bmp

also Verarbeitung von "Bild1.bmp bis Bildx.bmp" (Stapelverarbeitung) geht auch nicht, es wird nur das BILDx.bmp bearbeitet.

Gruß
J.

_________________
Der Mann "aus" Bayern, jetzt wieder heavy on the wire :)


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 20:58 
Offline

Registriert: 03.01.2005, 11:02
Beiträge: 2557
Zitat:
Nur wenn ich an den Erstbericht erinnere, dort ist von *.tiff's die Rede, cuneiform will allerdings *.bmp!

Kann ich nicht nachvollziehen:
Code:
$ cuneiform -l ger -f rtf test.tiff
Cuneiform for Linux 0.5.0
The image depth is 24 at this point.

Zitat:
Verarbeitung von "Bild1.bmp bis Bildx.bmp" (Stapelverarbeitung) geht auch nicht, es wird nur das BILDx.bmp bearbeitet.

Schreib halt ein kleines Skript mit einer Schleife...


Nach oben
 Profil  
 
 Betreff des Beitrags:
BeitragVerfasst: 22.01.2009, 22:30 
Offline
Site Admin
Benutzeravatar

Registriert: 28.03.2006, 08:52
Beiträge: 11162
Wohnort: Horb am Neckar / Freiburg im Breisgau
Habe eben die mud-Pakete (i586 und src) auf die aktuelle 0.5 aktualisiert, das hatte ich offensichtlich übersehen. Hoffe in näherer Zukunft auch x86_64 bieten zu können.

Oliver

_________________
Oliver aka obgr_seneca

Mageia.Org


Nach oben
 Profil  
 
 Betreff des Beitrags: Re:
BeitragVerfasst: 25.10.2009, 22:19 
Offline
Benutzeravatar

Registriert: 02.09.2005, 19:54
Beiträge: 2644
Wohnort: Plettenberg ex Ichenhausen
obgr_seneca hat geschrieben:
Habe eben die mud-Pakete (i586 und src) auf die aktuelle 0.5 aktualisiert, das hatte ich offensichtlich übersehen. Hoffe in näherer Zukunft auch x86_64 bieten zu können.
Oliver


Hallo!
Schon wieder "ich" ;)
Nach Suche gefunden:
ftp://ftp.mandrivauser.de/rpm/GPL/2009.0/i586/release/
    Datei:cuneiform-0.5-1mud2009.0.i586.rpm 23139 KB 22.01.2009 00:00:00
Sitze gerade am Rechner und wollte einen "Leserbrief" OCR behandeln und kein W$ starten. Auch am i586-2009.1 kein cuneiform :?

Zitat:
Downloads
Latest version is 0.8
* cuneiform-l...8.0.tar.bz2
released on 2009-09-02


Machma da nich weita?
Gut, 2010 vor der Tür, kann man 09.1 überspringen.

Gruß
J.

_________________
Der Mann "aus" Bayern, jetzt wieder heavy on the wire :)


Nach oben
 Profil  
 
 Betreff des Beitrags: Re: cuneiform OCR
BeitragVerfasst: 27.10.2009, 16:27 
Offline
Benutzeravatar

Registriert: 12.12.2004, 18:14
Beiträge: 10342
Wohnort: Leipzig
Wenn es für 2009.1 nicht angefragt wurde, wurde wahrscheinlich kein Rebuild gemacht, da keine Nachfrage bestand.

_________________
Wer lesen kann, ist klar im Vorteil!
--
Mageia - The magic continues ...


Nach oben
 Profil  
 
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Ein neues Thema erstellen Auf das Thema antworten  [ 22 Beiträge ]  Gehe zu Seite 1, 2  Nächste

Alle Zeiten sind UTC + 1 Stunde


Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste


Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.

Suche nach:
Gehe zu:  
Powered by phpBB® Forum Software © phpBB Group
Deutsche Übersetzung durch phpBB.de