Print2CAD 2022 - Reference Manual
Anwendungsbeispiel: OCR Text Erkennung
OCR-Texterkennung
Der Text in PDF-Dateien kann als nativer PDF-Text, als Text aus Linien, als Text aus Schraffuren und als Text aus Rasterbildern dargestellt werden.
Um die richtige Art von einem Text zu erkennen, verwendet das Programm die Methoden der künstlichen Intelligenz in Form von OCR (Optische Text Erkennung) und Symbol Recognition (Symbolerkennung).
Die erweiterte Texterkennung ermöglicht dem Anwender, Text mit unterschiedlichen Textrichtungen in Konstruktionsplänen zu erkennen. Die Richtung eines Textes muss mit Hilfe eines speziellen Editors definiert werden.
Text als Rasterbild
Text als Schraffur
Text als Linien und Polylinien
OCR Parameter: OCR Text Darstellungsart
Die korrekte Auswahl der OCR Text Darstellungsart ist für die korrekte Texterkennung von übergeordneter Wichtigkeit.
Der Text für die OCR-Texterkennung kann in PDF-Datei als nativer Text, Text aus Linien oder Polylinien, Text aus Schraffuren oder Text
aus Pixelbilder definiert sein.
Wichtig!
Native Text brauchen nicht ausgewählt werden. Die nativen Texte werden immer erkannt.
In seltenen Fällen kann der native Text nicht als echter Text erkannt werden, dann soll die Repräsentation als nativer Text ausgewählt werden.
Die Analyse einer PDF-Datei sollte vor der Aktivierung einer Textdarstellung durchgeführt werden. Die Analyse einer PDF-Datei zeigt in separaten Bildern, welche Art von Textdarstellung in der PDF-Datei verwendet wird.
Wenn Sie mehr als eine Textdarstellung finden, wählen Sie alle gefunden aus, die native Text Darstellung soll normalerweise nicht ausgewählt werden.
OCR Parameter: Textsprache
Die korrekte Auswahl der Textsprache hilft, die richtigen Wörter zu bauen. Print2CAD verwendet künstliche Intelligenzmethoden für die Texterkennung und ein internes Wörterbuch, um ungewöhnliche Textkombinationen zu eliminieren.
OCR Parameter: Maximale Auflösung in DPI
Die richtige Auflösung für die OCR-Texterkennung ist sehr wichtig. Die Auflösung muss so niedrig wie möglich sein, aber der Text muss deutlich lesbar sein. Versuchen Sie zuerst mit 300 DPI und drücken Sie die Schaltfläche "Vorschau", wenn der kleinste Text nicht lesbar ist, erhöhen Sie die Auflösung in 50 DPI Schritten.
OCR Parameter: Minimale und maximale Texthöhe in Pixel
Die Parameter für maximale und minimale Texthöhe ist sehr wichtig. Die Erkennung der Texte erfolgt auf Basis dieser Parameter. Drücken Sie die Schaltfläche "Vorschau" und wenn Sie sehen, dass nicht alle Texte erkannt sind, erhöhen Sie die maximale Höhe. Wenn Sie sehen, dass viele freie Pixel als Text erkannt sind, erhöhen Sie die minimale Höhe.
OCR Parameter: Schwellwert für die Farbe Schwarz
Wenn Sie die Rasterbilder als Textdarstellung wählen, entscheidet der Schwellwert, welches Pixel schwarz sind und welche Pixel zum weißen Hintergrund angehören. Drücken Sie die Schaltfläche "Vorschau" und wenn Sie sehen, dass die Texte z.B. miteinander verbunden sind, verringern Sie den Schwellenwert.
Textbereiche (Information über den Textart und die Textrichtung)
Beispiel: Schwellwert = 120
Die OCR-Texterkennung funktioniert nur, wenn die richtige Textrichtung erkannt werden kann. Leider kann in einem Bauplan der Text in ganz anderen Richtungen existieren.
Für eine gut durchgeführte OCR-Texterkennung ist eine manuelle Vorabtrennung der Textbereiche mit einer gemeinsamen Richtung erforderlich.
Print2CAD bietet einen speziellen Editor für die Textbereiche.
Ein "Textbereich" wird mit Hilfe von 3 Punkten definiert. Die ersten beiden Punkte geben die Textrichtung und der dritte Punkt gibt die rechte obere Ecke eines Textfeldes.
Im Textbereichseditor können Sie verschiedene Auswahl für "Textbereich" und für "Zahlenbereich" auswählen.
"Textbereich" erkennt Buchstaben, Zahlen und Sonderzeichen wie "+", "-" usw. Im Zweifelsfall zwischen Zahl und Buchstabe (z.B. zwischen den Buchstaben "l" und der Zahl "1") wird die Erkennung den Buchstaben " l " auswählen.
"Zahlenbereich" erkennt Zahlen, Buchstaben und Sonderzeichen wie "+", "-" usw. Im Zweifelsfall zwischen Zahl und Buchstabe (z.B. zwischen den Buchstaben "l" und der Zahl "1") wird die Erkennung die Zahl " 1 " auswählen.
Wenn der Textbereich ein PDF-Element schneidet, wird dieses Element bei der OCR-Texterkennung nicht berücksichtigt.
Tipps:
- Versuchen Sie, Zahlen und Buchstaben in verschiedenen Textbereichen zu trennen.
- Versuchen Sie, in einem Textbereich nur Text mit einer gemeinsamen oder ähnlichen Texthöhe zu trennen.
- Versuchen Sie, saubere Textbereiche ohne Unterbrechung von anderen Zeichnungselementen zu trennen.
- Definieren Sie niemals einen gemeinsamen Textbereich für die gesamte Zeichnung.
- Eine gründliche Auswahl des Textes durch Textbereiche verbessert die Qualität der Texterkennung erheblich.
Textbereiche Automatisch generieren
Die OCR-Texterkennung funktioniert besser, wenn die Textbereiche präzise angegeben werden. Print2CAD bietet die Möglichkeit an, die Textbereiche automatisch zu generieren.
Die generierten Textbereich können in vier Richtungen verlaufen:
- horizontal (Textneigung 0 Grad)
- vertikal (Textneigung 90 Grad)
- auf dem Kopf (Textneigung 180 Grad)
- vertikal von oben (Textneigung 270 Grad)
Es können 1 oder 2 gleichzeitige Textrichtungen gewählt werden. Es sollen nicht die Kombinationen "vertikal mit vertikal von oben" bzw. "horizontal mit auf dem Kopf" gewählt werden.
Der "Primäre Text" ist der am meisten in der konvertierter Zeichnung aufgetretene Text. Wenn die Zeichnung z.B. unter 90 Grad geneigt ist und die meisten Texte vertikal verlaufen und nur einige "auf dem Kopf", dann ist der Primäre Text der Text unter 90 Grad Neigung.
Mit "Vorschau" können die automatisch generierten Textbereiche visuell betrachtet werden. Sind die Korrekturen notwendig, dann soll "Erweiterte OCR Texterkennung" aktiviert werden.
Die automatisch generierten Text können bei Aktivierung von "Erweiterte OCR Text Erkennung" mit Textbereiche-Editor korrigiert, gezielt gelöscht oder erweitert werden.
Beispiel:
Text "Vertikal" + "auf dem Kopf", Primäre Textrichtung: "Vertikal"
BacktoCAD Technologies, LLC
601 Cleveland St, Suite 380
Clearwater, FL 33755, USA
Email: bc-sales@cad-pdf.com
Phone: (727) 303 0383
© Copyright 2020 BackToCAD Technologies, LLC. All rights reserved. Kazmierczak® is a registered trademark of Kazmierczak Software GmbH. Print2CAD, AzubiCAD, and CAD2Print are Trademarks of BackToCAD Technologies LLC. CADconv is a Trademark of Expert Robotics Inc.. DWG is the name of Autodesk’s proprietary file format and technology used in AutoCAD® software and related products. Autodesk, the Autodesk logo, AutoCAD, DWG are registered trademarks or trademarks of Autodesk, Inc., and/or its subsidiaries and/or affiliates in the USA and/or other countries. All other brand names, product names, or trademarks belong to their respective holders. This website is independent of Autodesk, Inc., and is not authorized by, endorsed by, sponsored by, affiliated with, or otherwise approved by Autodesk, Inc. The material and software have been placed on this Internet site under the authority of the copyright owner for the sole purpose of viewing of the materials by users of this site. Users, press or journalists are not authorized to reproduce any of the materials in any form or by any means, electronic or mechanical, including data storage and retrieval systems, recording, printing or photocopying.