Print2CAD 2022 - Reference Manual

Optimierung 3:

Konvertrierung von nativem Text

USA Flag
German Flag
Optimierung 3: Teil 1 - Automatische Texterkennung

Optimierung 3:

Anwedungsbeispiel - OCR Erkennung von Text

 

Optimization 3:  Part 2 - Native Text Recognition

Texterkennung von  nativen PDF-Texten

Der Text in PDF-Dateien kann als nativer PDF-Text, als Text aus Linien, als Text aus Schraffuren und als Text aus Rasterbildern dargestellt werden.

Um die richtige Art von einem Text zu erkennen, verwendet das Programm die Methoden der künstlichen Intelligenz in Form von OCR (Optische Text Erkennung) und Symbol Recognition (Symbolerkennung).

Die automatische Texterkennung ermöglicht dem Anwender, Text mit gleicher Textrichtung in Konstruktionsplänen automatisch zu erkennen. Die Richtung eines Textes muss gleich sein, wenn nicht dann muss die "Erweiterte OCR Texterkennung" benutzt werden..

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

 

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

Text als Rasterbild

Text als Schraffur

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

Text als Linien und Polylinien

Konvertierung von nativen PDF-Texten

Die Texte in PDF Dateien können als Zeichenketten oder einzelne Buchstaben platziert werden. Die echten PDF-Texte erkennen Sie daran, dass die Ränder der Texte auch unter maximaler Vergrößerung immer einen glatten Rand besitzen. Diese Textart kann sehr gut in echte DWG- oder DXF-Texte konvertiert werden.

Sind die Ränder nicht glatt oder entsprechen einem der unteren Fälle der „Falschen Texte", dann kann Print2CAD diese „Texte" nicht mehr in echte Texte umwandeln. Die Ursache hierfür ist der mathematische Widerspruch zwischen Vektorisierungsverfahren und OCR-Verfahren (Optische Texterkennung). Die beiden Verfahren können ohne sehr grobe Fehler nicht miteinander kombiniert werden. Da Print2CAD eher Konstruktionszeichnungen konvertiert, verwendet Print2CAD ausschließlich Vektorisierungsverfahren. OCR aus Text wird nur nach der korrekten Textseparation erfolgreich.

Eine andere Problematik stellen die Fonts dar. Die PDF-Fonts werden in PDF meistens eingebunden. In DWG oder DXF müssen die Fonts aus dem System entnommen werden.

Da ich die Fonts aus PDF in ein Windows-System nicht extrahieren kann und darf, muss ich in dem Windows-System ähnliche Fonts aussuchen und diese als Ersatzfonts definieren.

Konvertierung von nativen PDF-Texten

Texte als CAD-Zeichenketten ausgeben

In den PDF-Dateien sind die Texte meistens als getrennte Buchstaben oder Buchstabengruppen mit eigenen Einfügepunkten definiert. Print2CAD bildet aus diesen Buchstaben mit Hilfe von speziellen internen Funktionen Zeichenketten und platziert diese Zeichenketten als Texte in die CAD Zeichnung.

Print2CAD besitzt OCR Funktionen, die in Grundelemente wie Linie, Bogen, Schraffur usw. zerlegte Texte zu rekonstruieren ermöglichen. Diese Texte werden dann als Linien bzw. Schraffuren in der CAD Zeichnung dargestellt.

Das gleiche betrifft Texte, die in PDF als Rasterbilder eingefügt sind. Diese werden als Text nicht dargestellt, nur die echten PDF-Texte und Buchstaben werden in DWG- bzw. DXF-Texte umgewandelt. Deise Texte muessen mit OCR erkannt werden.

Texte als CAD-Zeichenketten ausgeben

Parameter: Konvertieren der nativen Text in Schraffuren

Es ist nicht immer möglich, Text aus einer PDF zu extrahieren, besonders wenn die Unicode-Codec fehlt oder "benutzerdefiniert" ist. Es gibt viele Konstruktionszeichnungen, die diese Art von Trick verwenden, um Sie daran zu hindern, die Dateien zu konvertieren.

Wenn es nicht möglich ist, den korrekten Text im Acrobat auszuschneiden und im Texteditor einzufügen, dann haben Sie sehr wenig Chance, den Text selbst mit Print2CAD zu konvertieren. Wenn Acrobat es nicht extrahieren kann, ist es sehr unwahrscheinlich, dass Print2CAD den Text korrekt extrahieren kann.

In diesem Fall können Sie diese Funktion aktivieren und die Text als Schraffuren korrekt darstellen.

Wichtig!
Wenn Print2CAD eine falschen Codec entdeckt, konvertiert Print2CAD diese Texte automatisch in Schraffuren.

Parameter: Visualisierung eines Textes mit falschem Codec

Wenn es nicht möglich ist, den korrekten Text im Acrobat auszuschneiden und im Texteditor einzufügen, dann haben Sie sehr wenig Chance, den Text selbst mit Print2CAD zu konvertieren. Wenn Acrobat es nicht extrahieren kann, ist es sehr unwahrscheinlich, dass Print2CAD den Text korrekt extrahieren kann.

Wenn Print2CAD eine falschen Codec entdeckt, konvertiert Print2CAD diese Texte automatisch in Schraffuren.

Parameter: Texte auf einen Layer einsortieren

Alle echten PDF-Texte werden auf ein vorgegebenen Layer einsortiert. Sind es keine echten Texte sondern nur Polylinien, Schraffuren oder Rasterbilder, dann werden die Texte als Element Text nicht erkannt.

Parameter: Skalierfaktoren für die Leerzeichen-Ersatzbreite

Fall werden die Leerzeichen nicht ausgegeben. Wenn Print2CAD die Buchstaben zu Texten zusammenbindet, werden Leerzeichen aufgrund einer fiktiven Leerzeichen-Ersatzbreite erkannt, die der Breite vom Buchstaben „a“ entspricht. Sollte die Leerzeichenerkennung nicht richtig funktionieren, dann erhöhen bzw. verkleinern Sie die Ersatzbreite um den Faktor (Ausprobieren) nach unterem Schema:

Parameter: Skalierfaktoren für die Leerzeichen-Ersatzbreite

Parameter: Skalierfaktoren für Textbreite und -höhe

Findet Print2CAD die in PDF benutzten Fonts im Windows-System nicht, dann entscheidet Print2CAD einen ähnlichen Font zu verwenden. Dabei kann sich die Textbreite verändern.

Eine Abhilfe hierfür ist die Verwendung von Skalierfaktoren für die Textbreite und Texthöhe. Die Texte werden mit den angegebenen Faktoren skaliert und in der CAD Zeichnung linksbündig platziert.

 

Parameter: Ersatz TTF- bzw. SHX-Font

Bei Aktivierung dieser Option wird allen Textstilen der gleiche, hier ausgewählte Textfont zugewiesen.

Die Schriftarten in einem PDF sind meistens eingebunden, so dass Sie diese Schriftarten nicht auf Ihrem Computer haben müssen um das PDF-Dokument anzeigen zu können.

In DWG- oder DXF-Dateien können Sie keine Schriftarten einbinden, daher müssen Sie diese Schriftarten auf Ihrem Computer installiert haben.

Es ist uns leider nicht möglich in ein PDF eingebettete Schriftarten zu extrahieren und diese in Ihren Computer zu implementieren.

Print2CAD sucht, währen der Konvertierung, nach der ähnlichsten Schriftart auf Ihrem Computer und konvertiert den Text in jene.

 

 

BacktoCAD Technologies, LLC

601 Cleveland St, Suite 380

Clearwater, FL 33755, USA

 

Email: bc-sales@cad-pdf.com
Phone: (727) 303 0383

© Copyright 2020 BackToCAD Technologies, LLC. All rights reserved. Kazmierczak® is a registered trademark of Kazmierczak Software GmbH. Print2CAD, AzubiCAD, and CAD2Print are Trademarks of BackToCAD Technologies LLC. CADconv is a Trademark of Expert Robotics Inc.. DWG is the name of Autodesk’s proprietary file format and technology used in AutoCAD® software and related products. Autodesk, the Autodesk logo, AutoCAD, DWG are registered trademarks or trademarks of Autodesk, Inc., and/or its subsidiaries and/or affiliates in the USA and/or other countries. All other brand names, product names, or trademarks belong to their respective holders. This website is independent of Autodesk, Inc., and is not authorized by, endorsed by, sponsored by, affiliated with, or otherwise approved by Autodesk, Inc. The material and software have been placed on this Internet site under the authority of the copyright owner for the sole purpose of viewing of the materials by users of this site. Users, press or journalists are not authorized to reproduce any of the materials in any form or by any means, electronic or mechanical, including data storage and retrieval systems, recording, printing or photocopying.