Son todos los documentos PDF iguales?
NO. Los documentos PDF pueden ser creados de varias formas. Los documentos PDF que son generados desde una fuente electrónica, como un documento Word, un reporte generado por computador o una hoja de cálculo poseen una estructura interna que puede ser leída e interpretada. Esos documentos "generados" PDF ya contienen caracteres que poseen una designación electrónica. Por lo tanto la conversión de esos documentos a PDF cuenta con esa designación electrónica y proporciona un resultado confiable.
Los archivos PDF también pueden ser creados al escanear los documentos y generar así un archivo electrónico. Lo que el documento escaneado representa realmente es una fotografía de las palabras contenidas en el documento original. Para convertir el documento escaneado a un formato editable, es necesario utilizar el software OCR (Reconocimiento Óptico de Caracteres) para analizar la imagen de cada caracter y compararlo con una base de datos de caracteres electrónicos. Debido a la complejidad de este proceso, es mucho mas difícil asegurar que el caracter que es reconocido por el software OCR, es el mismo caracter que se encuentra en el documento escaneado. La calidad de los resultados del software OCR es afectada por varias razones, como la baja calidad de la imagen del documento escaneado, la mezcla de las diferentes fuentes de caracteres usadas en los documentos escaneados, los caracteres que se encuentran subrayados o en negrilla los cuales pueden empañar la calidad y la forma de cada caracter individualmente.
No hay comentarios:
Publicar un comentario