Технический перевод с английского на русский в области информационных технологий вычислительной техники и связи
Об авторе Публикации Ресурсы Полезные ссылки In English

Распознавание документов PDF

Распознавание необходимо для преобразования в настоящий текст текстовых элементов документа PDF, которые являются графическими изображениями. Программа Adobe Acrobat имеет встроенные средства распознавания, но они предназначены только для распознавания отсканированных документов или страниц документа PDF, которые полностью представлены графикой.

Для распознавания «графических» текстовых элементов из документа PDF рекомендуется использовать OCR-программу ABBYY FineReader 8.0. Эта программа не только выполняет «тупое» распознавание документа PDF, но также извлекает из него «настоящий» текст, поэтому можно получить «правильный» редактируемый документ из многокомпонетного файла, представляющего пеструю смесь текста и графики, причем будет до некоторой степени сохранен макет документа. При обработке файлов PDF программа FineReader определяет, является ли текст встроенным, оценивает целостность текстового слоя и самостоятельно принимает решение о том, нужно ли извлечь текст, либо следует выполнить оптическое распознавание. Программа отдельно анализирует каждый блок и выбирает для него наиболее подходящий метод обработки. Также FineReader воссоздаст внутренние ссылки и внешние гипертекстовые ссылки документа PDF. Например, если список содержимого в файле PDF имеет ссылки на страницы документа, то эти внутренние ссылки будут воссозданы в документе Microsoft Word.

Предыдущие версии FineReader позволяли вводить шифрованные файлы PDF, но начиная с версии 8 эта возможность не поддерживается. Однако в комплект поставки ABBYY FineReader входит утилита ABBY Screenshot Reader, которая формирует снимки экранов шифрованных файлов PDF, открытых в других приложениях, чтобы напрямую, в фоновом режиме передать их в FineReader и начать распознавание.

Программное обеспечение OCR позволяет преобразовать файл Adobe PDF в один из поддерживаемых файловых форматов. Но в зависимости от того, насколько хорошо программа работает с исходным документом, она сможет распознать весь текст, только часть текста или вообще не распознать текст в некоторых местах документа. Если невозможно распознать некоторую исходную область, резервной стратегией станет представление этой области в графическом виде, а не в виде «настоящего» текста. Поэтому в общем случае мы получаем смесь текста и графики. Кроме того, распознавание текста не является идеальным, поэтому в результирующем тексте могут возникнуть ошибки. Уровень уверенного распознавания современных OCR-программ достаточно высок, но ошибки все же случаются. Понять, насколько хорошо выполнено распознавание, можно после сохранения документа в нужном формате.

Проверьте файл, полученный после распознавания, и сравните результат с исходным документом, чтобы понять, хорошо ли выполнено распознавание. Возможно, потребуется небольшая «чистка». Например, после экспорта файла в редактор Word, можно обнаружить представление некоторых частей документа графикой. Эти части придется вводить вручную. Также, представление текста в Microsoft Word может сопровождаться множеством странных типов форматирования абзацев, а также ненужными изменениями шрифта, стиля и размера гарнитуры текста.

Следующая страница