Технический перевод с английского на русский в области информационных технологий вычислительной техники и связи
Об авторе Публикации Ресурсы Полезные ссылки In English

Экспорт документов PDF

Сохранение (экспорт) в другом формате необходимо для того, чтобы получить редактируемую версию содержимого файла PDF для перевода в другом приложении, после чего переведенный файл сохраняется в формате PDF. Например, мы можем сохранить файл PDF в формате DOC (точнее, в формате RTF), затем перевести его в редакторе Word обычным образом, а далее преобразовать файл перевода в PDF.

Преобразовать файл PDF в различные форматы Adobe Acrobat позволяет из диалога Save As (сохранить как). Имеющиеся в этом диалоговом окне фильтры преобразования прекрасно работают, когда файл PDF тегирован. Если же файл PDF не тегирован, то Acrobat использует эвристический механизм для сборки слов из отдельных букв и абзацев из слов. Также Adobe Acrobat пытается обнаружить и воссоздать таблицы. Все это успешно выполняется только в документах с достаточно простым форматированием . Обычно таблицы и страницы со сложным форматированием не воссоздаются. Попутно отметим: бесплатный «читатель» Adobe Reader позволяет преобразовать PDF в "чистый", неформатированный текст, если пользователь выполнит команду File (файл) > Save As Text (сохранить как текст).

Поскольку документ PDF является специализированным видом описания на языке PostScript, документ можно преобразовать в различные файловые форматы для использования в разных целях и в разных приложениях. Концепцию файлового формата легко понять, если мысленно разделить документ на две составные части: информационное содержимое (контент) и контейнер, хранящий этот контент. Контент составляют информационные элементы документа, например текст и графика. Файловый формат определяет контейнер, в который помещается информационное содержимое документа.

Разные файловые форматы (контейнеры) используются с разными целями. Одним из файловых форматов является PDF, а другим – PostScript (если считать его форматом файла, а не языком описания страницы). Оба формата, по сути, могут хранить одинаковый контент, но в разных контейнерах, предназначенных для разных областей использования. Документ PDF можно сохранить в виде файла, объединяющего в себе текст и графику, например в файле PDF с другими параметрами контейнера, EPS, HTML или XML; вывести как текстовый файл, скажем формата TXT; либо сохранить в графическом файле, например в формате TIFF или одном из форматов JPEG, в зависимости от того, как требуется переводить исходный документ PDF.

Простейшим методом изменения формата файла PDF является применение функции Save As в приложении Adobe Acrobat:
  1. Откройте документ PDF, для которого планируется изменение файлового формата.
  2. Выполните File (файл) > Save As (сохранить как). Откроется окно Save As.
  3. Щелкните меню Format (формат) и выберите формат файла. После выбора файлового формата, не забудьте щелкнуть кнопку Settings (параметры), чтобы настроить новый формат так, как это требуется для создаваемого нового файла. Каждый файловый формат имеет собственный индивидуальный диалог Save As Settings (параметры для сохранения как). Acrobat автоматически добавляет необходимое трехсимвольное расширение имени файла к указанному имени файла.
  4. Завершив настройку параметров нового формата файла, щелкните кнопку OK в диалоге Save As Settings; затем щелкните кнопку Save (сохранить) в диалоге Save As, чтобы создать новый файл.

Учтите, что при сохранении файла в другом формате практически полностью теряется макет, поэтому полученный в формате DOC набор отдельных элементов исходного файла PDF придется собрать вручную так, чтобы как можно точнее воспроизвести макет исходного документа. Иногда полезнее сохранить эти элементы упорядоченно, т.е. сначала «вытащить» весь текст, затем все рисунки, а далее формировать новый макет параллельно с переводом текста.

Текст можно легко экспортировать из документа PDF разными способами. Допускается экспорт всего текста из PDF, экспорт всех рисунков одной операцией, либо копирование и вставка выделенного контента.

Экспорт всего текста и всех графических изображений

Для экспорта всего текста из файла PDF выполните File (файл) > Save As (сохранить как) и укажите один из множества текстовых форматов, доступных в данном окне.

Вместо работы с каждым рисунком отдельно, можно экспортировать все графические изображения из документа PDF, сохранив их формат и параметры. Для этого откройте документ, из которого предполагается экспортировать рисунки, и выполните Advanced (дополнительно) > Export All Images (экспорт всех графических изображений). Настройте диалог следующим образом:
  • Укажите файловый Format (формат) для изображений.
  • Щелкните кнопку Settings (параметры), укажите параметры выбранного файлового формата, затем щелкните OK для возврата в диалог Export All Images.
  • Укажите базовое имя для изображений в поле Save As (сохранить как). Acrobat создаст набор графических изображений с этим базовым именем.
  • Оставьте сброшенным флажок Hide Extension (скрыть расширение), чтобы трехсимвольное расширение имени файла (например, .jpg) было показано в конце всех имен файлов экспортируемой графики.

Щелкните кнопку Save (сохранить), чтобы начать процесс экспорта.

Итак, мы можем сохранить текст и графику отдельно, но помните, что не всегда будет экспортированы все текстовые фрагменты (некоторые фрагменты, представленные графикой, останутся графикой) и не все графические изображения (некоторые рисунки просто теряются по разным причинам). Восполнить недостающие элементы контекста можно двумя способами: распознаванием текста и операцией копирования-вставки.

Следующая страница