PDF to text

Для конвертирования файлов Portable Document Format (PDF) в обычный текст используется утилита pdftotext. Она считывает pdf файл и создает txt. Если текстовый файл не указан, pdftotext конвертирует file.pdf в file.txt. Если вместо текстового файла указано -, текст передается в стандартный поток вывода.

Для установки pdftotext в Ubuntu достаточно набрать в терминале:

$ sudo apt-get install poppler-utils

Fedora, CentOs:
$ yum install poppler-utils

Синтаксис:

pdftotext {pdf-file} {text-file}

Примеры использования:

Конвертируем pdf файл hp-manual.pdf в hp-manual.txt:
$ pdftotext hp-manual.pdf hp-manual.txt
Чтобы указать первую страницу, с которой начинать конвертацию, введите:
$ pdftotext -f 5 hp-manual.pdf hp-manual.txt
Для указания последней страницы, введите:
$ pdftotext -l 5 hp-manual.pdf hp-manual.txt
Если pdf файл защищен паролем владельца password:
$ pdftotext -opw 'password' hp-manual.pdf hp-manual.txt
Если pdf файл защищен пользовательским паролем password:
$ pdftotext -upw 'password' hp-manual.pdf hp-manual.txt


Коментарі