Многим компаниям и фрилансерам, переводчикам приходится иметь дело с PDF-файлами. Нередко при такой работе возникает необходимость быстро оценить объем содержащегося в них текста. Но в формате PDF такая возможность отсутствует, а в популярных приложениях для просмотра PDF-документов вы можете узнать только общее количество страниц.
Казалось бы, можно примерно представить, сколько текста может поместиться на таком количестве страниц. Но это не работает, поскольку:
- в файле могут использоваться шрифты разного размера
- в файле могут содержаться рисунки и таблицы, которые существенно увеличивают его объем
- файл может содержать титульные страницы с одной-двумя строчками текста и т.п.
Поэтому узнавать объем нужного вам файла придется по-другому. Это можно сделать двумя способами:
- Скопировать весь текст (Ctrl+A) и вставить его в документ Word (см. Как узнать количество символов в Word). Однако этот способ работает не всегда. Файл может быть защищен от копирования, или весь текст может представлять собой картинку (например, если вы имеете дело со сканом). Кроме того, не все символы при копировании могут распознаваться как текст из-за особенностей верстки.
- Более надежный вариант – это посчитать слова и символы с помощью специальных программ для распознавания текстов. На сегодня существует целый ряд приложений, позволяющих сделать это быстро и удобно. Наиболее известные и распространенные из них, это:
- FineReader, который позволяет распознать файлы PDF и JPG и преобразовать их содержимое в обычный текст. Поддерживается экспорт в различные форматы: Word, Excel, Powerpoint и т.д. Мы используем именно эту программу и считаем ее наиболее мощным инструментом для распознавания текста в PDF. Часть работы выполняется вручную, поэтому эту работу лучше доверить специалисту по OCR. Услугу можно заказать в нашей компании отдельно от услуг перевода.
Инструменты, приведенные ниже, не поддерживают распознавание в ручном режиме, соответственно, часть текста может быть не распознана или распознана неправильно.
- PDF-файлы можно преобразовать в текст при помощи Google Диска. Как это сделать, см. здесь.
- OCR-инструменты также доступны онлайн: pdf2doc.com, smallpdf.com.
- FineCount, который дает возможность оценить количество символов в документах формата Word, Excel, PDF, HTML и других. При этом документы в него можно загружать не по одному, а целыми папками
- Textomate, который поддерживает форматы pdf, rtf, doc, docx, xls, xlsx, ppt, pptx, txt, epub, ods, odt, chm, html, xml и даже дает возможность посчитать количество символов на интернет-странице
- CountAnything, использующийся также для файлов в формате Excel
Эти и другие приложения – отличная возможность не только узнать количество слов и символов в файле PDF, но и использовать другие их функции, которые могут вам пригодиться. К сожалению, профессиональный OCR-инструмент FineReader не доступен в бесплатной версии, поэтому мы рекомендуем воспользоваться Google Диском или другими онлайн-инструментами. Чтобы получить «чистую» версию документа (который удобно редактировать), все же придется обратиться к специалисту по OCR.