Як зробити багатосторінковий PDF зі сканованих зображень в Лінуксі

Зображення користувача campana.

Отже, як швидко, дешево й сердито зробити в Linux-і багатосторінковий PDF зі сканованих зображень? З одного боку, дуже просто ©. А з другого, трапляються дивні підводні камені. Тому опишу процедуру, яка працює на мій досвід.

1. Перш з все слід мати ті зображення, з яких ми будемо робити багатосторінковий PDF. Особисто я сканую потрібний документ і зберігаю сторінки у форматі PNG: для сканів документів та знімків екрану він краще придатний, ніж JPEG (розширення .jpg), оскільки краще зберігає тонкі штрихи, а отже, написи. Але JPEG або TIFF підійдуть так само.

2. Може виявитися, що сторінки документа відсканувалися криво, з частковим поворотом або навіть перспективним спотворенням. Так практично завжди буває, якщо сканується товста книга або документ, скріплений степлером. Читати такий скан буде не надто приємно, тому бажано спершу виправити всі такі спотворення та прибрати зі сканів візуальне сміття у вигляді дефектів сканування (тіні, ляпки на сторінках тощо). Для цього існує спеціальна програма ScanTailor. Покладіть усі скани в один каталог, відкрийте його у ScanTailor-і — і далі легко розберетеся, оскільки програма має доволі інтуїтивний графічний інтерфейс. На виході ви отримаєте з ваших сканованих зображень нові відкориговані зображення у форматі TIFF (розширення .tif).

Зі ScanTailor-ом може виникнути хіба одне непорозуміння: можна помилитися при виставленні полів (берегів) документа, так що весь зміст опиниться не посередині сторінки, а, приміром, упреться у верхній її край. Поля у ScanTailor-і легко виставляються на кожній сторінці вручну за допомогою мишки, але закономірність їх зміни не зовсім інтуїтивна. Якщо у вас верхнє поле виходить замале, то слід намагатися не пересунути зовнішній контур сторінки (як видається очевидним), а потягнути його нижню рамку донизу. Це не перемістить цю рамку, а збільшить її по вертикалі відносно центру сторінки.

3. Якщо видалення сміття у ScanTailor-і було не до кінця успішним, можна відкрити потрібні виіхідні tiff-файли у GIMP-i або будь-якому іншому графічному растровому редакторі та й почистити їх вручну. Заодно можна підкоригувати контраст та інші параметри зображення.

4. Після того, як робота з окремими сторінками майбутнього багатосторінкового документа завершена, можна переходити до його створення. Найпростіше зробити це в командному рядку за допомогою програми ImageMagic. Вона містить у своєму складі команду convert, котра дозволяє змінювати формат файла і створювати багатосторінкові pdf-и. Для такого створення слід відкрити будь-який емулятор термінала, перейти в ньому у каталог, де лежать ваші вихідні tif-и, й виконати команду

convert *.tif назва_файла.pdf

На цьому етапі можуть вилізти два підводні камені.

По-перше, щоб сторінки в результовному pdf-і йшли у задуманому порядку, слід заздалегідь їх правильно назвати. І тут криється невелика заковика, оскільки програми, які працюють у Лінуксі з файлами, сортують їх за назвою тільки в алфавітному, але не в алфавітно-цифровому порядку. Це означає, що для них кожна цифра у назві файла — це звичайний знак, а не частина багатоцифрового числа. Тому якщо вам треба поєднати в один файл, скажімо, двадцять сторінок, і вони називаються сторінка1.tif, сторінка2.tif, ..., сторінка20.tif, у вас після сторінки 1 ітимуть сторінки 11–19, а тільки потім — сторінки 2 та 20, після чого — вже сторінки 3–9. Щоб цього не сталося, слід ставити нуль на початку одноцифрових номерів у назвах файлів, тобто, називати файли сторінка01.tif, сторінка02.tif і т. д.

По-друге, для конвертації ImageMagic потребує великої кількості пам’яті. У мене при чотирьох гігабайтах RAM (з яких система, правда, чомусь бачить лише 3,5) команда convert вже на двох десятках файлів зазнає невдачі. Тому доводиться робити декілька pdf-ів, і вже їх збирати в один великий. Для такого збирання кількох pdf-ів в один ImageMagic не годиться: його створено для обробки растрових, а не векторних файлів, тож в готових pdf-ах він гранично знижує розділення (роздільну здатність) при конвертації. Через це я користуюся програмою PdfTk-QGUI. В ній треба зайти в пункт меню

Tools —> Pages —> Catenate documents

і у вікні, що з’явиться, додати потрібний список pdf-ів кнопкою «+» (Add File(s)), натиснути «Ok», після чого вибрати для збереження каталог і назву результовного pdf-а.

5. Власне, це все. Але що робити тим, хто не любить або боїться командного рядка? Чи можна зробити з багатьох зображень єдиний pdf у програмі з графічним інтерфейсом? Так, можна. Наприклад, у програмі Phatch. Її інтерфейс, на жаль, не дуже інтуїтивний, але розібратися можна. Для початку треба натиснути кнопку «+», щоб додати дію. Нам потрібна єдина дія «Зберегти». При її додаванні під її назвою з’являться налаштування. Потрібно вибрати назву результовного файла, його тип (pdf, у нашому випадку), каталог, куди його зберігати, та його параметри. Після цього треба тицьнути на кнопку з коліщатками в меню (вона ж «Виконати дію»), вибрати вхідні файли (tif-и від ScanTailor-а, якщо ми ним користувалися) або теку з ними, натиснути кнопку «Пакет», а в новому вікні після цього — «Continue» (у мене не перекладено). Пам’ятайте: якщо пам’яті недостатньо, програма створить pdf, але він буде неповний або пошкоджений. Тому, можливо, доведеться створювати кілька pdf-ів, як було вище описано для ImageMagic-a.