- Автор темы
- #1
Доброе время суток форумчане. Хотел бы узнать, у кого был какой опыт в парсинге пдфок. Скорее всего интересует преобразование в html. Видел пару вариантов, но для моего варианта не подходит.
По сути - у меня есть табличка в пдф, с явно выраженными границами.
Able2Extract.Pro 7.0 + - весь текст распознал, а картинку с фотографиями сделал одной. Получилось что систематизация текста с фотографией потерялась.
ABBYY FineReader 10 PE - я с ним не часто работал, может быть по этому и не вышло. Он распознал все по отдельности, но опять же табличку удалил и из-за этого данные потеряли всю систематизацию.
В таблице содержится обычно 15-ть ячеек. В каждой ячейке так-же чаще всего соержится фото, и строчки 3-ри текста.
У меня было несколько идей, как сделать..
1-Вый вариант ( не самый лучший) - побить всю страничку пдфки сначала на отдельные ячейки, а после этого уже отпарсить без проблем..(Видел такое в Файн-ридере, но получалсоь только вручную бить - не подходит).
2-ой вариант - порезать по тем-же ячейкам всю страничку пдфки вместе с картинками, а после этого уже распознать отдельно текст и картинку внутри уже самой ячеки. Луше иметь систематизацию этих ячеек в хтмл-ке именно в тегах самой таблицы. Этот подход даст мне возможность пробежаться парсером по таблице и выудить оттуда уже все нужные данные.
Вот наглядный пример, сильно схожий с моей потребностью.
По сути - у меня есть табличка в пдф, с явно выраженными границами.
Able2Extract.Pro 7.0 + - весь текст распознал, а картинку с фотографиями сделал одной. Получилось что систематизация текста с фотографией потерялась.
ABBYY FineReader 10 PE - я с ним не часто работал, может быть по этому и не вышло. Он распознал все по отдельности, но опять же табличку удалил и из-за этого данные потеряли всю систематизацию.
В таблице содержится обычно 15-ть ячеек. В каждой ячейке так-же чаще всего соержится фото, и строчки 3-ри текста.
У меня было несколько идей, как сделать..
1-Вый вариант ( не самый лучший) - побить всю страничку пдфки сначала на отдельные ячейки, а после этого уже отпарсить без проблем..(Видел такое в Файн-ридере, но получалсоь только вручную бить - не подходит).
2-ой вариант - порезать по тем-же ячейкам всю страничку пдфки вместе с картинками, а после этого уже распознать отдельно текст и картинку внутри уже самой ячеки. Луше иметь систематизацию этих ячеек в хтмл-ке именно в тегах самой таблицы. Этот подход даст мне возможность пробежаться парсером по таблице и выудить оттуда уже все нужные данные.
Вот наглядный пример, сильно схожий с моей потребностью.