e64f
Постоялец
- Регистрация
- 2 Ноя 2008
- Сообщения
- 95
- Реакции
- 6
- Автор темы
- #1
Добрый день!
В рамках одного научного проекта, для задачи определения тематики текста, понадобилось после получения веб странички очищать ее от html и всяких менюшек, слоганов, реклам, анонсов и прочего, что не имеет отношения к основному тексту страницы. Были следующие идеи:
1) Очищать все HTML теги, функцией strip_tags(), смириться что остается лишний текст.
2) С помощью класса сконвертировать html документ в DOM, выбрать например самый длинный по содержимому тег TD или DIV. Но проблема в том что внутри текста может встретиться DIV и таблица. Также некоторые пытаются засунуть в середину текста рекламу.
3) Перед очисткой от html поудалять подряд стоящие ссылки, так мы уберем меню.
4) Выполнить п.1 для двух страничек сайта, удалить в начале и конце одинаковый текст
Вопрос: может уже есть готовые решения на эту проблему? Подскажите пожалуйста.
В рамках одного научного проекта, для задачи определения тематики текста, понадобилось после получения веб странички очищать ее от html и всяких менюшек, слоганов, реклам, анонсов и прочего, что не имеет отношения к основному тексту страницы. Были следующие идеи:
1) Очищать все HTML теги, функцией strip_tags(), смириться что остается лишний текст.
2) С помощью класса сконвертировать html документ в DOM, выбрать например самый длинный по содержимому тег TD или DIV. Но проблема в том что внутри текста может встретиться DIV и таблица. Также некоторые пытаются засунуть в середину текста рекламу.
3) Перед очисткой от html поудалять подряд стоящие ссылки, так мы уберем меню.
4) Выполнить п.1 для двух страничек сайта, удалить в начале и конце одинаковый текст
Вопрос: может уже есть готовые решения на эту проблему? Подскажите пожалуйста.