reboRn
Полезный
- Регистрация
- 19 Июл 2007
- Сообщения
- 277
- Реакции
- 16
- Автор темы
- #1
Самый быстрый из известных мне PHP парсеров – парсер контента X-Parser.
Что это вообще такое
Многофункциональный модульный многопоточный универсальный парсер, который в полной сборке позволяет делать следующее:
1. Парсить выдачу любых поисковых систем по ключевым фразам сохраняя сниппеты и ссылки.
2. Парсить контент (текстовый) с любого сайта по заданному домену.
3. Парсить контент (текстовый) по ключевым фразам из выдачи любой ПС.
4. Парсить контент (текстовый) по заданному списку URLов.
5. Парсить внутренние ссылки с любого URLа в частности или сайта в целом.
6. Парсить внешние ссылки с любого URLа в частности или сайта в целом.
Прокси чекер в комплекте
Чтобы можно было парсить неограниченное количество контента, парсер комплектуется таким же быстрым прокси чекером. Он позволяет:
1. Проверять прокси по заданному списку проксилистов.
2. Проверять прокси по списку проксей.
3. Проверять индивидуально любой прокси.
4. Отбирать из списка качественные проксилисты.
5. Парсить списки прокси из выдачи Google и отбирать качественные.
Проверка прокси происходит с привязкой к цели использования! Например, если Вы хотите использовать прокси для парсинга Google, то его можно легко настроить, чтобы сразу отбирать только прокси сервера, незабаненные Google.
Производительность парсера
Ну а теперь самое интересное. Парсер контента X-Parser использует многопоточность. Количество потоков настраивается. Скорость парсинга на мегабитном канале составляет примерно 160 секунд на 1 мегабайт чистого текста, т.е. 500 мегабайт в сутки!!!
Скорость проверки прокси составляет около 100 прокси за 100 секунд, то есть за 100 секунд будет найдено примерно 100 рабочих прокси.
Модульность и интеграция в сторонние приложения
Исходный код выполнен модульно. Каждый модуль имеет свои параметры и функции. Без проблем встраивается в любой другой код, например в доргены. Изначально парсер писался для интеграции в сторонний код, поэтому в безинтерфейсном варианте он очень гибок и удобен в использовании (абсолютно все можно настраивать под свои нужды). В интерфейсном варианте вынесены только базовые настройки для удобства использования парсера без наличия знаний в области PHP.
Функционал версий:
X-Parser-FREE: Содержит в себе парсер сниппетов и парсер контента по списку URL. Позволяет парсить сниппеты только с Google и Yandex. Парсер контента парсит не более 10 URL за заход. Служит как демонстрационная версия для оценивания качества контента на выходе. Так же может использоваться как полноценный парсер контента, но с очень ограниченным функционалом. Сборка произведена на базе фильтров X-Parser-PRO:
X-Parser-LIGHT: Содержит в себе:
* Парсер сниппетов с ПС
* Парсер ссылок с ПС
* Парсер контента по списку ключевиков
* Парсер контента по списку URL
* Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
* Парсер внутренних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внутренние ссылки)
* Парсер внешних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внешние ссылки)
* Проксичеккер
* Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
* Парсер картинок с флик.ком (бесплатное дополнение, позволяет парсить изображения по запросам и изменять их размер под Ваши нужды)
Позволяет парсить Google, Yandex, Yahoo, Altavista, Aol, Bing. Имеет вывод текста без разметки (под дорвеи) и с разметкой (заголовки, абзацы) в формат Textkit и собственный формат с разделителем . Версия имеет минимум вынесенных настроек и идеально подходит для неопытных пользователей
X-Parser-PRO: Содержит:
* Парсер сниппетов с ПС
* Парсер ссылок с ПС
* Парсер контента по списку ключевиков
* Парсер контента по списку URL
* Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
* Парсер внутренних и внешних ссылок по списку доменов или URL (парсит сайты на указанную глубину и собирает все внутренние и/или внешние ссылки)
* Проксичеккер
* Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
* Парсер картинок с различных источников
Усовершенствования, по сравнению с LIGHT-версией:
* Усовершенствованная система фильтров отпарсенного контента, которая дает на выходе максимально отфильтрованный контент
* Вынесенные настройки, которые позволят максимально гибко управлять каждым парсером
* Позволяет самостоятельно собирать парсеры любых поисковых систем
* Сохранение пресетов настроек
* Фильтры по стоп-словам и/или включениям слов или фраз
* Позволяет самостоятельно настраивать любые языки парсинга
* Позволяет самостоятельно настраивать форматы вывода отпарсенного контента
* Позволяет сохранять статьи как в один файл (группировка по ключевикам), так и в отдельные файлы
* Позволяет управлять таймаутом обращения к ПС и начайльной позицией, с которой парсить выдачу
* Позволяет находить заданное количество статей
Так же мне удалось навернуть на уже конечную версию парсер видио для вставки на сайт, конечно же по запросу.
Ну и еще я расширил возможности экспорта, добавил земрум лайт.
Что еще вообще можно добавить в фунционал интересного и нужного?
Пока из всех виденных мной парсеров это самый быстрый и функциональный.
Что это вообще такое
Многофункциональный модульный многопоточный универсальный парсер, который в полной сборке позволяет делать следующее:
1. Парсить выдачу любых поисковых систем по ключевым фразам сохраняя сниппеты и ссылки.
2. Парсить контент (текстовый) с любого сайта по заданному домену.
3. Парсить контент (текстовый) по ключевым фразам из выдачи любой ПС.
4. Парсить контент (текстовый) по заданному списку URLов.
5. Парсить внутренние ссылки с любого URLа в частности или сайта в целом.
6. Парсить внешние ссылки с любого URLа в частности или сайта в целом.
Прокси чекер в комплекте
Чтобы можно было парсить неограниченное количество контента, парсер комплектуется таким же быстрым прокси чекером. Он позволяет:
1. Проверять прокси по заданному списку проксилистов.
2. Проверять прокси по списку проксей.
3. Проверять индивидуально любой прокси.
4. Отбирать из списка качественные проксилисты.
5. Парсить списки прокси из выдачи Google и отбирать качественные.
Проверка прокси происходит с привязкой к цели использования! Например, если Вы хотите использовать прокси для парсинга Google, то его можно легко настроить, чтобы сразу отбирать только прокси сервера, незабаненные Google.
Производительность парсера
Ну а теперь самое интересное. Парсер контента X-Parser использует многопоточность. Количество потоков настраивается. Скорость парсинга на мегабитном канале составляет примерно 160 секунд на 1 мегабайт чистого текста, т.е. 500 мегабайт в сутки!!!
Скорость проверки прокси составляет около 100 прокси за 100 секунд, то есть за 100 секунд будет найдено примерно 100 рабочих прокси.
Модульность и интеграция в сторонние приложения
Исходный код выполнен модульно. Каждый модуль имеет свои параметры и функции. Без проблем встраивается в любой другой код, например в доргены. Изначально парсер писался для интеграции в сторонний код, поэтому в безинтерфейсном варианте он очень гибок и удобен в использовании (абсолютно все можно настраивать под свои нужды). В интерфейсном варианте вынесены только базовые настройки для удобства использования парсера без наличия знаний в области PHP.
Функционал версий:
X-Parser-FREE: Содержит в себе парсер сниппетов и парсер контента по списку URL. Позволяет парсить сниппеты только с Google и Yandex. Парсер контента парсит не более 10 URL за заход. Служит как демонстрационная версия для оценивания качества контента на выходе. Так же может использоваться как полноценный парсер контента, но с очень ограниченным функционалом. Сборка произведена на базе фильтров X-Parser-PRO:
X-Parser-LIGHT: Содержит в себе:
* Парсер сниппетов с ПС
* Парсер ссылок с ПС
* Парсер контента по списку ключевиков
* Парсер контента по списку URL
* Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
* Парсер внутренних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внутренние ссылки)
* Парсер внешних ссылок по списку доменов (парсит сайты на всю глубину и собирает все внешние ссылки)
* Проксичеккер
* Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
* Парсер картинок с флик.ком (бесплатное дополнение, позволяет парсить изображения по запросам и изменять их размер под Ваши нужды)
Позволяет парсить Google, Yandex, Yahoo, Altavista, Aol, Bing. Имеет вывод текста без разметки (под дорвеи) и с разметкой (заголовки, абзацы) в формат Textkit и собственный формат с разделителем . Версия имеет минимум вынесенных настроек и идеально подходит для неопытных пользователей
X-Parser-PRO: Содержит:
* Парсер сниппетов с ПС
* Парсер ссылок с ПС
* Парсер контента по списку ключевиков
* Парсер контента по списку URL
* Парсер контента по списку доменов (производит парсинг контента с сайтов на всю глубину)
* Парсер внутренних и внешних ссылок по списку доменов или URL (парсит сайты на указанную глубину и собирает все внутренние и/или внешние ссылки)
* Проксичеккер
* Чеккер проксилистов (отбирает качественные проксилисты из общего списка)
* Парсер картинок с различных источников
Усовершенствования, по сравнению с LIGHT-версией:
* Усовершенствованная система фильтров отпарсенного контента, которая дает на выходе максимально отфильтрованный контент
* Вынесенные настройки, которые позволят максимально гибко управлять каждым парсером
* Позволяет самостоятельно собирать парсеры любых поисковых систем
* Сохранение пресетов настроек
* Фильтры по стоп-словам и/или включениям слов или фраз
* Позволяет самостоятельно настраивать любые языки парсинга
* Позволяет самостоятельно настраивать форматы вывода отпарсенного контента
* Позволяет сохранять статьи как в один файл (группировка по ключевикам), так и в отдельные файлы
* Позволяет управлять таймаутом обращения к ПС и начайльной позицией, с которой парсить выдачу
* Позволяет находить заданное количество статей
Так же мне удалось навернуть на уже конечную версию парсер видио для вставки на сайт, конечно же по запросу.
Ну и еще я расширил возможности экспорта, добавил земрум лайт.
Что еще вообще можно добавить в фунционал интересного и нужного?
Пока из всех виденных мной парсеров это самый быстрый и функциональный.