Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
На данный момент умеет парсить:
Поисковые системы
Google
Bing
Yahoo
Yandex
Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц
Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу
Парсеры кейвордов
Сервисы поиска ключевых слов
Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики.
Подсказки поисковых систем
Подсказки и релейтед кеи Google
Подсказки и релейтед Bing
Подсказки, релейтед и трендовые кеи Yahoo
Подсказки и релейтед Yandex
Для подсказок гугла умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится
Параметры сайтов и доменов
Google PageRank - PR страниц и доменов
DMOZ - наличие сайта в каталоге DMOZ
Google TrustRank - проверка сайта на траст гугла(дополнительный блок ссылок в выдаче и т.п.)
Whois - дата экспайра домена
Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.
Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:
Полностью интерактивный мега-юзабильный веб интерфейс
Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
Поддержка русского и английского языка
Огромная скорость работы
Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki
На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременный уник по домену всех результатов
Ценовая политика
Цена лицензии - 200$, Абонентская плата - 15$ / 3 месяца, первые 3 месяца без абонентской платы.
Лицензия позволяет запускать A-Parser на одном сервере\компьютере. Переносить можно бесплатно, нельзя одновременно на нескольких запускать.
Чтобы купить - зарегистрируйтесь на a-parser.com и стучите в ICQ 777889
Предварительно перед покупкой с удовольствием отвечу на любые ваши вопросы, а так же возможно обсуждение реализации недостающего вам фукнционала.
Добавлена возможность использовать цепочки заданий - запускать определенное задание после завершение текущего, с возможностью указать файл результатов первого задания, как файл запросов для следующего
Теперь JavaScript функции можно сохранять в настройках задания, что позволяет включать их при экспорте задания
При форматировании элементов массивов через метод .format теперь можно использовать все простые(Flat) переменные, которые выдает парсер или которые формируются используя Конструктор результатов
В прокси чекер добавлена опция Load limit count, позволяющая задать максимальное число прокси для загрузки с источников
В парсере
Net::HTTP для опции Check content добавлен переключатель Match / Not Match позволяющий проверять не только наличие, но и отсутствие определенного контента на странице
Теперь файл задания не перезаписывается при отсутствии свободного места на диске
В лог добавлена информация о версии парсера, количество свободной памяти и другая полезная информация
Исправления в связи с изменениями выдачи
Исправлены
SE::Yandex,
SE::Google
Исправления
В парсере
SE::Google сниппеты и анкоры парсились с некорректной кодировкой при использовании Антигейта
При использовании опции Конечный текст и кириллического имени файла результата конечный текст сохранялся в файл с неверной кодировкой в имени
При использовании лога после постановки задания на паузу и продолжении работы лог переставал писаться, также при отключении логирования и попытке просмотра лога парсер мог упасть
В Тестировщике заданий при закрытии окна с активным заданием появлялась ошибка
В парсере
SE::Yandex::Direct::Frequency некоторые фразы не обрабатывались при использовании аккаунтов, а также некорректно передавалось гео без использования аккаунтов
Макрос $pagenum в парсере
Net::HTTP переставал работать если после него были указаны символы
Парсер
SE::Google::TrustCheck не работал совместно с антигейтом
В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:
Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал
SE::Google: двукратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
Теперь информация о запросах $response формируется только по требованию
Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
Другие улучшения:
Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
В планировщике заданий также используется имя пресета, что позволяет очищать очередь без риска потерять сохраненные задания для планировщика
Исправления в связи с изменениями в выдачи:
SE::Google - поиск по блогам, также увеличена скорость парсинга за счет изменения запросов
SE::Yahoo,
SE::DuckDuckGo,
SE::AOL
Исправления:
В парсере
Rank::Archive исправлена логика при обработке ошибки 403 Forbidden
Исправлено падение при изменении числа потоков в задании
Исправлена поддержка TLS для некоторых сайтов
Исправлено зависание задания при падении воркера
Теперь задание можно остановить если оно находится в режиме ожидания слота
Исправлена работа опции "Сохранять размер окна"
Исправлена ошибка в
HTML::LinkExtractor при работе опции Parse to level в случаях когда сайт отдал редирект на другую страницу
13-й выпуск Сборника рецептов. В нем мы научимся сохранять результат в файл дампа SQL, который будет сразу готов для импорта в базу данных; познакомимся с очень полезным инструментом $tools.query, с помощью которого можно объединять несколько заданий в одно и делать другие интересные вещи; а также увидим еще несколько полезных рецептов.
Вывод результата в формате дампа SQL
С вопросом "можно ли сохранять результаты сразу в базу данных" очень часто обращаюся пользователи в техподдержку. И так, как на данный момент напрямую сохранять результаты в БД нет возможности (но планируется), то предлагаю вариант выводить их в файл дампа, а потом импортировать в базу данных. Как это делается - показано по ссылке выше.
Обзор инструмента $tools.query
$tools.query довольно часто встречается в примерах на форуме. В А-Парсере этот инструмент появился уже больше года назад, но обзора по нему до этого времени не было выпущено. Поэтому мы исправляемся и по ссылке выше вы сможете ознакомиться с некоторыми его возможностями.
В этой версии проделана большая работа по улучшению проверки прокси и добавлению возможности использования разных источников прокси:
Появилась возможность запускать сразу несколько прокси чекеров, каждый поддерживает собственные настройки и собственный рабочий каталог с возможностью указать различные источники проксей
В настройках задания, появилась возможность указать прокси от каких чекеров должны использоваться(выбор между всеми или перечисление конкретных)
Более того в одном задании каждый парсер может использовать различные источники прокси
Добавлен график живых прокси и статистика по обработке источников
Уменьшено потребление памяти при большом числе живых прокси
В API теперь возможно получить список всех живых прокси, а также список прокси для конкретных прокси чекеров
Благодаря этим нововведениям появилась возможность раздельной работы с разными прокси серверами, когда одни прокси подходят для парсинга сайтов, другие лучше для парсинга выдачи поисковых систем, а третьи могут быть "заточены" под определенный сервис
Другие улучшения:
Для парсера
Rank::CMS добавлена опция эмуляции браузера, она включена по умолчанию и повышает процент распознавания многих CMS
В редакторе заданий появилась возможность сворачивать парсеры, что позволяет удобнее работать с большими заданиями
Печальная новость коснулась
SE::Google::pR - Google прекратил отображать PageRank для сайтов, но у нас в арсенале есть множество парсеров для гораздо более точной оценки рейтинга домена!
В парсере
Net::Whois добавлен парсинг названия регистратора домена
Исправления в связи с изменениями в выдачи
SE::YouTube,
SE::AOL,
SE::Dogpile,
SE::Yandex
Исправления
Исправлено падение при использовании JavaScript(tools.js) на Windows, также исправлена некорректная работа на Linux
Исправлена проблема с логином на некоторых аккаунтах Яндекса
Исправлено определение ранка в парсере
Rank::Alexa для доменов с www.
Исправлена работа с некоторыми доменными зонами в парсере
Net::Whois, а также отображение статуса для некоторых зон
Исправлено падение
Rank::CMS при использовании опции -nofork
Исправлены проблемы в работе нового прокси чекера: отключение чекера при изменении настроек, переопределение чекера в задании, а также проблема с отображением в некоторых браузерах
Исправлена работа опции Prepend/Append text в некоторых случаях
Теперь для парсеров
Net::HTTP,
HTML::TextExtractor,
HTML::LinkExtractor,
Rank::CMS кэшируются одинаковые HTTP запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
В парсере
HTML::LinkExtractor улучшено отображение табличных данных и списков
В парсере
SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
В парсере
SE::Yandex добавлена опция Parse all results позволяющая автоматически обходить ограничение на размер выдачи и собирать гораздо больше результатов
В редакторе заданий добавлена функция Copy overrides позволяющая копировать настройки из одного парсера в другой
В редакторе заданий добавлена функция Save overrides to preset позволяющая создать новый пресет на основе переопределенных значений
При просмотре логов с опцией "Только неудачные" теперь отображаются только те потоки, в которых были неудачные запросы
При использовании xPath совместно с сохранением отдельных запросов в один массив данные заполняются равномерно
В очереди заданий добавлена дата последнего изменения задания при отображении в компактном виде
В очереди заданий добавлена возможность скачать файл результатов при незавершенном парсинге
При использовании опции "Сохранять неудачные запросы" теперь дополнительно сохраняются оригинальные запросы для всего задания
Добавлена опция Report captcha - распознанные Google каптчи отправляются на наш сервер для анализа, включена по умолчанию
Исправления в связи с изменениями в выдаче
SE::Yandex,
Rank::DMOZ, SE::AOL
Исправления
Исправлена проблема с большим потреблением памяти на ОС Windows
Исправлено неверное сохранение параметра уникализации в некоторых случаях
Не работала замена на группы в регулярных выражениях в Конструкторе запросов
В парсер HTML::LinkExtractor исправлен парсинг ссылок с пробелами
Исправлена проблема с отображением заданий в очереди с большим числом запросов добавленных через текстовое поле
Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.
В уроке рассмотрены
Использование XPath для создания кастомного парсера
Обход капчи без использования Antigate
Использование Template toolkit для форматирования результата
Объединение результатов парсинга в массив объектов с полями, связанными по индексу
14-й выпуск Сборника рецептов. Сегодня мы научимся делать кастомные парсеры с помощью XPath, будем анализировать страницы сайта и попробуем делать комбинированные пресеты. Кроме этого ниже обновление 2-х самых популярных пресетов и небольшой сюрприз Поехали!
Быстрое создание кастомного парсера поисковой системы с помощью XPath
В A-Parser есть парсеры для большинства популярных поисковых систем. Но реализовать и поддерживать парсеры для абсолютно всех существующих поисковиков очень сложно, поэтому нам на помощь приходит
Net::HTTP с его замечательной возможностью парсить практически все. В данной статье речь пойдет о том, как с помощью XPath и
Net::HTTP довольно быстро и легко создать кастомный парсер почти любой поисковой системы. Подробности - по ссылке выше.
Анализ всех страниц сайта
Администраторы сайтов и SEO-специалисты довольно часто сталкиваются с задачей анализа и мониторинга всех страниц сайта. Ранее мы уже публиковали Универсальный чекер страниц, который позволяет проверить доступность страниц на сайте. Теперь мы предоставляем вашему вниманию пресет для анализа всех страниц, который выводит глубину, время ответа, код и статус ответа, размер страницы и, если есть редирект, то конечный адрес редиректа. Все детали и пресет - по ссылке выше.
Как сделать парсинг и скан сайтов в одном пресете
Возможность использовать несколько парсеров в одном задании - это одно из преимуществ А-Парсера. Простая демонстрация такого функционала показана по ссылке выше.
По многочисленным просьбам полностью переделан пресет парсинга 2GIS. Теперь он еще быстрее! А для тех, кто внимательно читает наши статьи - в посте есть небольшой подарок: полная база 2GIS.
После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту
Улучшения
Переработан парсер
SE::Google - увеличена скорость парсинга в 10-20 раз
Названия пресетов заданий теперь сортируются при добавлении
Исправления
SE::Google - исправлена обработка каптчи в связи с изменением выдачи
Net::Whois - исправлена работа с некоторыми зонами
SE::Yandex::Register - исправлена работа с каптчей при регистрации аккаунта
Исправлено отображение дебаг информации для прокси чекеров
В версии 1.1.626 добавлена поддержка каптчи при логине в Яндекс аккаунт в парсерах
SE::Yandex,
SE::Yandex::WordStat и
SE::Yandex::Direct::Frequency:
Также для этих парсеров добавлена настройка Remove bad accounts, которая автоматически удаляет аккаунты с неверным логин/паролем или требующие подтверждения по телефону. Опция включена по умолчанию
Добавлен новый парсер картинок
SE::Yandex::Images, поддерживает все фильтры(размер, ориентация, тип, цвет, тип файла...). Как известно Яндекс отлично индексирует все картинки для взрослых - отличный способ набрать контента для своих доров/тюбов. В дополнении есть возможность выставить безопасный поиск
Парсер Яндекс картинок также поддерживает работу с антигейтом(anti-captcha, rucaptcha, CapMonster - любой сервис с поддержкой API антигейта)
15-й выпуск Сборника рецептов. В нем мы будем парсить Google PageSpeed Insights, который позволяет оценивать скорость загрузки, юзабилити сайтов и даже получать их скриншоты; сделаем кастомный парсер Яндекс.Картинок и научимся получать полные ссылки из выдачи Baidu. Поехали!
Анализ скорости загрузки и юзабилити сайтов
У Google есть довольно неплохой сервис PageSpeed Insights, который измеряет скорость загрузки веб-страниц, оценивает их юзабилити и даже делает скриншоты страниц. При этом оценивается обычная и мобильная версия парсера. Поэтому мы не могли обойти стороной такой сервис и не сделать для него парсер. О том, что получилось - читайте по ссылке выше.
Кастомный парсер Яндекс Картинок
На форуме неоднократно спрашивали когда в А-Парсер будет добавлен парсер картинок Яндекса. На данный момент такой парсер уже есть:
SE::Yandex::Images. Но в данной статье будет показан пример кастомного парсера Яндекс.Картинок, который довольно хорошо демонстрирует возможности
Net::HTTP. Подробности - по ссылке выше.
Как получить полные ссылки из Baidu
Также довольно часто спрашивают как получить полные ссылки из Baidu. Дело в том, что этот поисковик обрезает ссылки в выдаче, и на выходе получаются ссылки такого вида:
В версии 1.1.652 добавлена поддержка динамического лимита потоков, позволяющая распределить лимит между всеми запущенными заданиями, тем самым увеличивается общая скорость выполнения заданий в очереди
Помимо этого парсер
SE::Google теперь поддерживает работу с цифровыми каптчами, а сервис Cheap-Captcha предоставил пользователям A-Parser уникальную скидку: всего 25 центов за 1000 распознанных каптч
Улучшения
Теперь A-Parser пропускает пустые запросы, это улучшение расширяет логику обработки запросов
В парсере
Net::HTTP не передаются пустые хедеры
В парсере
SE::Yandex::WordStat теперь корректно определяются аккаунты с заблокированной функцией парсинга вордстата
Исправления в связи с изменениями в выдачи
SE::Yandex,
SE::AOL
Исправления
В парсере
SE::Yandex::WordStat исправлена работа при редиректе на региональный домен, а также исправлена работа с устаревшими сессиями
Net::Whois не корректно работал с зоной .tr
В парсере
SE::Google невозможно было получить исходник страницы($data) при использовании антигейта
В парсере
SE::Yandex не сохранились сессии при использовании аккаунтов
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах