АРМАДА
A-Parser - продвинутый парсер ПС, Suggest, WordStat, PR, etc
На страницу Пред.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ... 13, 14, 15, 16, 17, 18, 19, 20, 21, 22  След.
Новая тема Написать ответ
Пт Июн 01, 2012 9:21 pm Start Post: A-Parser - продвинутый парсер ПС, Suggest, WordStat, PR, etc 

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пт Май 31, 2013 12:06 pmОтветить с цитатой
A-Parser - полностью обновленный сайт

Несколько важных новостей:


  • У нас полностью новый сайт, с полной интеграции с форумом. Все пользователи, новости и задачи были успешно перенесены
  • Мы подключили мерчант InterKassa, теперь мы принимаем к оплате:


    Подробнее на странице покупки A-Parser'а: Купить A-Parser
  • У нас новый саппорт: Viktoria (контакты)
  • Ко всем существующим видам связи(ICQ, Skype, Jabber, GoogleTalk, E-mail) мы добавили онлайн-чат с оператором на сайте


Подписывайтесь на новости и общайтесь на форуме!

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Июн 03, 2013 4:24 pmОтветить с цитатой
A-Parser - версия 1.0.37

Улучшения:

  • При добавлении быстрого задания теперь количество попыток выполнить запрос(Request retries) установлено в 200

Исправления:

  • Исправлен парсер SE::YouTube в связи с изменением в выдачи
  • Исправлено импортирование заданий(ошибка появилась в предыдущей версии)
  • Исправлена обработка каптчи у парсера SE::Google
  • Исправлен подсчет количества результатов(ошибка появилась в предыдущей версии)


Связанные задачи:
Цитата:
Ошибка #516: SE::YouTube broken
Ошибка #515: Bug when importing/loading tasks(introduced in 1.0.27)
Ошибка #479: Fix again Google captcha
Ошибка #478: Fix counting results from arrays(bug introduced in 1.0.27)
Улучшение #523: Tasks added from Quick Task now have Request retries = 200
Улучшение #480: Validating parser/preset exists before adding task


Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Вт Июн 11, 2013 2:53 pmОтветить с цитатой
A-Parser - версия 1.0.49

Улучшения в парсере гугла:

  • CaptchaKiller - убийца каптчи для парсера SE::Google - теперь можно парсить inurl: даже на паблик проксях!

    В последнее время Google довольно сильно ужесточил парсинг с операторами(inurl:, site: и т.д.), постоянно показывая каптчу(проверочную картинку), что не позволяло спарсить результаты выдачи без использования хороших проксей или сервиса АнтиКаптча. Это улучшение позволяет A-Parser'у автоматически обходить каптчу без использования сервисов



    Сравнение парсинга с CaptchaKiller и без на форуме


  • Теперь дополнительно парсятся рекламные блоки - ссылка, анкор и сниппет, что позволяет собрать список конкурентов в Google AdWords
  • Также парсер SE::Google теперь сохраняет сессии что позволяет парсить еще быстрее, получая меньшее число ошибок

Улучшения в сохранении результатов:

  • Теперь в имени файла результата можно использовать все макросы доступные в Result format, что позволяет в имени файла использовать любую часть результата или запроса(пример: при парсинге Google PR сохранять ссылки в файлы 0.txt - 10.txt, где цифра означает PageRank)
  • Теперь возможно указать папку(с неограниченной вложенностью) для сохранения результата
  • Комплексный пример: {date}_{time}/parser1({pr}).txt - будет создавать новую папку с текущей датой и временем и автоматически сортировать результаты по файлам

Остальные улучшения:

  • В качестве запросов можно использовать файлы из папки с результатами
  • В парсере SE::Yandex появился новый результат {misspell} определяющий посчитал ли Яндекс запрос опечаткой или нет
  • В ProxyChecker изменена проверочная ссылка по умолчанию
  • В API теперь возможно отключить ведение логов
  • В парсерe SE::Yahoo убраны результаты {totalcount} и trending[] в связи с изменением в выдаче
  • В ProxyChecker теперь возможно отключить проверку загруженных проксей - все прокси будут считаться живыми

Исправления парсеров в связи с изменением в выдаче:

  • SE::Bing - не парсились релейтед кейворды
  • SE::Yahoo - не парсилась основная выдача и релейтед кейворды
  • SE::AOL - не парсилась выдача
  • SE::Yandex::Suggest - в некоторых случаях не парсились кейворды
  • SE::Yandex - исправлена логика при показе каптчи
  • SE::Yandex::WordStat - исправлена логика при показе каптчи
  • SE::YouTube - не учитывались параметры фильтров
  • Rank::Alexa - не парсился основной рейтинг
  • Rank::Ahrefs - не парсилось количество беклинков


Полный список изменений тут: 1.0.49

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пт Июн 14, 2013 7:54 amОтветить с цитатой
A-Parser - версия 1.0.60

Улучшения в CaptchaKiller для парсера SE::Google

Исправлена загрузка каптчи в SE::Yandex::WordStat и работа фильтров в SE::YouTube

Полный список изменений тут: 1.0.60

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Июл 03, 2013 11:51 amОтветить с цитатой
A-Parser - версия 1.0.69

Новый парсер HTML::TextExtractor - парсит текстовые блоки с указанной страницы, можно использовать для парсинга огромного количества текста для наполнения своих сайтов и доров, можно настроить минимальную длину текстового блока для парсинга



В парсере Net::HTTP появилась возможность использовать POST и HEAD запросы, пример парсинга с POST запросом:



Другие улучшения:


  • Теперь в формате результата есть возможность указать исходный запрос - {firstquery}, позволяет при парсинге в глубину сохранять результаты по файлам с именами изначальных запросов
  • В парсер Net::Whois добавлен парсинг NS серверов и статусов доменов
  • В парсере Net::Whois теперь используется единый формат даты регистрации и окончания регистрации - dd.mm.yyyy для всех зон
  • Новые результаты для всех парсеров:

    • {retries} - использованное количество попыток на данный запрос
    • {querynum} - порядковый номер запроса
    • {lvl} - уровень вложенности запроса(при использовании опций Parse all results, Parse to level)

  • Для парсера Net::HTTP добавлен параметр Max redirects count - определяет максимальное количество редиректов
  • Для всех парсеров SE::Google::* добавлен домен www.google.by
  • Теперь есть возможно указать задержку между запросами(актуально только при парсинге в 1 поток)

Исправления:

  • Исправлен парсинг подсказок SE::Bing::Suggest
  • Исправлено сохранение результатов с двоичными данными(изображения, видео и т.п.)

Подробнее тут: 1.0.69

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пт Июл 12, 2013 1:39 pmОтветить с цитатой
A-Parser - версия 1.0.71

Мини-апдейт, исправляет ошибки:

  • В предыдущей версии перестал работать Util::AntiGate, следствием чего перестала работать возможность распознавания каптчи(в парсерах Google, Yandex и т.п.)
  • В конструкторе результатов(Results builder) не работала функция замены по регулярному выражению(Regex Replace)
  • Парсер падал если не мог создать папку с результатами

Подробнее тут: 1.0.71

В данный момент ведется активный перенос парсера на обновленную платформу и сокращение времени выпуска новых версий(на данный момент компиляция всем пользователям занимает около 2ух дней)

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пт Июл 26, 2013 9:57 amОтветить с цитатой
A-Parser - версия 1.0.81

В этой версии только экстренные исправления в связи с изменением в выдаче:

  • SE::YouTube
  • Rank::Alexa
  • Rank::MajesticSEO

Также исправлена некорректная работа парсера при использовании UTF-8 в регулярных выражениях

Подробнее тут: 1.0.81

Перенос парсера на новую платформу, начатый около 2ух недель назад, подходит к концу и в ближайшее время будет доступна бета-версия.

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Авг 05, 2013 9:00 amОтветить с цитатой
A-Parser - версия 1.0.91

Новый парсер SE::Yandex::WordStat::ByDate - парсит статистику показов ключевых слов Yandex WordStat по месяцам или неделям:


Новый парсер SE::Baidu - парсит поисковую систему baidu.com, популярную в китае и японии:


Теперь парсер гугла SE::Google может парсить по новостям и блогам:


Парсер Яндека SE::Yandex дополнительно парсит рекламные объявления в выдаче:


Другие улучшения:

  • Можно выбрать несколько файлов для обработки - на каждый файл будет создано свое задание:




  • Теперь в апарсере есть новости и подсказки на английском и русском:



  • В парсере Net::HTTP появилась возможность указать Cookies
  • В парсер HTML::TextExtractor добавлена возможность отключить парсинг анкоров у ссылок

Исправления:

  • Исправлен парсер Rank::Ahrefs в связи с изменением в выдаче
  • Исправлена ошибка при которой парсер мог упасть при большом числе файлов запросов
  • Исправлена работа конструктора результатов Results builder при использовании макроса {query}
  • Отсутствовала прокрутка в тестовом парсинге
  • Иногда число активных заданий могло уменьшаться

Подробнее тут: 1.0.91

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Сб Авг 10, 2013 3:10 pmОтветить с цитатой
A-Parser - версия 1.0.95

Исправление парсера SE::Yandex::WordStat - Яндекс целиком изменил сервис и мы одни из первых исправили парсер Smile
Версия с поддержкой каптчи выйдет немного позже.
Также исправлен парсинг ссылок объявлений в парсере SE::Yandex

Подробнее тут: 1.0.95

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Авг 19, 2013 8:37 amОтветить с цитатой
A-Parser - версия 1.0.99

Вновь исправлен SE::Yandex::WordStat в связи с изменением в выдаче, также возвращена поддержка работы с антигейтом и теперь автоматически сохраняются хорошие сессии для экономии прокси и каптч

Улучшения в Extract Top Domain(в Query Builders, Results Builders и в уникализации результатов) - теперь парсер корректно определяет все региональные поддомены вида *.org.ru, *.co.uk и др.

Обновлен список языков для всех парсеров гугла SE::Google::*

Исправления:

  • В парсере HTML::LinkExtractor некорректно обрабатывались ссылки mailto: и javascript:, также теперь по умолчанию этот парсер не переходит по редиректам
  • В парсере SE::Bing исправлена ошибка при которой A-Parser мог падать в некоторых случаях
  • Исправлено зависание при парсинге SE::Baidu
  • В интерфейсе иногда могли пропадать настройки парсеров
  • Исправлен SE::YouTube в связи с изменением в выдаче

Подробнее тут: 1.0.99

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Авг 26, 2013 8:11 amОтветить с цитатой
A-Parser - версия 1.0.111

Расширение API:

  • Новый метод info - получение информации о PID, версии парсера и количества заданий в очереди
  • Новый метод getTaskConf - получение полных настроек задания по его ID
  • AParser.pm - Perl модуль, реализует текущее API

Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate полностью исправлены после последних обновлений Яндекса. Средняя скорость проверки теперь составляет 5000 кейвордов в минуту без использования антигейта.

В парсеры SE::Bing::Suggest и SE::Yahoo::Suggest добавлена опция Parse to level позволяющая автоматически подставлять найденые подсказки опять в запросы, тем самым происходит парсинг вглубь до 10 уровней вложенности

В парсере Rank::MajesticSEO теперь можно проверить количество беклинков у конкретной страницы сайта

Исправлены:

  • SE::DMOZ - в связи с изменение в выдаче
  • Опция Match subdomains(проверка сабдоменов) во всех парсерах позиций сайта(Positions) - ошибка появилась в предыдущей версии

Подробнее тут: 1.0.111

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пт Сен 06, 2013 1:44 pmОтветить с цитатой
A-Parser - версия 1.0.119

Новый метод уникализации DataBase - не использует оперативную память, 100% точность. Убраны старые методы Dynamic, DynamicHash, 16-64mb как неактуальные, подробности тут

Реализовано лимитирование потоков, в случае превышения потоков в задании парсер выдаст ошибку и не запустит задание. На Windows лимит установлен в 2000 потоков, на Linux в 10000(или меньше если ulimit -n меньше)

Исправлена обработка каптчи в парсере SE::Yandex. Также теперь можно указать регион поиска в цифровом формате через Extra query string, возможность выбора региона из списка сохраняется

В API добавлена возможность переопределить настройки пресета в методах oneRequest и bulkRequest. Добавлен новый метод getParserPreset - позволяет изучить доступные настройки для каждого парсера. Обновлен модуль AParser.pm

Добавлен парсер новой поисковой системы SE:: DuckDuckGo

Обновлен список доменов гугла в парсере SE::Google. Также теперь парсер гугла может определять ошибочно был введен запрос или нет(результат {misspell})

Исправления:

  • Иногда ссылка на первый ролик в SE::YouTube парсилась некорректно
  • Исправлено падение в некоторых случаях после постановки задания на паузу
  • Исправлен двойной запуск задачи после паузы, баг появился в одной из предыдущих версий
  • При дублировании задания частично пропадали настройки Results Builder

Подробнее тут: 1.0.119

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Окт 02, 2013 9:35 amОтветить с цитатой
A-Parser - версия 1.0.130

Важное улучшение - теперь все парсеры(а их 43) проходят ежедневное автоматическое тестирование, что позволяет оперативно реагировать на изменения в выдаче или работе всех сервисов, с которыми работает A-Parser.

Улучшения:

  • Новый макрос результата {dump} - выводит в удобном виде все результаты получаемые парсером
  • Улучшен парсинг SE::AOL - теперь необходимо гораздо меньше попыток для успешного парсинга
  • Теперь парсер SE::Bing парсит до 1000 результатов с каждого запроса
  • В парсере SE::Google:: PR если у домена или страницы нету PageRank то в результате выведет -1
  • Парсер SE::DMOZ переименован в Rank::DMOZ

Исправления:

  • Исправлена работа уникализации результатов в тесте A-Parser'а
  • Исправлено автоматическое удаление временных файлов при работе уникализации
  • Rank::Alexa в связи с изменением в выдаче
  • SE::Google::Compromised в связи с изменением в выдаче
  • SE::QIP в связи с изменением в выдаче
  • SE::DuckDuckGo в связи с изменением в выдаче
  • SE::Yandex::WordStat в связи с изменением в выдаче
  • Rank::DMOZ ошибка при проверке домена с www.
  • Rank::Ahrefs в связи с изменением в выдаче

Подробнее тут: 1.0.130

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Окт 14, 2013 8:02 amОтветить с цитатой
A-Parser - версия 1.0.148

Новый парсер SE::Yandex:: Direct::Frequency - проверка частотности ключевых слов через Яндекс.Директ.
Без распознавания каптчи средняя скорость проверки 3000 ключевых слов в минуту при 500 потоках:


На хороших проксях и при большем числе потоков можно добиться скорости более 20000 кеев в минуту

В парсере HTML::TextExtractor теперь корректно обрабатываются списки(<select>)

Исправления в связи с изменением в выдаче:

  • Rank::Alexa
  • SE::Google - определение запросов по которым нет результатов

Другие исправления:

  • Исправлена логика работы Parse all results(Parse to level) совместно с макросами перебора букв(или фраз из файла)
  • При парсинге SE::YouTube в некоторых случаях некорректная обработка UTF-8 могла приводить к падению парсера
  • При парсинге SE::Yandex::WordStat::ByDate с пустым запросом парсер падал с ошибкой
  • В Perl-модуле AParser.pm исправлено добавление задания с запросами из файла(для пользователей с Enterprise лицензией)
  • Парсер SE::Yandex мог прекратить парсинг запроса если прокси вернула некорректный редирект(актуально для паблик-прокси)
  • Исправлено некорректное сохранение данных в UTF-8 во многих парсерах
  • Редактирование задания в очереди приводило к невозможности запустить это задание(с ошибкой о несуществующем файле запросов)

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пт Окт 25, 2013 8:11 amОтветить с цитатой
A-Parser - версия 1.0.154

В связи с тем что WordStat теперь можно парсить только используя аккаунты появился новый парсер SE::Yandex::Register - автоматически регистрирует тысячи аккаунтов используя антигейт.


На скриншоте пример регистрации 1000 аккаунтов за 15 минут. Скорость ограничена возможностями антигейта.

Парсеры SE::Yandex::WordStat и SE::Yandex::WordStat::ByDate теперь поддерживают авторизацию и позволяют парсить миллионы кейвордов и проверять частотность без использования антигейта. Теперь затраты на каптчу только при регистрации аккаунтов!



Другие улучшения:

  • Теперь A-Parser поддерживает неограниченное число вложенных запросов(при использовании опции Parse to level)
  • Теперь все парсеры позиций сайтов по ключевым словам могут сравнивать искомую позицию по домену, по главному домену и по полной ссылке(опция Match type)
  • В парсер SE::Yandex добавлен результат geo, который определяет является ли запрос гео-зависимым(предупреждение о показе результатов для конкретного региона)

Исправления:

  • Исправлен парсер подсказок SE::Google::Suggest в связи с изменением в выдаче
  • Исправлен парсер SE:: DuckDuckGo - в связи с изменением в выдаче некорректно определял последнюю страницу
  • При использовании очень больших файлов запросов парсер мог вылетать при возобновлении работы задания после паузы

Подробнее тут: Версия 1.0.154
Новая тема Написать ответ    ГЛАВНАЯ ~ РЕКЛАМА И ОБЪЯВЛЕНИЯ

Перейти:  





Генеральный спонсор



Партнеры