АРМАДА
A-Parser - продвинутый парсер ПС, Suggest, WordStat, PR, etc
На страницу Пред.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ... 13, 14, 15, 16, 17, 18, 19, 20, 21, 22  След.
Новая тема Написать ответ
Пт Июн 01, 2012 9:21 pm Start Post: A-Parser - продвинутый парсер ПС, Suggest, WordStat, PR, etc 

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Май 27, 2015 11:52 amОтветить с цитатой
Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Итак, продолжаем серию статей с рецептами применения A-parser: комплексные примеры с одновременным использованием различного функционала парсера.

Проверяем наличие мобильной версии для 1000000 сайтов

Работаем с большими объемами данных и учимся искать совпадения в raw data.


  • за 8 часов работы данного задания мы узнали что почти 41% самых посещаемых сайтов не имеют мобильных версий. Кто знает, возможно обзаведясь мобильной версией, они стали бы еще более посещаемыми?


По списку запросов получаем страницы, CMS, PR, e-mail из whois

Комплексное задание, выполняемое в 2 этапа, в котором мы учимся работать с несколькими парсерами, регулярными выражениями, а также красиво выводим результаты во многоуровневые каталоги и несколько файлов.


  • на первом этапе используется 1 парсер, на втором - 3
  • в конструкторе результатов используется регулярное выражения для извлечения необходимой информации
  • результаты выводятся в виде вложенных папок и текстовых файлов по следующей схеме:

Код:
PR_1
     \Joomla
           \domain.com
                   contacts.txt
                   cache.txt
      \Drupal
      \WordPress
     \no CMS
PR_2
PR_3



Узнать позиции по кеям, как?

Знакомимся с парсером SE::Google::Position и проверяем на каком месте в поисковой выдачи находится ключевое слово.


Детальнее о самом парсере здесь.

Предыдущие сборники:

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Вт Июн 02, 2015 12:26 pmОтветить с цитатой
Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Очередной, 4-й выпуск сборника рецептов. Поехали!

Анализ выдачи гугла на наличие ключа в тайтле и дескрипшене

Пользуемся возможностями шаблонизатора Template Toolkit. Используем циклы и поиск. А также сохраняем разные результаты в разные файлы.

В данном примере осуществляется поиск ключа в анкорах и сниппетах, и в зависимости от результата, сохраняет их в 1 из 3 соответствующих файлов. Все подробности, а также сохранение в 4-ре файла по ссылке выше.

Парсинг товаров с сайта

Парсим интернет-магазин и формируем свою HTML-страницу с результатами.

Суть задания заключается в том, чтобы спарсить названия и характеристики товара из интернет-магазина, сохранив привязку к категории и фото товара. Как все это сделать - по ссылке выше.

Скачиваем файлы

Сохраняем на жесткий диск различные документы из поисковой выдачи, с определением их типа, а также возможностью формировать уникальное имя файла.

Ну а здесь нам необходимо парсить из выдачи Гугла ссылки на документы формата doc, xls и pdf. Так же необходимо скачивать данные документы, при этом обеспечить уникальность имени файла. Детали - по ссылке выше.

Предыдущие сборники:

woodoo
Свой
Зарегистрирован: 15.07.2015
Сообщений: 1
Обратиться по нику
# Добавлено:Чт Июл 23, 2015 9:55 amОтветить с цитатой
Незаменимая вещь в моем хозяйстве)

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Вт Авг 04, 2015 1:22 pmОтветить с цитатой
Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

7-й выпуск сборника рецептов. Здесь мы рассмотрим вариант парсинга RSS, будем скачивать картинки в зависимости от их характеристик и научимся фильтровать результат по хедерам.

Парсинг RSS
На сегодняшний день RSS остаются довольно популярным вариантом доставки новостей и контента пользователям. В связи с этим его используют почти на всех сайтах, где бывает более-менее периодическое обновление информации. А для нас это возможность быстро спарсить свежие обновления сайта, не анализируя сам сайт. И один из способов, как это сделать описан по ссылке выше.


Как фильтровать результат по определенным хедерам?
Как известно, А-парсер предназначен для парсинга, в основном, текстовой информации. Но кроме этого им вполне реально парсить и другие обьекты (файлы, картинки и т.п.). При этом существует возможность фильтровать их по заголовкам ответа сервера. Об этом по ссылке выше.


Скачивание картинок указанного разрешения и размера
Если выше мы фильтровали результат только по хедерам и рассматривали вариант с документами, то в данной статье мы будем скачивать картинки и фильтровать их по размеру и разрешению. Как это сделать - можно увидеть по ссылке выше.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:


A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Вт Авг 18, 2015 9:53 amОтветить с цитатой
Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

8-й выпуск сборника рецептов. В нем мы будем парсить базу организаций из каталога 2GIS, научимся парсить подсказки из Youtube и напишем кастомный парсер Google translate.

Парсинг 2GIS
2GIS - это довольно большой справочник организаций России (и не только...) с возможностью просмотра их расположения на карте. База содержит более 1580000 организаций в 270 городах России. После парсинга представляет интерес как справочник сайтов, электронных адресов и телефонов организаций.


Парсинг Google Translate
В данной статье рассмотрен способ написания кастомного парсера Google translate на основе Net::HTTP. Также реализована возможность задавать направление перевода. Можно использовать для пакетного перевода больших обьемов текста.


Парсинг подсказок Youtube
Парсинг подсказок поисковых систем - довольно популярный способ поиска ключевых слов. В данной статье также используется Net::HTTP, с помощью которого создается кастомный парсер подсказок Youtube. Реализована возможность задавать язык и страну, а также использовать уже спаршенные подсказки в качестве новых запросов на нужную глубину.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Сен 16, 2015 7:06 amОтветить с цитатой
Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

9-й выпуск Сборника рецептов. В нем мы будем работать с ключевыми словами: проверять их сезонность и искать свободные ниши в рунете, проверяя "полезность" ключевиков.

Определение сезонности ключевых слов через Wordstat
Использование нужных ключевых слов в нужное время - один из способов привлечения дополнительного трафика на сайт. Для определения сезонности ключевых слов существует немало различных способов и сервисов. О том, как это делать с помощью А-Парсера - читайте по ссылке выше.


Поиск свободных ниш в RU сегменте интернета
Используя на сайте не только сезонные, а и "полезные" ключевые слова, можно значительно повысить шансы попасть в ТОП10 поисковиков. И если о сезонности мы писали ранее, то о "полезности", а точнее о "незанятости" ключевых слов мы поговорим в данной статье. Полезные или незанятые - это такие КС, которые пользователи часто ищут, но конкуренция по которым не очень высокая. Как их искать - читайте по ссылке выше.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

MrRobot
Свой
Зарегистрирован: 16.09.2015
Сообщений: 3
Обратиться по нику
# Добавлено:Вт Сен 22, 2015 7:01 pmОтветить с цитатой
Пользуюсь парсером часто, один из нужных инструментов в моем сео хозяйстве)

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Окт 07, 2015 6:19 amОтветить с цитатой
A-Parser - 1.1.292 - парсинг JSON, улучшения использования памяти, множество исправлений

Улучшения

  • Поддержка разбора JSON структур в шаблонизаторе
  • Добавлена опция "Конструктор запросов на всех уровнях", позволяющая использовать конструктор запросов на всех уровнях вложенного парсинга
  • При просмотре статистики работы задания теперь отображается общее число HTTP запросов
  • Новый инструмент отладки Gladiator, позволяющий быстро локализовать возможные утечки памяти

Исправления в связи с изменениями в выдачи

  • Исправлено определение наличия каптчи на этапе логина в парсере SE::Yandex::WordStat
  • Полностью переработан Rank::Ahrefs
  • Исправлен парсинг времени кэширования в SE::Yandex
  • Исправлен SE::Google::Images
  • Исправлен SE::Bing
  • Исправлен SE::Yahoo::Suggest

  • Исправлен SE::AOL

Исправления

  • Исправлен парсер SE::Yandex::TIC - ресурсы у которых тИЦ был неопределен отображались как тИЦ = 0, исправлено на тИЦ = -1
  • Исправлено множество утечек памяти
  • При замене в регулярных выражениях не работал символ переноса \n
  • При использовании большого числа переменных в конструкторе запросов или результатов они могли не влезать в видимую область

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Окт 14, 2015 8:30 amОтветить с цитатой
Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

10-й выпуск Сборника рецептов. В нем мы сделаем кастомный парсер поисковика search.disconnect.me и научимся парсить категории из сайтов с сохранением иерархии и путей к ним.

Парсер search.disconnect.me или альтернатива inurl Google
В одном из сообщений на форуме был упомянут довольно интересный сервис search.disconnect.me. Также в последнее время все чаще стали появляться сообщения о проблемах при парсинге Гугла с поисковыми операторами. А так как вышеупомянутый сервис позволяет парсить Гугл, при этом не выдавая каптч и без бана прокси, можно попробовать сделать для него парсер на основе Net::HTTP. Что из этого получилось - можно посмотреть по ссылке выше.



Парсинг дерева категорий с сохранением структуры
В версии 1.1.292 появилась новая опция Query Builders on all levels. С ее помощью можно регулировать, когда применять Конструктор запросов при парсинге "в глубину". И благодаря этой опции стало возможным парсить дерево категорий из сайтов с сохранением структуры. Как это работает - можно посмотреть по ссылке выше.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Чт Окт 22, 2015 10:25 amОтветить с цитатой
A-Parser - 1.1.323 - парсинг с помощью XPath, поддержка JavaScript в шаблонизаторе, тестировщик заданий

Улучшения

  • Добавлен новый Тестировщик заданий, позволяющий тестировать все задание целиком, включая использование нескольких парсеров, конструкторов запросов и результатов. Тестировщик позволяет просматривать результаты по каждому созданному файлу, а также отображает логи выполнения по каждому запросу
  • Для парсера Net::Whois добавлена опция Recursive query, которая позволяет получать расширенную версию WHOIS(контактные email адреса и т.п.)
  • Добавлена поддержка XPath запросов, сильно упрощающая разбор HTML документов
  • Добавлен новый инструмент tools.js, позволяющий исполнять JavaScript из шаблонизатора, теперь помимо возможности использовать JavaScript для обработки и вывода результатов стало возможно частично исполнять скрипты встроенные в HTML(Выборочная обработка JavaScript: расшифровка телефонов)




Исправления в связи с изменениями в выдачи

  • Исправлен парсинг рекламных объявлений в SE::Google

  • Исправлен парсер Rank::Ahrefs

  • Исправлен парсер Rank::DMOZ

Исправления

  • При использовании динамического имени файла append text теперь пишется один раз
  • Исправлена работа с ссылками, которые содержат некоторые символы Юникода в Net::HTTP
  • Исправлена обработка каптчи в SE::Yandex::Register
  • Исправлен парсинг подсказок в SE::Google::Suggest

NuPogodi
Свой
Зарегистрирован: 03.10.2015
Сообщений: 1
Обратиться по нику
# Добавлено:Вт Ноя 24, 2015 7:07 pmОтветить с цитатой
Постоянно пользуюсь парсером! Помогает во многом, имеет гибкую и понятную настройку. В нем имеется множество интсрументов для получения нужных результатов от парсинга контента до индексации сайтов, а так же многое другое!

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Чт Янв 14, 2016 12:58 pmОтветить с цитатой
A-Parser - 1.1.388 - новый парсер disconnect.me, улучшения в экспорте заданий

Улучшения

  • Добавлен парсер SE::DisconnectMe - поисковая система от бывших сотрудников Google, можно выбирать один из трех вариантов выдачи: Google, Bing, Yahoo
  • Теперь при сохранении пресета задания, сохраняется название файла запросов или сам список запросов
  • При экспорте задания, появилась возможность указать включать или нет запросы в код пресета, а также теперь отображается список настроек парсеров которые будут включены в код
  • В очереди заданий добавлена возможность свернуть\развернуть одновременно все задания на странице
  • В очереди заданий для свернутых заданий теперь отображается время выполнения
  • Увеличена скорость парсинга SE::Google

Исправления в связи с изменениями в выдачи

  • В SE::Google::Images больше не парсится параметр size
  • Исправлены SE::Google, SE::Google::TrustCheck, SE::Google::Compromised, SE::Ask, SE::Dogpile, Rank::Mustat, Rank::Category, SE::AOL

Исправления

  • A-Parser мог падать при использовании парсеров SE::Yandex::WordStat, SE::Dogpile, а также при использовании Просмотра логов после перезапуска парсера
  • В парсере Net::Whois не определялась дата экспайра для некоторых доменов
  • В парсере SE::Bing не корректно обрабатывались ссылки содержащие символ &


Обновление партнерской программы

Участвуйте в нашей партнерской программе рекламируя A-Parser в своих блогах и на форумах! Размер комиссии - 15%:

  • A-Parser Lite: $18
  • A-Parser Pro: $30
  • A-Parser Enterprise: $42



В обновленном интерфейсе доступна удобная статистика заработанных средств и выплат, а также список привлеченных пользователей

Подробнее про условия участия в партнерской программе читайте в соответствующем разделе

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Фев 08, 2016 3:06 pmОтветить с цитатой
A-Parser: видео урок по парсингу 2ГИС

Денис Бартаев рассказывает о парсинге информации о компаниях и их телефонов из базы 2ГИС



В выпуске рассматриваются

  • Использование парсера-паука HTML::LinkExtractor и его настройка для фильтрации ссылок
  • Работа с параметром Parse To Level
  • Использование парсера Net::HTTP и его настройка для выборки данных со страницы с помощью регулярных выражений
  • Создание Excel-таблицы из результатов парсинга


Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Пн Фев 29, 2016 9:52 amОтветить с цитатой
A-Parser - 1.1.434 - парсинг частотности Яндекс.Директ с большой скоростью, улучшения использования памяти

В этой версии проделана большая работа по добавлению поддержки агрегации запросов. Теперь парсер частотности ключевых слов SE::Yandex::Direct::Frequency может получать данные со скоростью 20000-50000 слов\минуту

Улучшения

  • Уменьшено потребление памяти при использовании большого числа потоков и\или нескольких парсеров в одном задании
  • Уменьшено потребление памяти при большой очереди завершенных заданий
  • В парсере SE::Yandex::Direct::Frequency добавлена возможность выбрать все регионы или выбрать несколько определенных
  • В парсере SE::Yandex::Direct::Frequency добавлена поддержка Яндекс аккаунтов, а так же поддержка AntiGate и парсинг по 500 ключевых слов за один запрос
  • В парсере SE::Yandex::Direct::Frequency добавлена возможность выбора периода за последний месяц, за определенный месяц, за квартал или за год

  • Для Windows и Linux улучшена поддержка юникода в именах файлах, независимо от языка интерфейса ОС
  • Добавлена возможность просматривать логи только неудачных запросов
  • В API добавлена возможность указать флаг removeOnComplete при добавлении задания, тем самым задания будут автоматически удалятся после завершения
  • В просмотре логов теперь можно выделить данные для копирования
  • В парсере Net::HTTP добавлен параметр Max cookies count, ограничивающий число Cookie для сохранения
  • В парсере Net::HTTP расширен список кодов ответов, а также добавлена возможность указать регулярное выражения для проверки кода ответа
  • В очереди заданий теперь можно искать необходимые задания по названию, номеру, подстроке в запросах, имени файлов запросов и результатов
  • В парсере HTML::LinkExtractor добавлена опция Check next page, позволяющая расширить логику перехода по ссылкам
  • Добавлена опция Page as new query, которая передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода

Исправления в связи с изменениями выдачи

  • В парсере SE::Yandex исправлен парсинг связанных ключевых слов
  • В парсере SE::Youtube исправлен парсинг количества видео по запросу
  • Исправлен парсинг Google Blogs в парсере SE::Google
  • Исправлены SE::AOL, SE::Ask, SE::Baidu, SE::Google, SE::Google::pR, SE::DisconnectMe, SE::QIP, SE::Yandex

Исправления

  • Исправлено отображение длинных выпадающих меню
  • Исправлена кодировка запросов в просмотре логов
  • Исправлено падение при использовании опции Parse to level в некоторых ситуациях
  • Исправлено падение в парсере SEO::ping
  • Прокси с авторизацией теперь сохраняются корректно в файл живых прокси alive.txt
  • Исправлена работа с прокси при указании пустой пары логин\пароль для авторизации
  • В парсере SE::Yandex::WordStat теперь при использовании опции Remove + from keywords плюсы удаляются также для фраз правого столбика
  • Исправлено экранирование символа + в HTTP запросах


Все изменения и описания новых возможностей скоро будут доступны в документации

A-Parser Support +
Опытный
Зарегистрирован: 02.06.2013
Сообщений: 279
Обратиться по нику
# Добавлено:Ср Мар 16, 2016 11:48 amОтветить с цитатой
A-Parser: видео урок - генерация sitemap.xml используя возможности JavaScript

Денис Бартаев рассказывает об использовании JavaScript в A-Parser:



  • Использование LinkExtractor
  • Показан пример разбора заголовков ответов
  • Введение в основы JavaScript
  • Использование возможностей tools.js для решения практической задачи

Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
Новая тема Написать ответ    ГЛАВНАЯ ~ РЕКЛАМА И ОБЪЯВЛЕНИЯ

Перейти:  





Генеральный спонсор



Партнеры