Ср Фев 04, 2009 5:15 pm |
Start Post: как правильно собирать базы (msn/google).. |
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
как правильно собирать базы (msn/google) :
1) С фильтром или без него ?
(filter=0 ; по умолчанию тама фильтр включен/выключен ? )
3) в МСН параметр "inurl:" кажеться неработает, т.к. воспринимаеться как текст, а не как параметр.
-- Вопрос: а какими аналогами можно тама заменить этот тег ? .. или технология сбора базы, без спец. запросов у кого то есть ?
2) каким способом можно собрать базу по 16000 признакам ( с гугля или мсн/ливе) ?
т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ?
что для этого надо/ потребуеться ?
Кто знает, - какие есть серверные парсельщики (на перл/ а лучьше на пхп), также чтоб работали тама где есть Curl.. |
|
|
|
|
Hello_Kitty V.I.P. |
Зарегистрирован: 30.04.2007
Сообщений: 10763
|
Обратиться по нику
|
Hello_Kitty |
Ответить с цитатой | | |
|
Цитата: |
Вообще, при сборе базы (с гугля) по признакам .. inurl , и неюзаю прокси..
.. а парс делаю через реал/одни ИП. (мой)
Насколько быстро можно схватит "бан" и на сколько часов ?
|
очень быстро, за пару минут забанят по ИП и на пару часов обычно.
Цитата: |
я думаю тема есть четкая форума -
определения время до бана, зависимости от ИП
|
нет особо четкой формулы, по крайней мере об этом нигде не афишируется.
Цитата: |
При (парс делаю через реал/одни ИП. (мой)) во сколько сек сделать паузу меджу запросами ?
|
2 секунды вроде бы достаточно.
Цитата: |
также, СЕ Гугль, может определить, что запросы, к нему .. идут с прокси ? .. и это будет способствовать быстрее блокировке, нежели парс идет с реал/одно ИП.
|
кажется не может определять. дело именно в частоте и интенсивности запросов с одного ИП.
не важно прокси это или реал ИП. |
|
|
|
|