На страницу 1, 2 След. |
|
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
как правильно собирать базы (msn/google) :
1) С фильтром или без него ?
(filter=0 ; по умолчанию тама фильтр включен/выключен ? )
3) в МСН параметр "inurl:" кажеться неработает, т.к. воспринимаеться как текст, а не как параметр.
-- Вопрос: а какими аналогами можно тама заменить этот тег ? .. или технология сбора базы, без спец. запросов у кого то есть ?
2) каким способом можно собрать базу по 16000 признакам ( с гугля или мсн/ливе) ?
т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ?
что для этого надо/ потребуеться ?
Кто знает, - какие есть серверные парсельщики (на перл/ а лучьше на пхп), также чтоб работали тама где есть Curl.. |
|
|
|
|
|
porno |
Лена Гуру |
Зарегистрирован: 19.10.2005
Сообщений: 1203
|
Обратиться по нику
|
|
|
|
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
1) По умолчанию фильтр включен. Так что собирай с filter=0 то есть отключай фильтр.
а почему? я вот напр сегодня небольшой эксперимент провел.. и понял что при выключенном фильтре, слишком много повторов идет.. - хотя это надо еще учитывать - какие "Фразы" парсишь..
.. и убрал суффикс "&filter=0" из строки - линка.
3) Ответ тебе уже был дан и ты поблагодарил даже: http://www.armadaboard.com/viewtopic.php?p=4584864#4584864
Лен, спасибо.. я этот линк уже сегодня открывал..
то что тама выключено - я знаю... теперь мне надо узнать
"а какими аналогами можно тама заменить этот тег ? .. или технология сбора базы, без спец. запросов у кого то есть ? "
т.е. обходные пути.. - конечно - наверно, никто и неспалит бедной лошадке.. а может в личку. Нужна именно Технология т.е. это Мин. Теория и Макс. Практика ? - буду благодарен.
2) Парсером.
На perl парсер Аура есть: http://auraproff.biz
А сколько времени и проксей понадобиться чтоб "собрать базу по 16000 признакам ( с гугля или мсн/ливе) ? т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ? "
Вообщем, Реквестов на серч. = 80000
[offtop]
Лен, а почему ты с начало на 3-ий вопрос ответила, а потом уже на второй ?
[/offtop] |
|
|
|
|
|
porno |
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
Лена,
А у тебя был опыт "собрать базу по 16000 признакам ( с гугля или мсн/ливе) ? т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ? Вообщем, Реквестов на серч. = 80000 "
.. если да, то какие средства использовала ? |
|
|
|
|
|
porno |
iwfyb НЕ Спать! |
Зарегистрирован: 14.03.2008
Сообщений: 2862
|
Обратиться по нику
|
iwfyb |
Ответить с цитатой | | |
|
Ну для этого аура лучше всего.
Ну например 277 запросов яху при 5 потоках парсит около 1,5 часа. Ну это я серв просто жалею ща, там ешё скрипты стоят.
Вообщем возьми на месяц мощный серв и парси, это дело не совсем быстрое. Один поток жрет около 3 метров вроде.
1024/3 = 341. Т.е. на серве с гигом оперативы можно будет запускать 341 поток. Ну это отностительно все). + от прокси зависит
Вообще, имхо: легче купить - сам парсить просто заебешся! А ещё можно стукнуть чуваку, который продает базы, 90% работают именно с аурой и попросить его за денюжку по твоим запросам хуйнуть тебе базку. Чувак то в теме, а ты пока все расчехлишь...Но надо чтоб чувак нормальный был, что б не заюзал твои запросы потом |
|
|
|
|
|
TOP Links - Качественные ссылки для Ваших сайтов |
Cabal Гуру |
Зарегистрирован: 20.10.2007
Сообщений: 1360
|
Обратиться по нику
|
|
|
Cabal - патентованный зануда. |
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
Лена, насколько знаю крайняя Аура это не перл а питон.
а что ? пхп / с++ ?
(спасибо!)
Лена, отдельно к тебе еще вопрос:
В гугле - включить/выкл филтер ( можно суффиксом filter=0, сейчас неважно пока, надо или нет )..
а у МСН/LIVE включать/выкл фильтр, какими нить PATH праметрами (как в гугле) .. или через тама настройки ? -- возможно ?? |
|
|
|
|
|
porno |
Лена Гуру |
Зарегистрирован: 19.10.2005
Сообщений: 1203
|
Обратиться по нику
|
Лена |
Ответить с цитатой | | |
|
Цитата: |
а почему ты с начало на 3-ий вопрос ответила, а потом уже на второй ?
|
Потому что ты так сам сначала спросил. В свой первый пост посмотри - в каком порядке у тебя вопросы идут? Вот в том же порядке я и ответила.
Cabal, да обозналась. Проверила - там в дистрибутиве .py файлы (питоновские).
Цитата: |
А у тебя был опыт "собрать базу по 16000 признакам ( с гугля или мсн/ливе) ? т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ? Вообщем, Реквестов на серч. = 80000 "
.. если да, то какие средства использовала ?
|
С гугля только. Средство я уже назвала и посоветовала выше.
Цитата: |
Лена, насколько знаю крайняя Аура это не перл а питон.
а что ? пхп / с++ ?
(спасибо!)
|
Вот ты чудак-человек! Сам куда хочешь туда и отнеси питона - хоть к пхп хоть к с++
По остальным вопросам - не знаю, не смогу помочь. Как фильтр в Ливе отключать, нужно ли в Гугле отключать или не нужно, сколько времени и проксей тебе нужно, и прочие заковыристые вопросы вне моей компетенции уже. |
|
|
|
|
|
|
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
вот такой вот факт реальность -
что говорили, некоторые поники, что гугль засекает линк-спам если появляються линк-беки с доменов edu,gov,mil
т.е. из собранной базы необходимо отфильтровывать домены в зонах edu,gov,mil
edu,gov,mil ... А еще какие ?
( домен .org подпадает под это правило ? )
спасибо.
[offtop]Со мной сегодня, один человек .. отказался "знакомиться",
если в след. раз он также ответит мне отказом - то я покончу с собой прямо "тама"..
-- вот в чего перерасло обычное смазование губ с фразой - "Расслабь губы".
[/offtop] |
|
|
|
|
|
porno |
Li-Hua Чинамэн |
Зарегистрирован: 25.12.2005
Сообщений: 11544
|
Обратиться по нику
|
Li-Hua |
Ответить с цитатой | | |
|
Нет, это неверно. Наоборот ссылки с сайтов, которые находятся в зонах edu,gov,mil более трастовые. Ты либо не так понял что люди говорили либо не тех людей слушаешь. Предостерегают при спаме потому что овнеры edu-сайтов очень любят писать абузы когда их спамишь, поэтому перед спамом многие стараются вычистить базы от edu-сайтов. А зона .org вообще тут не при чем, она обычная такая же как .com и .net |
|
|
|
|
|
|
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
Да, Li-Hua, ты прав.. путаю.. именно, то что - "они абузы пишут, в этом проблема..",
спасибо что напомнил...
________________
вот еще Стандартный вопрос 2009 года:
inurl в МСН запрещен..
так как вы базу для линк-... собираете с МСН -а ?
ведь 99% признаков это именно inurl / allinurl ?
или теперь только с гугль есть возможнос собрать базу для линк-... ?
может у кого то есть "признаки" сбора для МСН чисто, которые бы работали.. неважно сколько 10 строк или 10к строк ?
пишите, я вас также отблагодарю .. |
|
|
|
|
|
porno |
iwfyb НЕ Спать! |
Зарегистрирован: 14.03.2008
Сообщений: 2862
|
Обратиться по нику
|
|
|
TOP Links - Качественные ссылки для Ваших сайтов |
Hello_Kitty V.I.P. |
Зарегистрирован: 30.04.2007
Сообщений: 10763
|
Обратиться по нику
|
Hello_Kitty |
Ответить с цитатой | | |
|
жаль Rastaman сюда не заходит, он бы тебе по MSN и по Live все разжевал.
он по ним Бог, это знают все.
Цитата: |
inurl в МСН запрещен..
так как вы базу для линк-... собираете с МСН -а ?
ведь 99% признаков это именно inurl / allinurl ?
или теперь только с гугль есть возможнос собрать базу для линк-... ?
|
да нету там теперь ничего взамен снятого с производства inurl.
Цитата: |
может у кого то есть "признаки" сбора для МСН чисто, которые бы работали.. неважно сколько 10 строк или 10к строк ?
|
"Ключевые слова для расширенного поиска":
contains:
filetype:
inanchor: или inbody: или intitle:
IP:111.22.333.444
language:en (language:ru и т.д.)
loc: или location:
prefer:
site:
feed:
hasfeed:
url:
- вот и все. больше нет операторских команд. |
|
|
|
|
|
|
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
Вообще, при сборе базы (с гугля) по признакам .. inurl , и неюзаю прокси..
.. а парс делаю через реал/одни ИП. (мой)
Насколько быстро можно схватит "бан" и на сколько часов ?
я думаю тема есть четкая форума -
определения время до бана, зависимости от ИП
При (парс делаю через реал/одни ИП. (мой)) во сколько сек сделать паузу меджу запросами ?
также, СЕ Гугль, может определить, что запросы, к нему .. идут с прокси ? .. и это будет способствовать быстрее блокировке, нежели парс идет с реал/одно ИП. |
|
|
|
|
|
porno |
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21802
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
iwfyb писал(а): |
А ты разузнал каким запросом яху парсить ща?
|
яху или МСН.
МСН получаеться.. тама в агрессоре надобыло чуть шаблон поменять на гугль и мсн - для нахождения след. линки..
Яху - пока непробовал парсить.. (.. это все потом, после полного освоения гугля/мсн-а)
но думаю - возможно все.. главное шаблон правильно составить... |
|
|
|
|
|
porno |
|