АРМАДА
Как использовать базу спарсенных главных страниц?
На страницу Пред.  1, 2
Новая тема Написать ответ
Вс Июл 24, 2016 2:46 pm Start Post: Как использовать базу спарсенных главных страниц? 

John Doe
V.I.P.
Зарегистрирован: 25.06.2010
Сообщений: 4332
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 12:19 pmОтветить с цитатой
azsx писал(а):
сделаю каталог сайтов.


По какому принципу там будут распределяться сайты? Каталоги тоже разные бывают.

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 12:43 pmОтветить с цитатой
пока не знаю. Каталога же еще нет.
но думаю тут сделать то всё можно не сложно, по любому параметру, по которому можно создать поле (например ip) - можно сделать выборку.

Сergio
Гуру
Зарегистрирован: 08.07.2013
Сообщений: 1283
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 1:21 pmОтветить с цитатой
azsx, а зачем тебе паскаль и основы БД? Работаешь программистом? Или для учебы нужно?

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Чт Июл 28, 2016 3:39 amОтветить с цитатой
Просто интересно, занимаю этим в свободное время. Конечно ресурсов не хватет.
Многие другие вещи меня волнуют очень слабо, которыми обычно забивают свою жизнь другие люди.
---
моя работа ТП финансистов гос служащих. С одной стороны там программирование требуется иногда, с другой стороны программа может целый тех процесс заменить, на котором работают люди (короче сокращает работу у людей). Поэтому программ я не пишу.
Паскаль - потому что другие языки для меня сложные.
зы
пошли разговоры за жизнь уже Smile
Вы Сergio чем занимаетесь?

Yabuti
V.I.P.
Зарегистрирован: 28.11.2008
Сообщений: 16263
Contest (Сумма: 2)
Обратиться по нику
# Добавлено:Чт Июл 28, 2016 4:54 amОтветить с цитатой
azsx писал(а):
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше Smile
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).


Да только если домены хорошие чекнуть, в смысле, трастовые и свободные для регистрации, которые уже разделегированы. Либо на возможность комментирования проверить и базу dofollow-блогов составить для быстрой индексации.
Ксен ВПС и выделенные серверы от PQCService.net с бесплатным администрированием в 7 локациях, icq: 87244588
--

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Чт Июл 28, 2016 5:52 amОтветить с цитатой
Yabuti спасибо. Например, у меня заодно парсятся ссылки с главных. Таким образом я могу фиксировать ситуации, когда ссылка на домен есть - а сам донор разделегирован. Подумаю.
Как еще можно отверить траст для миллионо доменов?
Цитата:
Либо на возможность комментирования проверить и базу dofollow-блогов составить для быстрой индексации.


Хрумер у меня есть (надо продлять), методы сбора площадок под спам мне известны. Толку от моей базы будет только урлы миллиониками и исключить совсем дохлое изначально (типа на странице только hello). Такое же я соберу хрефером без напряга.

Сergio
Гуру
Зарегистрирован: 08.07.2013
Сообщений: 1283
Обратиться по нику
# Добавлено:Чт Июл 28, 2016 8:53 amОтветить с цитатой
Цитата:
Вы Сergio чем занимаетесь?


Вебмастер самоучка. Пытаюсь заработать в интернете, раскручивая свои сайты.

Doc
V.I.P.
Зарегистрирован: 31.03.2010
Сообщений: 4909
Обратиться по нику
# Добавлено:Пт Июл 29, 2016 3:19 pmОтветить с цитатой
Цитата:
В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных.


Цитата:
моя работа ТП финансистов гос служащих.


Похоже, у тебя на работе куча свободного времени. С такими ресурсами можно было бы и майнингом заняться. Wink

Skyworker
V.I.P.
Зарегистрирован: 25.12.2013
Сообщений: 11497
Обратиться по нику
# Добавлено:Вс Июл 31, 2016 4:37 amОтветить с цитатой
azsx писал(а):
Yabuti спасибо. Например, у меня заодно парсятся ссылки с главных. Таким образом я могу фиксировать ситуации, когда ссылка на домен есть - а сам донор разделегирован. Подумаю.
Как еще можно отверить траст для миллионо доменов?

Этого мало будет для поиска хороших дропов, нужно еще уметь топы Гугла проверять на трафф для таких доменов. А так-то показатели могут быть хорошими, а толку от таких доменов ноль.
Надежный и отзывчивый VPS хостинг для серьезных проектов -|||- Топовая партнерка под серый крипто-трафф

Toulan
V.I.P.
Зарегистрирован: 12.07.2012
Сообщений: 3172
Обратиться по нику
# Добавлено:Пн Авг 01, 2016 12:39 pmОтветить с цитатой
azsx, а зачем тебе все это? Планируешь продавать базу или сам в вебмастера решил податься?
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры