На страницу Пред. 1, 2 |
|
Вс Июл 24, 2016 2:46 pm |
Start Post: Как использовать базу спарсенных главных страниц? |
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы). |
|
|
|
|
|
|
John Doe V.I.P. |
Зарегистрирован: 25.06.2010
Сообщений: 4332
|
Обратиться по нику
|
John Doe |
Ответить с цитатой | | |
|
azsx писал(а): |
сделаю каталог сайтов.
|
По какому принципу там будут распределяться сайты? Каталоги тоже разные бывают. |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
пока не знаю. Каталога же еще нет.
но думаю тут сделать то всё можно не сложно, по любому параметру, по которому можно создать поле (например ip) - можно сделать выборку. |
|
|
|
|
|
|
Сergio Гуру |
Зарегистрирован: 08.07.2013
Сообщений: 1283
|
Обратиться по нику
|
Сergio |
Ответить с цитатой | | |
|
azsx, а зачем тебе паскаль и основы БД? Работаешь программистом? Или для учебы нужно? |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Просто интересно, занимаю этим в свободное время. Конечно ресурсов не хватет.
Многие другие вещи меня волнуют очень слабо, которыми обычно забивают свою жизнь другие люди.
---
моя работа ТП финансистов гос служащих. С одной стороны там программирование требуется иногда, с другой стороны программа может целый тех процесс заменить, на котором работают люди (короче сокращает работу у людей). Поэтому программ я не пишу.
Паскаль - потому что другие языки для меня сложные.
зы
пошли разговоры за жизнь уже
Вы Сergio чем занимаетесь? |
|
|
|
|
|
|
Yabuti V.I.P. |
Зарегистрирован: 28.11.2008
Сообщений: 16263
|
Обратиться по нику
|
Yabuti |
Ответить с цитатой | | |
|
azsx писал(а): |
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).
|
Да только если домены хорошие чекнуть, в смысле, трастовые и свободные для регистрации, которые уже разделегированы. Либо на возможность комментирования проверить и базу dofollow-блогов составить для быстрой индексации. |
|
|
|
|
|
Ксен ВПС и выделенные серверы от PQCService.net с бесплатным администрированием в 7 локациях, icq: 87244588
-- |
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Yabuti спасибо. Например, у меня заодно парсятся ссылки с главных. Таким образом я могу фиксировать ситуации, когда ссылка на домен есть - а сам донор разделегирован. Подумаю.
Как еще можно отверить траст для миллионо доменов?
Цитата: |
Либо на возможность комментирования проверить и базу dofollow-блогов составить для быстрой индексации.
|
Хрумер у меня есть (надо продлять), методы сбора площадок под спам мне известны. Толку от моей базы будет только урлы миллиониками и исключить совсем дохлое изначально (типа на странице только hello). Такое же я соберу хрефером без напряга. |
|
|
|
|
|
|
Сergio Гуру |
Зарегистрирован: 08.07.2013
Сообщений: 1283
|
Обратиться по нику
|
Сergio |
Ответить с цитатой | | |
|
Цитата: |
Вы Сergio чем занимаетесь?
|
Вебмастер самоучка. Пытаюсь заработать в интернете, раскручивая свои сайты. |
|
|
|
|
|
|
Doc V.I.P. |
Зарегистрирован: 31.03.2010
Сообщений: 4909
|
Обратиться по нику
|
Doc |
Ответить с цитатой | | |
|
Цитата: |
В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных.
|
Цитата: |
моя работа ТП финансистов гос служащих.
|
Похоже, у тебя на работе куча свободного времени. С такими ресурсами можно было бы и майнингом заняться. |
|
|
|
|
|
|
Skyworker V.I.P. |
Зарегистрирован: 25.12.2013
Сообщений: 11497
|
Обратиться по нику
|
Skyworker |
Ответить с цитатой | | |
|
azsx писал(а): |
Yabuti спасибо. Например, у меня заодно парсятся ссылки с главных. Таким образом я могу фиксировать ситуации, когда ссылка на домен есть - а сам донор разделегирован. Подумаю.
Как еще можно отверить траст для миллионо доменов?
|
Этого мало будет для поиска хороших дропов, нужно еще уметь топы Гугла проверять на трафф для таких доменов. А так-то показатели могут быть хорошими, а толку от таких доменов ноль. |
|
|
|
|
|
Надежный и отзывчивый VPS хостинг для серьезных проектов -|||- Топовая партнерка под серый крипто-трафф |
Toulan V.I.P. |
Зарегистрирован: 12.07.2012
Сообщений: 3172
|
Обратиться по нику
|
Toulan |
Ответить с цитатой | | |
|
azsx, а зачем тебе все это? Планируешь продавать базу или сам в вебмастера решил податься? |
|
|
|
|
|
|
|