АРМАДА
Как использовать базу спарсенных главных страниц?
На страницу 1, 2  След.
Новая тема Написать ответ

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Вс Июл 24, 2016 2:46 pmДобавить в избранноеОтветить с цитатой
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше Smile
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).

niramus +
Опытный
Зарегистрирован: 05.12.2009
Сообщений: 477
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Вс Июл 24, 2016 4:11 pmОтветить с цитатой
azsx писал(а):
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше Smile
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).



Больше таких как ты тупо учащихся БД?

Ты по книгам учишься?

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Вс Июл 24, 2016 4:37 pmОтветить с цитатой
по книге.

niramus +
Опытный
Зарегистрирован: 05.12.2009
Сообщений: 477
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Вс Июл 24, 2016 5:03 pmОтветить с цитатой
azsx писал(а):
по книге.



Как книга называется?
Дай линк на платную версию книги
Я тоже пока еще думми

Dentz
V.I.P.
Зарегистрирован: 04.04.2014
Сообщений: 2170
Обратиться по нику
# Добавлено:Пн Июл 25, 2016 9:50 amОтветить с цитатой
Цитата:
надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)


Было бы гораздо интереснее, если бы ты парсил только текстовый контент или емейл адреса.

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Пн Июл 25, 2016 10:47 amОтветить с цитатой
niramus я вам отвечу немного позже, книга в читалке, никак не могу домой добраться.
Dentz логично, что я в том числе могу выделять email. Сейчас я ради любопытства парсю альты и ссылки с главных. Предлагают муторный способ убедится, что покупные анкоры в топе яндекса не работают, но некоторый просмотр альтов меня уже почти убедил без эксперементов. Также любопытно сделать авто собираемый каталог (на 6 лямов страниц в хтмл у меня еще не было).
Выделять только текстовой контент, это не так просто для мира. Кодировки - это ваще капец. Некоторые задумки есть, только вот надо ли оно мне пытаться в одиночку перебороть наработки яндекса и гугла по анализу контента? Что я с этим делать то буду?
---
То есть как бы если понять зачем - то можно упереться, переписать, поиск сделать по шинглам прямо по хтмл коду и прочее. Но вот зачем???

Coooler
V.I.P.
Зарегистрирован: 21.06.2010
Сообщений: 4368
Обратиться по нику
# Добавлено:Пн Июл 25, 2016 2:26 pmОтветить с цитатой
azsx, что делать с уже готовой базой я не знаю, но если умеешь парсить, то вполне на этом можно зарабатывать деньги. Можно, к примеру, узнать, по каким запросам конкуренты получают посетителей, наполнять сайты, парсить RSS ленты...

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Вт Июл 26, 2016 4:24 amОтветить с цитатой
niramus PostgreSQL. Для профессионалов http://www.ozon.ru/context/detail/id/1301929/
сд рома у меня нет, так как я ваще экономный и редко чо покупаю. зы как по мне так постгрес ваще слабо приспособлен из коробки под мою задачу.
---
Цитата:
по каким запросам конкуренты получают посетителей


Coooler интересная идея, сделать базу типа moab. Только надо сперва этим заняться, надо перебрать кучу счетчиков, которые могут отдавать в открытом виде запросы или хотя бы урлы страниц и прочую инфу, а также написать под каждый парсер. Но это ведь ваще много всего делать надо...

ceber
V.I.P.
Зарегистрирован: 13.05.2010
Сообщений: 4290
Обратиться по нику
# Добавлено:Вт Июл 26, 2016 10:17 amОтветить с цитатой
azsx, может разместишь объяву на какой-нибудь бирже фриланса? Тебе люди сами напишут, что им надо. Заодно и деньги заработаешь.

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Вт Июл 26, 2016 10:48 amОтветить с цитатой
хихи. На форуме оптимизаторов не знают нафига этот хлам нужен. а на фрилансе знают?
Может тогда сразу на серч, минусов нахватать?

Странник
V.I.P.
Зарегистрирован: 28.06.2010
Сообщений: 4617
Обратиться по нику
# Добавлено:Вт Июл 26, 2016 2:46 pmОтветить с цитатой
azsx, далеко не все умеют самостоятельно парсить и обладают нужным для этого функционалом.

Skyworker
V.I.P.
Зарегистрирован: 25.12.2013
Сообщений: 11497
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 4:06 amОтветить с цитатой
azsx писал(а):
хихи. На форуме оптимизаторов не знают нафига этот хлам нужен. а на фрилансе знают?
Может тогда сразу на серч, минусов нахватать?

А нафига сообще такой софт писать, который ты сам не знаешь куда применить? По уму, сначала ставиться задача, а потом создается софт для автоматизации ее решения или ищется уже готовый программный продукт. А у тебя получилось все через задницу, и при этом ты от форумчан непонятно чего хочешь Shout
Надежный и отзывчивый VPS хостинг для серьезных проектов -|||- Топовая партнерка под серый крипто-трафф

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 5:02 amОтветить с цитатой
Цитата:
По уму, сначала ставиться задача, а потом создается софт


задача выполнена, я попробовал свои силы в обработке средних (до 100гб) БД. Запросы всякие попробовать, данные с угла в угол погонять. Многое узнал Smile
Софта там несколько тысяч строчек на паскале, несерьезно.
Цитата:
при этом ты от форумчан непонятно чего хочешь


на этом форуме сорвалось, особо полезных советов нет. На буржуй форуме, например, ваще обсмеяли, мол сделал он, полчаса и несколько дней парсинга - такое любой сделает, мол слишком простая задача. На одном из форумов дали совет как использовать. зы не всегда и не везде всё срастается сразу, иногда надо почитать насмешки, чтобы решить вопрос.

John Doe
V.I.P.
Зарегистрирован: 25.06.2010
Сообщений: 4332
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 8:14 amОтветить с цитатой
Цитата:
На одном из форумов дали совет как использовать.


Ну и как это можно применить? Smile

azsx
Свой
Зарегистрирован: 06.06.2009
Сообщений: 65
Обратиться по нику
# Добавлено:Ср Июл 27, 2016 11:43 amОтветить с цитатой
сделаю каталог сайтов.
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры