На страницу 1, 2 След. |
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы). |
|
|
|
|
|
|
niramus + Опытный |
Зарегистрирован: 05.12.2009
Сообщений: 477
|
Обратиться по нику
|
niramus + |
Ответить с цитатой | | |
|
azsx писал(а): |
Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)?
Сейчас проблемы требующие улучшения масштабирование до уровня yacu, кодировки (азиаты и арабы).
|
Больше таких как ты тупо учащихся БД?
Ты по книгам учишься? |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
|
|
|
niramus + Опытный |
Зарегистрирован: 05.12.2009
Сообщений: 477
|
Обратиться по нику
|
niramus + |
Ответить с цитатой | | |
|
Как книга называется?
Дай линк на платную версию книги
Я тоже пока еще думми |
|
|
|
|
|
|
Dentz V.I.P. |
Зарегистрирован: 04.04.2014
Сообщений: 2170
|
Обратиться по нику
|
Dentz |
Ответить с цитатой | | |
|
Цитата: |
надо ли улучшать алгоритм (парсинг всех страниц, а не только главных)
|
Было бы гораздо интереснее, если бы ты парсил только текстовый контент или емейл адреса. |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
niramus я вам отвечу немного позже, книга в читалке, никак не могу домой добраться.
Dentz логично, что я в том числе могу выделять email. Сейчас я ради любопытства парсю альты и ссылки с главных. Предлагают муторный способ убедится, что покупные анкоры в топе яндекса не работают, но некоторый просмотр альтов меня уже почти убедил без эксперементов. Также любопытно сделать авто собираемый каталог (на 6 лямов страниц в хтмл у меня еще не было).
Выделять только текстовой контент, это не так просто для мира. Кодировки - это ваще капец. Некоторые задумки есть, только вот надо ли оно мне пытаться в одиночку перебороть наработки яндекса и гугла по анализу контента? Что я с этим делать то буду?
---
То есть как бы если понять зачем - то можно упереться, переписать, поиск сделать по шинглам прямо по хтмл коду и прочее. Но вот зачем??? |
|
|
|
|
|
|
Coooler V.I.P. |
Зарегистрирован: 21.06.2010
Сообщений: 4368
|
Обратиться по нику
|
Coooler |
Ответить с цитатой | | |
|
azsx, что делать с уже готовой базой я не знаю, но если умеешь парсить, то вполне на этом можно зарабатывать деньги. Можно, к примеру, узнать, по каким запросам конкуренты получают посетителей, наполнять сайты, парсить RSS ленты... |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
niramus PostgreSQL. Для профессионалов http://www.ozon.ru/context/detail/id/1301929/
сд рома у меня нет, так как я ваще экономный и редко чо покупаю. зы как по мне так постгрес ваще слабо приспособлен из коробки под мою задачу.
---
Цитата: |
по каким запросам конкуренты получают посетителей
|
Coooler интересная идея, сделать базу типа moab. Только надо сперва этим заняться, надо перебрать кучу счетчиков, которые могут отдавать в открытом виде запросы или хотя бы урлы страниц и прочую инфу, а также написать под каждый парсер. Но это ведь ваще много всего делать надо... |
|
|
|
|
|
|
ceber V.I.P. |
Зарегистрирован: 13.05.2010
Сообщений: 4290
|
Обратиться по нику
|
ceber |
Ответить с цитатой | | |
|
azsx, может разместишь объяву на какой-нибудь бирже фриланса? Тебе люди сами напишут, что им надо. Заодно и деньги заработаешь. |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
хихи. На форуме оптимизаторов не знают нафига этот хлам нужен. а на фрилансе знают?
Может тогда сразу на серч, минусов нахватать? |
|
|
|
|
|
|
Странник V.I.P. |
Зарегистрирован: 28.06.2010
Сообщений: 4617
|
Обратиться по нику
|
Странник |
Ответить с цитатой | | |
|
azsx, далеко не все умеют самостоятельно парсить и обладают нужным для этого функционалом. |
|
|
|
|
|
|
Skyworker V.I.P. |
Зарегистрирован: 25.12.2013
Сообщений: 11415
|
Обратиться по нику
|
Skyworker |
Ответить с цитатой | | |
|
azsx писал(а): |
хихи. На форуме оптимизаторов не знают нафига этот хлам нужен. а на фрилансе знают?
Может тогда сразу на серч, минусов нахватать?
|
А нафига сообще такой софт писать, который ты сам не знаешь куда применить? По уму, сначала ставиться задача, а потом создается софт для автоматизации ее решения или ищется уже готовый программный продукт. А у тебя получилось все через задницу, и при этом ты от форумчан непонятно чего хочешь |
|
|
|
|
|
Надежный и отзывчивый VPS хостинг для серьезных проектов -|||- Проверенная годами пуш партнерка с выплатой по запросу |
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Цитата: |
По уму, сначала ставиться задача, а потом создается софт
|
задача выполнена, я попробовал свои силы в обработке средних (до 100гб) БД. Запросы всякие попробовать, данные с угла в угол погонять. Многое узнал
Софта там несколько тысяч строчек на паскале, несерьезно.
Цитата: |
при этом ты от форумчан непонятно чего хочешь
|
на этом форуме сорвалось, особо полезных советов нет. На буржуй форуме, например, ваще обсмеяли, мол сделал он, полчаса и несколько дней парсинга - такое любой сделает, мол слишком простая задача. На одном из форумов дали совет как использовать. зы не всегда и не везде всё срастается сразу, иногда надо почитать насмешки, чтобы решить вопрос. |
|
|
|
|
|
|
John Doe V.I.P. |
Зарегистрирован: 25.06.2010
Сообщений: 4332
|
Обратиться по нику
|
John Doe |
Ответить с цитатой | | |
|
Цитата: |
На одном из форумов дали совет как использовать.
|
Ну и как это можно применить? |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
|
|
|
|