|
|
Странник V.I.P. |
Зарегистрирован: 28.06.2010
Сообщений: 4617
|
Обратиться по нику
|
Странник |
Ответить с цитатой | | |
|
У кого какие варианты использования?
Цитата: |
В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.
Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.
Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.
|
хабр |
|
|
|
|
|
|
Longer V.I.P. |
Зарегистрирован: 09.10.2007
Сообщений: 2782
|
Обратиться по нику
|
Longer |
Ответить с цитатой | | |
|
Это довольно интересно .
Жесткий микс контента и все в шоколаде, кто шарит наверное уже серваки запустил в бой... |
|
|
|
|
|
Серверы и XEN ВПС с бесплатным 24/7 Администрированием
Превосходное решение для мобильного трафика. Мысли глобально - лей на Bizzclick!
|
Странник V.I.P. |
Зарегистрирован: 28.06.2010
Сообщений: 4617
|
Обратиться по нику
|
Странник |
Ответить с цитатой | | |
|
Аж дух захватывает от вариантов. Можно например взять семраш и проанализировать топовые сайты. Все дело лишь в мощностях. |
|
|
|
|
|
|
blogmatic V.I.P. |
Зарегистрирован: 10.08.2010
Сообщений: 4775
|
Обратиться по нику
|
|
|
|
dofollow Свой |
Зарегистрирован: 14.10.2011
Сообщений: 83
|
Обратиться по нику
|
dofollow |
Ответить с цитатой | | |
|
blogmatic писал(а): |
Можно попробовать вычислить алгоритмы Гугла
|
Думаю, что не получится. Т.к параметров в это базе слишком мало (думаю, что вряд ли мы когда-нибудь узнаем вообще все параметры влияющие на продвижение). Наверное можно только более точно подсчитать формулу вычисления PR. |
|
|
|
|
|
|
|