Как бы я уничтожал дорвеи, будучи поисковиком?
Если бы я был поисковиком, ... я бы дорвеи уничтожал.
А вот как... давайте подумаем!
Какие бывают дорвеи:
1)
Из полностью генеренного текста, с долей ключевика и
разных всяких частей речи в нужных пропорциях.
2) Сделанные
из нормального текста со вставками ключевых
слов или фраз в текст (или заменами части слов на ключевик).
3) Сделанные
из блоков нормального контента на левую тему и
блоков текста с ключевиками, тоже нормального и человеческого.
Дорвеи первого типа, полностью генеренные. Плюс для дорвейщика: уникальность текста - он действительно уникален. Минус для человека:
бред полный написан. Но главное - их легче определять. Например, у поисковиков
есть специальные эвристики, наборы правил для нормализации (приведения слова к
нормальной форме) - причем простенькие. Это называется стемминг. Лежат в
открытом доступе.
Логично, что и прикидку по падежам, числам, склонениям и
т.п. робот поисковика может с хорошей вероятностью угадать, не залезая в
словарь. И рассогласования. например, в числе существительного и
прилагательного, стоящих рядом, отловить. И многое другое того же рода.
Понятно, что включать звоночек модератору автомат будет
только при тотально неграмотном тексте (в пределах документа, раздела,
сайта...). А для снижения нагрузки можно не по каждому термину документа эту
проверку делать, а только по тем, которых заметная доля (в тех же пределах,
сайта или документа) или просто тех, которые на странице больше 1 раза
встречаются.
Дорвеи третьего типа. Плюс для человека - язык нормальный,
человеческий. Минус для дорвейщика: неуникальность фраз, предложений, блоков
текста. Причем если "левый" контент еще можно натырить из разных мест и сделать
его малоповторяющимся, то с текстом с ключевиками такое не пройдет.
Ну способы ловли неуникальных фрагментов описаны, например,
у И. Сегаловича. Ставим длину шингла поменьше, ищем в пределах сайта...
Определяем, что ключевой текст размазан тонким слоем по сайту.
Их, в общем-то, и банить не надо, пессимизировать
достаточно.
Ну и дорвеи второго типа. Посложнее, т.к. здесь и куски
текста более уникальные, и ошибок в согласовании меньше (допустим даже, что их
нет!, т.е., дорвейщик и падеж правильный поставил, и вместо существительного
существительное влепил - все по уму).
Однако ж юзер, читая текст, легко определит дорвей. А для
робота маркером может быть, конечно, не отсутствие смысла в тексте, а наличие
большого количества пар слов, которые не употребляются (редко употребляются) в
нормальной жизни. Типа "зеленая турфирма", "радостный ноутбук" и т.п. Только
есть закавыка - слов много, а их пар - еще больше...
На это есть решение. Во-первых, данные о частоте
употребления тех или иных слов хранятся. Берем "часто употребительные" слова,
отдельно по частям речи. Планку на "часто" ставим исходя из общего объема
расчетов и объема, выделенного под хранении информации о парах слов. Дальше по
выбранным словам строим заведомо подъемное количество пар слов (в нормальных
формах) и пробиваем, насколько часто в базе встречается каждая.
Дальше смотрим на статистику и ставим еще одну планку,
отделяющую "разумные" пары слов и выбрасывающую "неразумные".
Ну и по документу (разделу, сайту...) смотрим, сколько
среди "значимых" слов есть "разумных" и "неразумных" пар. И если неразумных
много - звоним в звоночек модератору...
***
Все. Остается только ждать.
PS Кстати, текст, генеренный
с использованием цепей
Маркова, не берется такими способами... Упс. Но зато в этот текст по своему
хотению кейвордов напихать сложно.
|
Партнеры
|