На страницу Пред. 1, 2, 3 |
|
Пт Янв 11, 2008 12:51 pm |
Start Post: Синонимизация |
Kerk Профессионал |
Зарегистрирован: 30.09.2007
Сообщений: 550
|
Обратиться по нику
|
Kerk |
Ответить с цитатой | | |
|
Я сейчас бьюсь над синонимайзером. Зачем такие штуки нужны - совершенно очевидно, но вот какое качество результата для него достаточно? Есессно, живого рерайтера практически невозможно заменить, но хотеть приблизиться к нему можно.. так вот.. какое качество автоматического рерайта будет удовлетворительным?
И вообще какого рода рерайт "любит" гугл?
Хотелось бы конкретнее сформулировать себе конечную цель, иначе это синонимайзер можно до пенсии писать
Работа сейчас идет в двух направлениях:
1. Замена слов на синонимы (не по словарю синонимов, а по смыслу)
2. Перестановка местами однородных членов предложения |
|
|
|
|
|
|
Kerk Профессионал |
Зарегистрирован: 30.09.2007
Сообщений: 550
|
Обратиться по нику
|
Kerk |
Ответить с цитатой | | |
|
Taburetkin, я не понял как из ответа гугла следует, что синонимизация не делает текст уникальным. Из него как раз следует, что при изменении 30% текста он становится уникальным. |
|
|
|
|
|
Я — лучший программист, хочу поработать |
Taburetkin Гуру |
Зарегистрирован: 25.02.2007
Сообщений: 1426
|
Обратиться по нику
|
Taburetkin |
Ответить с цитатой | | |
|
Kerk,
Taburetkin писал(а): |
ответ: разбавьте ваш текст дополнительным уникальным текстом
|
Гугл определяет все математически. Чистая математика.
Cabal, то что ты предлагаешь тоже вычисляется.
Большие массивы текста определяются по методу "облака" (не помню как называеся точно). Очень очень упрощенно выглядит так:
Например берется текст А и накладывается на текст Б. В зависимости от % текст считается дублем. Конечно не сам текст а его "математическая формула" построения так сказать.
http://www.cs.umd.edu/~pugh/google/Duplicates.pdf |
|
|
|
|
|
|
Вацлав Сетевой Гугляка |
Зарегистрирован: 21.02.2006
Сообщений: 4965
|
Обратиться по нику
|
Вацлав |
Ответить с цитатой | | |
|
О. Вспомнил. Кусок информации я могу выдать. Из примитивных "намеков".
Синонимизировать, сохраняя смысл и добавляя уникальность нужно не отдельные слова, а словосочетания. Т.е. выхватывать из фразы (при ее первичном парсинге) только существительные, затем осуществлять поиск перед ними описательных прилагательных. Для этого нужно дерево объектов в базе - чтобы при замене выявленных конструкций [adverb]+adjective + noun(s/p) не нарушалась смысловая связь. Мутновато? Мда. |
|
|
|
|
|
Второе пришествие Вацлава. Камингсуново. |
Taburetkin Гуру |
Зарегистрирован: 25.02.2007
Сообщений: 1426
|
Обратиться по нику
|
Taburetkin |
Ответить с цитатой | | |
|
этo называется k-shingles. разбивка на маленькие куски
the brown fox
quick brown fox
brown fox jumped
fox jumped over |
|
|
|
|
|
|
vitvirtual виртуальный |
Зарегистрирован: 11.06.2007
Сообщений: 9061
|
Обратиться по нику
|
vitvirtual |
Ответить с цитатой | | |
|
вот это уже теплее - но общий смысл текстов может нарушиться! посему рерайтинг больше плюсов дает для белых проектов - здесь же ведь белые проекты обсуждаются, тексты для них и жизнь в анналах гугля оных ? |
|
|
|
|
|
www.King-Servers.com - Dedicated Servers от 65$, VDS от 25$ |
Kerk Профессионал |
Зарегистрирован: 30.09.2007
Сообщений: 550
|
Обратиться по нику
|
Kerk |
Ответить с цитатой | | |
|
Вацлав, нет-нет, не мутновато. О чем-то таком я тоже думал
Taburetkin, из того, что ты выложил как раз следует, что замена 30% слов делает текст полностью уникальным. |
|
|
|
|
|
Я — лучший программист, хочу поработать |
Taburetkin Гуру |
Зарегистрирован: 25.02.2007
Сообщений: 1426
|
Обратиться по нику
|
Taburetkin |
Ответить с цитатой | | |
|
Я уже где-то приводил простой пример про тапки:
Красные тапки, привет вам - вы хороши.
и
Синие сапоги, здравствуйте - вы лучшие.
И 1е и 2е = А + В, С - Д.
И если у тебя текста страница, то разбивка на маленькие куски и сравнение "отпечатков" говорит о дублиронанности контента т.к. математическая структура остается таже. Гуглю абсолютно все равно что ты поменял синий на красный, а тапки на сапоги. С математической точки ничего не поменялось и он посчитает твой контент дублем. |
|
|
|
|
|
|
Kerk Профессионал |
Зарегистрирован: 30.09.2007
Сообщений: 550
|
Обратиться по нику
|
Kerk |
Ответить с цитатой | | |
|
Странно это, тогда гугл первым делом забанит все справочники и словари, ибо там информация вся по шаблону. Вацлав говорит именно о замене слов на синонимы без изменений в синтаксической структуре предложения, видимо у него это работает. Или нет?
Если Табуреткин прав, то с синонимами вообще можно не заморачиваться, а настрогать шаблонов для переформулировок типа "He will build a house for us" --> "He will build us a house". |
|
|
|
|
|
Я — лучший программист, хочу поработать |
Kerk Профессионал |
Зарегистрирован: 30.09.2007
Сообщений: 550
|
Обратиться по нику
|
|
|
Я — лучший программист, хочу поработать |
Yurium Свой |
Зарегистрирован: 02.06.2007
Сообщений: 36
|
Обратиться по нику
|
Yurium |
Ответить с цитатой | | |
|
Действительно, уже обсуждалось неоднократно. Суммируя те обсуждения, можно сделать вывод, что технически реализовать замену фразами/устойчивыми словосочетаниями реально и это уже сделано. Запор в надобности обладать здоровым тезаурусом, чтобы делать адекватные замены относительно темы статей. |
|
|
|
|
|
сабмиты в пиаристые блоги - все темы в гости будут к нам |
baracuda Профессионал |
Зарегистрирован: 16.03.2007
Сообщений: 693
|
Обратиться по нику
|
baracuda |
Ответить с цитатой | | |
|
от перестановки слов в текста он не становится уникальным !!!
на тему тезаурусов, хорошая мысля, вот только где взять такой "правильный" словарик. |
|
|
|
|
|
Не зная ни сна и ни отдыха, при лунном и солнечном свете, Мы делаем деньги из воздуха, что б снова пустить их на ветер. |
|