На страницу Пред. 1, 2, 3, 4 След. |
|
Ср Ноя 07, 2007 10:52 am |
Start Post: Напиши свой генератор текстов! |
Вацлав Сетевой Гугляка |
Зарегистрирован: 21.02.2006
Сообщений: 4965
|
Обратиться по нику
|
Вацлав |
Ответить с цитатой | | |
|
Обычно я стараюсь писать только о том, на чем действительно "собаку съел". Так и на сей раз, я расскажу вам, как написать собственный генератор текстов, качественно превосходящий все имющиеся на рынке по скорости генерации, качеству генерации и грамматической верности
полученных текстов. Нет, я не буду спорить, многие публичные и даже бесплатные генераторы будут превосходить полученный вами скрипт по
наличию всяких мулечек, функций и прибамбасиков, но зато вы получите собственный генератор с открытым кодом и спокойно сможете дописать любые нужные вам функции.
Что вообще такое генератор текстов и зачем он нужен? Программное обеспечение, называемое "генератором текстов" служит для засирания
интернета, в общем-то. Но если мы отбросим идеологическую подоплеку, то нам он будет служить для создание неограниченного количества бредового, но релевантного текста, насыщенного кейвордами. И честно говоря, нет никаких законов или правил, запрещающих нам создавать и размещать безсмысленные страницы. Правда, и поисковым системам никто и ничто не может запретить забанить абсолютно любые страницы.
Что обычно входит в состав генератора текстов? Как правило, ГТ состоит из трех частей. Первая, и самая сложная часть, это набор логики для непосредственного формирования текстов. Вторая часть обеспечивает наполнение этим текстов самих страниц и/или иные фунции ввода-вывода (размещение на ftp, автоматический постинг в блоги, создание карты сайтов, перелинковку готовых страниц, итп). Третья часть же обычно подразумевает собой интерфейс или работу с конфигурационными файлами. И если по второй и третьей части существует множество литературы, готовых примеров и разных предпочтений пользователей, то я расскажу вам о самой сложной логической части - о первой и основной составляющей.
Как, собственно говоря, генерируются релевантные тексты? Для начала давайте определимся - релевантный текст, в данном случае, означает
текст наполненный ключевыми словами, фразами и словоформами тематически связанными. В идеале - это грамматически правильный текст, но абсолютно безсмысленный. Почему я прицепился к грамматической правильности, если до сих пор нормально срабатывает и тупая мешанина кейвордов? Потому что я верю, что рано или поздно Google научится определять сначала и грамматическую правильность текстов, а впоследствии и смысловую тоже. Грамматику умеет проверять примитивный Word, так кто сказал, что гугл не сможет того же? Помимо этого, грамматически правильные тексты труднее поддаются статистическому анализу. Т.е. проверке среднего количества различных знаков препинания, местоимений, артиклей, междометий и других, маловажных, но значительных признаков статистически верного текста.
Таким образом, любой маломальски грамотный программист, знающий основы грамматики может написать алгоритм по 99% отсечению дорвеев построенных на "мешанине кейвордов", а действительно грамотный специалист или команда таковых, легко может вычислить и 90% реализаций более сложных текстов, построенных на алгоритме цепей Маркова, которые все же нарушают некоторые правила языка. А значит чем больше размер текста (или количество страниц), тем легче поймать "Марковку" за ботву. Еще раз повторюсь. Многие сеошники часто критикуют меня за излишнюю страсть к внутренним факторам и качеству контента, убеждая меня и себя, что "рулят ссылки и другие внутренние факторы". Да, это справедливая критика. Но мне просто нравится быть чуть на шаг впереди и не предполагать того, что инженеры Google глупее меня. Если понимаю я, как реализовать отсев доров на базе анализа контента, то почему это не понимают в гугле? Понимают, но пока что выгоднее и проще вести отсечение по внешним признакам (линк-спам, например). Но с темпами роста мощностей гугла и повышения скорости индексации и обнаружения уже сейчас дублей текста (ухудшающего судьбу агрегационных сплогов, например) стоит ожидать и возможности обнаружения "хренового контента" и на этапе индексации страницы.
Ладно, уйдем от совсем общей теории к более алгоритмической, до того, как перейдем к практике.
Итак, из чего состоит текст на английском языке (начнем мы именно с него, как с существенно лучше алгоритмизируемого, чем русский)? Из
предложений, вот удивительно! Из набора предложений, ведущих повествование на заданную тему. Из чего состоят предложения? Как и во многих языках из существительных, прилагательных, глаголов и наречий. В таком случае, задача по генерации текстов состоит из составления текста из набора предложений, в которых грамматически верно и логично увязаны части речи. Для понятия следующих моментов, примем терминологию:
Noun - имя существительное, ед. число
Nouns - имя существительное, мн. число
(тут поблагодарим бога за то, что в английском языке слова не изменяются по падежам)
Adj - имя прилагательное
Verb - глагол. С глаголами придется разобраться детальнее, как с ними приходится много маятья и при изучении английского языка. В английском языке существует пять форм глаголов. Да я знаю, что их всего три, но для нашей задачи их придется брать как пять. И учесть
еще и неправильные глаголы (ну с этим проще - скачайте где угодно таблицы Irregular verbs). Итак:
Verb1 - словарная или первая форма глагола [fuck]
Verb2, verb3 - вторая и третья формы глаголов. Обычно формируются по некоторым правилам с добавлением к первой формы окончания -ed. [fucked]
Verb4 - "инговая форма глагола" - формируется по набору правил, с добавлением окончания -ing [fucking]
Verb5 - форма глагола при которой по набору правил добавляется окончание -s [fucks]
Я сейчас не буду объяснять именно грамматического смысла всех этих форм глаголов и окончаний, поскольку нас в данной статье не
интересует изучение языка вообще, а только его "алгоритмизация на пальцах".
Теперь, поговорим немного о релевантности или тематичности текстов. То есть о нужном насыщении ключевыми словами и их формами. Опять
таки оговорюсь - плотность ключевой фразы в тексте практически не имеет значения, хотя желательно, чтобы она не переступала некий порог.
В принципе, фраза должна быть упомянута хотя бы один раз в тексте или хотя бы составляющие ее слова встречались в тексте порознь. Эту
задачу мы решим легко. Сложнее будет насытить текст "связанными" по теме словами и словами обычного обихода (для разбавления
коэффициента насыщения и получения большей уникальности). Да, в результате у нас будут получаться конструкции из серии "Квардратные
сиськи молодой блондинки летели на восток, тарахтя всеми карбюраторами" - грамматически все верно, но смешно и безсмысленно. Хотя, в данном примере, слово "карбюраторами" оказывается немного лишним - оно явно не относится к общепринятому релевантному слову из
эротического лексикона. Как и слова "летели" и даже "квадратные". Так я сформулировал фразу, чтобы вы поняли понятие тематичности
текста. Тематичной же фраза становится, если она выглядит так "Розовые сиськи молодой блондинки сосали на востоке, трахая все
вибраторы". Все слова (кроме "востоке" получились вполне даже тематическими и допустимыми. А слово "восток" относится скорее к
общеупотребимым и не портит нам картинки.
Все. Теория на этом закончена, переходим к практике, на примере создания адалтного генератора.
Нам понадобится:
1. Большой набор предложений из любого английского (лучше американского) текста, в котором мы заменим ВСЕ значимые слова на ТЭГИ частей речи:
Я вот просто для примера взял надпись на дне ноутбука: To reduce the risk of electric shock, do not remove cover (or back). Приводим эту фразу к виду:
To <verb1> the <noun> of <adj> <noun>, do not <verb1> <noun> (or <noun>). Возьмите вот еще что на заметку! Подавляющее число поисковых запросов серферов строится из конструкции ADJ + NOUN, т.е. прилагательное и существительное. Например, "Голые девки", "Большие черные сиськи" и так далее. Зачем нам это нужно? А вот зачем. В грамматике английского языка, почти перед каждым существительным может стоять описательное (или уточняющее) прилагательное. Как этим воспользоваться? Очень просто. Там где это возможно, убираем тэги <noun> и <nouns> и заменяем их на <adjnoun> и <adjnouns>. Так же поступаем и с последовательностями тэгов <adj> <noun> и <adj> <nouns>
2. Теперь нам понадобятся словарные базы "частей речи". Их нам понадобится две. Одна, нам будет нужна всегда и мы назовем ее "common" - база общеупотребимых в любом тексте существительных, прилагательных и глаголов во всех их формах. Не пугайтесь. Это только кажется задача сложной, но забить такую базу до приемлимого размера можно менее чем за сутки. Вторая база, которая нам понадобится - это база слов, принятых в данной тематике. В нашем примере, это база слов, которые часто встречаются в десках и иных околоэротических текстах. "Сиськи, письки, рты и прочие члены". Тут уж постарайтесь забить базу не только избитыми словами, но и поищите редко встречаемые синонимы из сленгов разных этнических и социальных групп - на такие низкочастотники можно будет поймать хороший урожай.
3. А теперь нам понадобится простейший скрипт, на любом языке, который наберет из первой базы случайную последовательность
предложений-конструкций (их называют граммары или лексемы) и ... тупо проведет замену тэгов на соответствующие им части речи. Все! По
сути, отличный генератор готов. Генератор, который будет порождать из конструкций типа:
To <verb1> the <adjnoun> of <adjnoun>, do not <verb1> <adjnoun> (or <adjnoun>) - следующие варианты:
To fuck the big amazing tits of hot blonde, do not suck wet pant (or fat stretched pussy)
Как вы понимаете, я перечислил лишь самые основы, из которых вы можете подчерпнуть массу идей, по созданию еще лучших алгоритмов.
Некоторые маленькие хитрости я опустил, но не из вредного желания сохранить секреты (мои новые генераторы построены на крайне сложных алгоритмах с привлечением и нейросетей и основ ИИ), а для того, чтобы еще раз пробудить ваше воображение.
Желаю удачи! |
|
|
|
|
|
Второе пришествие Вацлава. Камингсуново. |
Cabal Гуру |
Зарегистрирован: 20.10.2007
Сообщений: 1360
|
Обратиться по нику
|
Cabal |
Ответить с цитатой | | |
|
alexf2000, данный алгоритм позволяет из грамматически верного осмысленного текста о цветочках сделать грамматически верный не осмысленный(бредовый) текст о собачках на базе заранее заготовленного словаря частей речи. Ничего больше в стартовом посте не написано. По твоему это не возможно? Или будет жраться хуже цепей и хуже обходить фильтры? Задачку превратить текст о цветочках в текст о собачках можно частично решить с помощью словаря общей лексики(смотри ссылку Rabbit), а вот для узко комерческих или эротических тематик понадобится составлять свой словарь и про это тоже написано. Что ты хочешь до нас донести, а то я если честно не совсем понял?..
---добавлено---
То что для шаблонов предложений используется не один текст о цветочках, а несколько предложений из разных текстов я не на секунду не забыл. Просто для полной ясности утрировал. |
|
|
|
|
|
|
alexf2000 Свой |
Зарегистрирован: 28.10.2005
Сообщений: 62
|
Обратиться по нику
|
alexf2000 |
Ответить с цитатой | | |
|
Cabal, Объясняю снова, для тех кто не понял. Одно и тоже слово может быть разной частью речи, определить какой именно - не так просто и процент таких слов в языке достаточно высокий. То есть чтобы качественно выполнить пункт первый алгоритма, по замене слов на теги частей речи, надо решить довольно нетривиальную задачу, которая не сводится к простому поиску слова в словаре. Иначе из грамматически верного текста будет получаться грамматически неверный. А значит непонятно, зачем вообще огород городить, качество текста будет таким же как у доргена на цепях Маркова, но при несравнимо больших трудозатратах. Для работы цепей Маркова надо найти хороший исходный текст, причём его нужно не так много, вычистить его от форматирования и прочего мусора и всё, больше ничего не требуется, не нужно никаких дополнительных баз и работать будет с любым языком, где текст в принципе разбивается на слова. Грамматическая правильность кстати вообще непонятная штука, допустим Гугл действительно поумнел и стал банить все грамматически неправильные тексты, что тогда от интернета то останется, кроме энциклопедий и варезных библиотек с Гарри Поттером?
Лучшие результаты получаются у "умных синонимайзеров", учитывающих частотность употребления слов и смысл слов в контексте, правда там уже не всегда можно получить уникальный текст, чтобы без сильных искажений сохранился его смысл. |
|
|
|
|
|
Самый интересный SEO-блог: http://alexf.name/ |
Вацлав Сетевой Гугляка |
Зарегистрирован: 21.02.2006
Сообщений: 4965
|
Обратиться по нику
|
Вацлав |
Ответить с цитатой | | |
|
Решение, которое я предложил в данной статье и не претендует на создание читабельных текстов. Перечитай внимательно: она предлагает вариант БОЛЕЕ быстрого создания качественного и релевантного бреда, чем это делает марковка. Вопрос в том - важен ли для гугла контент или нет, в данном случае вообще вторичен. Речь в статье идет именно о создании быстрого и простого генератора без специальных знаний математики. |
|
|
|
|
|
Второе пришествие Вацлава. Камингсуново. |
alexf2000 Свой |
Зарегистрирован: 28.10.2005
Сообщений: 62
|
Обратиться по нику
|
alexf2000 |
Ответить с цитатой | | |
|
Я внимательно прочитал, были заявлены: 1. большая скорость генерации, 2. лучшее качество генерации, 3. грамматическая верность текста. Из этого ничего не удаётся достичь.
1. Марков в режиме генерации текста работает очень быстро и знаний и умений для его реализации требуется явно меньше, чем для создания каких-то грамматических баз. Математики там нет вообще никакой и даже части речи заучивать не надо.
2. Текст получается нечитаемым во всех случаях и сразу определяется человеком как генерированный.
3. Чтобы грамотно реализовать заявленный тобой алгоритм, который бы сам разбирал любое предложение на части речи - коллективы программистов и лингвистов с учёными степенями работают годами и пока полного успеха достичь не могут. Часть фраз будет случайным образом составлена правильно, но так это и к цепям Маркова относится, там тоже часть полученного текста может оказаться грамматически правильной. |
|
|
|
|
|
Самый интересный SEO-блог: http://alexf.name/ |
Вацлав Сетевой Гугляка |
Зарегистрирован: 21.02.2006
Сообщений: 4965
|
Обратиться по нику
|
Вацлав |
Ответить с цитатой | | |
|
Алекс, ты упрямый зануда
Думаешь кто-то будет против, если ты выдашь свою статью на этот счет и выложишь в Open Source свою версию генератора? |
|
|
|
|
|
Второе пришествие Вацлава. Камингсуново. |
Cancel156 Свой |
Зарегистрирован: 30.01.2009
Сообщений: 8
|
Обратиться по нику
|
Cancel156 |
Ответить с цитатой | | |
|
Вацлав, я собираюсь писать свой генератор текстов (русский) и возник такой вапрос:
Как поисковик отнесётся к такому тексту, если в нём будут попадаться НЧ ключевики.
Мама летала на машине вдоль зелёных людей скачать порно без смс - это уже както не очень корректно будет. А делить ключевые слова также по частям речи немного геморойно.
Или ты предлагаешь писать генератор который будет генерировать вообще без ключевых слов, ну использовать скажем базу адалт слов и хватит?
P.S. Спасибо за статью |
|
|
|
|
|
|
mamurik Профессионал |
Зарегистрирован: 02.01.2007
Сообщений: 805
|
Обратиться по нику
|
mamurik |
Ответить с цитатой | | |
|
Cancel156 писал(а): |
возник такой вапрос:
Как поисковик отнесётся к такому тексту, если в нём будут попадаться НЧ ключевики.
Мама летала на машине вдоль зелёных людей скачать порно без смс - это уже както не очень корректно будет. А делить ключевые слова также по частям речи немного геморойно.
Или ты предлагаешь писать генератор который будет генерировать вообще без ключевых слов, ну использовать скажем базу адалт слов и хватит?
|
Мне кажется прежде чем писать генератор текста, тебе нужно понять что такое кейворд в принципе а то по-моему ты думаешь что кейворд - это какое то особенное слово, в простой речи не встречающееся. Так вот, кейвордом может быть любое слово. Даже вот ЭТО слово. И вот это СЛОВО.
Цитата: |
Ключевое слово, кейворд, киворд, кей (от англ. keyword) — относительно PPC — это запрос посетителя в поисковой системе.
|
Как ты понимаешь, посетитель может искать что угодно, хоть "сферический пони-бог в вакууме". Если таких искателей будут тысячи - то наш "конь" - ВЧ запрос, т.е. высокочастотный, часто встречающийся. Если же искать его будет три раза в год - то это НЧ - низкочастотный запрос.
Исходя из вышенаписанного, можно сказать, что
1 - текст должен быть читаемый
2 - текст должен быть тематически связан и выдержан.
3 - почитать вот тут еще Генератор текста которому 10 лет |
|
|
|
|
|
здрасте! Я родом из Бобруйска. Я - гуру, по-вашему это будет "учитель" (с)
> |
Cancel156 Свой |
Зарегистрирован: 30.01.2009
Сообщений: 8
|
Обратиться по нику
|
Cancel156 |
Ответить с цитатой | | |
|
mamurik, я это всё прекрасно понимаю.
Но если не явно генерировать контент (не по определённому кейворду), то и не понятно по чему вылезешь (примерно конечно знаешь).
Вопрос в этом и состоял - точить под определённый НЧ или просто брать количеством.
Просто можно вылезти по запросу летала на машине а сёрфера кинет на адалт партнёрку, что не совсем хорошо
Вообщем высля думаю понятна. |
|
|
|
|
|
|
mamurik Профессионал |
Зарегистрирован: 02.01.2007
Сообщений: 805
|
Обратиться по нику
|
mamurik |
Ответить с цитатой | | |
|
Cancel156, про гугл бомбинг и историю с "неудачником" слышал? Юзеры проставили кучу ссылок с тегом "неудачник" на страницу с биографией Буша - и она висела долгое время по запросу "неудачник" на первом месте, хотя на самой странице этого слова и в помине не было. Ссылочное ранжирование пока никто не отменял А если переусердствовать с количеством одинаковых слов на странице - то можно оказаться не в ТОПе а в попе.
Вообще открою тебе один большой секрет. Абсолютно все секреты поисковых систем лежат в выдаче. Смотри выдачу, сайты что в ТОПе, бэки, анализируй. Иначе рискуешь получить совет, который не то что не поможет а просто навредит.
Не смотрите в рот дутым авторитетам! - обязательно прочитай. У меня после этого топика еще больше укрепилась мысль (она и раньше была) что куча инфы вываливается с целью дезинформации конкурентов. |
|
|
|
|
|
здрасте! Я родом из Бобруйска. Я - гуру, по-вашему это будет "учитель" (с)
> |
Li-Hua Чинамэн |
Зарегистрирован: 25.12.2005
Сообщений: 11544
|
Обратиться по нику
|
Li-Hua |
Ответить с цитатой | | |
|
Цитата: |
Как поисковик отнесётся к такому тексту, если в нём будут попадаться НЧ ключевики.
|
В любом тексте встречается до 80-90% НЧ ключевиков, собственно как к этому относится? Да никак, ровненько. |
|
|
|
|
|
|
Cancel156 Свой |
Зарегистрирован: 30.01.2009
Сообщений: 8
|
Обратиться по нику
|
Cancel156 |
Ответить с цитатой | | |
|
mamurik, спасибо за статью
Буду делать как писал Вацлав - генерировать текста какой либо тематики.
Но как делать тогда перелинковку? По каким анкорам если я даже не знаю о чём страничка дора (знаю только тематику).
П.С. Пойду в поисковик искать доры
Добавил:
Хотя можно сделать так чтоб анкоры сами по себе генерировались из базы например адалт слов. |
|
|
|
|
|
|
4uka Опытный |
Зарегистрирован: 06.08.2006
Сообщений: 293
|
Обратиться по нику
|
4uka |
Ответить с цитатой | | |
|
Внесу свои пять копеек
Не генератором единым. Есть еще много факторов, например: домен (отдельный или на фрихосте, возраст домена, зона домена). Хостинг. Бэки (вес, возраст, продолжительность размещения ссылки). Думаю (не уверен, но думаю что влияет) еще такой фактор, как время нахождения юзера на странице. Не зря существует гугл тулбар и теперь еще и браузер - информацию само собой Гугль с него получает. |
|
|
|
|
|
Здоровый образ жизни - наше все! |
expro Свой |
Зарегистрирован: 29.01.2009
Сообщений: 42
|
Обратиться по нику
|
expro |
Ответить с цитатой | | |
|
Спасибо за статью, уже начал писать софт… единственная проблема… никак не могу найти список фарма слов… |
|
|
|
|
|
|
Cancel156 Свой |
Зарегистрирован: 30.01.2009
Сообщений: 8
|
Обратиться по нику
|
Cancel156 |
Ответить с цитатой | | |
|
4uka, ты это вообще к чему написал?
Меня не интересуют факторы не касающиеся контента. Может дашь ссылку на статью Гринвуда как доры делать и что такое СЕО? |
|
|
|
|
|
|
vitvvs Свой |
Зарегистрирован: 12.09.2007
Сообщений: 19
|
Обратиться по нику
|
|
|
|
|
|
Партнеры
|