Напиши свой генератор текстов! > ПОЛЕЗНЫЕ СТАТЬИ > Форум для вебмастеров ArmadaBoard.com

Напиши свой генератор текстов!

На страницу Пред. 1, 2, 3, 4

Новая тема	Написать ответ	ГЛАВНАЯ ~ ПОЛЕЗНЫЕ СТАТЬИ

Ср Ноя 07, 2007 10:52 am

Start Post: Напиши свой генератор текстов!

Вацлав
Сетевой Гугляка

Зарегистрирован: 21.02.2006
Сообщений: 4965

Обратиться по нику

# Добавлено:Ср Ноя 07, 2007 10:52 am

Добавить в избранное

Ответить с цитатой

Обычно я стараюсь писать только о том, на чем действительно "собаку съел". Так и на сей раз, я расскажу вам, как написать собственный генератор текстов, качественно превосходящий все имющиеся на рынке по скорости генерации, качеству генерации и грамматической верности
полученных текстов. Нет, я не буду спорить, многие публичные и даже бесплатные генераторы будут превосходить полученный вами скрипт по
наличию всяких мулечек, функций и прибамбасиков, но зато вы получите собственный генератор с открытым кодом и спокойно сможете дописать любые нужные вам функции.

Что вообще такое генератор текстов и зачем он нужен? Программное обеспечение, называемое "генератором текстов" служит для засирания
интернета, в общем-то. Но если мы отбросим идеологическую подоплеку, то нам он будет служить для создание неограниченного количества бредового, но релевантного текста, насыщенного кейвордами. И честно говоря, нет никаких законов или правил, запрещающих нам создавать и размещать безсмысленные страницы. Правда, и поисковым системам никто и ничто не может запретить забанить абсолютно любые страницы.

Что обычно входит в состав генератора текстов? Как правило, ГТ состоит из трех частей. Первая, и самая сложная часть, это набор логики для непосредственного формирования текстов. Вторая часть обеспечивает наполнение этим текстов самих страниц и/или иные фунции ввода-вывода (размещение на ftp, автоматический постинг в блоги, создание карты сайтов, перелинковку готовых страниц, итп). Третья часть же обычно подразумевает собой интерфейс или работу с конфигурационными файлами. И если по второй и третьей части существует множество литературы, готовых примеров и разных предпочтений пользователей, то я расскажу вам о самой сложной логической части - о первой и основной составляющей.

Как, собственно говоря, генерируются релевантные тексты? Для начала давайте определимся - релевантный текст, в данном случае, означает
текст наполненный ключевыми словами, фразами и словоформами тематически связанными. В идеале - это грамматически правильный текст, но абсолютно безсмысленный. Почему я прицепился к грамматической правильности, если до сих пор нормально срабатывает и тупая мешанина кейвордов? Потому что я верю, что рано или поздно Google научится определять сначала и грамматическую правильность текстов, а впоследствии и смысловую тоже. Грамматику умеет проверять примитивный Word, так кто сказал, что гугл не сможет того же? Помимо этого, грамматически правильные тексты труднее поддаются статистическому анализу. Т.е. проверке среднего количества различных знаков препинания, местоимений, артиклей, междометий и других, маловажных, но значительных признаков статистически верного текста.

Таким образом, любой маломальски грамотный программист, знающий основы грамматики может написать алгоритм по 99% отсечению дорвеев построенных на "мешанине кейвордов", а действительно грамотный специалист или команда таковых, легко может вычислить и 90% реализаций более сложных текстов, построенных на алгоритме цепей Маркова, которые все же нарушают некоторые правила языка. А значит чем больше размер текста (или количество страниц), тем легче поймать "Марковку" за ботву. Еще раз повторюсь. Многие сеошники часто критикуют меня за излишнюю страсть к внутренним факторам и качеству контента, убеждая меня и себя, что "рулят ссылки и другие внутренние факторы". Да, это справедливая критика. Но мне просто нравится быть чуть на шаг впереди и не предполагать того, что инженеры Google глупее меня. Если понимаю я, как реализовать отсев доров на базе анализа контента, то почему это не понимают в гугле? Понимают, но пока что выгоднее и проще вести отсечение по внешним признакам (линк-спам, например). Но с темпами роста мощностей гугла и повышения скорости индексации и обнаружения уже сейчас дублей текста (ухудшающего судьбу агрегационных сплогов, например) стоит ожидать и возможности обнаружения "хренового контента" и на этапе индексации страницы.

Ладно, уйдем от совсем общей теории к более алгоритмической, до того, как перейдем к практике.

Итак, из чего состоит текст на английском языке (начнем мы именно с него, как с существенно лучше алгоритмизируемого, чем русский)? Из
предложений, вот удивительно! Из набора предложений, ведущих повествование на заданную тему. Из чего состоят предложения? Как и во многих языках из существительных, прилагательных, глаголов и наречий. В таком случае, задача по генерации текстов состоит из составления текста из набора предложений, в которых грамматически верно и логично увязаны части речи. Для понятия следующих моментов, примем терминологию:

Noun - имя существительное, ед. число
Nouns - имя существительное, мн. число
(тут поблагодарим бога за то, что в английском языке слова не изменяются по падежам)
Adj - имя прилагательное
Verb - глагол. С глаголами придется разобраться детальнее, как с ними приходится много маятья и при изучении английского языка. В английском языке существует пять форм глаголов. Да я знаю, что их всего три, но для нашей задачи их придется брать как пять. И учесть
еще и неправильные глаголы (ну с этим проще - скачайте где угодно таблицы Irregular verbs). Итак:

Verb1 - словарная или первая форма глагола [fuck]
Verb2, verb3 - вторая и третья формы глаголов. Обычно формируются по некоторым правилам с добавлением к первой формы окончания -ed. [fucked]
Verb4 - "инговая форма глагола" - формируется по набору правил, с добавлением окончания -ing [fucking]
Verb5 - форма глагола при которой по набору правил добавляется окончание -s [fucks]

Я сейчас не буду объяснять именно грамматического смысла всех этих форм глаголов и окончаний, поскольку нас в данной статье не
интересует изучение языка вообще, а только его "алгоритмизация на пальцах".

Теперь, поговорим немного о релевантности или тематичности текстов. То есть о нужном насыщении ключевыми словами и их формами. Опять
таки оговорюсь - плотность ключевой фразы в тексте практически не имеет значения, хотя желательно, чтобы она не переступала некий порог.

В принципе, фраза должна быть упомянута хотя бы один раз в тексте или хотя бы составляющие ее слова встречались в тексте порознь. Эту
задачу мы решим легко. Сложнее будет насытить текст "связанными" по теме словами и словами обычного обихода (для разбавления
коэффициента насыщения и получения большей уникальности). Да, в результате у нас будут получаться конструкции из серии "Квардратные
сиськи молодой блондинки летели на восток, тарахтя всеми карбюраторами" - грамматически все верно, но смешно и безсмысленно. Хотя, в данном примере, слово "карбюраторами" оказывается немного лишним - оно явно не относится к общепринятому релевантному слову из
эротического лексикона. Как и слова "летели" и даже "квадратные". Так я сформулировал фразу, чтобы вы поняли понятие тематичности
текста. Тематичной же фраза становится, если она выглядит так "Розовые сиськи молодой блондинки сосали на востоке, трахая все
вибраторы". Все слова (кроме "востоке" получились вполне даже тематическими и допустимыми. А слово "восток" относится скорее к
общеупотребимым и не портит нам картинки.

Все. Теория на этом закончена, переходим к практике, на примере создания адалтного генератора.

Нам понадобится:
1. Большой набор предложений из любого английского (лучше американского) текста, в котором мы заменим ВСЕ значимые слова на ТЭГИ частей речи:
Я вот просто для примера взял надпись на дне ноутбука: To reduce the risk of electric shock, do not remove cover (or back). Приводим эту фразу к виду:

To <verb1> the <noun> of <adj> <noun>, do not <verb1> <noun> (or <noun>). Возьмите вот еще что на заметку! Подавляющее число поисковых запросов серферов строится из конструкции ADJ + NOUN, т.е. прилагательное и существительное. Например, "Голые девки", "Большие черные сиськи" и так далее. Зачем нам это нужно? А вот зачем. В грамматике английского языка, почти перед каждым существительным может стоять описательное (или уточняющее) прилагательное. Как этим воспользоваться? Очень просто. Там где это возможно, убираем тэги <noun> и <nouns> и заменяем их на <adjnoun> и <adjnouns>. Так же поступаем и с последовательностями тэгов <adj> <noun> и <adj> <nouns>

2. Теперь нам понадобятся словарные базы "частей речи". Их нам понадобится две. Одна, нам будет нужна всегда и мы назовем ее "common" - база общеупотребимых в любом тексте существительных, прилагательных и глаголов во всех их формах. Не пугайтесь. Это только кажется задача сложной, но забить такую базу до приемлимого размера можно менее чем за сутки. Вторая база, которая нам понадобится - это база слов, принятых в данной тематике. В нашем примере, это база слов, которые часто встречаются в десках и иных околоэротических текстах. "Сиськи, письки, рты и прочие члены". Тут уж постарайтесь забить базу не только избитыми словами, но и поищите редко встречаемые синонимы из сленгов разных этнических и социальных групп - на такие низкочастотники можно будет поймать хороший урожай.

3. А теперь нам понадобится простейший скрипт, на любом языке, который наберет из первой базы случайную последовательность
предложений-конструкций (их называют граммары или лексемы) и ... тупо проведет замену тэгов на соответствующие им части речи. Все! По
сути, отличный генератор готов. Генератор, который будет порождать из конструкций типа:
To <verb1> the <adjnoun> of <adjnoun>, do not <verb1> <adjnoun> (or <adjnoun>) - следующие варианты:
To fuck the big amazing tits of hot blonde, do not suck wet pant (or fat stretched pussy)

Как вы понимаете, я перечислил лишь самые основы, из которых вы можете подчерпнуть массу идей, по созданию еще лучших алгоритмов.
Некоторые маленькие хитрости я опустил, но не из вредного желания сохранить секреты (мои новые генераторы построены на крайне сложных алгоритмах с привлечением и нейросетей и основ ИИ), а для того, чтобы еще раз пробудить ваше воображение.

Желаю удачи!

4uka
Опытный

Зарегистрирован: 06.08.2006
Сообщений: 293

Обратиться по нику

# Добавлено:Вс Фев 01, 2009 6:45 am

Ответить с цитатой

Cancel156 писал(а):

4uka, ты это вообще к чему написал?

Это я к общей информации написал Smile

Чтобы не упирались в только генерацию текста. Ссылку на статью Гринвуда как делать доры не дам, т.к. там описывается работа со старым доргеном, да и самой статье уже лет прилично. На Армаде есть прекрасный раздел статьи и Вики - можно поискать там.

Цитата:

единственная проблема… никак не могу найти список фарма слов…

expro, у тебя как в анекдоте:

Цитата:

Сидит Вовочка в классе на уроке и думает: Надо, наверно, курить бросать, а то отдышка замучила, и пить, наверно тоже надо бросать, печень уже никуда, с бабами пора завязывать, а то Нинку из 3-го Б на аборт пора вести...
- Вовочка, сколько будет 5+5?
- Эх Марь Иванна, мне бы Ваши проблемы...

Поиск кеев вообще никакая не проблема. Начиная от того, что базу можно: купить, собрать самому (я кстати так и делал - через овертюру, вордтрекер и гугл, получилось то что без мусора и меня вполне устраивает), воспользоваться тем что дает главмед своим адвертам.

Здоровый образ жизни - наше все!

mamurik
Профессионал

Зарегистрирован: 02.01.2007
Сообщений: 805

Обратиться по нику

# Добавлено:Вс Фев 01, 2009 8:45 am

Ответить с цитатой

vitvvs писал(а):

помоему вы сами четко не понимаете что такое кейворд,
по правилам поисковых систем в данном примере: вот ЭТО слово
ЭТО - является стоп словом и не влияет на поисковый запрос и в следствии поисковым запросом (кейвордом) с точки зрения сео не является

Ну да, тут я погорячился. Использовал данную комбинацию, чтобы более наглядно показать о чем я говорю.

expro, вот тут можно попробовать слова добыть бесплатно, тут можно не дорого купить доступ к базе кеев, а еще можно поставить на свой сайт (если это не редиректный дор, конечно) хорошую статистику (тот же гугл аналитикс) и тщательно анализировать все данные, что получаешь Wink

в том числе и поисковые запросы. Удачи!

здрасте! Я родом из Бобруйска. Я - гуру, по-вашему это будет "учитель" (с)

expro
Свой

Зарегистрирован: 29.01.2009
Сообщений: 42

Обратиться по нику

# Добавлено:Вс Фев 01, 2009 12:52 pm

Ответить с цитатой

я имел введу тематичные фарма: глаголы, прилагательные, и т.п. для генерации текстов Wink

но за помощь, все равно спасибо!

Cancel156
Свой

Зарегистрирован: 30.01.2009
Сообщений: 8

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 12:38 am

Ответить с цитатой

Не подскажите где взять базу русских слов (отсортированных по частям речи)?

expro
Свой

Зарегистрирован: 29.01.2009
Сообщений: 42

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 12:52 am

Ответить с цитатой

google.com Wink

Cancel156
Свой

Зарегистрирован: 30.01.2009
Сообщений: 8

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 1:12 am

Ответить с цитатой

expro писал(а):

google.com Wink

Перед тем как спросить я не пробывал искать. Спасибо

Ещё классные советы будут?

expro
Свой

Зарегистрирован: 29.01.2009
Сообщений: 42

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 3:32 am

Ответить с цитатой

там не все так просто с этой базой... ведь в русском языке есть еще падежи и т.п... есть отличный класс называется phpmorthy он решает эту проблему!

Cancel156
Свой

Зарегистрирован: 30.01.2009
Сообщений: 8

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 5:42 pm

Ответить с цитатой

expro, ну с падежами придётся слегка заняться сексом

Ну время у меня есть. Хочеться написать действительно хороший софт Wink

expro
Свой

Зарегистрирован: 29.01.2009
Сообщений: 42

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 8:41 pm

Ответить с цитатой

http://sourceforge.net/projects/phpmorphy/ — этот класс тебе сэкономит кучу времени Wink

Cancel156
Свой

Зарегистрирован: 30.01.2009
Сообщений: 8

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 9:52 pm

Ответить с цитатой

Пишу на C# Wink

expro
Свой

Зарегистрирован: 29.01.2009
Сообщений: 42

Обратиться по нику

# Добавлено:Пн Фев 02, 2009 9:56 pm

Ответить с цитатой

я думаю тебе будет не сложно разобраться с алгоритмом, особенно если ты знаешь си…

Dmi
Опытный

Зарегистрирован: 14.04.2007
Сообщений: 143

Обратиться по нику

# Добавлено:Вс Фев 08, 2009 5:52 pm

Ответить с цитатой

есть много софта, который автоматически неплохо распределяет по частям речи исходя из контекта (и не без словарей конечно) как в английском, так и в других языкак, включая русский, ничего изобретать не надо
вот например для русского какие части речи и формы учитываются

expro
Свой

Зарегистрирован: 29.01.2009
Сообщений: 42

Обратиться по нику

# Добавлено:Вс Фев 08, 2009 6:49 pm

Ответить с цитатой

Dmi, а для англ можешь скинуть?

Dmi
Опытный

Зарегистрирован: 14.04.2007
Сообщений: 143

Обратиться по нику

# Добавлено:Вс Фев 08, 2009 7:14 pm

Ответить с цитатой

expro, доки? вот

vitvvs
Свой

Зарегистрирован: 12.09.2007
Сообщений: 19

Обратиться по нику

# Добавлено:Вс Мар 22, 2009 4:36 pm

Ответить с цитатой

expro писал(а):

http://sourceforge.net/projects/phpmorphy/ — этот класс тебе сэкономит кучу времени Wink

а для английского есть что-то подобное?

Новая тема

Написать ответ

ГЛАВНАЯ ~ ПОЛЕЗНЫЕ СТАТЬИ

На страницу Пред. 1, 2, 3, 4

Перейти:

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах

Генеральный спонсор

Партнеры

	Любое использование материалов, размещенных на ArmadaBoard.com, без разрешения владельцев ArmadaBoard.com запрещено.