АРМАДА
Индексация и ранжирование автопереводного контента
На страницу 1, 2  След.
Новая тема Написать ответ

plamar +
Свой
Зарегистрирован: 17.03.2010
Сообщений: 69
Обратиться по нику
# Добавлено:Ср Июн 08, 2016 4:07 pmДобавить в избранноеОтветить с цитатой
Нам регулярно требуется англоязычный контент в больших количествах. Поэтому мы тестируем различные подходы к его генерации. Насколько успели заметить, для индексации контента и последующего хорошего ранжирования страниц с этим контентом, текст должен быть более менее качественным (субъективно - читаемым). Проанализировали ряд сервисов для машинного перевода текста. Для пары ru-en так и не нашли ничего толкового с точки зрения качества получаемого на выходе контента. Поэкспериментировали с цепочками (вроде ru|fr|en) - качество также не понравилось. Начали смотреть в сторону родственных языков и наткнулись на интересную пару: de-en (немецкий-английский). На выходе получается далеко не идеальный текст, однако читаемость в среднем явно выше ru-en. Например:

Исходный текст

Ludwig von Mises gilt zweifellos als einer der größten Intellektuellen des 20. Jahrhunderts. Es gibt kaum ein wirtschaftliches Thema, auf das der Philosoph des Liberalismus und Vordenker der Österreichischen Schule der Nationalökonomie in seinen Publikationen nicht eingegangen ist. Das Faszinierende daran:

Seine Gedankengänge sind noch immer brandaktuell, seine Denkanstöße, wie zum Thema Mindestlohn, erschreckend visionär.

Michael Ladwig hat in liebevoller Detailarbeit das umfangreiche Werk Ludwig von Mises’ analysiert und ein Lexikon zusammengestellt, das eine Orientierungshilfe in seiner Philosophie bietet. Leicht verständliche Artikel beleuchten Mises’ Gedanken von A wie Anarchismus bis Z wie Zwang, mal in ein paar Sätzen auf den Punkt gebracht, mal über mehrere spannende Seiten.


Переведено Яндекс переводчиком

Ludwig von Mises is without a doubt one of the greatest Intellectuals of the 20th century. Century. There is hardly an economic subject, the philosopher of liberalism, and thinkers of the Austrian school of Economics in its publications is not addressed. The Fascinating thing is:

His thoughts are always up to date, its food for thought, as to the topic of minimum wage, terrifying visionary.

Michael Ladwig has analysed in loving detail the extensive work of Ludwig von Mises’ and a lexicon is compiled, which provides a guidance in his philosophy. Easy-to-understand article Mises’ thoughts of A like anarchism to Z as in forced, time in a couple of sentences to the point light, at other times about several exciting pages.


Вопросы
1. Есть ли у вас рекомендации по улучшению качества автопереводного контента?
2. Возможно, посоветуете языковые пары или сервисы автоперевода, которые стоит использовать?
3. Проводил ли кто-нибудь тесты по массовой индексации и выводу в ТОП страниц с подобным контентом, в частности, при машинном переводе родственных языковых пар?
EA-WS.com - API для автоматического перевода. 0,02$ за 1000 знаков.
Datacol (Easy Action) - универсальный парсер контента, 64+ готовых парсера от 459 руб/мес.!

Miss Content
V.I.P.
Зарегистрирован: 05.03.2010
Сообщений: 7881
Обратиться по нику
# Добавлено:Вт Июн 14, 2016 8:13 amОтветить с цитатой
Цитата:
Начали смотреть в сторону родственных языков и наткнулись на интересную пару: de-en (немецкий-английский). На выходе получается далеко не идеальный текст, однако читаемость в среднем явно выше ru-en.


Действительно, английский и немецкий языки очень схожи. Сама отмечала это при изучении.

Цитата:
Есть ли у вас рекомендации по улучшению качества автопереводного контента?


Нанять студента с иняза для правки. Других вариантов нет.
Место для Вашей рекламы!

Yabuti
V.I.P.
Зарегистрирован: 28.11.2008
Сообщений: 16263
Contest (Сумма: 2)
Обратиться по нику
# Добавлено:Вт Июн 14, 2016 1:40 pmОтветить с цитатой
Только если вручную корректировать, а то автоматический транслейт иногда такие перлы выдает :mrrgreen:
Да и Google, скорее всего, содержит большую базу маркеров по переводной генеренке.
Ксен ВПС и выделенные серверы от PQCService.net с бесплатным администрированием в 7 локациях, icq: 87244588
--

Miss Content
V.I.P.
Зарегистрирован: 05.03.2010
Сообщений: 7881
Обратиться по нику
# Добавлено:Ср Июн 15, 2016 8:02 amОтветить с цитатой
Цитата:
автоматический транслейт иногда такие перлы выдает


Любой автопереводчик должен иметь объемную базу данных, которая кроме лексики и грамматики должна содержать фразеологизмы и устойчивые сочетания. Если они не опознаются, то машина начинает тупить и переводить их дословно. Впрочем, как и человек. Smile
Место для Вашей рекламы!

Skyworker
V.I.P.
Зарегистрирован: 25.12.2013
Сообщений: 11497
Обратиться по нику
# Добавлено:Ср Июн 15, 2016 8:07 amОтветить с цитатой
Если Гуглом переводить и пытаться запихивать в него же этот перевод, то ничего толкового не выйдет. Нужно пробовать переводить для Гугля либо софтом, либо Яндексом, например. Замечал, что разница бывает довольно существенной.
Надежный и отзывчивый VPS хостинг для серьезных проектов -|||- Топовая партнерка под серый крипто-трафф

Miss Content
V.I.P.
Зарегистрирован: 05.03.2010
Сообщений: 7881
Обратиться по нику
# Добавлено:Ср Июн 15, 2016 8:51 amОтветить с цитатой
Цитата:
наткнулись на интересную пару: de-en (немецкий-английский).


ТС, самый близкий к английскому языку с лингвистической точки язык — фризский. Wink Картинка в помощь.

Место для Вашей рекламы!

Iceberg
V.I.P.
Зарегистрирован: 17.03.2010
Сообщений: 12044
Обратиться по нику
# Добавлено:Пн Июл 18, 2016 2:27 pmОтветить с цитатой
Цитата:
Действительно, английский и немецкий языки очень схожи. Сама отмечала это при изучении.


Ну, это кому как Smile . Я по-англицки классно болтаю, а вот с немецким не заладилось, до сих пор так и не освоил. И, если честно, особой похожести между ними не вижу, даром что эти языки родственны друг другу Smile

Румынский (молдавский) ещё прикольный - вроде как романский по происхождению, а много славянских корней. Причём они причёсаны под более латинскую грамматику. А молдавский до 1989 года вообще кириллицей писался, единственный из романских языков.

TREVERS
V.I.P.
Зарегистрирован: 20.06.2011
Сообщений: 9819
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Ср Июл 20, 2016 10:03 amОтветить с цитатой
Цитата:
Я по-англицки классно болтаю, а вот с немецким не заладилось



Это кому что в базис заложили, кто-то вообще по френчу ботаает, а вот с инглишом и дойчем не лады, а молдаване - как бы нация цыган, чего только у них там не замешано Wink

Nea Cool'a
Опытный
Зарегистрирован: 14.09.2015
Сообщений: 134
Обратиться по нику
# Добавлено:Ср Июл 20, 2016 9:36 pmОтветить с цитатой
TREVERS писал(а):
а молдаване - как бы нация цыган


Nu e adevărat, tu exagerezi prea mult Smile. Nu sînt o ţigancă Smile

Deragru
Опытный
Зарегистрирован: 12.03.2015
Сообщений: 141
Обратиться по нику
# Добавлено:Ср Июл 20, 2016 9:53 pmОтветить с цитатой
Цитата:
Nu sînt o ţigancă Smile


Вестимо, Nea. Дин пэкате, ну сынт молдованин, дар те ынцелег Smile

Nea Cool'a
Опытный
Зарегистрирован: 14.09.2015
Сообщений: 134
Обратиться по нику
# Добавлено:Чт Июл 21, 2016 7:17 amОтветить с цитатой
Цитата:
дар те ынцелег Smile


Deragru, Drinks or Beer Drinks or Beer Drinks or Beer

vitvirtual
виртуальный
Зарегистрирован: 11.06.2007
Сообщений: 9061
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Чт Июл 21, 2016 8:13 amОтветить с цитатой
Автопереводной контент под поисковые системы нужно однозначно редактировать. Потому что сайты в индексе проверяют спецально натренированные обезьяны. Они помечают генерированный контент как спам...
www.King-Servers.com - Dedicated Servers от 65$, VDS от 25$

Claudia
V.I.P.
Зарегистрирован: 12.07.2012
Сообщений: 1505
Обратиться по нику
# Добавлено:Чт Июл 21, 2016 10:25 amОтветить с цитатой
Цитата:
Потому что сайты в индексе проверяют спецально натренированные обезьяны.


:nah:


Nea Cool'a
Опытный
Зарегистрирован: 14.09.2015
Сообщений: 134
Обратиться по нику
# Добавлено:Чт Июл 21, 2016 10:58 amОтветить с цитатой
Цитата:
Потому что сайты в индексе проверяют спецально натренированные обезьяны. Они помечают генерированный контент как спам...


Фигурально выражаясь, это так Smile . А на самом деле это специальные алгоритмы, которые анализируют связность текста. Если текст бессвязный, то он и попадает в спам.

niramus +
Опытный
Зарегистрирован: 05.12.2009
Сообщений: 477
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Чт Июл 21, 2016 11:05 amОтветить с цитатой
Какой бы целоМудренной ни была девушка, она не будет так долго ждать виртуального общения.

Wir haben alles, was Sie brauchen
Was Sie nicht rauchen, verkaufen wir auch nicht.

ТС, переведи этой ТП автоматом денег на счёт. И тогда эта картинка будет работать лучше.


*ТП = переводчик технических текстов

Nea Cool'a писал(а):
Цитата:
Потому что сайты в индексе проверяют спецально натренированные обезьяны. Они помечают генерированный контент как спам...


Фигурально выражаясь, это так Smile . А на самом деле это специальные алгоритмы, которые анализируют связность текста. Если текст бессвязный, то он и попадает в спам.




Каким алгоритмом необходимо перемешать слова из этого топика, чтобы "нигерийское" письмо никогда не попало в спам?

Это правда, что у нигерийских копирайтеров длиннее текст?
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры