На страницу Пред. 1, 2 |
|
Ср Июн 08, 2016 4:07 pm |
Start Post: Индексация и ранжирование автопереводного контента |
plamar + Свой |
Зарегистрирован: 17.03.2010
Сообщений: 69
|
Обратиться по нику
|
plamar + |
Ответить с цитатой | | |
|
Нам регулярно требуется англоязычный контент в больших количествах. Поэтому мы тестируем различные подходы к его генерации. Насколько успели заметить, для индексации контента и последующего хорошего ранжирования страниц с этим контентом, текст должен быть более менее качественным (субъективно - читаемым). Проанализировали ряд сервисов для машинного перевода текста. Для пары ru-en так и не нашли ничего толкового с точки зрения качества получаемого на выходе контента. Поэкспериментировали с цепочками (вроде ru|fr|en) - качество также не понравилось. Начали смотреть в сторону родственных языков и наткнулись на интересную пару: de-en (немецкий-английский). На выходе получается далеко не идеальный текст, однако читаемость в среднем явно выше ru-en. Например:
Исходный текст
Ludwig von Mises gilt zweifellos als einer der größten Intellektuellen des 20. Jahrhunderts. Es gibt kaum ein wirtschaftliches Thema, auf das der Philosoph des Liberalismus und Vordenker der Österreichischen Schule der Nationalökonomie in seinen Publikationen nicht eingegangen ist. Das Faszinierende daran:
Seine Gedankengänge sind noch immer brandaktuell, seine Denkanstöße, wie zum Thema Mindestlohn, erschreckend visionär.
Michael Ladwig hat in liebevoller Detailarbeit das umfangreiche Werk Ludwig von Mises’ analysiert und ein Lexikon zusammengestellt, das eine Orientierungshilfe in seiner Philosophie bietet. Leicht verständliche Artikel beleuchten Mises’ Gedanken von A wie Anarchismus bis Z wie Zwang, mal in ein paar Sätzen auf den Punkt gebracht, mal über mehrere spannende Seiten.
Переведено Яндекс переводчиком
Ludwig von Mises is without a doubt one of the greatest Intellectuals of the 20th century. Century. There is hardly an economic subject, the philosopher of liberalism, and thinkers of the Austrian school of Economics in its publications is not addressed. The Fascinating thing is:
His thoughts are always up to date, its food for thought, as to the topic of minimum wage, terrifying visionary.
Michael Ladwig has analysed in loving detail the extensive work of Ludwig von Mises’ and a lexicon is compiled, which provides a guidance in his philosophy. Easy-to-understand article Mises’ thoughts of A like anarchism to Z as in forced, time in a couple of sentences to the point light, at other times about several exciting pages.
Вопросы
1. Есть ли у вас рекомендации по улучшению качества автопереводного контента?
2. Возможно, посоветуете языковые пары или сервисы автоперевода, которые стоит использовать?
3. Проводил ли кто-нибудь тесты по массовой индексации и выводу в ТОП страниц с подобным контентом, в частности, при машинном переводе родственных языковых пар? |
|
|
|
|
|
EA-WS.com - API для автоматического перевода. 0,02$ за 1000 знаков.
Datacol (Easy Action) - универсальный парсер контента, 64+ готовых парсера от 459 руб/мес.! |
ashiko V.I.P. |
Зарегистрирован: 02.08.2010
Сообщений: 4127
|
Обратиться по нику
|
ashiko |
Ответить с цитатой | | |
|
Цитата: |
автоматический транслейт иногда такие перлы выдает
|
Неудивительно, особенно если учесть, что много языковых пар переводятся машиной (в частности, Гуглом) не напрямую, а через язык-посредник. Подобие "глухого телефона" получается |
|
|
|
|
|
|
Ализандр V.I.P. |
Зарегистрирован: 06.04.2010
Сообщений: 4647
|
Обратиться по нику
|
Ализандр |
Ответить с цитатой | | |
|
Цитата: |
А молдавский до 1989 года вообще кириллицей писался, единственный из романских языков.
|
А вон, кстати, выше Nea Cool'a и Deragru ярко отожгли - и тебе по-румынски, и по-молдавски, и на латинице, и на кириллице сбацали . Приходилось бывать в Молдавии, знакомо .
Кстати, Nea, я смотрю, ты у нас на форуме на многих языках шарашишь . Переводчица или полиглотка? |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
есть запрос, например moscow. Есть 1 миллион страниц, которые имеют хороший показатель по ПФ по просмотрам. Например, собрали кеи, спарсили хрефером. Выделяем на страницах текстовую часть, сокращаем теги, разбиваем текст по пассажам. Чем больше в вашем переводе будет совпадений на пассажах, тем меньше вам надо редактировать переведенный текст. Логично, что лучше заранее переводить абзацами на несколько переводчиков и сверять каждый вариант на лучшие совпадения с идеалом. Наверное, для борьбы с фильтрами лучше проблемный текст ваще не размещать. Всё можно автоматизировать, профит. |
|
|
|
|
|
|
Graf V.I.P. |
Зарегистрирован: 14.07.2014
Сообщений: 2004
|
Обратиться по нику
|
|
|
|
Nea Cool'a Опытный |
Зарегистрирован: 14.09.2015
Сообщений: 134
|
Обратиться по нику
|
Nea Cool'a |
Ответить с цитатой | | |
|
Цитата: |
Переводчица или полиглотка?
|
La historia calla... История умалчивает, в смысле .
Цитата: |
разбиваем текст по пассажам
|
+1, классный способ! И да, при работе с пассажами надо учитывать вот такую штуку, к примеру:
Сегодня с утра шёл дождь. Солнце не светило - тут два пассажа.
Сегодня с утра шёл дождь.Солнце не светило - а вот тут пассаж всего один. |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Nea Cool'a никогда о таком не слышал, нельзя ли источник - определение пассаж?
В моем понимании пассаж - это неделимая часть предложения. Типа
Сегодня с утра
шёл дождь
Солнце не светило
зы
а ваш вариант - это перевод текста предложениями, логично что тексты будут синематически правильными на входе, не? |
|
|
|
|
|
|
Coooler V.I.P. |
Зарегистрирован: 21.06.2010
Сообщений: 4368
|
Обратиться по нику
|
Coooler |
Ответить с цитатой | | |
|
Цитата: |
И да, при работе с пассажами надо учитывать вот такую штуку, к примеру
|
И в чём же эта самая штука? Одинаковые же твои примеры. |
|
|
|
|
|
|
azsx Свой |
Зарегистрирован: 06.06.2009
Сообщений: 65
|
Обратиться по нику
|
azsx |
Ответить с цитатой | | |
|
Coooler обратите, пожалуйста, внимание. Точка не обязательно рвет пассаж, например "и т.д", а также другие сокращения. Ну это как я понимаю. |
|
|
|
|
|
|
niramus + Опытный |
Зарегистрирован: 05.12.2009
Сообщений: 477
|
Обратиться по нику
|
niramus + |
Ответить с цитатой | | |
|
Nea Cool'a писал(а): |
Цитата: |
Переводчица или полиглотка?
|
La historia calla... История умалчивает, в смысле .
Цитата: |
разбиваем текст по пассажам
|
+1, классный способ! И да, при работе с пассажами надо учитывать вот такую штуку, к примеру:
Сегодня с утра шёл дождь. Солнце не светило - тут два пассажа.
Сегодня с утра шёл дождь.Солнце не светило - а вот тут пассаж всего один.
|
Означает ли это что ИИПС никогда не будет умнее человека, если ИИПС не отличает существительное от глагола прошедшего рода - ?
И разве ИИПС может быть настолько неумной, чтобы проглатывать точки?
Тогда будущие дорвеи будут строиться по принципу изобретения новых слов, которые постепенно будут вживляться в "живой" форум. А за тем уже ИИПС будет подстраиваться под них. |
|
|
|
|
|
|
Doc V.I.P. |
Зарегистрирован: 31.03.2010
Сообщений: 4909
|
Обратиться по нику
|
Doc |
Ответить с цитатой | | |
|
Цитата: |
не отличает существительное от глагола прошедшего рода
|
Не знаю насчет частей речи, но сейчас для Гугла слово в единственном и множественном числе может расцениваться как 2 разных ключевика |
|
|
|
|
|
|
Irbis V.I.P. |
Зарегистрирован: 11.03.2010
Сообщений: 3641
|
Обратиться по нику
|
Irbis |
Ответить с цитатой | | |
|
Понимающие язык машины были бы очень полезны. Но на данном этапе мы не знаем, как их построить. |
|
|
|
|
|
|
Skyworker V.I.P. |
Зарегистрирован: 25.12.2013
Сообщений: 11497
|
Обратиться по нику
|
Skyworker |
Ответить с цитатой | | |
|
Coooler писал(а): |
Цитата: |
И да, при работе с пассажами надо учитывать вот такую штуку, к примеру
|
И в чём же эта самая штука? Одинаковые же твои примеры.
|
Разница все-таки есть. В одном тексте пробел между предложениями есть, а в другом нет. Вопрос знатокам: синонимизация текстов даёт какой-то эффект, если она производится без потери смысла? |
|
|
|
|
|
Надежный и отзывчивый VPS хостинг для серьезных проектов -|||- Топовая партнерка под серый крипто-трафф |
ceber V.I.P. |
Зарегистрирован: 13.05.2010
Сообщений: 4290
|
Обратиться по нику
|
ceber |
Ответить с цитатой | | |
|
Цитата: |
Вопрос знатокам: синонимизация текстов даёт какой-то эффект, если она производится без потери смысла?
|
Думаю, да. Сравните:
Шла Саша по шоссе и сосала сушку.
Прогуливалась Саша по дороге и облизывала рогалик. |
|
|
|
|
|
|
Graf V.I.P. |
Зарегистрирован: 14.07.2014
Сообщений: 2004
|
Обратиться по нику
|
Graf |
Ответить с цитатой | | |
|
Google Translate недавно подключил русский язык к переводу с глубинным обучением (нейронные сети). Так что, качество переводов должно еще больше возрасти. |
|
|
|
|
|
|
|