|
|
Fraud Опытный |
Зарегистрирован: 27.07.2007
Сообщений: 309
|
Обратиться по нику
|
Fraud |
Ответить с цитатой | | |
|
А вы думали почему яндекс снова глючит, просто все силы были направлены на поиск клонов картинок
Ссылка на источник
Яндекс.Картинки научились находить одинаковые изображения в интернете. Поиск точных копий картинок никогда не был сложным для поисковиков, но любые небольшие модификации, изменение размеров, добавление надписей и даже просто пережатие JPG помогали картинке стать уникальной и попасть в результаты поиска в виде дубликата.
Наше исследование картинок Рунета показало, что из 600 млн картинок половина уникальна (300 млн), вторая половина склеивается в отношении 3:1, 200 из 300 млн имеют дубликаты только на своем сайте.
Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.
Самый многочисленный класс картинок, оказавшийся в выигрыше, это пары - исходное изображение и его уменьшенная копия, лежащие на одном сайте. Оказывается, что маленькие картинки гораздо чаще хорошо подписаны, но они не попадают на первые страницы поисковиков из-за своих размеров. Благодаря новой технологии мы научились находить маленькую картинку, а показывать ее большой оригинал.
На странице просмотра картинки мы показываем табличку копий картинки на разных сайтах. Сами того не желая, мы рассказываем веб-мастерам о сайтах, которые без разрешения или же во благо воспользовались их творениями. Для этого достаточно лишь найти свою картинку в поиске.
Задача поиска дубликатов оказалась технически сложной. Есть много научных работ на тему интеллектуального сравнения двух изображений, а для специалистов по "компьютерному зрению" задача опознать пару изображений, полученных изменением размеров, не является серьезной задачей. Однако никто из этих специалистов не имел возможности поработать с базой из 600 млн картинок. Попарное их сравнение на одном компьютере потребовало бы около 300 млн лет. К сожалению, обычными методами с помощью хеш-функций задачу решить тоже не удается. Но мы это сделали! |
|
|
|
|
|
|
Rabbit Кролики - это не только ценный мех |
Зарегистрирован: 01.08.2005
Сообщений: 19787
|
Обратиться по нику
|
|
|
Новое. Прибыльное. Скоро!
|
m_Stasuk Дизайнер |
Зарегистрирован: 23.12.2007
Сообщений: 5967
|
Обратиться по нику
|
m_Stasuk |
Ответить с цитатой | | |
|
так и знал, хреново это )) теперь не только текст надо уникальным делать
Цитата: |
Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.
|
вот что интересно |
|
|
|
|
|
Зарабатываю на рускамзе
Ростов-на-Дону
|
eff V.I.P. |
Зарегистрирован: 20.07.2008
Сообщений: 1660
|
Обратиться по нику
|
eff |
Ответить с цитатой | | |
|
Интересно, они научились находить картинку-первоисточник, или как с контентом... источник выкидывать, а потыренное оставлять... |
|
|
|
|
|
|
vitvirtual виртуальный |
Зарегистрирован: 11.06.2007
Сообщений: 9061
|
Обратиться по нику
|
vitvirtual |
Ответить с цитатой | | |
|
да они не будут париться, все что не является первоисточником, будут удалять из Яндекса, либо фильтровать, чаще удалять |
|
|
|
|
|
www.King-Servers.com - Dedicated Servers от 65$, VDS от 25$ |
captain Keen Опытный |
Зарегистрирован: 22.10.2008
Сообщений: 206
|
Обратиться по нику
|
captain Keen |
Ответить с цитатой | | |
|
Яндекс пиарит себя
Смешно вообще этот их рекламный пресс-релиз читать. Обойти их "супер-пупер систему" труда не составляет. Они же обрабатывают точные копии, только измененные в размерах. Достаточно crop'нуть картинку и будет она уникальной для яндекс-картинок, ну уж про изменение saturation, наложение сверху watermark'ов я вообще молчу. |
|
|
|
|
|
|
[weber] Опытный |
Зарегистрирован: 10.08.2008
Сообщений: 248
|
Обратиться по нику
|
[weber] |
Ответить с цитатой | | |
|
Баян. Еще весной обсуждалось, что в серпе по картинкам нету дублей... |
|
|
|
|
|
Get The F*ck Out - возобновил блог. Пишу для новичков там. Для старичков палю темы в telegram - @gtfo_ru |
eff V.I.P. |
Зарегистрирован: 20.07.2008
Сообщений: 1660
|
Обратиться по нику
|
eff |
Ответить с цитатой | | |
|
vitvirtual писал(а): |
да они не будут париться, все что не является первоисточником, будут удалять из Яндекса, либо фильтровать, чаще удалять
|
Ну по контенту они первоисточник не очень-то научились определять... получается, что первоисточник и выкидывают. |
|
|
|
|
|
|
semtler Профессионал |
Зарегистрирован: 15.10.2008
Сообщений: 905
|
Обратиться по нику
|
semtler |
Ответить с цитатой | | |
|
m_Stasuk писал(а): |
так и знал, хреново это )) теперь не только текст надо уникальным делать
|
ниче) на пхп можно таково наделать))))) |
|
|
|
|
|
Автоматические webmoney кредиты: WMCoin |
Rabbit Кролики - это не только ценный мех |
Зарегистрирован: 01.08.2005
Сообщений: 19787
|
Обратиться по нику
|
Rabbit |
Ответить с цитатой | | |
|
[weber] писал(а): |
Баян. Еще весной обсуждалось, что в серпе по картинкам нету дублей...
|
Как это нету... Есть, и еще как. Конечно, если искать "бабочка крылатая" - то нету дублей, а если искать к примеру "сундук сокровищ" - ого-го сколько дублей. |
|
|
|
|
|
Новое. Прибыльное. Скоро!
|
Dolphin Гуру |
Зарегистрирован: 23.07.2007
Сообщений: 1326
|
Обратиться по нику
|
Dolphin |
Ответить с цитатой | | |
|
Да брет это все.
У гугла нет такой системы, а в яндексе подавно.
Rabbit, +1 - лучше бы выдачу улучшили |
|
|
|
|
|
|
vitvirtual виртуальный |
Зарегистрирован: 11.06.2007
Сообщений: 9061
|
Обратиться по нику
|
vitvirtual |
Ответить с цитатой | | |
|
под впечатлением этого топика нарыл (причем у себя на компе!) картинки, которые не знает Яндекс, как раз под рунет тема |
|
|
|
|
|
www.King-Servers.com - Dedicated Servers от 65$, VDS от 25$ |
[weber] Опытный |
Зарегистрирован: 10.08.2008
Сообщений: 248
|
Обратиться по нику
|
[weber] |
Ответить с цитатой | | |
|
Цитата: |
Как это нету... Есть, и еще как. Конечно, если искать "бабочка крылатая" - то нету дублей, а если искать к примеру "сундук сокровищ" - ого-го сколько дублей.
|
Ну введи. Нет, конечно, дубли будут по-любому. Но в топе дублей нету. В текстовом поиске есть, а здесь - нету.
Мы это давно обсуждали уже. Была найдена программа какая-то, которая сравнивает изображения и выявляет процент схожести. Берем 2 картинки одинаковые. 100% схожести прога выдает. Ставим на одну вотермарку - схожесть 99-100%. То есть, либо вотермарка должна быть на полкартинки, либо она не решает. Затем меняли тональность, цвет и т.д. Меньше 80% сходства не удавалось достичь. Потом одному пришла в голову идея обрубить пикселей 10 с одного боку. После этого действия программа показала меньше 50% схожести. Добавляем к этому вотермарку и немного шаманства, и получаем уник. Это чисто по той программе. Может быть, у яндекса другие заскоки.
Для тех, кто не верит во все это - потыкайтесь по картинкам. У него там даже поиск специально по гаммам есть. Очень наблюдательные заметят, как в 2-3 апа вывести в топ оп любому запросу любую картинку =) По крайней мере, в начале лета я пытался там что-то делать. Как сейчас - не знаю. Давно это было, а кажется, что вот только что... |
|
|
|
|
|
Get The F*ck Out - возобновил блог. Пишу для новичков там. Для старичков палю темы в telegram - @gtfo_ru |
Rabbit Кролики - это не только ценный мех |
Зарегистрирован: 01.08.2005
Сообщений: 19787
|
Обратиться по нику
|
Rabbit |
Ответить с цитатой | | |
|
[weber], уговорил. На первой странице и правда нету. Но вообще - в выдаче дубли есть |
|
|
|
|
|
Новое. Прибыльное. Скоро!
|
captain Keen Опытный |
Зарегистрирован: 22.10.2008
Сообщений: 206
|
Обратиться по нику
|
captain Keen |
Ответить с цитатой | | |
|
[weber], важны не программы, а алгоритм. Ты сам подтвердил, что я там выше писал, что достаточно обрезать картинку и она уже уникальная для яндекса. Про тональности и цвет ты не прав. Тональность и цвет надо менять не на одинаковую величину по всей картинке, а на разные, по типу градиентной заливки. Наконец, можно элементарно повернуть картинку на 3 градуса, человеку это будет незаметно, а для компа разница ого-го какая.
Про распознавание образов инфы в Сети до фига, да и книг издано немало и все уязвимости аглоритмов распознавания образов широко известны, кто мешает эксплутировать эти уязвимости?! Элементарный скрипт на PHP наделает тебе из одной картинки тонну "уникальных для яндекс" за минуту.
Весь этот пиар яндекса с дублированными картинками топорный какой-то. То ли их пиарщики сами не понимают о чем пишут, то ли считают читателей за идиотов. |
|
|
|
|
|
|
|