На страницу Пред. 1, 2, 3 |
|
Вт Окт 21, 2008 12:27 pm |
Start Post: Важность кол-ва тегов в HTML документах... |
seo-tapok Свой |
Зарегистрирован: 17.10.2008
Сообщений: 42
|
Обратиться по нику
|
seo-tapok |
Ответить с цитатой | | |
|
Как известно, все поисковики работают в первую очередь с текстом страницы. Для этого они сначала чистят текст от тегов разметки HTML. А у же потом анализируют сам текст (так пишет И.Ашманов).
То есть если это так, то логично сделать вывод, что поисковику легче и быстрее будет очистить страницу от наименьшего числа тегов и графики так? Соответственно чем меньше тегов использованно в разметке, тем лучше? Тогда делая следующий вывод: может быть поисковик отдаёт таким малотегным страницам больший приоритет при обработке?
Ответьте пожалуйста на вопросы, уж очень интересно услышать ваши ответы насчёт этого... Прав ли я в своих догадках, или нет? |
|
|
|
|
|
|
seo-tapok Свой |
Зарегистрирован: 17.10.2008
Сообщений: 42
|
Обратиться по нику
|
seo-tapok |
Ответить с цитатой | | |
|
>> seo-tapok, да им плевать просто на свой код, вот и всё. Нет в этом явлении никакого скрытого смысла.
Странно как то это... Такая мегакорпорация, такие крутые программисты, стока много денег и плевать на свой собственный код =\ Хотя, если бы я был гуглом, мне бы тоже было бы плевать
>> seo-tapok у Гугла никаких своих собственных стандартов валидации нет.
Ну нет так нет Просто так... Догадки... Хотя, это ведь и нигде не описано, что бы так поспешно делать выводы. Или где то инженеры компании Гугл об этом упоминали? |
|
|
|
|
|
Записки SEO-Тапка
Блог для программистов |
inse3t Свой |
Зарегистрирован: 08.10.2008
Сообщений: 20
|
Обратиться по нику
|
inse3t |
Ответить с цитатой | | |
|
Хм... А ничего что не валидный код, который будет правильно отображатся во всех броузерах написать проще чем такой же валидный? |
|
|
|
|
|
|
Cabal Гуру |
Зарегистрирован: 20.10.2007
Сообщений: 1360
|
Обратиться по нику
|
Cabal |
Ответить с цитатой | | |
|
seo-tapok писал(а): |
>> А бывают сайты для людей без графики? Нет, не бывают.
А вот и не правда! Бывают и ещё как! Например на страницах спецификаций протоколов - RFC, графики никогда не было! Но в тоже время они для людей!
Да и делая выводы могу сказать: Зачем мне картинки, если я текстом всё прекрасно выражу и оформлю.
|
Повторяю. HTML страница - всегда текст. Нет смысла спорить. |
|
|
|
|
|
|
BrokenBrake Бомжевед |
Зарегистрирован: 16.02.2007
Сообщений: 3432
|
Обратиться по нику
|
BrokenBrake |
Ответить с цитатой | | |
|
Цитата: |
Хм... А ничего что не валидный код, который будет правильно отображатся во всех броузерах написать проще чем такой же валидный?
|
Это не правда. |
|
|
|
|
|
Научись ценить время с microToDo
...а работу с рекламодателями автоматизируй! |
Cabal Гуру |
Зарегистрирован: 20.10.2007
Сообщений: 1360
|
Обратиться по нику
|
Cabal |
Ответить с цитатой | | |
|
seo-tapok писал(а): |
Или где то инженеры компании Гугл об этом упоминали?
|
Нет не упоминали. Но отдельного специально-гугловского стандарта не существует. Стандарты придумывают чтобы их придерживались. Если о них никто не бельмеса не знает то и смысла в них нет. Я не видел спецификаций формата googleDHML и никто не видел. Если его придерживается один Гугл - это не стандарт а изврат. |
|
|
|
|
|
|
inse3t Свой |
Зарегистрирован: 08.10.2008
Сообщений: 20
|
Обратиться по нику
|
inse3t |
Ответить с цитатой | | |
|
Цитата: |
Цитата: |
Хм... А ничего что не валидный код, который будет правильно отображатся во всех броузерах написать проще чем такой же валидный?
|
Это не правда.
|
Как минимум невалидный код будет меньше. |
|
|
|
|
|
|
BrokenBrake Бомжевед |
Зарегистрирован: 16.02.2007
Сообщений: 3432
|
Обратиться по нику
|
|
|
Научись ценить время с microToDo
...а работу с рекламодателями автоматизируй! |
inse3t Свой |
Зарегистрирован: 08.10.2008
Сообщений: 20
|
Обратиться по нику
|
inse3t |
Ответить с цитатой | | |
|
BrokenBrake, я то нет, просто хотел заметить в этом топике, а то никто этот аргумент не приводил |
|
|
|
|
|
|
Hello_Kitty V.I.P. |
Зарегистрирован: 30.04.2007
Сообщений: 10763
|
Обратиться по нику
|
|
|
|
captain Keen Опытный |
Зарегистрирован: 22.10.2008
Сообщений: 206
|
Обратиться по нику
|
captain Keen |
Ответить с цитатой | | |
|
Я не СЕОшник и слабо разбираюсь как сайты ранжируются поисковиками, но в том как пишутся парсеры разбираюсь, поэтому внесу свои 5 копеек. Разбор текстов традиционно сейчас делается регэкспами, никто давно уже велосипед не изобретает. Теория разбора уже десятилетия существует и ничего лучше регулярных выражений за это время не придумали. Уверен на 99.99%, что strip_tags в PHP реализован как набор "предустановленных" регэкспов. (Кстати сказать, strip_tags не всегда фильтрует тэги корректно и возможны XSS-атаки через переменные фильтруемые этой функцией). Так же хорошо известно, что регэкспы лучше работают на хорошо структурированном тексте, структура бывает даже важнее объема текста. Соответственно, понятно, что валидный HTML будет разбираться быстрее невалидного, а XHTML быстрее HTML. И самое главное с более предсказуемым результатом. Очевидно, что семантическая верстка будет тоже парситься быстрее.
Касательно соблюдения w3 стандартов веб-девелоперами дискуссия идет давно. Корень проблемы в том что создатели браузеров не соблюдают этих стандартов. Дело даже не в том что в каждом из браузеров есть баги и отступления от стандарта, а в том что в угоду маркетинговым интересам громадной частью кода любого современного браузера является блок, пытающийся при наличии ошибки в коде, понять что же все-таки имел в виду горе-верстальщик и исправить эту ошибку. Вы тут все говорите про открытые-закрытые тэги, но ведь это только маленькая надводная часть айсберга. Сколько дебилов пишут код подбный этому:
<b><i>bla-bla-bla</b></i>
Тэги-то тут закрыты, но каша из головы верстальщика перенесена в документ. И таких примеров не счесть. Логичный путь борьбы с этим один - брузер видит кашу на странице и такую же кашу выдает юзеру. Но разве могут участники браузерных войн на это пойти?! Тогда их браузер будет отображать в удобном для человека виде минимальный процент сайтов, и как объяснить пользователю что "этот сайт в нашем браузере показывается криво потому что он криво сверстан". Ведь он резонно заметит: "а браузер-конкурент показывает нормально". А на объяснения про то что конкуренты пытаются исправлять ошибки верстал скажет: "а вы что же? не можете исправлять?"
Браузеры рендерят невалидный html дольше просто потому что больше операций надо сделать, с парсерами та же история. Так что важно не количество тегов, а их "качество" (разумеется при сопоставимых объемах документов, а не различающихся в тысячи раз).
Но, на мой взгляд, вычистка тэгов не самый ресурсоемкий блок гугловских роботов. Они же не ценники с сайта магазина нижнего белья скачивают, а занимаются семантическим анализом текста. И вот этот блок должен жрать максимальное кол-во ресурсов. И скорость разбора будет зависить в первую очередь от того насколько язык документа приспособлен к машинному анализу. Понятно что семантический анализ английского текста компьютеру выполнить проще чем анализ аналогичного русского текста из-за меньшего числа словоформ, устойчивого порядка слов во фразах и т.д. и т.п. Про это Вацлав хорошо писал, читайте его посты.
seo-tapok писал(а): |
>> seo-tapok, да им плевать просто на свой код, вот и всё. Нет в этом явлении никакого скрытого смысла.
Странно как то это... Такая мегакорпорация, такие крутые программисты, стока много денег и плевать на свой собственный код =\ Хотя, если бы я был гуглом, мне бы тоже было бы плевать
|
Прежде чем так говорить открой хотя бы страницу гуглового поиска и посмотри как она сделана. Она, не побоюсь этого слова, идеальна с точки зрения экономии трафика и минимизации запросов к серверу, и как следствие минимизации потребляемых ресурсов. Не WordPress одним словом |
|
|
|
|
|
|
Cabal Гуру |
Зарегистрирован: 20.10.2007
Сообщений: 1360
|
Обратиться по нику
|
Cabal |
Ответить с цитатой | | |
|
captain Keen, отличный пост. Просто мега фундаментальный. Малаца.
Только апеллировать к странице поиска опять не надо потому что при всём при этом код там не валидный как уже было сказано. И если он так хорошо сделан, но не валиден, то опять у нестойких начинаются подозрения в том что существует стандарт googleHTML а не просто дизайнеры распиздяи тупят. |
|
|
|
|
|
|
captain Keen Опытный |
Зарегистрирован: 22.10.2008
Сообщений: 206
|
Обратиться по нику
|
captain Keen |
Ответить с цитатой | | |
|
Cabal писал(а): |
captain Keen, отличный пост. Просто мега фундаментальный. Малаца.
|
Спасибо
Cabal писал(а): |
Только апеллировать к странице поиска опять не надо потому что при всём при этом код там не валидный как уже было сказано. И если он так хорошо сделан, но не валиден, то опять у нестойких начинаются подозрения в том что существует стандарт googleHTML а не просто дизайнеры распиздяи тупят.
|
Обрати внимание что я там говорил про экономию ресурсов, а никак не про валидность этого документа. Надеюсь, ты не будешь спорить что он оптимален с точки зрения экономии ресурсов гугловского сервера.
Да, этот документ невалиден по стандартам W3. Но он вполне может быть валидным по внутренним гугловским стандартам. Парсить самого себя, я думаю, Гуглу незачем Так что ребята со своей основной задачей справляются блестяще.
Ну и параноидальный аспект данного поведния гугловцев я бы не стал сбрасывать со счетов: потенциальным конкурентам можно вполне усложнить жизнь, выдавая невалидную версию и тем самым расходуя в большем количестве их ресурсы при возможном парсинге.
Про "нестойких" ты хорошо сказал, но вот что-то говорит мне что не повлияем мы на них своими разговорами - как делали они через жопу так и будут делать. Уверен что 99% делают так не "по иделогическим причинам", а просто потому что нормально сделать не могут. |
|
|
|
|
|
|
|