Альманах ВебмастераБиблиотека МастераНовостиСтатьиАналитикаФорумыАльманах вебматераСсылкипроекты
 
Альманах Вебмастера №75. 10 мая 2001

Добрый день.

Сегодняшний выпуск посвящен работе поисковых машин. Материал рассылки подготовлен на основе очередного курса "Маркетинг для малышей", который будет анонсирован в ближайшее время (как только отредактируется).

Необходимо отметить, что тема поисковых сегодня особенно актуальна для вебмастеров. В первую очередь, это связано с увеличением доли трафика поисковых машин среди всех трафикогенераторов (в соответствии с отчетом SpyLOG @@). Возрастание доли трафика с поисковых машин закономерно, поскольку количество сайтов увеличивается, а гибкости существующих каталогов недостаточно для точного и адекватного нахождения информации. Проще говоря, существующие методы и принципы каталогизации неудовлетворительны для большинства пользователей Интернета либо в силу их большой сложности, либо в силу их малой глубины и детализации. Причем такая ситуация сложилась отнюдь не только в Рунете.

Все это привело к значительному росту значения поисковых машин в качестве средства навигации по Интернету. Здесь полезным будет вспомнить, что для англоязычных ресурсов до 60 % трафикогенерации приходится на долю поисковых машин, тогда как доля каталогов, за исключением, может быть, некоторого количества наиболее удачно размещенных ресурсов стремится к нулю.

Соответственно возрастает и важность грамотного позиционирования сайта в поисковых машинах. И именно об этом и пойдет сегодня речь.

С уважением, Федор Вирин
www.mymoney.ru

mymany@postman.ru
Содержание

Новости отовсюду
Статья "Как работает поисковая машина"
Полезные ссылки
Объявления
Новости отовсюду

Проект iOne, организованный в конце прошлого года издательским домом "Ъ", получает свое продолжение в виде информационного сайта на том же адресе. На днях же стартует новый проект с участием собственно iOne - "один вокруг света" (да еще и за 80 дней). Ежедневный дневник путешествия будет публиковаться на сайте www.ione.ru, а по результатам всего проекта планируется выпустить книгу.

Любопытный скандал разгорается в новых "баннерсах" вокруг известного питерского хостера - Sorix. По свидетельству сразу нескольких пользователей, компания Sorix не позволяет своим клиентам переходить к другим хостинг-провайдерам, фактически шантажируя их, поскольку домены клиентов регистрируются не на клиента, а на провайдера. Интересно, что у многих пользователей не вызывает подозрений регистрация доменного имени на хостера.

Напомню, что новые баннерсы (http://ebanners.ezhe.ru) - пришли на смену старого списка рассылки с тем же названием после месячного перерыва в работе последнего.
Как работает поисковая машина

Поисковая машина состоит из трех частей:
  1. Интерфейса, то есть, собственно той части поисковой машины, которую мы видим. Именно через интерфейс пользователи вводят свои запросы и получают ответы, а вебмастера регистрируют свои сайты.

  2. Поисковой машины - паука (в англоязычной литературе - crawler), которая обходит всю сеть в поисках новой информации. Именно паук и находит все ваши страницы, причем умелый паук не просто самостоятельно пройдет по всем вашим внутренним ссылкам, но и грамотно их интерпретирует (например, если вы используете фреймы). Паук считывает содержимое страниц и, сохраняя его в более компактном и удобном виде, передает в индекс.

  3. Индекса, в котором собственно и осуществляется поиск по введенному пользователем через интерфейс запросу. Именно в индексе содержится все то, что накопал паук, именно в индексе - громадной базе данных - обрабатывается вся информация и все запросы, поэтому положение страницы в результатах поиска зависит именно от того, как она занесена в базу данных. У некоторых поисковых машин индекс может занимать десятки и даже сотни гигабайт дискового пространства (вы можете посмотреть, например, цифры на "Яндексе"), поэтому не мудрено, что перед тем, как ваши страницы станут доступными для посетителей поисковой машины, должно пройти некоторое время после отправки регистрации.
Очевидно, что такая схема работы требует значительных ресурсов, как дисковых (все эти гигабайты необходимо где-то хранить, архивировать, защищать от сбоев и пр.), так и процессорных (приходит до нескольких сотен запросов в секунду, а ведь надо осуществлять поиск в немыслимом объеме информации). Если мы при этом учтем, что в Интернете на данный момент существует не менее одного миллиарда уникальных документов и около полумиллиарда сайтов, то стоящая перед поисковыми машинами задача не может не поражать своей грандиозностью. Кстати, на данный момент никто этой задачи толком решать и не умеет: несмотря на то, что поисковые монстры активно рапортуют о сотнях миллионах страниц, мало кто из них переходит барьер в треть уникальных страниц.

Работает поисковая машина следующим образом: паук постоянно обходит сеть и заносит результаты своих изысканий в индекс поисковой машины, где все эти данные сортируются и складываются в удобном для обработке виде. При этом происходит проверка уже содержащихся данных, чтобы не было повторений (то есть абсолютных, вплоть до URL), а также, чтобы следить за обновлениями данных на сайте, таким образом, поисковая машина после каждого обхода имеет свежую версию вашего сайта. У каждого паука есть своя маска обхода Сети. Так, например, известные в Рунете поисковые системы "Яндекс" и "Апорт" индексируют (за некоторым исключением) только сайты в зонах ru и su. Точно также зарубежные поисковые машины всегда предпочитают зону com, хотя, при случае индексируют и другие сайты. Кроме того, существуют специальные поисковые машины, направленные на тематический поиск, например, поисковые машины по научным ресурсам.

Очевидно, что такая схема работы имеет, с точки зрения веб-издателей немало изъянов. Так, например, русскоязычный ресурс, расположенный на западном бесплатном хостинге, или имеющим домен в зоне com (что до недавнего времени было втрое дешевле), имеет мало шансов быть найденным национальными поисковыми машинами. То же самое касается и сайтов, размещенных на бесплатном хостинге, не предоставляющем домена третьего уровня, так как их адрес не прописывается в DNS и не может быть найден поисковой машиной самостоятельно. Для частичной компенсации этих недостатков в каждой поисковой машине есть специальная форма, через которую вы можете предложить пауку "пройтись" по вашему сайту. О том, как заполнить такую форму вы читали в предыдущей части курса.

Теперь, когда пользователь вводит запрос в поисковую машину, то по базе данных (индексу) осуществляется поиск и сортировка его результатов в соответствии с правилами, заданными администратором. Именно эти правила и определяют, в основном, качество поисковой машины, так как именно эти правила определяют релевантность результатов заданному запросу. Естественно, что эти правила, во-первых, у всех поисковых машин свои, во-вторых, не разглашаются, так как точное знание этих правил дает вебмастеру огромное преимущество в работе с поисковыми машинами перед теми, кто этих правил не знает. Поэтому об алгоритмах работы той или иной поисковой машины остается только догадываться.

Все современные поисковые машины имеют механизмы эвристической оценки релевантности документа поисковому запросу, кроме того, все они имеют механизмы простого семантического анализа документа. В каждом документе определяется частота употребления ключевых слов и анализируется дисперсия словоформ.
Дисперсия словоформ - это разброс различных словарных форм в массиве текста и их объемное соотношение. Очевидно, что если на странице слово "варенье" отражается 25 раз в 8 различных словарных формах, то это слово отражает основную тему сайта, то есть является ключевым. Для проверки попробуйте оценить сколько раз и в каких формах встречается в этой лекции словосочетание "поисковая машина".
Большинство современных поисковых машин - полнотекстовые, это означает, что анализируется весь текст страницы, включая подписи к картинкам и комментарии, а не какая-то его часть. Еще несколько лет назад большинство поисковых машин ограничивались первым килобайтом страницы, а то и просто считывали мета-теги, и многие машины, не входящие в группу лидеров, такими и остались. Последнее доставляет массу неудобств, так как первые килобайты страницы очень часто отводятся под Java-скрипты.

Практически все поисковые машины нового поколения имеют эффективные механизмы защиты от мошенников. Естественно, что они не разглашаются, но некоторые их аспекты известны:
  • слишком большой процент ключевых слов. При увеличении частоты ключевого слова (выражения) выше некоторого значения, которое устанавливается администратором поисковой машины, страница удаляется из индекса, как мошенническая;

  • слишком объемные комментарии. Обычные комментарии, которые вставляются при верстке, редко бывают больше 1-2 предложений, если, конечно, вы не закомментировали какой-нибудь участок кода целиком. Поэтому если поисковая машина находит комментарии, объем которых превышает какой-то пороговый уровень, то страница помечается, как мошенническая и выкидывается из индекса. Некоторые поисковые машины поступают проще - они просто игнорируют комментарии.

  • цвет текста совпадает с цветом фона. Этот трюк, позволяющий увеличить количество ключевых слов на странице незаметно для пользователей, давно и успешно распознается поисковыми системами. Надо сказать, правда, что не все машины выкидывают такие страницы из индекса, но вероятность такого события не нулевая. Чаще всего роботы игнорируют такой текст (но не всю страницу).

    Продолжение следует.
Федор Вирин
www.mymoney.ru
mymany@postman.ru

Полезные ссылки

Открыта рассылка проекта "Глобальная статистика" от SpyLOG на "Ситикете". Рассылка "Рунет в цифрах" дважды в неделю публикует интересные тенденции и новости о развитии Рунета, данные проведенных исследований, разнообразную статистическую информацию о Рунете. Будет полезно для всех людей, непосредственно работающих с Интернетом.
Подписаться можно здесь: http://subscribe.ru/catalog/comp.inet.news.gsspylog

Некоторое время назад открылся новый гид по магазинам в Рунете. Небольшой по размеру и пока скромный по посещаемости он, тем не менее, достаточно любопытен как для покупателей, так и для владельцев магазинов. Последним особенно рекомендую. http://www.edaily.ru/
Объявление

Вы хотите публиковаться?!
Если вы пишете статьи, если вы считаете, что они интересно, талантливо написаны, если ваша любимая тематика - интернет, то мы сработаемся! Присылайте свои статьи и, возможно, они будут опубликованы в этой рассылке, выходящей тиражом более 5000 экземпляров в неделю!

Присылайте статьи почтой с пометкой "статьи в рассылку".

Публикуя в этой рассылку интересные и познавательные статьи, вы получаете благодарную аудиторию, состоящую из специалистов, и можете завоевать себе лестную репутацию эксперта.

 
  Интересное

http://holm.ru/cgi_error.html/26/
  Реклама



  Проекты

Ясли-Сад
Парад Уродцев
Редколлегия


  Реклама

[an error occurred while processing this directive] реклама на сайте [an error occurred while processing this directive]
  Прочее
http://holm.ru/cgi_error.html/26/
баннер
 
О проектеОбратная связьреклама в Библиотеке МастераКарта сайтаПоискПартнеры
Agava все об интернет-рекламе TopList be number one
Copyright © Федор Вирин