Оптимизация и раскрутка [8]
Домен и Хостинг [5]
Soft [2]
Программы для web мастеров
Дизайн [8]
Секреты мастеров и разные мелочи дизайна
Секреты сайтостроения [7]
Реклама [7]
Заработок [6]
Способы InteNET заработка
Прочее [2]
Все что не вошло в другие категории
Приглашаю к обмену ссылками, по вопросу обмена стучите в асю 372996215
Тут может быть Ваша реклама ;)
Главная » Статьи » Оптимизация и раскрутка

Поисковые роботы

Коротко о поисковых роботах.

Все поисковые системы для поиска и индексации используют программы-роботы. Их ещё называют пауками. Робот, попав на сайт, собирает с него всю информацию. Самую важную (по его мнению) информацию робот запоминает. Далее робот анализирует ссылки и идёт по ним. Он может обнаружить ссылку на другой ресурс и уйти по ней, покинув ваш сайт.

Важно уметь правильно управлять роботом. Только так можно заставить паука пройтись по каждой странице вашего сайта. Для управления роботами служат файл robots.txt, метаданные и тег <noindex>..</noindex>. Следует заметить, что некоторые роботы (например роботы Рамблера) игнорируют ключевые слова (keywords) и описания (description).

Посмотрим, что роботам интересно.

В первую очередь поисковые механизмы проверяют заголовок документа (<title>). Далее, как правило, в порядке значимости роботы анализируют следующие теги:

  • &lth1>...</h1> ... <hN>...</hN>
  • <b>...</b>
  • <strong>...</strong>
  • &ltu>...</u>

Особое значение для роботов имеет тег <A>...</A>. В нём роботы могут обрабатывать атрибут title. Также пауки могут заглядывать в альтернативный текст изображений <img src=”...” alt=”альтернативный текст”>.

Файл robots.txt

Попав на сайт, робот первым делом проверяет файл robots.txt. Если робот обнаруживает этот документ, то все дальнейшие действий он будет выполнять в соответствии с требованиями изложенными там. Если файла robots.txt нет, робот будет анализировать всё, что попадёт в его загребущие руки.

Роботы ищут файл robots.txt> только в корневом каталоге сайта. Размещать файл robots.txt в нескольких каталогах не имеет смысла, т.к. пауки будут игнорировать лишние копии. Имя файла robots.txt должно быть набрано маленькими буквами, поскольку имена интернет-ресурсов (URI) чувствительны к регистру.

Структура файла robots.txt следующая:

  • User-agent: имя робота
  • Disallow: запрещённые для индексации файлы

Файл robots.txt состоит из групп инструкций. Каждая из них начинается со строки User-agent: имя робота, которая указывает, для каких роботов относится следующая инструкция Disallow:. Инструкция User-agent: * будет распространяться на всех роботов.

Инструкций Disallow: в каждой группе может быть несколько (обязательно должна быть хотя бы одна).

Рассмотрим такую инструкцию: “Disallow: /folder/” Она запретит пауку посещение папки folder. А инструкция “Disallow: /folder” запретит посещение всех страниц, полное имя которых начинается с “/folder”, например /folder.php, /folder/page1.html, folder5.html. Следует заметить, для того, чтобы инструкция Disallow: запрещала что-либо, указанный в ней путь должен начинаться с “/”. Инструкция, которая содержит символ ‘*’ или какой-либо другой символ, который не может присутствовать в имени файла, тоже не будет ничего запрещать.

К сожалению, пока нет инструкции, которая бы указывала на файлы и директории, которые надо проиндексировать. По этой причине приходится указывать список всего, что запрещено для индексации. Единственный разумный выход из этой ситуации – хорошо продумать структуру сайта.

Осталось сказать, что в файле robots.txt пустые строки разрешено вставлять только между группами (перед User-agent), а комментарии должны начинаться с символа “#”.

META-теги "Robots"

Тег тоже управляет индексацией сайта, но в отличие от файла robots.txt он управляет индексацией одной web-страницы.

Для записи инструкций по индексации, используется поле content=”...”.

Приведем список всех возможных инструкций:

  • NOINDEX - запрещает индексирование документа;
  • NOFOLLOW - запрещает переход по ссылкам документа;
  • INDEX - разрешает индексирование документа;
  • FOLLOW - разрешает переход по ссылкам документа;
  • ALL - равносильно INDEX, FOLLOW;
  • NONE - равносильно NOINDEX, NOFOLLOW

По умолчанию принимается значение <meta name="Robots" content="INDEX, FOLLOW">.

В поле content дублирование инструкций, наличие противоречивых инструкций и т.п. не допускается; в частности, значение поле content не может иметь вид "none, nofollow".

Тег <noindex>...</noindex>

Тег <noindex>...</noindex> используется для запрета индексирования и перехода по ссылкам. Его действие начинается с и заканчивается .



Источник: http://webstat.ws/st.php?st=11&gr=5
Категория: Оптимизация и раскрутка | Добавил: masterweba (25.03.2008) | Автор: Никита
Просмотров: 782 | Комментарии: 1 | Рейтинг: 0.0/0 |
Всего комментариев: 1
Написал SergBom, 16.03.2024

<a href=http://zmkshop.ru/>оборудование для цинкования металла купить</a>

Имя *:
Email *:
Код *:
Оцените мой сайт

Результат опроса Результаты
Все опросы нашего сайта Архив опросов
Всего голосовало: 18
Обсудить на форуме
Дорогие посетители! Вам понравился наш сайт? Нашли много интересного для себя? Внесите пожертвование в развитие нашего проекта.
Z379009651067
WMZ

Сказать мнение о сайте
Оставить своё спасибо

Дизайн - Rock Star 


Используются технологии uCoz
©2008 - 2024 MASTERWEBA.UCOZ.RU

О проекте · Обратная связь
· Статистика