Сегодня 27 апреля, суббота ГлавнаяНовостиО проектеЛичный кабинетПомощьКонтакты Сделать стартовойКарта сайтаНаписать администрации
Поиск по сайту
 
Ваше мнение
Какой рейтинг вас больше интересует?
 
 
 
 
 
Проголосовало: 7272
Кнопка
BlogRider.ru - Каталог блогов Рунета
получить код
Неопытный сеошник в поисках опыта
Неопытный сеошник в поисках опыта
Голосов: 4
Адрес блога: http://oktan07.blogspot.com/
Добавлен: 2008-05-03 13:46:32
 

Підготовка сайту для індексування в пошукових системах

2013-11-19 20:45:00 (читать в оригинале)

зміст
Пошукові запити і релевантність
Текстові критерії релевантності
Титульна фраза
опис сторінки
Інші текстові критерії
Розподіл частот пошукових запитів. Вебмастера і пошукові системи. спамдексинг
Нетекстові критерії релевантності
Попит та пропозиція - точки зближення в пошукових системах

З чого почати

Індексуючі пошукові системи - сьогодні основні постачальники нових відвідувачів на сайт. У той же час алгоритми роботи пошуковців ніколи не публікуються , на що у розробників є всі підстави - ​​боротьба з засмічування пошуковиків ( пошуковим спамом або спамдексингом ) забирає багато сил і засобів у колективу будь-якого пошукового проекту.

Питання про те , як потрапити на першу сторінку результатів пошуку по профільних , тобто точно належать до тематики сайту , запитам , хвилює багатьох. Явний дефіцит популярної інформації на цю тему породив велику кількість домислів - про " чудодійних" методах , про " корумпованості " і " протекціонізмі " адміністрацій пошукових систем , " продають " та роздають вигідні місця своїм людям .

Досвід аналізу сайтів , власники яких відчувають проблеми з відвідуваністю з пошукових систем , показує , що причини , як правило , набагато простіше. Вони полягають в елементарній непоінформованість розробників і власників сайту про найпростіших правилах , які необхідно враховувати , щоб сайт був добре представлений в пошукових системах .
Пошукові запити і релевантність

Зрозуміло, для того , щоб на сайт з пошукової машини прийшли відвідувачі , йому недостатньо просто бути присутнім в результатах пошуку. Необхідно потрапити в початок списку результатів пошуку.

Критерії , від яких залежить положення посилання на сайт на сторінках результатів пошуку , можна розділити на дві групи - текстові та нетекстові . З назв ясно , що текстові критерії - це характеристики текстового вмісту сторінки. Нетекстові критерії оцінюють зв'язку сторінки , а її текст при цьому ролі не грає.

Облік текстових критеріїв здійснюється на етапі створення сайту і тексту. Робота з нетекстової параметрами можлива вже після того , як сайт викладений в Мережу і поданий на індексацію .

У роботі з індексується пошуковими системами завжди слід пам'ятати , що командою на пошук в пошуковику є пошуковий запит , введений користувачем - слово , кілька слів , словосполучення , фраза .

Тут виникає досить істотний смисловий ( семантичний ) розрив. За те , що відбувається в голові користувача , пошукач не відповідає, а для користувача не існують поняття "правильного" і " неправильного " ​​запитів .

Тому завжди перед тим , як планувати сайт , варто ознайомитися з тим , як часто і в якій формі користувачі насправді запитують інформацію , передбачувану до розміщення в Інтернеті.

У Рунеті єдиним джерелом достовірних даних про пошукових запитах є сервісна служба системи рекламних оголошень " Яндекс- Директ" .
Текстові критерії релевантності

Сьогодні можна повністю забути таке застаріле поняття , як " ключові слова " . Спочатку ключовими називалися слова , внесені в особливе поле сторінки , позначене тегом <meta name="keywords" ...> . Але сьогодні пошукові системи ігнорують зміст цього поля. Щоб уникнути різночитань , ми взагалі відмовимося від використання цього терміну.

Результати пошуку визначаються насамперед пошуковим запитом; тому, коли мова далі піде про ключові слова і " відповідно - невідповідність " тексту сторінки запиту або окремим словами , завжди будуть матися на увазі слова , з яких складається пошуковий запит.
1 . Титульна фраза

Титульна фраза ( титул ) - це текст , який міститься на сторінці в дескрипторі title , в коді сторінки він оформляється як <title> Титульна фраза </ title > . Слова титульної фрази мають дуже велике значення при упорядкуванні ( ранжируванні ) результатів пошуку в пошуковій системі . А саме , якщо формулювання запиту збігається з титульної фразою , або титульна фраза містить кілька слів запиту , то сторінка з таким титулом за інших рівних умов виявиться вище.

Варто відзначити суперечливий статус титульної фрази , що став причиною найбільш грубих помилок багатьох вебмайстрів .

Титульна фраза не відображається на сторінці сайту в браузері . Точніше , відображається, але на рамці вікна браузера , тобто в місці , куди зазвичай ніхто не дивиться. Саме тому настільки поширена помилка , коли вебмастер ставить для всіх сторінок сайту однаковий титул. Зазвичай це буває самоназва сайту , що вельми коректно виглядає , коли сайт , наприклад , показується замовнику .

Але коли сайт подається на індексацію в пошукові системи , картина змінюється , так як в результатах пошукових систем зміст тега <title> відображається в найцікавішому місці - як заголовок знайденої сторінки! Саме титульна фраза сторінки є найбільш яскравим елементом списку результатів пошуку по пошуковому запиту. Тут вона грає свою головну роль - заголовка , " особи " сторінки . І вибір користувача більш ніж наполовину визначається точністю , зрозумілістю і привабливістю титулу .

Таким чином , можна вивести перші правила підготовки сайту до індексації пошуковими машинами :
1. Всі сторінки сайту повинні мати різні титули.

2. Титульна фраза кожної сторінки повинна бути точною і ясною.

3. Зміст сторінки має відповідати титулу.

4. У титульної фразі сторінки повинні бути слова , що часто зустрічаються в пошукових запитах користувачів , відповіддю на які може бути дана сторінка .

5. Не варто використовувати титульні фрази довжиною понад 80 символів .

2 . опис сторінки

Опис сторінки - це зміст поля , поміченого тегом meta description , оформляється як <meta name="description" content="Опісаніе страніци, максимальна довжина - 200 сімволов"> . Слова опису зазвичай не впливають на ранжирування результатів пошуку , і серед росіян пошукових систем даний тег використовується на практиці лише " Яндексом " . Проте " Яндекс " зараз - провідна система , і грамотно складати опис навіть у розрахунку тільки на " Яндекс" цілком доцільно .

Текст опису показується в результатах пошуку " Яндекса " під текстом титульної фрази. Таким чином , правильно оформивши титул і опис , можна досягти максимальної привабливості посилання на вашу сторінку в "Яндексі " . Це спрацьовує , коли користувач , отримавши відповідь , вибирає з кількох альтернатив .

На жаль , більшість вебмайстрів нехтують такою можливістю поліпшити зовнішній вигляд ( зрозумілість ) своїх посилань у пошуковій , ставлячи в опис всіх сторінок сайту одну і ту ж фразу , або взагалі ігноруючи це поле .

Але в ідеалі потрібно ... Сформулюємо чергові правила :
6 .
Описи всіх сторінок сайту в тезі <meta name="description" ...> повинні бути різними.

7 .
Опис кожної сторінки повинно відповідати її змісту .

3 . Інші текстові критерії

Пошукові машини використовують також наступні текстові критерії релевантності знайдених сторінок вимогу:
позиція знайдених слів у титульній фразі ;
" вагу" знайденого слова та близькість його до початку документа ;
наявність знайдених слів у заголовках ( <h1> , <h2> і т. д.) і фрагментах , виділених жирним шрифтом ( <b> , <strong> ) ;
близькість знайдених слів один до одного ( компактність цитати) .

Пояснимо , що мається на увазі під " знайдених словами" . Індексуючі пошукові системи засновані на ідеї пошуку " цитати" . Мається на увазі, що користувач хоче побачити документ , в якому є слова , запроваджені ним у вигляді запиту . Пошуковик знаходить у своєму індексі такі документи і видає їх адреси. У перерахованих вище критеріях " знайдене слово " - це слово , існуюче як на веб - сторінці , так і в пошуковому запиті , за яким повинна бути показана посилання на дану веб - сторінку .

Із зростанням кількості документів у Мережі все гостріше ставала проблема ранжирування посилань , які видаються пошуковими у відповідь на запити користувачів. Їх стало надто багато. Тому розробники стали один за іншим вводити критерії, що дозволяють як би " уточнити" релевантність сторінки - ступінь відповідності документа запиту .

Якщо в документі йдеться про якийсь предмет , по ідеї , цей предмет повинен часто згадуватися ( називатися ) , тобто частота слова - назви предмета буде підвищеною. Цей параметр називається " вагою " слова .

Автори текстів знають , що головну ідею матеріалу найкраще виносити в початок тексту , тому деякі пошукові системи положення знайденого слова по відношенню до початку документа стали також приймати за критерій релевантності.

Положення слів відносно один одного , особливо в титулі , теж є критерієм . У разі пошукових запитів , що складаються більш ніж з одного слова , справедливо припущення (пригадаймо основну ідею індексуючих пошукачів ) , що користувач шукає цитату , тобто саме входження введеного словосполучення. Можливо , у запиті і пропущені деякі слова , але в будь-якому випадку порядок слів і близькість їх один до одного важливі. Наприклад , в запросестропіла теслі легко впізнається назва повісті Селінджера " Вище крокви , теслі ! " , А теслі стропіланапомінают вже про Бродського ( " підняти не звали теслярів крокви " ) . Подібна компактність цитати добре розпізнається пошуковими системами .

Чому в якості критерію релевантністю використовується наявність слів запиту у виділених фрагментах і заголовках документа , очевидно : саме таким чином творці текстів виділяють найбільш значущі слова , на які хочуть звернути увагу .

Як бачимо , всі текстові критерії ранжирування результатів у пошукових системах мають прості логічні пояснення . Розробники пошукових систем ранжирують сторінки , виходячи з припущення , що вебмастера створювали і структурували їх у розрахунку на "живих" відвідувачів.
Розподіл частот пошукових запитів. Вебмастера і пошукові системи. спамдексинг

Пошукові запити повторюються. Різні люди , в різних містах , в різний час і в різні пошуковики вводять одні й ті ж пошукові запити : робота , чат , секс , mp3 , windows , лінукс та ін Частоту використання кожного запиту можна підрахувати . Деякі зустрічаються в середньому раз на тиждень , а є й такі , що щодня повторюються сотні разів. Чим довше запит , тим рідше він зустрічається. І навпаки , найбільш частотним запитом з групи , що відноситься до якої-небудь темі , завжди є найбільш загальний запит - одне слово або словосполучення , що визначає тему.

Пошукові системи сьогодні стали основним постачальником нових користувачів на будь-який інтернет -ресурс , і вебмастера це прекрасно знають. Знають і закономірності попиту . Вебмастер , що підтримує сайт з працевлаштування , наприклад , в Санкт -Петербурзі , безумовно обізнаний , що запит робота зустрічається набагато частіше , ніж робота в Пітері. Але нечіткий однослівне запит робота використовують не тільки пітерці , але і москвичі , новосибірці , казанці ... Тому вебмайстрам сайтів з працевлаштування кожного з цих міст хочеться потрапити на першу сторінку пошуку саме по " головному" однослівне запитом. Але міст багато , а на першій сторінці результатів може розміститися всього лише 15-20 посилань.

З метою поліпшити свою позицію в результатах пошуку вебмастера застосовували і застосовують ряд технічних прийомів , призначених саме для обману , " накручування " пошукового робота . Явище це називається спамом пошукових систем або спамдексингом (від spam + indexing ) і з'явилося практично одночасно з появою пошуковиків.

Так як останні раніше використовували тільки текстові критерії для ранжирування результатів, то типовим прийомом спамдексинг стала так звана " накачування" - штучне завищення частот ( ваг ) потрібних слів на сторінці .

Варіанти " накачування " використовувалися найрізноманітніші : від примітивного " ​​прихованого " ​​, невидимого звичайному користувачеві тексту , до створення спеціальних текстів , де ваги слів ретельно розраховувалися у відповідності зі значеннями , знімаються зі сторінок , що займають перші позиції в посиланнях за необхідними запитами .

Накачуються самі сторінки , титульні фрази , теги noframes і keywords . Спеціально створюються сторінки з подібними " оптимізованими для пошуковиків " текстами , потрапляючи на які , користувач автоматично перекидається на інший сайт. Або просто бачить велику напис "Вхід" . Вони так і називаються - вхідні сторінки. Більше того , розроблена спеціальна техніка (клоакинг ) , коли пошуковому роботу показується одна сторінка , а користувачам - зовсім інша.

Подібні дії є бичем пошуковиків , тому що сильно перевантажують індекси , спотворюють зовнішній вигляд сторінок з результатами пошуку і різко знижують релевантність системи , тобто її якість і її конкурентну перевагу в боротьбі за популярність з іншими пошукачами .

Історія пошуковиків є історія їх постійної боротьби зі спамом. Зовсім недавно в пошуках зброї проти текстової " накачування" пошуковики почали доповнювати текстові алгоритми ранжирування результатів пошуку нетекстової критеріями - а саме , посилальними .
Нетекстові критерії релевантності

Нетекстові критерії можна розділити на три основні типи. Ми даємо умовні назви , так як сталої термінології поки немає:
посилально - розрахункові ,
посилально - текстові ,
каталожні .

Як ми вже говорили , у випадках нетекстового критерію на ранжирування сторінки впливає не її зміст , а інші фактори.

Посилально - розрахункові критерії . До посилально - розрахунковим критеріїв належить алгоритм пошукової системи Google - так званий зважений індекс цитування PageRank ( PR). Докладна стаття про нього Кріса Райдінгс (переклад і коментарі А. Садовського ) мається на сайті Олександра Садовського http://www.digits.ru/ .

Індекс цитування враховує , як багато посилань мається на Мережі на ваш сайт , і наскільки авторитетні посилаються на вас сайти. Авторитетність " цитування" визначається також за кількістю посилань на " цитує " . Для розрахунку індексу цитування Google і подібні йому системи регулярно " перетрушують " неймовірно величезні матриці зв'язків між сайтами Інтернету , перераховуючи вагу посилань і авторитетність ресурсів (зауважимо , що Google використовує для цього " ферму " більш ніж з 10 000 серверів !) . Подібний алгоритм використовується також " Яндексом " .

Каталожні критерії . До каталожними критеріями можна віднести індекс цитування " Яндекса " ( citation index , CY ) і алгоритм видачі результатів пошуку " Рамблера " . В обох випадках принцип один - угорі результатів пошуку за запитом в індексах видається кілька посилань на сайти , зареєстровані в належать порталам тематичних каталогах . У випадку " Яндекса " показується до трьох посилань на сайти з каталогу "Яндекса" , якщо в їх описі є слова запиту. Ранжування проводиться за зменшенням індексу цитування " Яндекса " . Каталожні посилання в результатах пошуку " Яндекса " чітко відрізняються від звичайних рахункових : вони не нумеруються , а відзначаються точками . Опис ресурсу в каталозі "Яндекса" перевіряється , а частенько і складається вручну укладачами каталогу (так званими модераторами ) . Індекс цитування , природно , розраховується автоматично.

У свою чергу , "Рамблер" " замішує " на першу сторінку результатів пошуку за запитом до п'яти посилань на сайти , зареєстровані в каталозі - рейтингу Rambler's Top100 , якщо їх відвідуваність (по " хостам " ) вище деякого мінімального порогу . Критерієм для внесення даних посилань в список результатів пошуку служить наявність слів запиту в описі сайту , зробленому для Rambler's Top100 . На відміну від " Яндекса " , де розмір опису обмежений двома сотнями символів , на індексацію в Rambler's Top100 може бути подано опис розміром до 4000 символів .

При внесенні до рейтингу опис сайту також може перевірятися співробітником " Рамблера " - модератором рейтингу.

Посилально - текстові критерії . До посилально - текстовим критеріям може бути віднесений алгоритм , не так давно з'явився в "Яндексі " . У даному випадку " Яндекс" індексує текст посилання ( тобто текст , виділений як гіперпосилання, на сторінці сайту). Іншими словами , індексується вміст тега <a href=...> , і якщо запит збігається з цим вмістом, в результатах пошуку видається адресу, вказану в тезі .

"Яндекс" , очевидно , запам'ятовує тільки зовнішні посилання з сайтів , тобто сторінка , на якій вказує посилання , не повинна належати сайту , де ця посилання розміщене .

При цьому при показі результатів пошуку подібна сторінка не має титулу , і "Яндекс " супроводжує посилання на неї явною вказівкою - " адреса знайдений за посиланням" .
Попит та пропозиція - точки зближення в пошукових системах

Пошукові запити є реальним виразом попиту користувачів на інформацію в Інтернеті. Пропозиція інформації здійснюється на сторінках ресурсів Інтернету. Індексуючі пошукові системи сьогодні є безперечним лідером трафікогенераціі для більшості сайтів і є найбільш природним сполучною ланкою, що з'єднує попит і пропозицію.

Як ми вже показали , в основі всіх текстових критеріїв пошукових систем лежить уявлення , що користувач шукає цитату з якогось документа . Насправді ж це не так. Користувачі шукають не цитати з документів , а рішення своїх проблем - відповіді на свої питання , які вони навіть не завжди можуть точно сформулювати. Обговорення цього питання виходить за рамки предмета даної статті , наведемо лише один з доказів .

Ось воно : мова попиту радикально відрізняється від мови пропозиції . Характеристиками мови пропозиції (текстів сайту) в масі є грамотність , літературна коректність , чіткість викладу думок . Цього зовсім не можна сказати про мову попиту ( мовою запитів) - основна маса пошукових запитів відноситься до нечітких , тобто допускає більше одного варіанту розуміння ; запити часто занадто лаконічні , сповнені друкарських помилок , змішують кирилицю і латиницю і т.п.

Пошуковикам нізвідки брати інформацію для своїх індексів , окрім як зі сторінок , підготовлених веб-майстрами . І вони беруть її у рафінованому , літературному вигляді.

З іншого боку , вебмайстрам ніколи не вдасться навчити користувачів формулювати пошукові запити "як треба" , довгими гладкими фразами на хорошому російською мовою.

Тому першим кроком навіть не підготовки сайту до індексації , а його розробки має бути вивчення того , як користувачі шукають в Мережі інформацію. Ту інформацію , яку власник сайту збирається пропонувати на своєму ресурсі.

Технічно цей аналіз здійснюється за допомогою отримання реальних формулювань запитів та інформації про їх частотах , виділення стійких напрямів попиту , базових формулювань і типових конструкцій пошукових запитів ( докладніше про це розказано в статті Ігоря Ашманова "Аналіз попиту і підвищення видимості в пошукових машинах " ) .

Далі розробникам належить вирішити , як же поєднати вимоги, пропоновані до друкованого тексту , з необхідністю включення до них слів і конструкцій , інформація про які була отримана шляхом аналізу пошукових запитів. Процес цей, на жаль , алгоритмизировать неможливо. Тут розробникам сайту доведеться вирішити не надто складну , але важливу лінгвістичну завдання - спробувати описати свій бізнес не словами генерального директора , вебмастера або відділу маркетингу компанії , а словами публіки.
З чого почати

Напевно , цю статтю логічніше було б почати з кінця. Спочатку - вивчення попиту , потім створення текстів , потім - оформлення текстів з урахуванням текстових критеріїв ранжирування , потім оформлення описів сторінок для більшої привабливості посилань на них у пошукових системах , і лише потім - старт проекту та початок робіт з використання нетекстових критеріїв ( розстановці посилань і пр. ) .

Дійсно , це - найправильніший шлях . Але на проходження їм не завжди вистачає часу , ресурсів і терпіння.

Однак ми ще раз повторимо , що основна маса помилок вебмайстрів , що знижують видимість сайту в пошукових системах , стосується не " корінних " завдань планування , і не необізнаності в тонкощах побудови " ієрархічних " , " циклічних " і " обширних " систем зв'язування сторінок для оптимізації PageRank . І справа не в нездатності писати хитрі " вхідні сторінки " , щоб не бути " забаненних " модераторами або фільтрами пошукових машин.

Основна помилка банальна - це невміння працювати з титульними фразами і описами. Виправивши грубі помилки в титулах і описах , можна , по-перше , значно розширити коло пошукових запитів , за якими посилання на сторінки сайту будуть показані на кращих позиціях. І , по-друге , надати своїм посиланнями в пошуковиках гідний , привабливий зовнішній вигляд , що викликає бажання клацнути по них.

Починати потрібно саме з цього.


Підготовка сайту для індексування в пошукових системах

2013-11-19 20:45:00 (читать в оригинале)

зміст
Пошукові запити і релевантність
Текстові критерії релевантності
Титульна фраза
опис сторінки
Інші текстові критерії
Розподіл частот пошукових запитів. Вебмастера і пошукові системи. спамдексинг
Нетекстові критерії релевантності
Попит та пропозиція - точки зближення в пошукових системах

З чого почати

Індексуючі пошукові системи - сьогодні основні постачальники нових відвідувачів на сайт. У той же час алгоритми роботи пошуковців ніколи не публікуються , на що у розробників є всі підстави - ​​боротьба з засмічування пошуковиків ( пошуковим спамом або спамдексингом ) забирає багато сил і засобів у колективу будь-якого пошукового проекту.

Питання про те , як потрапити на першу сторінку результатів пошуку по профільних , тобто точно належать до тематики сайту , запитам , хвилює багатьох. Явний дефіцит популярної інформації на цю тему породив велику кількість домислів - про " чудодійних" методах , про " корумпованості " і " протекціонізмі " адміністрацій пошукових систем , " продають " та роздають вигідні місця своїм людям .

Досвід аналізу сайтів , власники яких відчувають проблеми з відвідуваністю з пошукових систем , показує , що причини , як правило , набагато простіше. Вони полягають в елементарній непоінформованість розробників і власників сайту про найпростіших правилах , які необхідно враховувати , щоб сайт був добре представлений в пошукових системах .
Пошукові запити і релевантність

Зрозуміло, для того , щоб на сайт з пошукової машини прийшли відвідувачі , йому недостатньо просто бути присутнім в результатах пошуку. Необхідно потрапити в початок списку результатів пошуку.

Критерії , від яких залежить положення посилання на сайт на сторінках результатів пошуку , можна розділити на дві групи - текстові та нетекстові . З назв ясно , що текстові критерії - це характеристики текстового вмісту сторінки. Нетекстові критерії оцінюють зв'язку сторінки , а її текст при цьому ролі не грає.

Облік текстових критеріїв здійснюється на етапі створення сайту і тексту. Робота з нетекстової параметрами можлива вже після того , як сайт викладений в Мережу і поданий на індексацію .

У роботі з індексується пошуковими системами завжди слід пам'ятати , що командою на пошук в пошуковику є пошуковий запит , введений користувачем - слово , кілька слів , словосполучення , фраза .

Тут виникає досить істотний смисловий ( семантичний ) розрив. За те , що відбувається в голові користувача , пошукач не відповідає, а для користувача не існують поняття "правильного" і " неправильного " ​​запитів .

Тому завжди перед тим , як планувати сайт , варто ознайомитися з тим , як часто і в якій формі користувачі насправді запитують інформацію , передбачувану до розміщення в Інтернеті.

У Рунеті єдиним джерелом достовірних даних про пошукових запитах є сервісна служба системи рекламних оголошень " Яндекс- Директ" .
Текстові критерії релевантності

Сьогодні можна повністю забути таке застаріле поняття , як " ключові слова " . Спочатку ключовими називалися слова , внесені в особливе поле сторінки , позначене тегом <meta name="keywords" ...> . Але сьогодні пошукові системи ігнорують зміст цього поля. Щоб уникнути різночитань , ми взагалі відмовимося від використання цього терміну.

Результати пошуку визначаються насамперед пошуковим запитом; тому, коли мова далі піде про ключові слова і " відповідно - невідповідність " тексту сторінки запиту або окремим словами , завжди будуть матися на увазі слова , з яких складається пошуковий запит.
1 . Титульна фраза

Титульна фраза ( титул ) - це текст , який міститься на сторінці в дескрипторі title , в коді сторінки він оформляється як <title> Титульна фраза </ title > . Слова титульної фрази мають дуже велике значення при упорядкуванні ( ранжируванні ) результатів пошуку в пошуковій системі . А саме , якщо формулювання запиту збігається з титульної фразою , або титульна фраза містить кілька слів запиту , то сторінка з таким титулом за інших рівних умов виявиться вище.

Варто відзначити суперечливий статус титульної фрази , що став причиною найбільш грубих помилок багатьох вебмайстрів .

Титульна фраза не відображається на сторінці сайту в браузері . Точніше , відображається, але на рамці вікна браузера , тобто в місці , куди зазвичай ніхто не дивиться. Саме тому настільки поширена помилка , коли вебмастер ставить для всіх сторінок сайту однаковий титул. Зазвичай це буває самоназва сайту , що вельми коректно виглядає , коли сайт , наприклад , показується замовнику .

Але коли сайт подається на індексацію в пошукові системи , картина змінюється , так як в результатах пошукових систем зміст тега <title> відображається в найцікавішому місці - як заголовок знайденої сторінки! Саме титульна фраза сторінки є найбільш яскравим елементом списку результатів пошуку по пошуковому запиту. Тут вона грає свою головну роль - заголовка , " особи " сторінки . І вибір користувача більш ніж наполовину визначається точністю , зрозумілістю і привабливістю титулу .

Таким чином , можна вивести перші правила підготовки сайту до індексації пошуковими машинами :
1. Всі сторінки сайту повинні мати різні титули.

2. Титульна фраза кожної сторінки повинна бути точною і ясною.

3. Зміст сторінки має відповідати титулу.

4. У титульної фразі сторінки повинні бути слова , що часто зустрічаються в пошукових запитах користувачів , відповіддю на які може бути дана сторінка .

5. Не варто використовувати титульні фрази довжиною понад 80 символів .

2 . опис сторінки

Опис сторінки - це зміст поля , поміченого тегом meta description , оформляється як <meta name="description" content="Опісаніе страніци, максимальна довжина - 200 сімволов"> . Слова опису зазвичай не впливають на ранжирування результатів пошуку , і серед росіян пошукових систем даний тег використовується на практиці лише " Яндексом " . Проте " Яндекс " зараз - провідна система , і грамотно складати опис навіть у розрахунку тільки на " Яндекс" цілком доцільно .

Текст опису показується в результатах пошуку " Яндекса " під текстом титульної фрази. Таким чином , правильно оформивши титул і опис , можна досягти максимальної привабливості посилання на вашу сторінку в "Яндексі " . Це спрацьовує , коли користувач , отримавши відповідь , вибирає з кількох альтернатив .

На жаль , більшість вебмайстрів нехтують такою можливістю поліпшити зовнішній вигляд ( зрозумілість ) своїх посилань у пошуковій , ставлячи в опис всіх сторінок сайту одну і ту ж фразу , або взагалі ігноруючи це поле .

Але в ідеалі потрібно ... Сформулюємо чергові правила :
6 .
Описи всіх сторінок сайту в тезі <meta name="description" ...> повинні бути різними.

7 .
Опис кожної сторінки повинно відповідати її змісту .

3 . Інші текстові критерії

Пошукові машини використовують також наступні текстові критерії релевантності знайдених сторінок вимогу:
позиція знайдених слів у титульній фразі ;
" вагу" знайденого слова та близькість його до початку документа ;
наявність знайдених слів у заголовках ( <h1> , <h2> і т. д.) і фрагментах , виділених жирним шрифтом ( <b> , <strong> ) ;
близькість знайдених слів один до одного ( компактність цитати) .

Пояснимо , що мається на увазі під " знайдених словами" . Індексуючі пошукові системи засновані на ідеї пошуку " цитати" . Мається на увазі, що користувач хоче побачити документ , в якому є слова , запроваджені ним у вигляді запиту . Пошуковик знаходить у своєму індексі такі документи і видає їх адреси. У перерахованих вище критеріях " знайдене слово " - це слово , існуюче як на веб - сторінці , так і в пошуковому запиті , за яким повинна бути показана посилання на дану веб - сторінку .

Із зростанням кількості документів у Мережі все гостріше ставала проблема ранжирування посилань , які видаються пошуковими у відповідь на запити користувачів. Їх стало надто багато. Тому розробники стали один за іншим вводити критерії, що дозволяють як би " уточнити" релевантність сторінки - ступінь відповідності документа запиту .

Якщо в документі йдеться про якийсь предмет , по ідеї , цей предмет повинен часто згадуватися ( називатися ) , тобто частота слова - назви предмета буде підвищеною. Цей параметр називається " вагою " слова .

Автори текстів знають , що головну ідею матеріалу найкраще виносити в початок тексту , тому деякі пошукові системи положення знайденого слова по відношенню до початку документа стали також приймати за критерій релевантності.

Положення слів відносно один одного , особливо в титулі , теж є критерієм . У разі пошукових запитів , що складаються більш ніж з одного слова , справедливо припущення (пригадаймо основну ідею індексуючих пошукачів ) , що користувач шукає цитату , тобто саме входження введеного словосполучення. Можливо , у запиті і пропущені деякі слова , але в будь-якому випадку порядок слів і близькість їх один до одного важливі. Наприклад , в запросестропіла теслі легко впізнається назва повісті Селінджера " Вище крокви , теслі ! " , А теслі стропіланапомінают вже про Бродського ( " підняти не звали теслярів крокви " ) . Подібна компактність цитати добре розпізнається пошуковими системами .

Чому в якості критерію релевантністю використовується наявність слів запиту у виділених фрагментах і заголовках документа , очевидно : саме таким чином творці текстів виділяють найбільш значущі слова , на які хочуть звернути увагу .

Як бачимо , всі текстові критерії ранжирування результатів у пошукових системах мають прості логічні пояснення . Розробники пошукових систем ранжирують сторінки , виходячи з припущення , що вебмастера створювали і структурували їх у розрахунку на "живих" відвідувачів.
Розподіл частот пошукових запитів. Вебмастера і пошукові системи. спамдексинг

Пошукові запити повторюються. Різні люди , в різних містах , в різний час і в різні пошуковики вводять одні й ті ж пошукові запити : робота , чат , секс , mp3 , windows , лінукс та ін Частоту використання кожного запиту можна підрахувати . Деякі зустрічаються в середньому раз на тиждень , а є й такі , що щодня повторюються сотні разів. Чим довше запит , тим рідше він зустрічається. І навпаки , найбільш частотним запитом з групи , що відноситься до якої-небудь темі , завжди є найбільш загальний запит - одне слово або словосполучення , що визначає тему.

Пошукові системи сьогодні стали основним постачальником нових користувачів на будь-який інтернет -ресурс , і вебмастера це прекрасно знають. Знають і закономірності попиту . Вебмастер , що підтримує сайт з працевлаштування , наприклад , в Санкт -Петербурзі , безумовно обізнаний , що запит робота зустрічається набагато частіше , ніж робота в Пітері. Але нечіткий однослівне запит робота використовують не тільки пітерці , але і москвичі , новосибірці , казанці ... Тому вебмайстрам сайтів з працевлаштування кожного з цих міст хочеться потрапити на першу сторінку пошуку саме по " головному" однослівне запитом. Але міст багато , а на першій сторінці результатів може розміститися всього лише 15-20 посилань.

З метою поліпшити свою позицію в результатах пошуку вебмастера застосовували і застосовують ряд технічних прийомів , призначених саме для обману , " накручування " пошукового робота . Явище це називається спамом пошукових систем або спамдексингом (від spam + indexing ) і з'явилося практично одночасно з появою пошуковиків.

Так як останні раніше використовували тільки текстові критерії для ранжирування результатів, то типовим прийомом спамдексинг стала так звана " накачування" - штучне завищення частот ( ваг ) потрібних слів на сторінці .

Варіанти " накачування " використовувалися найрізноманітніші : від примітивного " ​​прихованого " ​​, невидимого звичайному користувачеві тексту , до створення спеціальних текстів , де ваги слів ретельно розраховувалися у відповідності зі значеннями , знімаються зі сторінок , що займають перші позиції в посиланнях за необхідними запитами .

Накачуються самі сторінки , титульні фрази , теги noframes і keywords . Спеціально створюються сторінки з подібними " оптимізованими для пошуковиків " текстами , потрапляючи на які , користувач автоматично перекидається на інший сайт. Або просто бачить велику напис "Вхід" . Вони так і називаються - вхідні сторінки. Більше того , розроблена спеціальна техніка (клоакинг ) , коли пошуковому роботу показується одна сторінка , а користувачам - зовсім інша.

Подібні дії є бичем пошуковиків , тому що сильно перевантажують індекси , спотворюють зовнішній вигляд сторінок з результатами пошуку і різко знижують релевантність системи , тобто її якість і її конкурентну перевагу в боротьбі за популярність з іншими пошукачами .

Історія пошуковиків є історія їх постійної боротьби зі спамом. Зовсім недавно в пошуках зброї проти текстової " накачування" пошуковики почали доповнювати текстові алгоритми ранжирування результатів пошуку нетекстової критеріями - а саме , посилальними .
Нетекстові критерії релевантності

Нетекстові критерії можна розділити на три основні типи. Ми даємо умовні назви , так як сталої термінології поки немає:
посилально - розрахункові ,
посилально - текстові ,
каталожні .

Як ми вже говорили , у випадках нетекстового критерію на ранжирування сторінки впливає не її зміст , а інші фактори.

Посилально - розрахункові критерії . До посилально - розрахунковим критеріїв належить алгоритм пошукової системи Google - так званий зважений індекс цитування PageRank ( PR). Докладна стаття про нього Кріса Райдінгс (переклад і коментарі А. Садовського ) мається на сайті Олександра Садовського http://www.digits.ru/ .

Індекс цитування враховує , як багато посилань мається на Мережі на ваш сайт , і наскільки авторитетні посилаються на вас сайти. Авторитетність " цитування" визначається також за кількістю посилань на " цитує " . Для розрахунку індексу цитування Google і подібні йому системи регулярно " перетрушують " неймовірно величезні матриці зв'язків між сайтами Інтернету , перераховуючи вагу посилань і авторитетність ресурсів (зауважимо , що Google використовує для цього " ферму " більш ніж з 10 000 серверів !) . Подібний алгоритм використовується також " Яндексом " .

Каталожні критерії . До каталожними критеріями можна віднести індекс цитування " Яндекса " ( citation index , CY ) і алгоритм видачі результатів пошуку " Рамблера " . В обох випадках принцип один - угорі результатів пошуку за запитом в індексах видається кілька посилань на сайти , зареєстровані в належать порталам тематичних каталогах . У випадку " Яндекса " показується до трьох посилань на сайти з каталогу "Яндекса" , якщо в їх описі є слова запиту. Ранжування проводиться за зменшенням індексу цитування " Яндекса " . Каталожні посилання в результатах пошуку " Яндекса " чітко відрізняються від звичайних рахункових : вони не нумеруються , а відзначаються точками . Опис ресурсу в каталозі "Яндекса" перевіряється , а частенько і складається вручну укладачами каталогу (так званими модераторами ) . Індекс цитування , природно , розраховується автоматично.

У свою чергу , "Рамблер" " замішує " на першу сторінку результатів пошуку за запитом до п'яти посилань на сайти , зареєстровані в каталозі - рейтингу Rambler's Top100 , якщо їх відвідуваність (по " хостам " ) вище деякого мінімального порогу . Критерієм для внесення даних посилань в список результатів пошуку служить наявність слів запиту в описі сайту , зробленому для Rambler's Top100 . На відміну від " Яндекса " , де розмір опису обмежений двома сотнями символів , на індексацію в Rambler's Top100 може бути подано опис розміром до 4000 символів .

При внесенні до рейтингу опис сайту також може перевірятися співробітником " Рамблера " - модератором рейтингу.

Посилально - текстові критерії . До посилально - текстовим критеріям може бути віднесений алгоритм , не так давно з'явився в "Яндексі " . У даному випадку " Яндекс" індексує текст посилання ( тобто текст , виділений як гіперпосилання, на сторінці сайту). Іншими словами , індексується вміст тега <a href=...> , і якщо запит збігається з цим вмістом, в результатах пошуку видається адресу, вказану в тезі .

"Яндекс" , очевидно , запам'ятовує тільки зовнішні посилання з сайтів , тобто сторінка , на якій вказує посилання , не повинна належати сайту , де ця посилання розміщене .

При цьому при показі результатів пошуку подібна сторінка не має титулу , і "Яндекс " супроводжує посилання на неї явною вказівкою - " адреса знайдений за посиланням" .
Попит та пропозиція - точки зближення в пошукових системах

Пошукові запити є реальним виразом попиту користувачів на інформацію в Інтернеті. Пропозиція інформації здійснюється на сторінках ресурсів Інтернету. Індексуючі пошукові системи сьогодні є безперечним лідером трафікогенераціі для більшості сайтів і є найбільш природним сполучною ланкою, що з'єднує попит і пропозицію.

Як ми вже показали , в основі всіх текстових критеріїв пошукових систем лежить уявлення , що користувач шукає цитату з якогось документа . Насправді ж це не так. Користувачі шукають не цитати з документів , а рішення своїх проблем - відповіді на свої питання , які вони навіть не завжди можуть точно сформулювати. Обговорення цього питання виходить за рамки предмета даної статті , наведемо лише один з доказів .

Ось воно : мова попиту радикально відрізняється від мови пропозиції . Характеристиками мови пропозиції (текстів сайту) в масі є грамотність , літературна коректність , чіткість викладу думок . Цього зовсім не можна сказати про мову попиту ( мовою запитів) - основна маса пошукових запитів відноситься до нечітких , тобто допускає більше одного варіанту розуміння ; запити часто занадто лаконічні , сповнені друкарських помилок , змішують кирилицю і латиницю і т.п.

Пошуковикам нізвідки брати інформацію для своїх індексів , окрім як зі сторінок , підготовлених веб-майстрами . І вони беруть її у рафінованому , літературному вигляді.

З іншого боку , вебмайстрам ніколи не вдасться навчити користувачів формулювати пошукові запити "як треба" , довгими гладкими фразами на хорошому російською мовою.

Тому першим кроком навіть не підготовки сайту до індексації , а його розробки має бути вивчення того , як користувачі шукають в Мережі інформацію. Ту інформацію , яку власник сайту збирається пропонувати на своєму ресурсі.

Технічно цей аналіз здійснюється за допомогою отримання реальних формулювань запитів та інформації про їх частотах , виділення стійких напрямів попиту , базових формулювань і типових конструкцій пошукових запитів ( докладніше про це розказано в статті Ігоря Ашманова "Аналіз попиту і підвищення видимості в пошукових машинах " ) .

Далі розробникам належить вирішити , як же поєднати вимоги, пропоновані до друкованого тексту , з необхідністю включення до них слів і конструкцій , інформація про які була отримана шляхом аналізу пошукових запитів. Процес цей, на жаль , алгоритмизировать неможливо. Тут розробникам сайту доведеться вирішити не надто складну , але важливу лінгвістичну завдання - спробувати описати свій бізнес не словами генерального директора , вебмастера або відділу маркетингу компанії , а словами публіки.
З чого почати

Напевно , цю статтю логічніше було б почати з кінця. Спочатку - вивчення попиту , потім створення текстів , потім - оформлення текстів з урахуванням текстових критеріїв ранжирування , потім оформлення описів сторінок для більшої привабливості посилань на них у пошукових системах , і лише потім - старт проекту та початок робіт з використання нетекстових критеріїв ( розстановці посилань і пр. ) .

Дійсно , це - найправильніший шлях . Але на проходження їм не завжди вистачає часу , ресурсів і терпіння.

Однак ми ще раз повторимо , що основна маса помилок вебмайстрів , що знижують видимість сайту в пошукових системах , стосується не " корінних " завдань планування , і не необізнаності в тонкощах побудови " ієрархічних " , " циклічних " і " обширних " систем зв'язування сторінок для оптимізації PageRank . І справа не в нездатності писати хитрі " вхідні сторінки " , щоб не бути " забаненних " модераторами або фільтрами пошукових машин.

Основна помилка банальна - це невміння працювати з титульними фразами і описами. Виправивши грубі помилки в титулах і описах , можна , по-перше , значно розширити коло пошукових запитів , за якими посилання на сторінки сайту будуть показані на кращих позиціях. І , по-друге , надати своїм посиланнями в пошуковиках гідний , привабливий зовнішній вигляд , що викликає бажання клацнути по них.

Починати потрібно саме з цього.


Подготовка сайта для индексирования в поисковых системах

2013-11-11 08:38:00 (читать в оригинале)

Андрей Иванов
 По вашему запросу ничего не найдено
Артем Попов. © "Ашманов и Партнеры"
  
Содержание

Поисковые запросы и релевантность
Текстовые критерии релевантности
 Титульная фраза
 Описание страницы
 Прочие текстовые критерии
Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг
Нетекстовые критерии релевантности
Спрос и предложение - точки сближения в поисковых системах
С чего начать
Индексирующие поисковые системы - сегодня основные поставщики новых посетителей на сайт. В то же время алгоритмы работы поисковиков никогда не публикуются, на что у разработчиков есть все основания - борьба с замусориванием поисковиков (поисковым спамом или спамдексингом) отнимает много сил и средств у коллектива любого поискового проекта.
Вопрос о том, как попасть на первую страницу результатов поиска по профильным, то есть точно относящимся к тематике сайта, запросам, волнует многих. Явный дефицит популярной информации на эту тему породил большое количество домыслов - о "чудодейственных" методах, о "коррумпированности" и "протекционизме" администраций поисковых систем, "продающих" и раздающих выгодные места своим людям.
Опыт анализа сайтов, владельцы которых испытывают проблемы с посещаемостью из поисковых систем, показывает, что причины, как правило, гораздо проще. Они заключаются в элементарной неинформированности разработчиков и владельцев сайта о самых простых правилах, которые необходимо учитывать, чтобы сайт был хорошо представлен в поисковых системах.

Поисковые запросы и релевантность

Разумеется, для того, чтобы на сайт из поисковой машины пришли посетители, ему недостаточно просто присутствовать в результатах поиска. Необходимо попасть в начало списка результатов поиска.
Критерии, от которых зависит положение ссылки на сайт на страницах результатов поиска, можно разделить на две группы - текстовые и нетекстовые. Из названий ясно, что текстовые критерии - это характеристики текстового содержимого страницы. Нетекстовые критерии оценивают связи страницы, а ее текст при этом роли не играет.
Учет текстовых критериев осуществляется на этапе создания сайта и текста. Работа с нетекстовыми параметрами возможна уже после того, как сайт выложен в Сеть и подан на индексацию.
В работе с индексирующими поисковыми системами всегда следует помнить, что командой на поиск в поисковике является поисковый запрос, введенный пользователем - слово, несколько слов, словосочетание, фраза.
Здесь возникает довольно существенный смысловой (семантический) разрыв. За то, что происходит в голове пользователя, поисковик не отвечает, а для пользователя не существуют понятия "правильного" и "неправильного" запросов.
Поэтому всегда перед тем, как планировать сайт, стоит ознакомиться с тем, как часто и в какой форме пользователи на самом деле запрашивают информацию, предполагаемую к размещению в Интернете.
В Рунете единственным источником достоверных данных о поисковых запросах является сервисная служба системы рекламных объявлений "Яндекс-Директ".

Текстовые критерии релевантности

Сегодня можно полностью забыть такое устаревшее понятие, как "ключевые слова". Первоначально ключевыми назывались слова, внесенные в особое поле страницы, помеченное тегом <meta name="keywords" ...>. Но сегодня поисковые системы игнорируют содержание этого поля. Чтобы избежать разночтений, мы вообще откажемся от использования этого термина.
Результаты поиска определяются прежде всего поисковым запросом; поэтому, когда речь далее пойдет о ключевых словах и "соответствии-несоответствии" текста страницы запросу или отдельным словам, всегда будут иметься в виду слова, из которых состоит поисковый запрос.

1. Титульная фраза

Титульная фраза (титул) - это текст, который содержится на странице в дескрипторе title, в коде страницы он оформляется как<title>Титульная фраза</title>. Слова титульной фразы имеют очень большое значение при упорядочивании (ранжировании) результатов поиска в поисковой системе. А именно, если формулировка запроса совпадает с титульной фразой, либо титульная фраза содержит несколько слов запроса, то страница с таким титулом при прочих равных условиях окажется выше.
Стоит отметить противоречивый статус титульной фразы, ставший причиной наиболее грубых ошибок многих вебмастеров.
Титульная фраза не отображается на странице сайта в браузере. Точнее, отображается, но на рамке окна браузера, то есть в месте, куда обычно никто не смотрит. Именно поэтому настолько распространена ошибка, когда вебмастер ставит для всех страниц сайта одинаковый титул. Обычно это бывает самоназвание сайта, что весьма корректно выглядит, когда сайт, например, показывается заказчику.
Но когда сайт подается на индексацию в поисковые системы, картина меняется, так как в результатах поисковых систем содержание тега <title> отображается в самом интересном месте - как заголовок найденной страницы! Именно титульная фраза страницы является наиболее ярким элементом списка результатов поиска по поисковому запросу. Здесь она играет свою главную роль - заголовка, "лица" страницы. И выбор пользователя более чем наполовину определяется точностью, понятностью и привлекательностью титула.
Таким образом, можно вывести первые правила подготовки сайта к индексации поисковыми машинами:
1.Все страницы сайта должны иметь разные титулы.
2.Титульная фраза каждой страницы должна быть точной и ясной.
3.Содержание страницы должно соответствовать титулу.
4.В титульной фразе страницы должны быть слова, часто встречающиеся в поисковых запросах пользователей, ответом на которые может являться данная страница.
5.Не стоит использовать титульные фразы длиной свыше 80 символов.

2. Описание страницы

Описание страницы - это содержание поля, помеченного тегом meta description, оформляется как <meta name="description" content="Описание страницы, максимальная длина - 200 символов">. Слова описания обычно не влияют на ранжирование результатов поиска, и среди русских поисковых систем данный тег используется на практике лишь "Яндексом". Однако "Яндекс" сейчас - ведущая система, и грамотно составлять описание даже в расчете только на "Яндекс" вполне целесообразно.
Текст описания показывается в результатах поиска "Яндекса" под текстом титульной фразы. Таким образом, правильно оформив титул и описание, можно достичь максимальной привлекательности ссылки на вашу страницу в "Яндексе". Это срабатывает, когда пользователь, получив ответ, выбирает из нескольких альтернатив.
К сожалению, большинство вебмастеров пренебрегают такой возможностью улучшить внешний вид (понятность) своих ссылок в поисковике, ставя в описание всех страниц сайта одну и ту же фразу, либо вообще игнорируя это поле.
Но в идеале нужно... Сформулируем очередные правила:
6.Описания всех страниц сайта в теге <meta name="description" ...> должны быть разными.
7.Описание каждой страницы должно соответствовать ее содержанию.

3. Прочие текстовые критерии

Поисковые машины используют также следующие текстовые критерии релевантности найденных страниц запросу:
  • позиция найденных слов в титульной фразе;
  • "вес" найденного слова и близость его к началу документа;
  • наличие найденных слов в заголовках (<h1>, <h2> и т. д.) и фрагментах, выделенных жирным шрифтом (<b>, <strong>);
  • близость найденных слов друг к другу (компактность цитаты).
Объясним, что подразумевается под "найдеными словами". Индексирующие поисковые системы основаны на идее поиска "цитаты". Подразумевается, что пользователь хочет увидеть документ, в котором есть слова, введенные им в виде запроса. Поисковик находит в своем индексе такие документы и выдает их адреса. В вышеперечисленных критериях "найденное слово" - это слово, имеющееся как на веб-странице, так и в поисковом запросе, по которому должна быть показана ссылка на данную веб-страницу.
С ростом количества документов в Сети все острее становилась проблема ранжирования ссылок, выдаваемых поисковиками в ответ на запросы пользователей. Их стало слишком много. Поэтому разработчики стали один за другим вводить критерии, позволяющие как бы "уточнить" релевантность страницы - степень соответствия документа запросу.
Если в документе речь идет о каком-то предмете, по идее, этот предмет должен часто упоминаться (называться), т.е. частота слова - названия предмета будет повышенной. Этот параметр называется "весом" слова.
Авторы текстов знают, что главную идею материала лучше всего выносить в начало текста, поэтому некоторые поисковые системы положение найденного слова по отношению к началу документа стали также принимать за критерий релевантности.
Положение слов относительно друг друга, особенно в титуле, тоже является критерием. В случае поисковых запросов, состоящих более чем из одного слова, справедливо предположение (вспомним основную идею индексирующих поисковиков), что пользователь ищет цитату, то есть именно вхождение введенного словосочетания. Возможно, в запросе и пропущены некоторые слова, но в любом случае порядок слов и близость их друг к другу важны. Например, в запросестропила плотники легко узнается название повести Сэлинджера "Выше стропила, плотники!", а плотники стропиланапоминают уже о Бродском ("поднять не звали плотников стропила"). Подобная компактность цитаты хорошо распознается поисковыми системами.
Почему в качестве критерия релевантности используется наличие слов запроса в выделенных фрагментах и заголовках документа, очевидно: именно таким образом создатели текстов выделяют наиболее значимые слова, на которые хотят обратить внимание.
Как видим, все текстовые критерии ранжирования результатов в поисковых системах имеют простые логические объяснения. Разработчики поисковых систем ранжируют страницы, исходя из предположения, что вебмастера создавали и структурировали их в расчете на "живых" посетителей.

Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг

Поисковые запросы повторяются. Разные люди, в разных городах, в разное время и в разные поисковики вводят одни и те же поисковые запросы: работа, чат, секс, mp3, windows, линукс и др. Частоту использования каждого запроса можно подсчитать. Некоторые встречаются в среднем раз в неделю, а есть и такие, что ежедневно повторяются сотни раз. Чем длиннее запрос, тем реже он встречается. И наоборот, наиболее частотным запросом из группы, относящейся к какой-либо теме, всегда является наиболее общий запрос - одно слово или словосочетание, определяющее тему.
Поисковые системы сегодня стали основным поставщиком новых пользователей на любой интернет-ресурс, и вебмастера это прекрасно знают. Знают и закономерности спроса. Вебмастер, поддерживающий сайт по трудоустройству, например, в Санкт-Петербурге, безусловно осведомлен, что запрос работа встречается гораздо чаще, чем работа в Питере. Но нечеткий однословный запрос работа используют не только питерцы, но и москвичи, новосибирцы, казанцы... Поэтому вебмастерам сайтов по трудоустройству каждого из этих городов хочется попасть на первую страницу поиска именно по "главному" однословному запросу. Но городов много, а на первой странице результатов может разместиться всего лишь 15-20 ссылок.
С целью улучшить свою позицию в результатах поиска вебмастера применяли и применяют ряд технических приемов, предназначенных именно для обмана, "накручивания" поискового робота. Явление это называется спамом поисковых систем или спамдексингом (от spam + indexing) и появилось практически одновременно с появлением поисковиков.
Так как последние раньше использовали только текстовые критерии для ранжирования результатов, то типовым приемом спамдексинга стала так называемая "накачка" - искусственное завышение частот (весов) нужных слов на странице.
Варианты "накачивания" использовались самые различные: от примитивного "скрытого", невидимого обычному пользователю текста, до создания специальных текстов, где веса слов тщательно рассчитывались в соответствии со значениями, снимаемыми со страниц, занимающих первые позиции в ссылках по необходимым запросам.
Накачиваются сами страницы, титульные фразы, теги noframes и keywords. Специально создаются страницы с подобными "оптимизированными для поисковиков" текстами, попадая на которые, пользователь автоматически перебрасывается на другой сайт. Либо просто видит крупную надпись "Вход". Они так и называются - входные страницы. Более того, разработана специальная техника (клоакинг), когда поисковому роботу показывается одна страница, а пользователям - совершенно другая.
Подобные действия являются бичом поисковиков, потому что сильно перегружают индексы, уродуют внешний вид страниц с результатами поиска и резко снижают релевантность системы, то есть ее качество и ее конкурентное преимущество в борьбе за популярность с другими поисковиками.
История поисковиков есть история их постоянной борьбы со спамом. Совсем недавно в поисках оружия против текстовой "накачки" поисковики начали дополнять текстовые алгоритмы ранжирования результатов поиска нетекстовыми критериями - а именно, ссылочными.

Нетекстовые критерии релевантности

Нетекстовые критерии можно разделить на три основных типа. Мы даем условные названия, так как устоявшейся терминологии пока нет:
  • ссылочно-расчетные,
  • ссылочно-текстовые,
  • каталожные.
Как мы уже говорили, в случаях нетекстового критерия на ранжирование страницы влияет не ее содержание, а другие факторы.
Ссылочно-расчетные критерии. К ссылочно-расчетным критериям относится алгоритм поисковой системы Google - так называемый взвешенный индекс цитирования PageRank (PR). Подробная статья о нем Криса Райдингса (перевод и комментарии А. Садовского) имеется на сайте Александра Садовского http://www.digits.ru/.
Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность "цитирования" определяется также по количеству ссылок на "цитирующего". Для расчета индекса цитирования Google и подобные ему системы регулярно "перетряхивают" невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (заметим, что Google использует для этого "ферму" более чем из 10 000 серверов!). Подобный алгоритм используется также "Яндексом".
Каталожные критерии. К каталожным критериям можно отнести индекс цитирования "Яндекса" (citation index, CY) и алгоритм выдачи результатов поиска "Рамблера". В обоих случаях принцип один - наверху результатов поиска по запросу в индексах выдается несколько ссылок на сайты, зарегистрированные в принадлежащих порталам тематических каталогах. В случае "Яндекса" показывается до трех ссылок на сайты из каталога "Яндекса", если в их описании имеются слова запроса. Ранжирование производится по убыванию индекса цитирования "Яндекса". Каталожные ссылки в результатах поиска "Яндекса" четко отличаются от обычных счетных: они не нумеруются, а отмечаются точками. Описание ресурса в каталоге "Яндекса" проверяется, а частенько и составляется вручную составителями каталога (так называемыми модераторами). Индекс цитирования, естественно, рассчитывается автоматически.
В свою очередь, "Рамблер" "замешивает" на первую страницу результатов поиска по запросу до пяти ссылок на сайты, зарегистрированные в каталоге-рейтинге Rambler's Top100, если их посещаемость (по "хостам") выше некоторого минимального порога. Критерием для внесения данных ссылок в список результатов поиска служит наличие слов запроса в описании сайта, сделанном для Rambler's Top100. В отличие от "Яндекса", где размер описания ограничен двумя сотнями символов, на индексацию в Rambler's Top100 может быть подано описание размером до 4000 символов.
При внесении в рейтинг описание сайта также может проверяться сотрудником "Рамблера" - модератором рейтинга.
Ссылочно-текстовые критерии. К ссылочно-текстовым критериям может быть отнесен алгоритм, не так давно появившийся в "Яндексе". В данном случае "Яндекс" индексирует текст ссылки (то есть текст, выделенный как гиперссылка, на странице сайта). Другими словами, индексируется содержимое тега <a href=...>, и если запрос совпадает с этим содержимым, в результатах поиска выдается адрес, указанный в теге.


Подготовка сайта для индексирования в поисковых системах

2013-11-11 08:38:00 (читать в оригинале)

Андрей Иванов
 По вашему запросу ничего не найдено
Артем Попов. © "Ашманов и Партнеры"
  
Содержание

Поисковые запросы и релевантность
Текстовые критерии релевантности
 Титульная фраза
 Описание страницы
 Прочие текстовые критерии
Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг
Нетекстовые критерии релевантности
Спрос и предложение - точки сближения в поисковых системах
С чего начать
Индексирующие поисковые системы - сегодня основные поставщики новых посетителей на сайт. В то же время алгоритмы работы поисковиков никогда не публикуются, на что у разработчиков есть все основания - борьба с замусориванием поисковиков (поисковым спамом или спамдексингом) отнимает много сил и средств у коллектива любого поискового проекта.
Вопрос о том, как попасть на первую страницу результатов поиска по профильным, то есть точно относящимся к тематике сайта, запросам, волнует многих. Явный дефицит популярной информации на эту тему породил большое количество домыслов - о "чудодейственных" методах, о "коррумпированности" и "протекционизме" администраций поисковых систем, "продающих" и раздающих выгодные места своим людям.
Опыт анализа сайтов, владельцы которых испытывают проблемы с посещаемостью из поисковых систем, показывает, что причины, как правило, гораздо проще. Они заключаются в элементарной неинформированности разработчиков и владельцев сайта о самых простых правилах, которые необходимо учитывать, чтобы сайт был хорошо представлен в поисковых системах.

Поисковые запросы и релевантность

Разумеется, для того, чтобы на сайт из поисковой машины пришли посетители, ему недостаточно просто присутствовать в результатах поиска. Необходимо попасть в начало списка результатов поиска.
Критерии, от которых зависит положение ссылки на сайт на страницах результатов поиска, можно разделить на две группы - текстовые и нетекстовые. Из названий ясно, что текстовые критерии - это характеристики текстового содержимого страницы. Нетекстовые критерии оценивают связи страницы, а ее текст при этом роли не играет.
Учет текстовых критериев осуществляется на этапе создания сайта и текста. Работа с нетекстовыми параметрами возможна уже после того, как сайт выложен в Сеть и подан на индексацию.
В работе с индексирующими поисковыми системами всегда следует помнить, что командой на поиск в поисковике является поисковый запрос, введенный пользователем - слово, несколько слов, словосочетание, фраза.
Здесь возникает довольно существенный смысловой (семантический) разрыв. За то, что происходит в голове пользователя, поисковик не отвечает, а для пользователя не существуют понятия "правильного" и "неправильного" запросов.
Поэтому всегда перед тем, как планировать сайт, стоит ознакомиться с тем, как часто и в какой форме пользователи на самом деле запрашивают информацию, предполагаемую к размещению в Интернете.
В Рунете единственным источником достоверных данных о поисковых запросах является сервисная служба системы рекламных объявлений "Яндекс-Директ".

Текстовые критерии релевантности

Сегодня можно полностью забыть такое устаревшее понятие, как "ключевые слова". Первоначально ключевыми назывались слова, внесенные в особое поле страницы, помеченное тегом <meta name="keywords" ...>. Но сегодня поисковые системы игнорируют содержание этого поля. Чтобы избежать разночтений, мы вообще откажемся от использования этого термина.
Результаты поиска определяются прежде всего поисковым запросом; поэтому, когда речь далее пойдет о ключевых словах и "соответствии-несоответствии" текста страницы запросу или отдельным словам, всегда будут иметься в виду слова, из которых состоит поисковый запрос.

1. Титульная фраза

Титульная фраза (титул) - это текст, который содержится на странице в дескрипторе title, в коде страницы он оформляется как<title>Титульная фраза</title>. Слова титульной фразы имеют очень большое значение при упорядочивании (ранжировании) результатов поиска в поисковой системе. А именно, если формулировка запроса совпадает с титульной фразой, либо титульная фраза содержит несколько слов запроса, то страница с таким титулом при прочих равных условиях окажется выше.
Стоит отметить противоречивый статус титульной фразы, ставший причиной наиболее грубых ошибок многих вебмастеров.
Титульная фраза не отображается на странице сайта в браузере. Точнее, отображается, но на рамке окна браузера, то есть в месте, куда обычно никто не смотрит. Именно поэтому настолько распространена ошибка, когда вебмастер ставит для всех страниц сайта одинаковый титул. Обычно это бывает самоназвание сайта, что весьма корректно выглядит, когда сайт, например, показывается заказчику.
Но когда сайт подается на индексацию в поисковые системы, картина меняется, так как в результатах поисковых систем содержание тега <title> отображается в самом интересном месте - как заголовок найденной страницы! Именно титульная фраза страницы является наиболее ярким элементом списка результатов поиска по поисковому запросу. Здесь она играет свою главную роль - заголовка, "лица" страницы. И выбор пользователя более чем наполовину определяется точностью, понятностью и привлекательностью титула.
Таким образом, можно вывести первые правила подготовки сайта к индексации поисковыми машинами:
1.Все страницы сайта должны иметь разные титулы.
2.Титульная фраза каждой страницы должна быть точной и ясной.
3.Содержание страницы должно соответствовать титулу.
4.В титульной фразе страницы должны быть слова, часто встречающиеся в поисковых запросах пользователей, ответом на которые может являться данная страница.
5.Не стоит использовать титульные фразы длиной свыше 80 символов.

2. Описание страницы

Описание страницы - это содержание поля, помеченного тегом meta description, оформляется как <meta name="description" content="Описание страницы, максимальная длина - 200 символов">. Слова описания обычно не влияют на ранжирование результатов поиска, и среди русских поисковых систем данный тег используется на практике лишь "Яндексом". Однако "Яндекс" сейчас - ведущая система, и грамотно составлять описание даже в расчете только на "Яндекс" вполне целесообразно.
Текст описания показывается в результатах поиска "Яндекса" под текстом титульной фразы. Таким образом, правильно оформив титул и описание, можно достичь максимальной привлекательности ссылки на вашу страницу в "Яндексе". Это срабатывает, когда пользователь, получив ответ, выбирает из нескольких альтернатив.
К сожалению, большинство вебмастеров пренебрегают такой возможностью улучшить внешний вид (понятность) своих ссылок в поисковике, ставя в описание всех страниц сайта одну и ту же фразу, либо вообще игнорируя это поле.
Но в идеале нужно... Сформулируем очередные правила:
6.Описания всех страниц сайта в теге <meta name="description" ...> должны быть разными.
7.Описание каждой страницы должно соответствовать ее содержанию.

3. Прочие текстовые критерии

Поисковые машины используют также следующие текстовые критерии релевантности найденных страниц запросу:
  • позиция найденных слов в титульной фразе;
  • "вес" найденного слова и близость его к началу документа;
  • наличие найденных слов в заголовках (<h1>, <h2> и т. д.) и фрагментах, выделенных жирным шрифтом (<b>, <strong>);
  • близость найденных слов друг к другу (компактность цитаты).
Объясним, что подразумевается под "найдеными словами". Индексирующие поисковые системы основаны на идее поиска "цитаты". Подразумевается, что пользователь хочет увидеть документ, в котором есть слова, введенные им в виде запроса. Поисковик находит в своем индексе такие документы и выдает их адреса. В вышеперечисленных критериях "найденное слово" - это слово, имеющееся как на веб-странице, так и в поисковом запросе, по которому должна быть показана ссылка на данную веб-страницу.
С ростом количества документов в Сети все острее становилась проблема ранжирования ссылок, выдаваемых поисковиками в ответ на запросы пользователей. Их стало слишком много. Поэтому разработчики стали один за другим вводить критерии, позволяющие как бы "уточнить" релевантность страницы - степень соответствия документа запросу.
Если в документе речь идет о каком-то предмете, по идее, этот предмет должен часто упоминаться (называться), т.е. частота слова - названия предмета будет повышенной. Этот параметр называется "весом" слова.
Авторы текстов знают, что главную идею материала лучше всего выносить в начало текста, поэтому некоторые поисковые системы положение найденного слова по отношению к началу документа стали также принимать за критерий релевантности.
Положение слов относительно друг друга, особенно в титуле, тоже является критерием. В случае поисковых запросов, состоящих более чем из одного слова, справедливо предположение (вспомним основную идею индексирующих поисковиков), что пользователь ищет цитату, то есть именно вхождение введенного словосочетания. Возможно, в запросе и пропущены некоторые слова, но в любом случае порядок слов и близость их друг к другу важны. Например, в запросестропила плотники легко узнается название повести Сэлинджера "Выше стропила, плотники!", а плотники стропиланапоминают уже о Бродском ("поднять не звали плотников стропила"). Подобная компактность цитаты хорошо распознается поисковыми системами.
Почему в качестве критерия релевантности используется наличие слов запроса в выделенных фрагментах и заголовках документа, очевидно: именно таким образом создатели текстов выделяют наиболее значимые слова, на которые хотят обратить внимание.
Как видим, все текстовые критерии ранжирования результатов в поисковых системах имеют простые логические объяснения. Разработчики поисковых систем ранжируют страницы, исходя из предположения, что вебмастера создавали и структурировали их в расчете на "живых" посетителей.

Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг

Поисковые запросы повторяются. Разные люди, в разных городах, в разное время и в разные поисковики вводят одни и те же поисковые запросы: работа, чат, секс, mp3, windows, линукс и др. Частоту использования каждого запроса можно подсчитать. Некоторые встречаются в среднем раз в неделю, а есть и такие, что ежедневно повторяются сотни раз. Чем длиннее запрос, тем реже он встречается. И наоборот, наиболее частотным запросом из группы, относящейся к какой-либо теме, всегда является наиболее общий запрос - одно слово или словосочетание, определяющее тему.
Поисковые системы сегодня стали основным поставщиком новых пользователей на любой интернет-ресурс, и вебмастера это прекрасно знают. Знают и закономерности спроса. Вебмастер, поддерживающий сайт по трудоустройству, например, в Санкт-Петербурге, безусловно осведомлен, что запрос работа встречается гораздо чаще, чем работа в Питере. Но нечеткий однословный запрос работа используют не только питерцы, но и москвичи, новосибирцы, казанцы... Поэтому вебмастерам сайтов по трудоустройству каждого из этих городов хочется попасть на первую страницу поиска именно по "главному" однословному запросу. Но городов много, а на первой странице результатов может разместиться всего лишь 15-20 ссылок.
С целью улучшить свою позицию в результатах поиска вебмастера применяли и применяют ряд технических приемов, предназначенных именно для обмана, "накручивания" поискового робота. Явление это называется спамом поисковых систем или спамдексингом (от spam + indexing) и появилось практически одновременно с появлением поисковиков.
Так как последние раньше использовали только текстовые критерии для ранжирования результатов, то типовым приемом спамдексинга стала так называемая "накачка" - искусственное завышение частот (весов) нужных слов на странице.
Варианты "накачивания" использовались самые различные: от примитивного "скрытого", невидимого обычному пользователю текста, до создания специальных текстов, где веса слов тщательно рассчитывались в соответствии со значениями, снимаемыми со страниц, занимающих первые позиции в ссылках по необходимым запросам.
Накачиваются сами страницы, титульные фразы, теги noframes и keywords. Специально создаются страницы с подобными "оптимизированными для поисковиков" текстами, попадая на которые, пользователь автоматически перебрасывается на другой сайт. Либо просто видит крупную надпись "Вход". Они так и называются - входные страницы. Более того, разработана специальная техника (клоакинг), когда поисковому роботу показывается одна страница, а пользователям - совершенно другая.
Подобные действия являются бичом поисковиков, потому что сильно перегружают индексы, уродуют внешний вид страниц с результатами поиска и резко снижают релевантность системы, то есть ее качество и ее конкурентное преимущество в борьбе за популярность с другими поисковиками.
История поисковиков есть история их постоянной борьбы со спамом. Совсем недавно в поисках оружия против текстовой "накачки" поисковики начали дополнять текстовые алгоритмы ранжирования результатов поиска нетекстовыми критериями - а именно, ссылочными.

Нетекстовые критерии релевантности

Нетекстовые критерии можно разделить на три основных типа. Мы даем условные названия, так как устоявшейся терминологии пока нет:
  • ссылочно-расчетные,
  • ссылочно-текстовые,
  • каталожные.
Как мы уже говорили, в случаях нетекстового критерия на ранжирование страницы влияет не ее содержание, а другие факторы.
Ссылочно-расчетные критерии. К ссылочно-расчетным критериям относится алгоритм поисковой системы Google - так называемый взвешенный индекс цитирования PageRank (PR). Подробная статья о нем Криса Райдингса (перевод и комментарии А. Садовского) имеется на сайте Александра Садовского http://www.digits.ru/.
Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность "цитирования" определяется также по количеству ссылок на "цитирующего". Для расчета индекса цитирования Google и подобные ему системы регулярно "перетряхивают" невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (заметим, что Google использует для этого "ферму" более чем из 10 000 серверов!). Подобный алгоритм используется также "Яндексом".
Каталожные критерии. К каталожным критериям можно отнести индекс цитирования "Яндекса" (citation index, CY) и алгоритм выдачи результатов поиска "Рамблера". В обоих случаях принцип один - наверху результатов поиска по запросу в индексах выдается несколько ссылок на сайты, зарегистрированные в принадлежащих порталам тематических каталогах. В случае "Яндекса" показывается до трех ссылок на сайты из каталога "Яндекса", если в их описании имеются слова запроса. Ранжирование производится по убыванию индекса цитирования "Яндекса". Каталожные ссылки в результатах поиска "Яндекса" четко отличаются от обычных счетных: они не нумеруются, а отмечаются точками. Описание ресурса в каталоге "Яндекса" проверяется, а частенько и составляется вручную составителями каталога (так называемыми модераторами). Индекс цитирования, естественно, рассчитывается автоматически.
В свою очередь, "Рамблер" "замешивает" на первую страницу результатов поиска по запросу до пяти ссылок на сайты, зарегистрированные в каталоге-рейтинге Rambler's Top100, если их посещаемость (по "хостам") выше некоторого минимального порога. Критерием для внесения данных ссылок в список результатов поиска служит наличие слов запроса в описании сайта, сделанном для Rambler's Top100. В отличие от "Яндекса", где размер описания ограничен двумя сотнями символов, на индексацию в Rambler's Top100 может быть подано описание размером до 4000 символов.
При внесении в рейтинг описание сайта также может проверяться сотрудником "Рамблера" - модератором рейтинга.
Ссылочно-текстовые критерии. К ссылочно-текстовым критериям может быть отнесен алгоритм, не так давно появившийся в "Яндексе". В данном случае "Яндекс" индексирует текст ссылки (то есть текст, выделенный как гиперссылка, на странице сайта). Другими словами, индексируется содержимое тега <a href=...>, и если запрос совпадает с этим содержимым, в результатах поиска выдается адрес, указанный в теге.


Подготовка сайта для индексирования в поисковых системах

2013-11-11 08:38:00 (читать в оригинале)

Андрей Иванов
 По вашему запросу ничего не найдено
Артем Попов. © "Ашманов и Партнеры"
  
Содержание

Поисковые запросы и релевантность
Текстовые критерии релевантности
 Титульная фраза
 Описание страницы
 Прочие текстовые критерии
Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг
Нетекстовые критерии релевантности
Спрос и предложение - точки сближения в поисковых системах
С чего начать
Индексирующие поисковые системы - сегодня основные поставщики новых посетителей на сайт. В то же время алгоритмы работы поисковиков никогда не публикуются, на что у разработчиков есть все основания - борьба с замусориванием поисковиков (поисковым спамом или спамдексингом) отнимает много сил и средств у коллектива любого поискового проекта.
Вопрос о том, как попасть на первую страницу результатов поиска по профильным, то есть точно относящимся к тематике сайта, запросам, волнует многих. Явный дефицит популярной информации на эту тему породил большое количество домыслов - о "чудодейственных" методах, о "коррумпированности" и "протекционизме" администраций поисковых систем, "продающих" и раздающих выгодные места своим людям.
Опыт анализа сайтов, владельцы которых испытывают проблемы с посещаемостью из поисковых систем, показывает, что причины, как правило, гораздо проще. Они заключаются в элементарной неинформированности разработчиков и владельцев сайта о самых простых правилах, которые необходимо учитывать, чтобы сайт был хорошо представлен в поисковых системах.

Поисковые запросы и релевантность

Разумеется, для того, чтобы на сайт из поисковой машины пришли посетители, ему недостаточно просто присутствовать в результатах поиска. Необходимо попасть в начало списка результатов поиска.
Критерии, от которых зависит положение ссылки на сайт на страницах результатов поиска, можно разделить на две группы - текстовые и нетекстовые. Из названий ясно, что текстовые критерии - это характеристики текстового содержимого страницы. Нетекстовые критерии оценивают связи страницы, а ее текст при этом роли не играет.
Учет текстовых критериев осуществляется на этапе создания сайта и текста. Работа с нетекстовыми параметрами возможна уже после того, как сайт выложен в Сеть и подан на индексацию.
В работе с индексирующими поисковыми системами всегда следует помнить, что командой на поиск в поисковике является поисковый запрос, введенный пользователем - слово, несколько слов, словосочетание, фраза.
Здесь возникает довольно существенный смысловой (семантический) разрыв. За то, что происходит в голове пользователя, поисковик не отвечает, а для пользователя не существуют понятия "правильного" и "неправильного" запросов.
Поэтому всегда перед тем, как планировать сайт, стоит ознакомиться с тем, как часто и в какой форме пользователи на самом деле запрашивают информацию, предполагаемую к размещению в Интернете.
В Рунете единственным источником достоверных данных о поисковых запросах является сервисная служба системы рекламных объявлений "Яндекс-Директ".

Текстовые критерии релевантности

Сегодня можно полностью забыть такое устаревшее понятие, как "ключевые слова". Первоначально ключевыми назывались слова, внесенные в особое поле страницы, помеченное тегом <meta name="keywords" ...>. Но сегодня поисковые системы игнорируют содержание этого поля. Чтобы избежать разночтений, мы вообще откажемся от использования этого термина.
Результаты поиска определяются прежде всего поисковым запросом; поэтому, когда речь далее пойдет о ключевых словах и "соответствии-несоответствии" текста страницы запросу или отдельным словам, всегда будут иметься в виду слова, из которых состоит поисковый запрос.

1. Титульная фраза

Титульная фраза (титул) - это текст, который содержится на странице в дескрипторе title, в коде страницы он оформляется как<title>Титульная фраза</title>. Слова титульной фразы имеют очень большое значение при упорядочивании (ранжировании) результатов поиска в поисковой системе. А именно, если формулировка запроса совпадает с титульной фразой, либо титульная фраза содержит несколько слов запроса, то страница с таким титулом при прочих равных условиях окажется выше.
Стоит отметить противоречивый статус титульной фразы, ставший причиной наиболее грубых ошибок многих вебмастеров.
Титульная фраза не отображается на странице сайта в браузере. Точнее, отображается, но на рамке окна браузера, то есть в месте, куда обычно никто не смотрит. Именно поэтому настолько распространена ошибка, когда вебмастер ставит для всех страниц сайта одинаковый титул. Обычно это бывает самоназвание сайта, что весьма корректно выглядит, когда сайт, например, показывается заказчику.
Но когда сайт подается на индексацию в поисковые системы, картина меняется, так как в результатах поисковых систем содержание тега <title> отображается в самом интересном месте - как заголовок найденной страницы! Именно титульная фраза страницы является наиболее ярким элементом списка результатов поиска по поисковому запросу. Здесь она играет свою главную роль - заголовка, "лица" страницы. И выбор пользователя более чем наполовину определяется точностью, понятностью и привлекательностью титула.
Таким образом, можно вывести первые правила подготовки сайта к индексации поисковыми машинами:
1.Все страницы сайта должны иметь разные титулы.
2.Титульная фраза каждой страницы должна быть точной и ясной.
3.Содержание страницы должно соответствовать титулу.
4.В титульной фразе страницы должны быть слова, часто встречающиеся в поисковых запросах пользователей, ответом на которые может являться данная страница.
5.Не стоит использовать титульные фразы длиной свыше 80 символов.

2. Описание страницы

Описание страницы - это содержание поля, помеченного тегом meta description, оформляется как <meta name="description" content="Описание страницы, максимальная длина - 200 символов">. Слова описания обычно не влияют на ранжирование результатов поиска, и среди русских поисковых систем данный тег используется на практике лишь "Яндексом". Однако "Яндекс" сейчас - ведущая система, и грамотно составлять описание даже в расчете только на "Яндекс" вполне целесообразно.
Текст описания показывается в результатах поиска "Яндекса" под текстом титульной фразы. Таким образом, правильно оформив титул и описание, можно достичь максимальной привлекательности ссылки на вашу страницу в "Яндексе". Это срабатывает, когда пользователь, получив ответ, выбирает из нескольких альтернатив.
К сожалению, большинство вебмастеров пренебрегают такой возможностью улучшить внешний вид (понятность) своих ссылок в поисковике, ставя в описание всех страниц сайта одну и ту же фразу, либо вообще игнорируя это поле.
Но в идеале нужно... Сформулируем очередные правила:
6.Описания всех страниц сайта в теге <meta name="description" ...> должны быть разными.
7.Описание каждой страницы должно соответствовать ее содержанию.

3. Прочие текстовые критерии

Поисковые машины используют также следующие текстовые критерии релевантности найденных страниц запросу:
  • позиция найденных слов в титульной фразе;
  • "вес" найденного слова и близость его к началу документа;
  • наличие найденных слов в заголовках (<h1>, <h2> и т. д.) и фрагментах, выделенных жирным шрифтом (<b>, <strong>);
  • близость найденных слов друг к другу (компактность цитаты).
Объясним, что подразумевается под "найдеными словами". Индексирующие поисковые системы основаны на идее поиска "цитаты". Подразумевается, что пользователь хочет увидеть документ, в котором есть слова, введенные им в виде запроса. Поисковик находит в своем индексе такие документы и выдает их адреса. В вышеперечисленных критериях "найденное слово" - это слово, имеющееся как на веб-странице, так и в поисковом запросе, по которому должна быть показана ссылка на данную веб-страницу.
С ростом количества документов в Сети все острее становилась проблема ранжирования ссылок, выдаваемых поисковиками в ответ на запросы пользователей. Их стало слишком много. Поэтому разработчики стали один за другим вводить критерии, позволяющие как бы "уточнить" релевантность страницы - степень соответствия документа запросу.
Если в документе речь идет о каком-то предмете, по идее, этот предмет должен часто упоминаться (называться), т.е. частота слова - названия предмета будет повышенной. Этот параметр называется "весом" слова.
Авторы текстов знают, что главную идею материала лучше всего выносить в начало текста, поэтому некоторые поисковые системы положение найденного слова по отношению к началу документа стали также принимать за критерий релевантности.
Положение слов относительно друг друга, особенно в титуле, тоже является критерием. В случае поисковых запросов, состоящих более чем из одного слова, справедливо предположение (вспомним основную идею индексирующих поисковиков), что пользователь ищет цитату, то есть именно вхождение введенного словосочетания. Возможно, в запросе и пропущены некоторые слова, но в любом случае порядок слов и близость их друг к другу важны. Например, в запросестропила плотники легко узнается название повести Сэлинджера "Выше стропила, плотники!", а плотники стропиланапоминают уже о Бродском ("поднять не звали плотников стропила"). Подобная компактность цитаты хорошо распознается поисковыми системами.
Почему в качестве критерия релевантности используется наличие слов запроса в выделенных фрагментах и заголовках документа, очевидно: именно таким образом создатели текстов выделяют наиболее значимые слова, на которые хотят обратить внимание.
Как видим, все текстовые критерии ранжирования результатов в поисковых системах имеют простые логические объяснения. Разработчики поисковых систем ранжируют страницы, исходя из предположения, что вебмастера создавали и структурировали их в расчете на "живых" посетителей.

Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг

Поисковые запросы повторяются. Разные люди, в разных городах, в разное время и в разные поисковики вводят одни и те же поисковые запросы: работа, чат, секс, mp3, windows, линукс и др. Частоту использования каждого запроса можно подсчитать. Некоторые встречаются в среднем раз в неделю, а есть и такие, что ежедневно повторяются сотни раз. Чем длиннее запрос, тем реже он встречается. И наоборот, наиболее частотным запросом из группы, относящейся к какой-либо теме, всегда является наиболее общий запрос - одно слово или словосочетание, определяющее тему.
Поисковые системы сегодня стали основным поставщиком новых пользователей на любой интернет-ресурс, и вебмастера это прекрасно знают. Знают и закономерности спроса. Вебмастер, поддерживающий сайт по трудоустройству, например, в Санкт-Петербурге, безусловно осведомлен, что запрос работа встречается гораздо чаще, чем работа в Питере. Но нечеткий однословный запрос работа используют не только питерцы, но и москвичи, новосибирцы, казанцы... Поэтому вебмастерам сайтов по трудоустройству каждого из этих городов хочется попасть на первую страницу поиска именно по "главному" однословному запросу. Но городов много, а на первой странице результатов может разместиться всего лишь 15-20 ссылок.
С целью улучшить свою позицию в результатах поиска вебмастера применяли и применяют ряд технических приемов, предназначенных именно для обмана, "накручивания" поискового робота. Явление это называется спамом поисковых систем или спамдексингом (от spam + indexing) и появилось практически одновременно с появлением поисковиков.
Так как последние раньше использовали только текстовые критерии для ранжирования результатов, то типовым приемом спамдексинга стала так называемая "накачка" - искусственное завышение частот (весов) нужных слов на странице.
Варианты "накачивания" использовались самые различные: от примитивного "скрытого", невидимого обычному пользователю текста, до создания специальных текстов, где веса слов тщательно рассчитывались в соответствии со значениями, снимаемыми со страниц, занимающих первые позиции в ссылках по необходимым запросам.
Накачиваются сами страницы, титульные фразы, теги noframes и keywords. Специально создаются страницы с подобными "оптимизированными для поисковиков" текстами, попадая на которые, пользователь автоматически перебрасывается на другой сайт. Либо просто видит крупную надпись "Вход". Они так и называются - входные страницы. Более того, разработана специальная техника (клоакинг), когда поисковому роботу показывается одна страница, а пользователям - совершенно другая.
Подобные действия являются бичом поисковиков, потому что сильно перегружают индексы, уродуют внешний вид страниц с результатами поиска и резко снижают релевантность системы, то есть ее качество и ее конкурентное преимущество в борьбе за популярность с другими поисковиками.
История поисковиков есть история их постоянной борьбы со спамом. Совсем недавно в поисках оружия против текстовой "накачки" поисковики начали дополнять текстовые алгоритмы ранжирования результатов поиска нетекстовыми критериями - а именно, ссылочными.

Нетекстовые критерии релевантности

Нетекстовые критерии можно разделить на три основных типа. Мы даем условные названия, так как устоявшейся терминологии пока нет:
  • ссылочно-расчетные,
  • ссылочно-текстовые,
  • каталожные.
Как мы уже говорили, в случаях нетекстового критерия на ранжирование страницы влияет не ее содержание, а другие факторы.
Ссылочно-расчетные критерии. К ссылочно-расчетным критериям относится алгоритм поисковой системы Google - так называемый взвешенный индекс цитирования PageRank (PR). Подробная статья о нем Криса Райдингса (перевод и комментарии А. Садовского) имеется на сайте Александра Садовского http://www.digits.ru/.
Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность "цитирования" определяется также по количеству ссылок на "цитирующего". Для расчета индекса цитирования Google и подобные ему системы регулярно "перетряхивают" невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (заметим, что Google использует для этого "ферму" более чем из 10 000 серверов!). Подобный алгоритм используется также "Яндексом".
Каталожные критерии. К каталожным критериям можно отнести индекс цитирования "Яндекса" (citation index, CY) и алгоритм выдачи результатов поиска "Рамблера". В обоих случаях принцип один - наверху результатов поиска по запросу в индексах выдается несколько ссылок на сайты, зарегистрированные в принадлежащих порталам тематических каталогах. В случае "Яндекса" показывается до трех ссылок на сайты из каталога "Яндекса", если в их описании имеются слова запроса. Ранжирование производится по убыванию индекса цитирования "Яндекса". Каталожные ссылки в результатах поиска "Яндекса" четко отличаются от обычных счетных: они не нумеруются, а отмечаются точками. Описание ресурса в каталоге "Яндекса" проверяется, а частенько и составляется вручную составителями каталога (так называемыми модераторами). Индекс цитирования, естественно, рассчитывается автоматически.
В свою очередь, "Рамблер" "замешивает" на первую страницу результатов поиска по запросу до пяти ссылок на сайты, зарегистрированные в каталоге-рейтинге Rambler's Top100, если их посещаемость (по "хостам") выше некоторого минимального порога. Критерием для внесения данных ссылок в список результатов поиска служит наличие слов запроса в описании сайта, сделанном для Rambler's Top100. В отличие от "Яндекса", где размер описания ограничен двумя сотнями символов, на индексацию в Rambler's Top100 может быть подано описание размером до 4000 символов.
При внесении в рейтинг описание сайта также может проверяться сотрудником "Рамблера" - модератором рейтинга.
Ссылочно-текстовые критерии. К ссылочно-текстовым критериям может быть отнесен алгоритм, не так давно появившийся в "Яндексе". В данном случае "Яндекс" индексирует текст ссылки (то есть текст, выделенный как гиперссылка, на странице сайта). Другими словами, индексируется содержимое тега <a href=...>, и если запрос совпадает с этим содержимым, в результатах поиска выдается адрес, указанный в теге.


Страницы: 1 2 3 4 5 6 7 8 

 


Самый-самый блог
Блогер ЖЖ все стерпит
ЖЖ все стерпит
по сумме баллов (758) в категории «Истории»


Загрузка...Загрузка...
BlogRider.ru не имеет отношения к публикуемым в записях блогов материалам. Все записи
взяты из открытых общедоступных источников и являются собственностью их авторов.