Как работят търсачките (Google, Yahoo, MSN, ...)

С какви очи търсачките "виждат"?

Защо майсторски конструиран уеб сайт може да бъде оценен зле от търсачките в интернет?

Понякога просто не можете да достигнете първите 3 страници в класациите на търсачките и не разбирате защо. Може би просто обърквате търсачките, които искат да индексират сайта ви.
Но как да разберете къде грешите?
Продължавайте да четете!

Имате майсторски конструиран уеб сайт с много подходящо съдържание, но въпреки това не се класирате напред в класациите (SERPs). Не ви е ясно поради каква причина оставате невидими за Google.

Търсачките не са хора. За да се справят с милионите уеб страници съставляващи World Wide Web, те почти напълно са автоматизирали своя процес на работа. Софтуерната програма не гледа на вашия сайт по начина, по-който гледа човешкото същество. Това не значи, че не може да имате сайт, който да представлява наслада за посетителите си и едновремено с това да е добре оптимизиран. За да постигнете и двете трябва да знаете как търсачките "виждат" и се разхождат по вашия сайт.

Поради сложността на мрежата, търсачките изпълняват поредица от операции, което улеснява тяхната работа и им помага да съберат качествена информация. Това са 4 на брой операции, но всяка една от тях може да се обърка по редица причини. Не че търсачките се объркват в хода на работата си, а просто могат да се сблъскат със съдържание, с което не са програмирани да работят.

Всички търсачки изпълняват следните задачи:

1. Проучване на мрежата.
Търсачките изпращат автоматични програми, понякога наричани bots, или "паяци", които използват хиперлинк структурата на интернет за да преминават през съдържанието на страниците в мрежата. Според нашите изчисления, роботите на търсачките са преминали през почти половината от всички страници, които съществуват в интернет.

2.Индексиране на документите.
След като паяците преминат през дадена страница, съдържанието й се поставя във формат, който трябва да позволи лесното изтегляне на информация, за съответния сайт, когато потребителите правят своите проучвания. Поради това страниците се съхраняват в огромна, внимателно управлявана база от данни, която съставлява индекса на търсачката. Индексите съдържат билиони документи, които се доставят на потребителите за частица от секундата.

3.Обработка на запитванията
Когато потребителят прави своето запитване в търсачката, което се случва стотици милиони пъти на ден, машината преглежда документите в своя индекс, които отговарят най-добре на търсенето. Запитвания, които изглеждат по един и същи начин могат да дадат различни резултати. Примерно, търсенето на фразата "списание за водни потоци", без кавичките около нея, дава повече от 4 милиона резултати в Google. Направете същото проучване, заедно с кавичките, и ще получите само 19 600 резултата.

4.Класиране на резултатите
Google Няма да ви покаже всичките 19 600 резултата на една и съща страница, а дори и да го направи, необходимо е да се определи начин, по който да се реши кой сайт или документ ще застане на чело. За целта търсачката прилага алгоритъм за да изчисли кои от резултатите са най-близки до търсенето/запитването на потребителя. В низходящ ред се посочват всички останали резултати.

Сега след като имате някаква представа за процеса, по който се извършва търсенето сайтовете и тяхното класиране, ще разгледаме всяка стъпка в него по-отделно. Ще разберем как нещата стават добре и как могат да станат наистина зле. Тази статия ще се фокусира върху проучванията в мрежата. В други статии ще публикуваме и разискванията върху останалите части на процеса.

Сигурно мислите главно за човешките си посетители когато създавате сайта си и така по принцип трябва да бъде. Но някои от начините, по които го структурирате могат да забавят или възпрепятстват роботите на търсачките. В последствие просто ще имате по-малко посещения. В допълнение, някои от техниките подходящи за по-лесната работа на роботите улесняват навигацията и на посетителите.

От друга страна може да желаете една част от съдържанието по сайта ви да не се индексира от паяците. Ако примерно притежавате сайт, който съдържа информация за чийто достъп е нужно да се плати, едва ли ще искате някой паяк да я индексира и да я показва на всеки потребител въвел правилните ключови думи. За това съществуват начини целенасочено да се блокира достъпа на паяците от определено съдържание.Тази статия е въвеждаща и само ще споменем някои от тези начини.

Динамичните URLs са най-големия препъни камък за търсачките.

Страниците с един или два динамични параметърd засичат работата на паяците. Динамичното URL има доста "боклук", като например въпросителни знаци, знаци за равенство, за проценти и т.н. Такива страници се възприемат добре от хората, които ги отварят, като вписват някакви параметри на началната страницата. Примерно при изписването на пощенския код в празно поле на weather.com, ще се зареди страница с динамично URL, която показва времето за съответната област в САЩ.

Има и други случаи когато паяците не приемат добре сложността на сайта. Примерно, страници с повече от 100 уникални линкa към други страници на един и същи сайт, могат да уморят роботите. Паяка може да не проследи всеки линк. Ако целта ви е да построите карта на сайта, има и по-добри начини да постигнете това.

Страниците, които са погребани на повече от 3 кликвания от вашата начална страница, също може да не се индексират. Паяците не обичат да влизат толкова навътре. От друга страна, и много хора могат да се "изгубят" на сайта ви, ако има прекалено много нива на линковете по него, а липсва подходяща навигация.

Паяците пропускат и страници, които изискват ID за посещение или cookie за да е възможно да се навигира по тях. Паяците не са браузери и нямат техните способности, за това и не могат да извлекат тези форми на идентификация.

Друго препятствие за паяците са страниците, които имат “frames.” Много от дизайнерите ги харесват защото им позволяват да запазят позицията в сайта на едно място, даже и докато потребителя преминава през съдържанието. Но паяците намират “frames” за объркващи. По принцип много от самите потребители също не одобряват тази техника и не считата, че страниците стават по-удобни за навигиране по този начин.

Разгледахме онези пречки, които може да сте използвали неволно. Т.е. грешките, които описахме по-горе се допускат когато в действителност желаем да дадем пълен достъп на паяците до съдържанието на сайта си.

Целенасочено блокиране на достъпа

Сега ще обърнем внимание на случаите когато целенасочено се блокира достъпа на търсачките до информация по страниците.
Причина да използваме подобни способи може да бъде не само факта, че информацията е платена, а примерно, че тя трябва да е по-трудно достъпна или не е подходяща за всеки посетител.

Страници, които се отварят само след като се попълни определена форма и се кликне “Submit” служат като затворени врати за паяците. Мислете за тях като за невъзможност да се натискат бутони или да се печата. Страници, които изискват падащо меню, за да се достигне до тях, също не се проверяват от роботите. Така е и случая с документите, които могат да бъдат отворени чрез "search box".

Чрез използването на robots meta tag или robots.txt файл се задава блокирането на достъпа до определена информация. Ще намерите статии, които дискутират работата на robots.txt на нашия сайт и на сайта на SEO Chat.

Страниците, които изискват регистрация също блокират работата на роботите. Спомнете си - паяците не могат да пишат. Така, че няма да могат и да се логнат за да прегледат съдържанието на съответната страница.

Накрая искам да обърна внимание и на страниците, които се пренасочват преди да покажат съдържанието си. Не само, че те не се индексират, но и се забранява достъпа до тях. Търсачките наричат пренасочването "задръстване" и за това забраняват сайта. Може да проверите какво счита за легално и какво за нелегално Google на сайта за уебмастери тук.

Сега вече като знаете кои практики ще "задавят" паяците, нека да видим по какъв начин можем да ги насочим към определено съдържание. Главното, което трябва да направите е да им дадете директни HTML линкове към всяка страница, която наистина искате да се посети. Също дайте им "плитък басейн", в който да си играят. Паяците започват работата си от вашата начална страница. Ако някоя част от сайта ви не може директно да се отвори от там, шансовете, че паяка няма да я забележи са доста големи. Ето защо използването на карта на сайта е безполезно.

Ще приема,че сте основно запознати с HTML. Ако погледнете кода на някоя страница, ще забележите следния текст на всякъде където е обозначен хиперлинк:

<a href="http://www.seochat.com">SEO Chat</a&gt"

Когато уеб браузерът чете това, разбира, че текста “SEO Chat” трябва да е хиперлинк към страницата http://www.seochat.com.

SEO Chat в този случай е anchor text -текста наименование- на линка.

Когато паяка чете този текст си мисли, “Добре, страницата http://www.seochat.com се отнася към съдържанието на този сайт, и също много добре се отнася към фразата`SEO Chat.’

Ще задълбочим малко тази тема.

<a href="http://www.seochat.com" title="Great Site for SEO Info" Rel="nofollow">SEO Chat</a>

В какво се състои промяната тук?
Фразата "Great Site for SEO Info" дава допълнителни пояснения на паяка относно линка, на който се е натъкнал. Но линка няма да се счете като вот и няма да има влияние върху ранга на страницата. Това е така заради присъствието на следното допълнение rel="nofollow" tag.

Но защо и какъв е смисъла да се добави nofollow?

Текста "Great Site for SEO Info" се смята от търсачката за самореклама или като спам коментар, който изкривява резултатите й от търсенията в интернет. За това търсачките не одобряват тези коментари. Nofollow премахва вероятността търсачката да погледне негативно на сайта. Yahoo!, MSN, и Google разпознават това допълнение, но AskJeeves не поддържа nofollow.

В някои от случаите, може да се създаде линк към изображение. Хиперлинка включва името на изображението, както и малко разяснителен текст в “alt” определение. Допълнителното определение помага на паяците защото им подсказва за какво се отнася изображението.

Хиперлинковете могат да приемат и други форми в мрежата, но тези форми нямат рангова стойност, нито са ценни за паяците. Като цяло, колкото е по-близо линка до класическата форма - <a href=”URL”>текст</a>, толкова по-лесно е за паяка да го проследи.