Сижу и думаю, насчет алгоритмов яндекса. Главная мысль - как он определяет тематичен ли ссылающийся сайт, если сайт не находятся в яндекс каталоге.
Если бы я был автором алгоритма яндекса, то примитивная модель действовала бы так:

  • 1) Выделяем наиболее часто повторяющиеся слова в текстах, на странице ссылающегося сайта и на кого он ссылается.
  • 2) Упорядочиваем их по релевантности, учитывая разметку (h1, h2, h3, b, title и т.д.).
  • 3) Берем первые n ключевых слов (число n неизвестно, но предполагаю что не более 10)
  • 4) Сравниваем ключевики, на совпадение.
    Вводим коэффициенты a,b.
    Колличество и качество совпавших ключевиков - это a%.
    Максимальный тиц, который может передать ссылка на странице - это b.
  • 5) Итого получаем пропорцию:
    x - a%
    b - 100%
    Отсюда тиц передаваемый ссылкой равен x=b*a/100.

Выводы:
Из моей теории следует, что сайт не располагающийся в яндекс-каталоге, не имеет тематику. Тематика определяется для каждой страницы сайта персонально.
Теория не претендует на реальность. После ее додумывания, начну тестировать на практике.

Усиленно читают у меня в блоге:

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong