Обещал в прошлом посте опубликовать мои опыты. Итак - подопытный сайт Конспектомания. У меня появился интерес поучиться на нем поднимать свои позиции.
Сразу перейду к практике, то есть что делалось на сайте:
1) Сайт сделан на joomla cms. Поэтому пришлось немного подпилить напильником. В местах где выводится много постов с надписью “читать далее”, заголовки я вписал в теги H2, вместо стандартных div.
2) В местах где выводится только одна статья, заголовки поместил в тег H1.
3) У некоторых статей добавил картинки с тегом alt в котором вписан продвигаемый запрос (об этом далее).
4) На каждый запрос было закуплено по 3 ссылки, и 2 запроса двигались ради интереса через seopult.
5) Был создан специальный внутренний модуль с автоматической перелинковкой тематических статей.
Read the rest of this entry

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Linkfeedator дубль два

Снова вернулся к работе над проектом linkfeedator. Его функционал на данный момент полностью восстановлен, плюс ко всему добавил возможность проверок YAP и YAL через крон, а также модуль определения позиций по яндексу и гуглу.
На оффсайте теперь можно скачать бесплатную демо-версию продукта и оценить продукт в работе. Также добавился месячный тариф.
Правда купить пока что никак нельзя - еще не успел получить аттестат продавца Webmoney. Заявку в мегасток подал, но мне уже второй раз приходят замечания на доработку. Надеюсь завтра уже буду щеголять аттестатом продавца.
Read the rest of this entry

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Проект ExTheme

Наконец дела пошли в гору. Точнее сдвинулись с мертвой точки.
Начну с мелочи - я наконец получил персональный аттестат webmoney. Значит скоро сделаю себе аттестат продавца. Но наша почта меня шокировала - это просто ппц. Отправил письмо со сканом паспорта и заявлением соискателя, так оно дошло через 3 недели!!! Жесть. Особенно если учесть что я отправил 1-ым классом. Замучил бедных аттестаторов за эти три недели) Впечатление, как будто я не с урала отправил письмо, а с какого-нибудь Магадана.

Во-вторых, я организовал небольшую фирму. Чтобы поднять знания молодых веб-программистов до нужного уровня решили сделать небольшой стартап ExTheme. На нём прекрасно можно будет научить программистов всяким полезные штучки типа работу с паттернами, фреймворками, как пользоваться ajax и т.д.

А теперь о том что же такое ExTheme и с чем его едят.

Меня давно интересовала задача определения тематики сайтов. Изучив еще много интересных материалов и докладов в основном сотрудников яндекса на эту тему - решили сделать небольшой веб-сервис.
Принцип работы сервиса следующий - пользователь загружает список сайтов которые хочет проверить на тематику (например 10000 штук) в удобном ему формате (txt, csv) на сайт, после чего задача автоматически добавляется в очередь и обрабатывается. Через некоторое время ему возвращается результат с возможностью различных сортировок и построений графиков.

Особенности ExTheme
За основу каталогизации взят Яндекс Каталог. При этом он подробно изучен.
Задача поставлена таким образом - что робот должен с высокой точностью распознавать имеющиеся сайты в ЯКе. То есть все тесты и первоначальное обучение проходит с помощью ЯКа. На основе этого обучения exTheme сможет распознать тематику абсолютно любого сайта.
Оказалось очень удобно ставить тесты качества.
Например: тематика “развлечения->игры” содержит 1600 сайтов. Мы прогоняем их через робота и видим что робот смог верно распознать 70%. Значит асессорам надо еще поработать над этой тематикой.
Из плюсов (для нас) - проект не будет нуждаться в службе поддержке. Алгоритм распознавания универсален, и не нуждается в доработке. За проектом будут следить лишь два асессора.

Зачем это нужно?
Приведу несколько примеров:
1) Бывает так, что вы купили ссылку на сайте с тематикой “авто”, но со страницы с тематикой “недвижимость”. Возможно даже с какой-нить рекламной страницы. Сервис поможет определить такие нестыковки.
2) Просто хотите посмотреть круговой график кто же ссылается на ваш сайт:)
3) Основной аудиторией думаю будут seo-фирмы и разработчики разного ПО. Для них будет api-интерфейс (xmlrpc, soap).
В общем применение думаю можно найти.

Чё почём?
О монетизации пока речи нет. Проект будет бесплатным.

p.s. Если у кого-то есть мысли по применению и функционалу, высказывайте. Возможно сделаем.

Усиленно читают у меня в блоге:

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Яндекс Снежинск (часть 1.)

Ну что же. Приступим к изучению Снежинска. Сначала я рассмотрю некоторые цитаты популярных ресурсов о данном алгоритме ранжирования Яндекса, далее постараюсь перейти к практической части и описать “по-русски” те формулы, который яндекс использовал в своих докладах за рубежом (для привлечения инверсторов). То есть я попробую высказать словесно на примерах - что высказывали на научных конференциях сотрудники яндекса в виде формул.
Сейчас процитирую мысли “опытных сеошников”. С большинством я не согласен, на основе своих выводов. Ну да ладно. Читаем:
Read the rest of this entry

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Попробую продолжить

Всем привет, кто меня еще не забыл.
Ну вот я и вернулся.. хотя вернулся от части. В связи с проблемами со здоровьем, долгое время не мог толком работать. Вы не представляете как ужасно - когда ваш мозг не может сконцентрироваться. Вдвойне ужасней это для программиста - когда не можешь осмыслить свои же строчки кода, постоянно теряешься и не понимаешь что к чему. Некоторое время еще не смогу работать над своими программными проектами.
Поэтому пока что буду использовать свои прошлые наработки в быстром создании сателлитов для сапы.
Не было меня продолжительное время - я пропустил продление множества своих сайтов (почти 80% ушли в небытие). Ладно, не обидно за них, потому что они почти все вылетели из индекса.
Ну чтож.. попробую начать всё сначала. Опять придется изучать что изменилось в яндексе за последнее время, на что он теперь активно ругается и т.д. Зато это вызывает множество тем о которых можно будет написать здесь.

p.s. аськой и прочими мессенджерами пока что не пользуюсь. мне тяжело общаться в реал-тайме.
p.p.s. интересно старые знакомые dirt88, seoblondinka, amelli и т.д. еще живы?)

Усиленно читают у меня в блоге:

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Товарищи оптимизаторы. Если вы до сих пор думаете над тем как узнать трастовость к сайту, или выбрать сайт, где разместить ссылки - то хватит думать. Все биржы предоставляют вам такие сведения.

Например - вы пытаетесь наиболее трастовые страницы на сайте, и используете сложные алгоритмы чтобы их вычислить.. К чему это? Есть известный ВСЕМ параметр pr - который как раз его показывает. Если у сайта есть возраст и есть pr, то эта страница уже лучше других. Значит она либо отлично перелинкована, либо имеет внешняки, либо малый процент отказов от поисковика (в данном случае google). К чему изобретать сложные формулы, когда у вас есть цифры?
Думаете яндекс не полюбит подобную страницу?
Обратим взор на другую часть оптимизаторов - они используют странные характеристики типа колличество входящих ссылок от yahoo, чтобы оценить сайт. Итого яндекс например показал тиц 80, а колличество входящих по yahoo 10 - то кому вы больше верите?:) Вы под кого раскручиваете сайт?

Просто наплыли такие мысли. Но алгоритма вычисления траста не существует.

P.S. Пост в первую очередь относится к trust xt. Неведомой величине, которой якобы стоит верить.

Усиленно читают у меня в блоге:

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Всем привет! Особенно тем, кто думал что я уже совсем пропал.
Расскажу немного что творилось у меня в жизни последние два месяца. Событий было очень много.
Итак - событие номер один - я наконец закончил универ и теперь я педагог профессионального обучения информационным технологиям. В придачу мне дали красный диплом, который я так сильно мечтал повесить в туалете в красивой рамочке, чтобы хоть там его кто-нибудь увидел. Но времени сделать рамочку и повесить не было, так что вскоре реализую. Read the rest of this entry

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Задумался немного над цифрами доходов, которые нам идут с сайтов. В итоге пришел к выводу, что мы чуть-ли не миллионеры, если копнуть в суть, и провести сравнение. Только очень ленивые.
Например - сайт сделанный на коленке за час и добавленный в сапу, грубо говоря, будет приносить как самый мимнимум 3 рубля в сутки.
Итого за час мы увеличили свою годовую зарплату примерно на 1000 рублей.
Далее пробегаемся еще по паре бирж, и биржам статей. С каждой можно получить хотя бы по рублю в сутки. Итого с нашего стремного сайта получаем 2000р в год.
Даже если на сайт ушел не час, а день в итоге имеем следующее - 1 день работы = min 2000р зарплаты.
Много ли профессий можно найти, которые у нас в стране дают такой же доход?:) В мелких городах вообще народ месяц вкалывает с утра до ночи, чтобы получить какие-то 5000р. А 10т.р. - это уже считается что у человека хорошая зарплата. Жестоко…

А теперь проведем аналогию, если бы доход нам шел не с сайтов, а с процентов вклада в банке. Чтобы получить 2000 в год - нужно чтобы у нас было вложение 20000р в банке. А мы вложили в создание жалкий стольник..

Вообщем вывод таков - если сайтостроением заниматься реально как профессией, то это одна из самых прибыльных профессий в России. Read the rest of this entry

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Наконец сегодня додумал до логического конца алгоритм определения тематики и начал реализацию.  Сюда запишу его, чтобы не забыть детали. Алгоритм построен на теории нейронных сетей, и нужен мне в корыстных целях направленных на яндекс. Ценность алгоритма в том - что это будет первый алгоритм определения тематики сайта, который сможет реализовать почти любой программист. Надеюсь кому-нибудь пригодится.

Этап 1: Определение ключевых слов сайта

1) Получаем страницу
2) Убираем теги, и все кроме букв и пробелов. Знаки препинания заменяем на пробелы. (Цифры удалить!!!)
3) Разбиваем весь текст на слова, то есть делаем одномерный массив слов.
4) удаляем слова меньшие 2 букв
4) Каждое слово прогоняем через стеммер.  Я использую алгоритм Портера. Для тех кто не в курсе стеммер - это программа которая отбразывает от слова суффиксы и приставки, оставляя корень. Алгоритм Портера слаб, но пока сойдет. Как найду морфологический словарь - сменю на него.
5) При прогоне через стеммер создаем новый ассоциативный массив, где ключом будет само слово, а значением колличество повторений слова. Например (”Yandex” =>3, “Тиц” =>5) и т.д.
6) Упорядочиваем ассоциативный массив по убыванию колличества повторений.
7) Удаляем все слова повторяющиеся менее трех раз (колличество под вопросом).
8) В итоге мы получили ключевики сайта с их “тошнотой”. Обычно их на этом этапе 50-100 штук.
9) Проверяем каждый ключевик по базе общих слов не несущих тематику. Например слова: “меня”, “когда”, “сколько” и т.д. Я храню эти слова в отдельной таблице бд и написал отдельный скрипт, который позволяет их сформировать. Обойдя сотню сайтов мы набираем базу самых популярных не имеющих тематику слов.
Этап 2: Создаем тематическую базу

1) Для начала в бд нужно создать три таблицы: “слова”, “тематики” и “веса”.
Поля таблиц:
“Слова”: word_id, word
“Тематики”: theme_id, parent_id, theme
“Веса”: word_id, theme_id, ves
2) Заполняем таблицу тематик. Я для этих целей пользуюсь базой Ашманова (где-то 5000 тематик). Не использую ЯК, потому что сайты в него заносятся вручную, то бишь робот тут не причем. В нашем случае необходимо знать тематику, которую видит робот на обычных сайтов. Я не говорю что тематика по Ашманову совпадет с тем что определил робот яндекса, но нам это и не нужно. Представьте что по Ашманову у нас вышло “кпк” для донора и акцептора, а по яндексу “сотовые телефоны”.Не все ли равно?
3) Самый трудный момент. Выбираем нужную тему, например “интернет-ресуры”. Из найденных в первом этапе ключевиков страницы выбираем относящиеся к этой теме, и проставляем им коэффициенты, насколько сильно они относятся к данной теме (балл от 0 до 1). Позже будем корректировать это значение, сейчас это не суть важно. Это значение и будет синаптической силой. В сумме они дадут активацию нейрона к данной тематике.  В реальности это дает потрясающие возможности даже для многозначных слов. Например слово “лук” можно отнести и к кухне и к “охоте”. Это не повлияет на верность определения.
Этот момент трудный, потому что придется обойти множество сайтов, чтобы собрать хотя бы по 10 слов для каждой тематики. На деле десяти слов вполне достаточно. Итого необходимо 50000 слов, чтобы определить тему сайта по Ашманову. Кто-то скажет это много, но в день при нормальной оболочке можно легко собрать тысячу слов. Итого 50 дней пассивного труда.
4) Мы создали семантическое ядро для каждой тематики, и указали с каким весом относится к каждой теме определенное слово.

Этап 3: Узнаем тему неизвестных сайтов и корректируем результаты

1) Поскольку мы первоначально как-то обучили программу. Теперь покажу как ей пользоваться.
Для неизвестного сайта выполняем этап 1 и узнаем ключевые слова с “тошнотой”.  В результате полученные примерно 30 ключевиков проверяем по базе к каким темам они относятся и какие коэффициенты имеют.

Примитивный пример:
Текст “Лук и стрелы это лук”.
Лук тошнота 2. Тема “охота” вес 0.7.  Тема “кухня” вес 0.6.
Стрелы тошнота 1.  Тема “охота” вес 0.8.
Находим активацию нейрона:
К теме охота: 0.7*2+1*0.8=2.2
К теме кухня: 0.6*1=0.6

Поздравляю - тема текста определена.  Здесь также можно определить в % насколько текст относится к другим темам.
2) Возможно в прошлом этапе неверно проставлены коэффициенты и их нужно корректировать. Для этого необходим отдельный интерфейс, где выбрав тематику видишь все ключевые слова по ней с их коэффициентами. Изменяя коэффициенты мы усиливаем значение того или иного слова в определенной теме. При анализе множества сайтов мы приходим к стабильному результату.

Результат.

Данный алгоритм не нуждается в обсуждении его необходимости. Это каждый решает сам для себя. Мне плевать с колокольни если он вам не нужен:)

Для тех кто хоть что-то понял о том что я сказал - интересно услышать ваши мысли о его эффективности. У меня он уже почти реализован технически, и скоро начну пробовать. Если будет интерес к нему- прикручу как дополнительную услугу к линкфидатору или сделаю веб-сервис для проверки списка ссылок.

Усиленно читают у меня в блоге:

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong

Приветствую всех!
Ужас, я не писал уже больше полмесяца. Работы было очень много. Сейчас наша фирма готовится к релизу idoblog 2.0 (компонент для joomla 1.5, для построения социальных сообществ типа хабр+жж+я.ру), и надеюсь скоро закончится разработка Linkfeedator 2 (анализатор купленных ссылок для популярных бирж).
Вот как раз о нем я хотел бы поговорить, и спросить совета.
Столкнулся с такой проблем - очень легко попасть в шары (линфидатор начнет ходить по сети бесплатно). Хотя я крайне не рекомендовал бы качать такую версию, потому что в ней может быть код, который заберет ваши пароли от аккаунтов бирж. Но врятли кто меня послушает, так что вижу два выхода:

1) Зашифровать коды продукта с помощью ioncube. Но в этом случае две проблемы - клиент может ставиться в локалке на денвер у человека, который имеет динамический ip. В этом случае я не могу сказать - “работай только с определенного ip-адреса”. А если даже заставлю ставить клиент только на сервера, то народ начнет сомневаться, что я сам не краду пароли. Ведь код зашифрован и проверить невозможно.

2) Часть функций linkfeedator будут работать через мой сервер, И я буду вести статистику по заходам с различных ip и под какими логинами заходят. Под логинами тут подразумеваю логин/пароль от оффсайта компонента. Но тут опять минус - линкфидатор позиционировался как автономный клиент, который дает почуствовать независимость от различных сервисов.

Что же делать, я пока не знаю. Может у кого-нибудь есть идеи, как защитить мой продукт?

Усиленно читают у меня в блоге:

Google Bookmarks Digg del.icio.us Technorati Yahoo My Web News2.ru БобрДобр.ru Memori.ru МоёМесто.ru Mister Wong