Рейтинг CMS

Сегодня дошли руки проанализировать данные, собранные моим роботом.

Для этого исследования робот загружал главную страницу каждого сайта. Если ответ от сервера поступал в течение 10 сек., то предпринималась попытка определить тип скрипта, на котором работает сайт. Смышленый робот умеет распознавать по сигнатурам 37 скриптов, что позволило составить рейтинг популярности движков в рунете.

Немного данных об исследовании, остальное под катом:

Всего опрошено доменов - 3.505.450*
  — из них ответили в течение 10сек. и имеют контент на русском языке - 2049913 (58,47%)
    — из них распознан тип скрипта на 386472 (18,85 %)

* — Все домены зоны .ru, .su + небольшая выборка международных доменов с заведомо русскоязычным контентом.

Гугл и капча

TIdHTTP (v9) не тянет google-капчу. Замечены глюки:

  • Вываливается в эксепшн (!ахтунг)"HTTP/1.1 200 OK"
  • Получает от сервера данные, но в стрим ничего не записывает
  • Игнорирует cookie (и не в домене дело)
  • WinInet такой фигней не страдает.
    Спасибо ребятам из гугла, благодаря им пришлось вспомнить, какой он, wininet (:

    Парсер google-выдачи, бесплатный

    Решил поделиться десктопным парсером google, написанным из-за того, что существующие аналоги, которые удалось найти, меня не устраивали или мутно как-то работали. То за ночь работы набирается 100 ссылок, а траффика уходит гиг, то еще что-то.

    Этот парсер прост, как трусы по рубль двадцать. И это не только про его возможности (они кстати скромные, ни поддержки прокси, ни антикапчи), а и про интерфейс тоже.

    Но на всякий случай расскажу что и куда клацать, чтобы было хорошо :)

    Сеограф 1.1

    Что нового в этой версии?

    1 - Учет посетителей по данным liveinternet.ru.

    2 - Авторегистратор сайтов в рейтинге liveinternet.

    3 - Возможность отключать ненужные линии одним кликом прямо на графике.

    4 - Массовая автоустановка дат из whois.

    5 - График строится постранично, кол-во точек на страницу задается в настройках.

    6 - Сообщения программы из нижней панели заносятся в лог, посмотреть который можно кликнув по панели. Лог "живет" одну сессию, и перезаписывается с началом новой.

    Анализ цен на catalog.onliner.by

    Эта программа позволяет вам без труда анализировать ваши цены сайте catalog.onliner.by, сравнивать их с ценами конкурентов и при необходимости повышать или понижать стоимость товаров.
    Очевидно, что в первом случае это приведет к большей прибыльности продаж, а во втором - к большему числу покупателей.
    Ну разве не прелесть? (:
    Скачать программу

    глюк?

    Как по-вашему отработает такой код?

    TStringList *sl = new TStringList;
    sl->Add("asdf");
    sl->SaveToFile("D:\\-s.t.a.l.k.e.r2.:.txt");

    Cannot create file? Не-не-не...

    В корне диска D появится файл -s.t.a.l.k.e.r2. без расширения (клянусь, я сейчас не бухой), который нельзя будет удалить, прочесть, переименовать или переместить o_O
    Вернее удалить его можно, но только через консоль и только по короткому имени файла.

    Собственно не совсем понятно - почему файл вообще создался и почему так себя ведет?