Кодировки

Существующее в данный момент количество кодировок и связанных с ними понятий может поставить в тупик практически любого новичка.

В сети много информации по теме, однако далеко не всегда корректной и непротиворечивой, т.к. многие "господа эксперты" путаются в этих понятиях.

Я решил не трогать вопрос о том, почему и нафига столько разных кодировок.
Вместо этого я попытался собрать в одном месте и оформить в виде словарика тот минимум понятий, который позволит не путаться что такое кодировка, чем она отличается от charset'а, а чем от unicode.

Возможно позже более подробно остановимся на кодировках юникода и рассмотрим как именно происходит представление текста, а пока начнем с главного.

Рейтинг CMS

Сегодня дошли руки проанализировать данные, собранные моим роботом.

Для этого исследования робот загружал главную страницу каждого сайта. Если ответ от сервера поступал в течение 10 сек., то предпринималась попытка определить тип скрипта, на котором работает сайт. Смышленый робот умеет распознавать по сигнатурам 37 скриптов, что позволило составить рейтинг популярности движков в рунете.

Немного данных об исследовании, остальное под катом:

Всего опрошено доменов - 3.505.450*
  — из них ответили в течение 10сек. и имеют контент на русском языке - 2049913 (58,47%)
    — из них распознан тип скрипта на 386472 (18,85 %)

* — Все домены зоны .ru, .su + небольшая выборка международных доменов с заведомо русскоязычным контентом.

Гугл и капча

TIdHTTP (v9) не тянет google-капчу. Замечены глюки:

  • Вываливается в эксепшн (!ахтунг)"HTTP/1.1 200 OK"
  • Получает от сервера данные, но в стрим ничего не записывает
  • Игнорирует cookie (и не в домене дело)
  • WinInet такой фигней не страдает.
    Спасибо ребятам из гугла, благодаря им пришлось вспомнить, какой он, wininet (:

    Парсер google-выдачи, бесплатный

    Решил поделиться десктопным парсером google, написанным из-за того, что существующие аналоги, которые удалось найти, меня не устраивали или мутно как-то работали. То за ночь работы набирается 100 ссылок, а траффика уходит гиг, то еще что-то.

    Этот парсер прост, как трусы по рубль двадцать. И это не только про его возможности (они кстати скромные, ни поддержки прокси, ни антикапчи), а и про интерфейс тоже.

    Но на всякий случай расскажу что и куда клацать, чтобы было хорошо :)

    Сеограф 1.1

    Что нового в этой версии?

    1 - Учет посетителей по данным liveinternet.ru.

    2 - Авторегистратор сайтов в рейтинге liveinternet.

    3 - Возможность отключать ненужные линии одним кликом прямо на графике.

    4 - Массовая автоустановка дат из whois.

    5 - График строится постранично, кол-во точек на страницу задается в настройках.

    6 - Сообщения программы из нижней панели заносятся в лог, посмотреть который можно кликнув по панели. Лог "живет" одну сессию, и перезаписывается с началом новой.

    Анализ цен на catalog.onliner.by

    Эта программа позволяет вам без труда анализировать ваши цены сайте catalog.onliner.by, сравнивать их с ценами конкурентов и при необходимости повышать или понижать стоимость товаров.
    Очевидно, что в первом случае это приведет к большей прибыльности продаж, а во втором - к большему числу покупателей.
    Ну разве не прелесть? (:
    Скачать программу