Парсер google-выдачи, бесплатный

Решил поделиться десктопным парсером google, написанным из-за того, что существующие аналоги, которые удалось найти, меня не устраивали или мутно как-то работали. То за ночь работы набирается 100 ссылок, а траффика уходит гиг, то еще что-то.

Этот парсер прост, как трусы по рубль двадцать. И это не только про его возможности (они кстати скромные, ни поддержки прокси, ни антикапчи), а и про интерфейс тоже.

Но на всякий случай расскажу что и куда клацать, чтобы было хорошо :)

 

  • 1 — Запросы к ПС, построчно. Русские символы вводите как есть, программа сама сделает urlencode. Клик правой кнопкой мыши откроет меню с парой плюшек.

  • 2 — Кликните, чтобы к каждому запросу добавить site:TLD, где список этих самых TLD находится в файле zones.txt.

    Нафиг это нужно? Все очень просто, сравним запрос "google parser" с запросом "google parser site:ru"
    В первом случае поисковая выдача будет содержать все найденные сайты, а во втором только сайты в зоне ru.
    Это полезно, если требуется получить более 1000 результатов. В идеале, для каждой доменной зоны можно получить по 1000 ссылок.
    Например, по запросы "парсер google" мы получили только 1000 ссылок.
    А если кликнуть "site:TLD", то сможем получить до 11000 ссылок:
  • 3 — Файл, в который будут сохранены найденные ссылки. Если указанный файл существует, то он будет просто дополнен, а не перезаписан.

  • 4 — Файл, в который будут сохранены найденные домены. Если указанный файл существует, то он будет просто дополнен, а не перезаписан.

  • 5 — Интервал задержек между запросами. Лучше не торопить события и выставив что-то между 20-30, пойти сделать себе чай, бутерброд с колбасой и почитать новости, пока программа будет работать :)

  • 6 — Выпадающий список для управления парсингом - старт, стоп, пауза и продолжить. Содержание списка меняется в зависимости от выполняемой задачи, чтобы отображать только доступные задачи.

  • UPD: Вирустотал ругается на программу из-за упаковки. Поэтому добавил незапакованный вариант:
    google_parser.zip | depositfiles.com | ~2.44 Mb

    ПриложениеРазмер
    google_parser.rar665.82 кб

    Комментарии

    ОЧЕНЬ полезная программа, спасибо

    virustotal.com/file-scan/report.html?id=0bb42dd8c345b2cf1a9f939738420bc7e032b5194edaabdaad3cfadd0d68d9e3-1283489597#
    Result:
    29 /43 (67.4%)

    Ага, хочу стырить все ваши пароли xD

    Вот тоже самое, но без сжатия nspack'ом
    virustotal.com/file-scan/report.html?id=e9b8afaf02f76008fc41ef7035c5c9eb2aa53ec2b12de7994d0ccb69ce5a16e7-1283528045
    Result:
    0 /43 (0.0%)

    Ссылку на незапакованный файл добавил в пост.
    Спасибо, что указали на проблему.

    Привет, спасибо за парсер, но он, впринципе, как все которые я нашел, парсит только до третьей страницы, потом гугл выдает такую надпись -

    "Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 214 уже показанных.
    Если вы хотите, можно повторить поиск, включив опущенные результаты."

    если нажать на "включив опущенные результаты", то тя кидает опять на первую страницу и парсинг начинается опять с первой по третью страницу, замкнутый круг блин (( ...........как думаешь, можно это как то вылечить?

    Всё время вылетает такая ошибка:
    Google: HTTP 503, sorry. Чистим cookies, ожидание x4 - 5.09 сек.
    В чём может быть проблема?

    Это не ошибка, это google банит за слишком частые запросы.
    У вас сейчас видимо стоит задержка от 1 до 2 сек., установите больший интервал между запросами, например 15-25 сек.

    А как останавливать парсинг? Программу удается закрыть только через диспетчер задач.

    Тоже вариант ;)
    А если серьезно, я не предусмотрел возможность остановки задачи.
    Постараюсь найти время и сделать.

    UPD: сделал

    Самый лучший и пока рабочий парсер. Токо без прокси часто банят...

    Спасибо, прокси тоже постараюсь прикрутить на досуге.

    Пока нет прокси в самой проге, можно класть ее во FreeCap и будет вам прокси!

    огромное спасибо. Если бы прокси сокс + многопоточность - можно нести продавать

    Блин немного разочаровался. Плохо, что он не листает страницы, а парсит только первую на каждый запрос

    Листает, может оформление выдачи поменяли.
    Приведите пример запроса, заодно проверю и это, когда дело до парсера дойдет.

    UPD: Да, поменяли оформление выдачи гугл, исправил.

    Сделайте прокси и антигейт плиз

    зделай плиз возможность настраивать шаблони поскових систем парсинга как в агрессе ицени ему не будет. А аресс реально заепал как лежит сервер разрабов он нихрена не работает.

    Самое интересное для меня это командная строка. Автор мне приходится делать по не скольку тысяч запросов. Но где-то на 400 запросе парсер пишет "out of memory". Добавь поддержку командной сроки и цены ему не будет. Например после каждых 150 запросов он выгружался из оперативки и запускался с новыми запросами и настройками.

    Будет реализована поддержка командной строки? Эта возможность очень интересует... При больших объемах для парсинга она крайне необходима.

    Возможно, когда будет свободное время добавлю опцию полного сброса данных из памяти в файлы. Т.о. в файле с доменами и ссылками скорее всего будут дубликаты, но расход памяти станет приемлемым.

    Бог с ними с дубликатами. Очень нужна подобная функция. Товарищ администратор если не сложно сделайте поскорее ее.
    И еще заметил один глюк парсера. Например я отпарсил 200 запросов. Программа создала файлы с доменами и со ссылками, но при повторном запуске программы и указании этих же файлов происходит беда. Файл содержащий ссылки теряется, точнее затирается, а домены остаются в полном порядке (в сам файл продолжает записываться информация)

    Автор добавь сброс данных из памяти в файлы. Позарез эта функция нужна.

    Перекачай архив, теперь нет проверки на дубликаты.
    Не тестил, но по идее должно работать.

    Протестил. Понравилось. Большое спасибо!
    Возник вопрос. Как строится ссылка к google? Присутствует параметр языка ru в парсере, а мне нужно не только ru запросы прогнать, но и de, en, uk, fr. Можно ли как нибудь прикрутить их? Пытался в hex редакторе ссылку поправить, но почему-то не получилось...

    P.S. По личному наблюдению если зайти на google.de, то вырастет ревалентность немецких запросов...
    P.S.S. Еще раз спасибо большое за парсер. Теперь он у меня работает на постоянке =)

    Приветствую. Долго не писал, т.к. не мог парсером нарадоваться. Всем хорош.
    Но возник ряд вопросов. Автор ответь пожалуйста.
    1. Это построение ссылки к google. Я писал постом выше что мне нужно в запрос добавить fr, de, en. Можно это реализовать? Т.к. такой изврат нужен наверное только мне скинь пожалуйста мне на почту. (Я думаю мой мыльник отобразился)
    2. Соксификация. Для ускорения работы парсера его действительно нужно соксифицировать. У меня где-то около 500 000 запросов к google, а интервал запросов я сейчас не могу поставить менее чем 25сек. То есть у меня в сутки он пробегает около 500 запросов, а это конечно же мало. Просьба заключается в том что бы либо прикрутить к нему прокси, либо как писал товарищ выше прикрутить его к freecap, но у меня это никак не выходит. Может инструкцию какую выложишь...
    Что-то вроде "парсер и freecap - как их подружить"(для чайников)

    С Уважением,
    Алексей Батькович

    Парсю гугл с локала через динамический айпи своим скриптом. Качественно, любые объёмы. Беру заказы на парсинг. ася 243221960.

    Автор, приветствую!
    Очень прошу добавить еще возможность вводить запросы в юникоде. В utf-8 очень нужно.
    С Уважением,
    Алексей Батькович

    а у всех парсер листает страницы выдачи?

    Вроде как листает...

    Хороший софт! вот мой парсер google юзайте наздоровье! private-seo-soft.blogspot.com/2011/04/google.html

    Ребят вот смотрите парсер гугла, яши, яху, метабот
    Да еще и может анализировать найденные ссылки, например искать только phpBB

    http://cybermake.ru/view/view_web_parser.php

    Добавить комментарий

    Адрес показан не будет
    CAPTCHA
    Антибот
    Как оформить комментарий?