Идеальный качальщик каталогов.

Много времени убил на производство скрипта, который бы скачивал нужную часть каталогов (а не весь сайт).

Проблемы были следующие:
- часть сайтов требует авторизации.
- часть сайтов используют редирект (с которым class snoopy.php не дружит)
- часть сайтов имеют ограничения на количество обращений с конкретного IP

Скачивать некоторые сайты Reget – или Teleport – расстраивать себя. Телепорт может такого накачать, что потом с бутылкой не разберешь.

Решил сделать качальщик на Delphi.

Теперь можно залогиниться в Эксплоере и Delphi программа подхватит зарегистрированного пользователя.

Борьба со всякими редиректами решается очень просто. После того, как страница «загружена», включается 30 секундный таймер. Все редиректы за это время выполняются и открывается правильная страница, которую можно сохранить.

Кстати, из Дельфи можно запускать PHP скрипты на localhost. Например, выделение нужной информации я делаю помощи PHP regexp.

Скачивать страницы индекса каталога можно по заранее данному шаблону, например, так

www.site/keyword/page/nn/ , где n – число от 1, до 500.

Что делать дальше с каталогами? Объединить несколько их. Создать собственную классификацию разделов добавить свой текст. Переписать тексты.

Некоторые весьма посещаемые ресурсы не утруждаются четкой классификацией и собирают в одном разделе тысячи элементов. Если разбить эти выборку на 100 подразделов, то получится существенный выигрыш и пользователям будет гораздо проще найти нужную информацию.




Статьи о SEO SEO SM100

4 Responses to “Идеальный качальщик каталогов.

  • 1
    Greignar
    Апрель 24th, 2008 06:04

    А почему готовым и бесплатным софтом не пользуешься?
    К примеру, httrack (http://www.httrack.com/)

  • 2
    serge_mikhailov
    Апрель 24th, 2008 08:41

    Прочитал описание и по описанию понял, что программа аналог Teleport. а телепортом я давно пользуюсь. И он не для всех случаев подходит.

    Прежде чем что либо писать самому пробую уже готовы приложения. Иногда получается очень быстро получить результат при помощи FlashGet.

  • 3
    Greignar
    Апрель 25th, 2008 02:12

    У меня был телепорт, только сейчас я почему-то пользуюсь httrack :)

    А httrack ты не пробовал, только читал описание… Что httrack, что телепорт, что твоя качалка - аналоги, и описание на них будет почти схожее!

  • 4
    serge_mikhailov
    Апрель 25th, 2008 10:36

    буду качать.

Leave a Reply

I am not robot.

Популярные статьи

 

 

Страницы: 1| 2| 3| 4| 5| 6| 7| 8| 9| 10| 11| 12| 13| 14| 15| 16| 17| 18| 19| 20| 21| 22| 23| 24| 25| 26| 27| 28| 29| 30| 31| 32| 33| 34| 35| 36| 37| 38| 39| 40| 41| 42| 43| 44| 45| 46| 47| 48| 49| 50| 51| 52| 53| 54| 55| 56| 57| 58| 59|

Партнеры сайта

сайт онлайн игр.