Здравствуйте.
Изучение программирования начал с написания парсера(PHP) интернет-магазина.
Предварительно прочитав Машины статьи..
Собственно схема парсинга:
1. Парсим ссылки на разделы
2. Заходим по каждой ссылке и парсим ссылки на страницы разделов
3. Парсим необходимые данные с каждой страницы
4. Парсим ссылки на подробное описание каждого товара
5. Парсим подробное описание
В общем проблема в том что по пункту 2 процедура длится 50мин, выдает 1100стр, на каждой странице по 10 позиций, итого 11000 страниц с подробным описанием.
Запустил я скрипт на локальном сервере(сняв временное ограничение на выполнение) и поехал по своим делам, приезжаю коннект разорван, вся работа впустую..
Хотелось бы знать как можно реализовать защиту от дисконнекта?
Может в самой библиотеке есть какие-то временные константы?
Еще вопросы:
1. Непонятно как писать на пхп парсеры, ведь задачи могут выполняться часами, а на серверах провайдеров ограничения по 30сек.
2. Даже если снять такие ограничения скрипты виснут..



есть такие штуки как cron и AJAX. при первом ставим ограничение на кол-во итераций на один запуск. при втором просто запускаем цикл на аджаксах и юзаем опять же ограничение на кол-во итераций для каждого запуска, но запускать выполнение можно сразу в несколько потоков
где хрнаите полученную инфу? надеюсь не в массивах?