Как Написать Парсер на PHP

Бери в Интернете только то что нужно и не скачивай мусор.

Исходники парсера вы можете найти в архиве abcolut.com/prg/GoogeADS.zip . Я описываю лишь самые важные места. скрипт с комментариями и пробелами занимает всего лишь 40 строк.

 

include("Snoopy.class.php");//подключить шаманскую библиотеку, которая эмулирует браузер.

$snoopy->fetch($cmd); // Вот так библиотеке задается адрес для скачки.
$snoopy->results // вот здесь находятся результаты.

preg_match_all("'Sponsored.Links(.*).id=[\"res\"|res]'isx", $snoopy->results, $fst); // строка регулярного выражения для вырезания блока, который начинаетя со слов «'Sponsored Links» и заканчивается «id=res».

Для того чтобы научиться составлять регулярные выражения следует скачать книжку «Фридл Дж. Регулярные выражения (2-е изд.), Питер 2003, 464 с., ISBN 5-272-00331-4.djvu» и программу «The Regex Coach». Первые пять часов работы с регулярными выражениями я матерился и представлял, что я тупой. Потом что то щелкнуло в голове и все стало предельно ясно и понятно.


preg_match_all("'id=an(.*?)>(.*?)(.*?)< .span'isx", $htm1, $fst); // регулярное выражение для определения набора текстов и ссылок.

Все!
Теперь вы можете писать свои парсеры, например, для организации компаний в copeac.

Хотите знать сколько страниц под данному ключевому слову в гугле – пожалуйста, Хотите узнать дату конца регистрации домена – пожалуйста. Выбрать блок, помеченный особенными значками, а остальное выкинуть – пожалуйста.

См по теме:
- создатель тематических индексов
- Трансляция Гугле-новстей

Как Написать Парсер на PHP: 15 комментариев

  1. Mr.Visor

    @seotouareg, регулярные выражения — вещь просто незаменимая. Про неё книги целые пишут!
    Статья хорошая, но есть одно НО: оформление самой статьи. Исходники рекомендую заключать в тег

  2. levik

    Только у меня строки кода, которые длиннее, чем левая колонка уходят «вникуда»? 🙂
    А по теме — тяжело «въезжать», зато когда осознаешь всю (или хотя бы часть) мощь.. )) Ухх 🙂

  3. levik

    У меня по ссылке в IE левый край за экраном %)
    ps IE пользую редко… Видимо, повезло 🙂

    pps. а вообще, подсвечивать код надо 🙂 только там надо всё перебирать. 🙂

  4. Павел

    Привет всем! 🙂 Люди помогите плиз, я нуб в php и через неделю для получения зачета мне нужно сдать скрипт сбора ссылок со страницы сайта, которую ввожу через форму, то есть как я понял парсер ссылок.

    Поделюсь денюжкой, только выручите пожалуйста. Оч жду ответа, пишите на fierytiger2010(собачка)gmail.com

  5. tester

    автор, тещу скрипт с дефолтными настройками. Где искать результаты выполнения скрипта не пойму. Скрипт актуален или уже нет?

  6. stefan

    никто не подкажет: можно ли вообше написать парсер/граббер/скрипт который берет инфу из базы данных сайта на которм можно заказать Онлайн Авиабилет??? т.е. мне надо подключиться к базе данных какого либо сайта выдрать оттуда инфу о полетах и результат отобразить уже на МОЕМ сайте! Возможно ли это???

  7. Alex

    stefan, Я думаю реально, но вот к БД их ты не подключишься, кто тебе даст?)))
    Придется брать доступную инфу с сайта.

  8. Парсермен

    Решил изучить PHP, чтобы написать парсеры сайтов и подзаработать денег на программировании, однако не смог освоить. Если кто то более продвинут и ему нужно для тренировки написать парсер, то можете взять мои сайты, заплачу 300 рублей за скрипт.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *