Вычислительная техника может работать с текстами, написанными с применением привычных для человека конструкций, только используя определенную математическую модель. Синтаксический анализ, написанный на каком-либо языке программирования, принято называть парсингом, от английского parsing (пер. - разбор, анализ).
В некоторой мере парсинг можно приравнять к чтению человеком текста. Человек в таком случае тоже проводит синтаксический анализ, сравнивая прочитанные слова и словесные конструкции с тем словарным запасом, которым он обладает. Естественно, что парсер (программа для парсинга) не в состоянии в настоящее время обрабатывать тексты на столь высоком уровне, как человеческий мозг. Но парсеры, во-первых, становятся более совершенными, и во-вторых, они в основном предназначены для решения узкого круга задач.
Интернет – практически безграничное хранилище информации. Найти и обработать необходимые тексты в большом объеме за короткое время человек или даже группа людей не в состоянии. А качественно написанный парсер справляется с такого рода работой эффективно, быстро, и работать он может круглосуточно.
Интернет-магазины – это, в первую очередь, информация о тысячах товарных позиций. Написать вручную все описания сложно, а порой и невозможно физически. Тут на помощь приходит парсер, который найдет нужные описания в Сети. Также многие интернет-магазины занимаются парсингом цен с интернет-каталогов, чтобы держаться на конкуретном уровне. Агрегаторы новостей тоже работают на основе парсинга, отыскивая нужную информацию, но уже не во всей Сети, а на определенных новостных сайтах. Зачастую парсеры используют в качестве средства для наполнения сайта, отыскивая необходимые информационные материалы.
Наиболее известный пример парсера – это роботы поисковиков, обрабатывающие тексты по определенному принципу и составляющие список ответов на поисковые запросы. Программы для проверки уникальности текста также являются парсерами. Они ищут похожие на проверяемый тексты, и если находят совпадения, дают на них ссылку. Парсеры также могут использоваться и для более узких целей.
Алгоритм, по которому работает парсер:
Парсер в основном работает на компьютере, на котором он установлен, не блуждая по просторам Всемирной сети.
В основе парсинга – использование так называемых регулярных выражений. Это конструкция, задающая принципы поиска и обработки информации. Парсеры пишутся на языках программирования, в которых предусмотрена возможность обработки строк.
Регулярные выражения, или, как их еще называют на профессиональном сленге, маски, шаблоны, представляют собой набор определенных знаков, позволяющих описать ту информацию, которую необходимо найти. Например, можно задать поиск по определенному слову, по набору слов, по принципу их размещения, по дате и по каким угодно другим параметрам. Регулярные выражения – очень удачное изобретение, их возможности сложно переоценить.