Запуск парсера по расписанию. Автоматическая выгрузка по расписанию
Запуск парсера по расписанию. Автоматическая выгрузка по расписанию
Q-Parser позволяет настроить автоматический запуск парсинга и выгрузки по расписанию: нужный сайт, нужные категории в нужный формат файла или в социальную сеть.
Как это работает?
В зависимости от выбранной частоты запуска Q-Parser запустит парсинг выбранного сайта с указанными категориями. Когда все товары спарсятся, система запустит их выгрузку в указанный вами формат.
Если вы выбрали выгрузку в файл, на почту придет список ссылок на сформированные файлы. Если выгрузка происходит в соцсети, то вы просто получите уведомление по ее окончанию.
Дополнительно в письме будет указано сколько товаров добавилось, обновилось или исчезло из каталога поставщика. Если при выгрузке возникли ошибки, они так же будут указаны в письме.
Постоянные ссылки на файлы
Автовыгрузка, в отличие от ручной выгрузки, формирует постоянные ссылки на файлы. При каждом следующем запуске ссылка не изменится, а файл по ней обновится. Таким образом можно использовать эти ссылки для автоматического импорта на вашем сайте.
Постоянные ссылки формируются так же при выгрузке в ваше FTP, S3 или другое хранилище .
Примерная схема работы выглядит следующим образом
- Запуск парсинга сайта с выбранными вами категориями;
- Ожидание завершения парсинга товаров;
- Применение к списку товаров всех модификаторов из предыдущей выгрузки (фильтры, сортировки, редактирование);
- Сравнение списка товаров с предыдущей выгрузкой;
- Выгрузка списка товаров в указанный формат;
- Отправка отчета на почту;
Как создать автовыгрузку
- Запустите парсинг нужного сайта с нужными категориями как вы делаете это обычно;
- На странице результатов парсинга (со списком товаров) нажмите на кнопку "Авто-выгрузка";
- Назовите выгрузку как вам удобно;
- Выберите дни недели в которые требуется автоматически запускать парсинг и выгружать товары;
- Укажите во сколько и как часто нужно запускать парсинг;
- Если вам не нужны отчеты на E-mail, их можно отключить;
- Решите, нужно ли запускать выгрузку в том случае, если при очередном парсинге на сайте-доноре ничего не изменится;
- Выберите формат выгрузки и его параметры;
Где посмотреть список моих автовыгрузок?
Список заданий и частоту их запуска вы можете видеть на странице Авто-выгрузки.
На этой же странице вы можете удалить ненужные автоматические задания или отредактировать текущие.
Подробнее узнать о редактировании автовыгрузок
Сколько автовыгрузок можно создать?
Количество автовыгрузок не ограничено, однако каждый запуск будет тарифицироваться по вашему текущему тарифу. Соответственно на тарифе на 1 сайт можно создавать автовыгрузки только для одного сайта, но много штук в разные форматы.
Если ваш тариф закончится или закончится лимит сайтов, авто-выгрузка не запустится.
Парсер поставщиков. Какие сложности могут возникнуть при парсинге веб-сайтов?
- Веб-сайты со сложной структурой: большинство веб-страниц основаны на использовании HTML, и структура одной веб-страницы может сильно отличаться от структуры другой. Следовательно, когда вам нужно спарсить несколько веб-сайтов, для каждого из них придется создать свой парсер.
- Поддержка парсера может быть дорогой: веб-сайты всё время меняют дизайн веб-страницы. Если местоположение собираемых данных меняется, то программный код сборщиков данных необходимо снова доработать.
- Используемые веб-сайтами инструменты противодействия парсингу: такие инструменты позволяют веб-разработчикам управлять контентом, который отображается роботам и людям, а также ограничивать роботам возможность собирать данные на веб-сайте. Некоторые из методов защиты от парсинга: блокировка IP-адресов, captcha (Completely Automated Public Turing test to tell Computers and Humans Apart — полностью автоматический тест Тьюринга для различения компьютеров и людей) и ловушки в виде приманок для парсеров.
- Необходимость авторизации: чтобы собрать во Всемирной паутине определенную информацию, возможно, вам сначала потребуется пройти авторизацию. Поэтому когда веб-сайт требует войти в систему, нужно убедиться, что парсер сохраняет файлы cookie, которые были отправлены вместе с запросом, чтобы веб-сайт воспринимал парсер в качестве авторизованного ранее посетителя.
- Медленная или нестабильная скорость загрузки: когда веб-сайты загружают контент медленно или не отвечают на запросы, может помочь обновление страницы, хотя парсер, возможно, не знает, что делать в такой ситуации.
Парсинг сайтов. «Юриста вызывали? Цитировать нельзя парсить»
Вне зависимости от того, чью сторону вы выбираете в вопросе определения источника силы: деньги или правда — ясно одно, что, там где начинают водиться деньги, найти правду становится всё сложнее. Вынося дискуссию о возможности приобретения за «ден.знаки» всего и вся, включая сам закон и его представителей, за рамки этой статьи, рассмотрим некоторые правовые аспекты, поднятые в комментариях:
- «От подглядывания до воровства — один шаг». Даже если разрешено всё, что не запрещено, то, считают наши читатели, «подглядывать в замочную скважину как минимум некрасиво, а если клиент потом ещё и выдаёт спарсенное за свое — то это уже прямое воровство. Конечно, понятно, что в бизнесе все так делают. Но в приличном обществе всё же принято об этом молчать.» Однако, парсить для кого-то и выдавать спарсенное за своё, как говорится, две большие разницы: «Вы путаете мягкое и холодное. Мы действительно оказываем услугу по парсингу. Но ровно так же можно обвинять производителей, например, оружия в том, что с его помощью убивают. Мы делаем бизнес, а в бизнесе есть одно правило — законно это или нет. Моя точка зрения… Если к нам приходят клиенты и готовы платить много, чтобы получить данные — это разве плохо…»
- «Сделал приложение для сайта СМИ — прибили за жалобу». Сайт Forbes, парсинг, приложение на Google Play — что могло пойти не так? «В свое время решил сделать приложение для сайта Forbes. Чтобы получать статьи с сайта — сделал парсинг страниц. Настроил всё в автоматическом режиме и сделал приложение для Андроид. Выложил приложение в маркет. Через год со мной связался юрист и потребовал удалить приложение, потому что я нарушаю авторские права. Спорить не стал. Обидно, что у самого Forbes нет приложения по их же статьям с сайта. Есть только сайт. А сайт у них тормозной, долго грузится и увешан рекламой…»
- «Моя база данных — мое произведение под защитой!». Авторское право — ещё одно понятие, которому можно посвятить с десяток страниц обсуждений (помимо сотен тысяч уже существующих), однако не упомянуть его никак тоже неправильно. Наш читатель выдал концепцию: «Некто создал базу товаров. Потратил кучу ресурсов на поиск информации, систематизацию этой информации, вынесение данных в базу. Вы по просьбе конкурента эту базу спарсиваете и за деньги отдаете тому самому конкуренту. Вы считаете, что здесь нет этических проблем? Касательно законности — не знаю, как в РФ, но в Украине БД может быть объектом авторского права.»
Однако, ответственность за пользование услугой или товаром всё ещё лежит на том, кто её/его приобретает и с какой целью использует: «… и в России тоже. Мы оказываем услугу по сбору данных. И за эту услугу просим деньги. Мы не продаем сами данные. Я, к слову, всех клиентов предупреждаю, что они могут нарушить закон если будут использовать, например, описания.» - «Формально вы правы, но статью на вас нашел!» В УК РФ (статья 146) описываются только масштабы нарушений, которые позволяют классифицировать нарушение авторских прав как «уголовку». Сами по себе права описаны в ГК — а на масштабы, позволяющие классифицировать деяние как «уголовку», регулярный парсинг, такой, что возникает вопрос «а не ляжет ли сайт», без проблем вытягиваются. Но важны аспекты:
- Там «крупный размер» — это не в количестве спарсенных страниц, а в деньгах. Как вы вообще оцените парсинг (и его регулярность), как нарушение авторских прав (!), в деньгах? А как обычно в таких случаях делают и откуда может штраф в сотни тысяч долларов за одну копию фильма взяться? Высчитывается «упущенная прибыль» с соответствующим коэффициентом. Можно с каких-нибудь договоров просчитать — сколько будет стоит купить у вас ту же информацию легально и отсюда «плясать». Но, для начала, вы должны её изначально продавать (а не выкладывать в публичный доступ), выдумывать цифру задним числом не «прокатит». Хотя и тут риски есть: знаете, сколько стоит коммерческая лицензия на условный Консультант-Плюс? Как только Вы полезете дальше десятка основных законов, вы быстро наткнетесь на предложение купить ту самую коммерческую версию.
- Наша история точно не из уголовного дела (и Вы не путайте штраф и ущерб. Вот вы по хулиганке разбили бутылку пива: ущерб — 30 рублей, штраф — до 1000р, а по гражданскому иску потом хоть триллион отсуживайте за «упущенную выгоду», но это уже не штраф). Вы же прайс не продаете вообще, что эксперт то сочинять будет? Конкретно, а не «хороший юрист натянет без проблем».
Парсер для совместных покупок. Ша. Скачайте товары с помощью парсера
Загружать много товаров вручную долго и тяжело. Можно ошибиться в названии или цене игры, а это может повлечь ошибки в подсчётах и негодование клиентов. Чтобы этого избежать, можно воспользоваться парсерами.
Парсер — это сервис для организаторов совместных покупок, который позволяет за несколько минут скопировать (спарсить) товары с интернет-магазина поставщика. Товары можно сразу автоматически выгрузить в социальные сети (ВКонтакте, Facebook, Одноклассники), а также скачать их в файле XLS (Excel) и CSV для последующей загрузки на сайт или форум совместных покупок.
Существует очень много разных парсеров, самые популярные из них — Турбопарсер , Грабли и Sliza . Обычно в каждом парсере есть пробная бесплатная выгрузка на несколько товаров и разные тарифные планы на выгрузку в дальнейшем. Например, если у Вас единственная закупка, то одна выгрузка будет стоить 50 рублей, а если у Вас параллельно собирается несколько закупок разных поставщиков, то лучше купить доступ к выгрузке на месяц.
Большая часть сервисов попросит у Вас ссылку на yml-файл или каталог, чтобы выгрузить наши товары. Некторые магазины готовят файлы с товарами в специальном формате. Например, мы в издательстве «Банда умников» уже подготовили файл с настолками, тетрадями и квестиками:
«Банда» рекомендует Турбопарсер для выгрузки всех товаров с сайта .
Посмотрите инструкции к разным сервисам и выберите удобный именно для себя (их большое множество на любой вкус). Так Вы сможете облегчить загрузку товаров и тратить на это 15 минут вместо нескольких часов.