Лайфхаки

Маленькие, полезные хитрости

Парсинг с использованием

Человек, использующий настоящий браузер, почти никогда не станет запрашивать 20 веб-страниц в секунду из одного и того же веб-сайта. Поэтому если вы хотите запрашивать много веб-страниц из одного и того же веб-сайта, вам нужно заставить веб-сайт полагать, что все эти запросы отправляются из разных точек земного шара, то есть с использованием разных IP-адресов. Другими словами, вам нужно использовать прокси-серверы .

Прокси-сервер на python. Особенности взаимодействия прокси сервера с внешними серверами

Простой парсер прокси на питоне.. Настройка

Для успешной разработки парсинг-агента на прокси-сервере нужно установить Linux с такими инструментами:

TOR: распределенная, анонимная и зашифрованная сеть, в которой данные пользователей и сами пользователи никогда не будут раскрыты.Stem: контроллер Python для TOR.Privoxy: не кеширующий веб-прокси с фильтрацией, повышенной конфиденциальностью и возможностью изменения данных веб-страниц и заголовков HTTP.TOR (установка и настройка)

Установи TOR через терминал:

sudo apt-get update sudo apt-get install tor sudo /etc/init.d/tor restart

Далее:


Делаю парсер страниц на python. Нужно постоянно обходить большое ко-во страниц. Например, 1М в день.
Для этого раньше использовал многопоточность TheadPool. Но когда возросло кол-во требуемых одновременных подключений до 80-100 скрипт начинал падать по памяти.
Почитал, что пишут надо переходить на asyncio.
Накидал простенький скрипт, где беру прокси из файлика, беру url и обхожу их. Для ограничения одновременности испольщую semaphore.
Но столкнулся с тем, что если у меня для прокси доступно, например 50 потоков, то при выборке 200 урлов, первые 50 отработаются правильно, а остальные уйдут в ошибку. Такое ощущение, что семафор не работает или я как то не так использую это.

Человек, использующий браузер, вряд ли будет запрашивать с одного сайта 20 страниц в секунду. Поэтому, если вы собираетесь запрашивать с одного сайта большое количество страниц, то надо заставить сайт думать, что запросы идут от разных пользователей т.е. с разных IP адресов. Другими словами, вам необходимо использовать прокси .

Сегодня прокси стоят не очень дорого: ~ 1 доллар за IP. Однако, если вам нужно делать более чем 10 тысяч запросов в день на одном и том же веб-сайте, то затраты могут сильно вырасти, ведь вам потребуются сотни адресов. Следует учитывать, что IP-адреса прокси-серверов должны постоянно мониториться, чтобы отбросить тот, который выключился, и заменить его.

Последние обновления на сайте:

1. Трое уже умерли: смертельный вирус подстерегает на дачах и пикниках.
2. Когда мне было 12 лет, в нашей семье появилась стиральная машина - автомат.
3. Три ошибки дачников, из-за которых поликарбонат быстро разрушается.
4. Всегда в путешествиях.
5. В России растёт число пар, которые вынуждены спать раздельно из-за храпа.
6. Как подкормить малину весной для крупных и сладких ягод.
7. Священник стал маской, чтобы спасти детский приют и жизнь детей.
8. Весенняя подкормка яблони после схода снега: как помочь дереву восстановиться и сформировать урожай.
9. Сибирские охотники создавали костюмы, способные противостоять атакам медведей.
10. Помoгаем печени утpoм, днем и вечером!
11. Редкий секс с повышенным риском смертности и болезней сердца связан.
12. Блaгоприятные дни для пoceва однолетников 2026 году.
13. Учёные всё чаще говорят о том, что у мужчин тоже существуют гормональные колебания, которые условно называют Irritable Male Syndrome.
14. Лепешки на кефире с начинкой.
15. Доктор Джон льюин, 93-летний специалист по антивозрастной медицине, и его жена Жанин Лю, 37 лет, стали родителями.
16. На первый взгляд это выглядит безумно, пока не становится ясно: так восстанавливают работу линии высокого напряжения, не отключая электричество.
17. Пoчему лук стoит caжать в клyбнике.
18. Для современных зумеров наличные уже почти потеряли смысл, пишет Business Insider.
19. Как правильно ухаживать за фиалками.
20. Процесс создания зеркала своими руками настолько залипательный, что сложно отвести взгляд.
21. Полезная памятка средств для сада и огорода.
22. Уже давно делаю по этому рецепту!
23. Девушка решила добавить уюта в кухню и сделала коврик под тарелку в деревенском стиле.
24. Мошенники запустили новую опасную схему с аккаунтами на маркетплейсах - под удар попали уже сотни пользователей.
25. Розу из подаренного букета очень просто укoренить!
26. В Индии произошла абсурдная история, которая закончилась для местного жителя настоящим побоищем.
27. Топ - 5 идей для уюта на даче осенью.
28. Учёные из университета эмори пришли к удивительному выводу: собаки любят своих хозяев даже больше, чем еду.
29. Рецепт вкусной и ароматной аджики, которая так замечательно сочетается с нашим любимым шашлычком.
30. 5 лучших подкормок для огорода - проверено на практике.
31. Польза компоста очень велика и включает в себя множество экологических, экономических и агрономических преимуществ.
32. Какие макроэлементы важны для томатов и как распознать их нехватку?
33. Даже самой дорогой и качественной щёткой невозможно проникнуть в узкие промежутки между зубами и в глубокие поддесневые карманы.
34. Лучшие бесплатные инструменты для веб-скраппинга 2025
35. Лучшие API и инструменты для веб-скраппинга 2025: что выбрать
36. Top 40 инструментов для веб-скрапинга в 2025: что нового
37. Топ-11 выделенных прокси 2025: Надежные решения для ваших онлайн-нужд
38. Вот несколько отличных вариантов растений и цветов, которые можно посадить под елью в саду, чтобы создать красивую и гармоничную композицию:
39. Лучшие Instagram-прокси 2025: полное руководство
40. Топ-20+ Резидентные Прокси 2025: Надежные и Эффективные
41. Топ-15 сервисов для роста в Instagram 2025: Рейтинг лучших инструментов
42. Полный список бесплатных анонимных прокси-серверов
43. Вот рецепт маринованных кабачков - отличная закуска, которая отлично подойдет к любому столу.
44. Какие парки и скверы Москвы популярны для прогулок зимой
45. Как приготовить питательную почвосмесь для любой рассады.
46. Ирис германский рио - роскошный бородатый ирис с крупными цветами.
47. Какие основные музеи расположены в Кремле и что в них можно посмотреть
48. Прокси-серверы: что это такое и как они работают
49. HTTP или SOCKS: Какой Прокси Выбрать
50. Какие улицы Москвы самые знаменитые и почему