Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Реклама, Объявления
»
Тема:
A-Parser - продвинутый парсер ПС, PR, WS, более 35 парсеров!
Новая тема
Ответить
цитата
02/03/20 в 18:17
A-Parser Support
1.2.799 - новый парсер для поиска картинок, улучшения в существующих парсерах
Улучшения
Добавлен новый парсер
SE::Yandex::ByImage
- поиск картинок в Яндексе по ссылке
В
Social::Instagram::post
добавлена возможность собирать ссылки на локации
В
Util::YandexRecognize
добавлена поддержка сессий
В
SE::Yandex::SQI
добавлена возможность определять считается ли домен "официальным"
Улучшения в
HTML::EmailExtractor
для более качественного сбора почт
В
SE::Google::Trends
обновлен и значительно расширен список регионов
Из
SE::Seznam
удален парсинг
$related
в связи с тем, что связанные ключевые слова больше не выводятся на странице выдачи
Исправления в связи с изменениями в выдаче
Исправлен парсинг
$totalcount
, рекламы и мобильной выдачи в парсерах Google
Исправлен парсинг анкоров и сниппетов в
SE::Yandex
Исправлены парсеры SerpStat
SE::Yandex::Direct
,
SE::Bing::LangDetect
,
Rank::Ahrefs
,
SE::Bing
,
SE::Startpage
,
Shop::eBay
Исправления
Исправлен выбор страны в
SE::Yahoo
Исправлен баг с декодированием ссылок в
SE::Google::Images
В режиме -newnode исправлены проблемы с кодировкой и оптимизировано потребление памяти
цитата
15/03/20 в 23:53
A-Parser Support
Парсинг booking.com с помощью A-Parser
В этом видео уроке рассмотрен парсинг ресурса booking.com, получение результатов поиска квартир и отелей на сайте. Подробную информацию о них будем получать при помощи парсера
Net::HTTP
.
В видео рассмотрено
Пользование разделом тестового парсинга
Переход по страницам пагинации
Проверка наличия определенного контента на странице сайта
Использование регулярных выражений
Применение конструктора результатов (декодирование HTML сущностей)
Применение шаблонизатора Template Toolkit в формате результата:
Использование инструмента $tools.CSVline
Циклическая обработка директивой FOREACH
Виртуальный метод .match
Фильтры: .remove, .collapse, .replace
Полезные ссылки
Net::HTTP -
https://a-parser.com/wiki/net-http/
Тестовый парсинг -
https://a-parser.com/wiki/test-parsing/
Template Toolkit -
https://a-parser.com/wiki/template-toolkit/
tools.CSVline -
https://a-parser.com/wiki/template-tools/#tools-csvline-простое-создание-csv-файлов
Готовый пресет:
https://a-parser.com/resources/383/
Оставляйте комментарии и
подписывайтесь на наш канал на YouTube!
цитата
26/03/20 в 11:43
A-Parser Support
Сборник рецептов #39: бот-опросник, парсер hotline.ua и copart.com
Представляем вашему вниманию 39-й сборник рецептов, в который вошли:
телеграмм бот опросник
парсер агрегатора цен hotline.ua
парсер аукционов транспортных средств copart.com
Телеграмм бот опросник
Данный бот позволяет организовать ежедневный опрос сотрудников, при этом список вопросов можно гибко менять. Все настройки берутся из Google таблицы, а также туда пишутся ответы по каждому сотруднику.
Также, этот пример демонстрирует возможность создания телеграмм бота на базе A-Parser и работу с Google таблицами.
Парсер hotline.ua
hotline.ua - это самый большой агрегатор цен в Украине. С его помощью можно мониторить и анализировать цены на товары у конкурентов или искать наиболее выгодные предложения среди большого количества интернет-магазинов.
Парсер copart.com
Copart является одним из крупнейших интернет аукционов, специализирующихся на продаже новых и б/у автомобилей. По официальной информации каждый день на аукционе выставляется на продажу более 150 000 транспортных средств.
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
07/04/20 в 14:11
A-Parser Support
Видео урок: Именование файлов результатов
Мы начинаем публикацию серии коротких видеоуроков, каждый из которых будет посвящен какому-то одному функционалу.
И в этом уроке будут рассмотрены варианты формирования имени файла результата.
В видео рассмотрено:
Нумерация файла результата в соответствии с запросами
Нумерация файла результата + часть имени запроса
Именование файла результата по запросу, если запрос линк
Полезные ссылки:
Формат результата -
https://a-parser.com/wiki/tips-v1-1-0/#Формат-результата
Шаблонизатор Template Toolkit -
https://a-parser.com/wiki/template-toolkit/
Метод replace -
http://template-toolkit.ru/Manual/VMethods.html
Оставляйте комментарии и
подписывайтесь на наш канал на YouTube!
цитата
16/04/20 в 14:50
A-Parser Support
1.2.852 - новый парсер для Google Keyword Planner, Native NodeJS, множество исправлений и улучшений
Улучшения
Добавлен парсер
SE::Google::KeywordPlanner
собираются списки подсказок и варианты ключевых слов
для каждого варианта парсится среднее кол-во запросов в месяц, конкуренция, объемы поиска, а также минимальная и максимальная ставки
присутствует возможность указывать несколько ключевых слов в запросе
В
SE::Yandex::ByImage
добавлена функция
Get full links to page
, которая позволяет получать реальные ссылки на страницы
В
SE::Yandex::SQI
добавлены переменные сбор количества отзывов и оценок, а также рейтинга
Улучшена проверка правильности разгадывания каптчи в парсерах Яндекса
Автоматическое увеличение лимитов на ОС Linux
Улучшена работа с регулярными выражениями
При бане прокси в лог задания теперь выводится более детальная информация
Native NodeJS переведена из стадии альфы в бету, проведено множество оптимизаций, за счет чего в большинстве сценариев это дает повышение максимальной скорости в 1.5-2 раза, а также уменьшение потребление памяти в 2-4 раза
Начиная с 1.2.822 все бета версии имеют включенный Native NodeJS, стабильные версии выходят с включенным oldnode
Native NodeJS: добавлена экспериментальная поддержка HTTP/2
Native NodeJS: обновление Node.js до актуальной версии
JS парсеры: добавлена опция
allow_dangerous_node_module
s, подробнее
тут
Исправления в связи с изменениями в выдаче
Исправлено скачивание каптчи в
SE::Yandex
Исправлен
Rank::Ahrefs
: в
$anchors
переменная
$bl
заменена на
$domains
В
SE::Google
исправлены:
парсинг mobile news
баг с дублированием ссылок в выдаче
парсинг анкоров в рекламе, связанных ключевых слов, а также первый результат в выдаче не всегда попадал в serp
В
SE::Google::Images
исправлен парсинг gif
Исправлен
SE::Yandex::ByImage
, убраны flat переменные
$height
и
$width
SE::Yandex
,
SE::Google::ByImage
,
SE::DuckDuckGo
,
Social::Instagram::Post
,
Rank::Ahrefs
,
Rank::Bukvarix::Domain
,
SE::MailRu
,
SE::Yandex::Suggest
Исправления
Исправлена работа
Net::Whois
с доменами 3го уровня, а также улучшена проверка получаемого ответа
Исправлена работа
Extra query string
в
SE::Bing
Исправлена работа
Rank::SEMrush
и
Rank::SerpStat::Keyword
при получении ответа без данных
Исправлен баг с типами переменных
Исправлена ошибка, при которой запросы ошибочно считались неудачными при постановке задания на паузу
Исправлена работа
Bypass Cloudflare
Исправлен динамический лимит потоков
Исправлена ошибка при использовании
Request delay
Исправлено предупреждение о превышении лимита в Поле запросов
Исправлена работа
$tools.task.id
в имени файла результата
JS парсеры: исправлены получение сессий и работа http2 (баг появился в одной из предыдущих версий)
JS парсеры: исправлено определение кодировки страницы
Native NodeJS: исправлено поведение при некоторых ошибках
Native NodeJS: исправлена проблема при обновлении A-Parser на OS Windows
Native NodeJS: исправлена работа
save_to_file
, а также еще ряд ошибок
Native NodeJS: исправлена работа SOCKS5 с авторизацией
Native NodeJS: исправлена подстановка данных после Конструктора запросов
цитата
28/04/20 в 14:12
A-Parser Support
Сборник рецептов #40: посещаемость организаций, SSL сертификаты, ikea и анализ доменов
Представляем вашему вниманию 40-й сборник рецептов, в который вошли:
- парсер данных о посещаемости организаций
- парсер данных о SSL сертификатах
- парсер товаров на ikea.com
- комплексный пресет для анализа доменов по ряду характеристик
- способ извлечения доменов из ссылок без фактического захода на страницу
Посещаемость в Google Maps
В поисковой выдаче Google для определенных запросов отображается расширенный сниппет с информацией об организации из Google карт. В частности, обычно отображается информация о посещаемости в разрезе дней недели.
Представляем парсер, который собирает данные о посещаемости.
Данные по SSL сертификату
Данный парсер собирает информацию о SSL сертификате сайта. В качестве источника данных используется сторонний ресурс.
Парсер ikea.com
Парсер данных из ikea.com, который позволяет собирать различную информацию о товарах. Согласно данным из Википедии, ikea - это одна из крупнейших в мире торговых сетей по продаже мебели и товаров для дома.
Кроме этого:
-
Получение доменов из ссылок без захода на страницу
-
Информация о сайте (домене)
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
цитата
08/05/20 в 13:42
A-Parser Support
Видео урок: Сохранение результатов в несколько файлов используя переменные, массивы и условия
В этом видео уроке рассмотрены способы сохранения результатов в несколько файлов, используя переменные и массив, при определенных условиях.
В видео рассмотрено:
Вывод результатов в разные файлы с разными именами используя переменные
Вывод результатов для каждого файла отдельно по определенному условию
Вывод результатов для двух файлов с условием, используя массив
Полезные ссылки:
https://a-parser.com/wiki/template-toolkit/
- Шаблонизатор Template Toolkit
http://template-toolkit.ru/Manual/Directives.html#Uslovnaya_obrabotka
- условная обработка (IF, UNLESS, ELSIF, ELSE)
http://template-toolkit.ru/Manual/Directives.html#Ciklicheskaya_obrabotka
- циклическая обработка FOREACH
https://a-parser.com/wiki/task-tester/
- тестировщик заданий
Оставляйте комментарии и
подписывайтесь на наш канал на YouTube!
цитата
18/05/20 в 11:48
A-Parser Support
Сборник рецептов #41: Google таблицы, отправка писем и авторизация с помощью puppeteer
Представляем 41-й сборник рецептов, который полностью посвящен использованию различных Node.js модулей в A-Parser.
Работа с Google таблицами
Отправка писем из А-Парсера
Авторизация с помощью puppeteer
Сохранение результатов в Google SpreadSheets
Один из часто задаваемых вопросов в поддержке, это вопрос о возможности писать результаты прямо в Google Таблицы. Поэтому мы подготовили небольшой пример парсера, который демонстрирует такую возможность.
Отправка почтовых писем
Еще одна возможность, о которой часто спрашивают наши пользователи - отправка писем. Такой функционал может быть использован для уведомлений о различных событиях в заданиях, в том числе о завершении их работы. Поэтому мы также подготовили пример, демонстрирующий отправку писем прямиком из А-Парсера.
Авторизация на GitHub с использованием puppeteer
Еще один пример по заявкам наших пользователей, демонстрирующий загрузку страницы, авторизацию на ресурсе и простую навигацию.
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
11/06/20 в 17:54
A-Parser Support
1.2.912 - обновление NodeJS, повышение производительности, адаптация к изменениям в рекаптчах
Мы завершили переход на
NodeJS
в качестве основного движка для парсеров и представляем новую стабильную версию
1.2.912
с поддержкой
NodeJS 14.2.0
. Данное обновление сочетает в себе множество улучшений, включая повышение производительности, уменьшение потребления памяти, полностью новый сетевой стек, а также поддержку нативных NodeJS модулей, позволяющую использовать всю мощь каталога
npmjs
в A-Parser'е
Также в данное обновление включены изменения по работе с
ReCaptcha2
в парсере Google, наша команда одна из первых нашла решение по обходу новой версии рекаптчи и протестировала его совместно с сервисом
RuCaptcha
, за что им отдельный респект. На данный момент корректный обход каптчи протестирован с RuCaptcha, Anti-Captcha, XEvil и CapMonster.
Помимо этого было произведено множество оптимизаций в ядре A-Parser'а, значительно увеличилась производительность при использовании большого числа заданий или больших списков прокси. Парсер
Rank::CMS
был полностью переписан и стабилизирован, добавлена поддержка нового формата apps.json и поддержка пользовательских правил.
Улучшения
NodeJS обновлен до v14.2.0, v8 до 8.1
Добавлена поддержка параметра data-s в рекаптчах для
SE::Google
, также добавлена опция
ReCaptcha2 pass proxy
Увеличен лимит потоков до 10000 для OS Windows
Значительно улучшена производительность при большом числе активных прокси и/или заданий, полностью переписан стек по работе с прокси, оптимизирована работа с большими списками
Добавлен новый парсер
Rank::KeysSo
Полностью переписаны на JS
SE::Yahoo::Suggest
,
Rank::Alexa::API
и
Rank::Archive
Улучшена производительность при использовании регулярных выражений, а также улучшена совместимость
В
SE::Google::KeywordPlanner
добавлено автоматическое получение токена
В
SE::Bing
добавлена возможность парсить ссылки на кэшированные страницы, а также добавлена возможность парсить мобильную выдачу
В парсере
Util::ReCaptcha2
при выборе провайдера Capmonster или Xevil теперь необязательно указывать
Provider url
В
SE::Google::Trends
добавлена возможность указывать произвольный диапазон дат
В
Rank::CMS
добавлен выбор движка регулярок и поддержка собственного файла с признаками
В
SE::Yandex::ByImage
добавлена опция
Don't scrape if no other sizes
, которая позволяет отключить сбор результатов, если искомой картинки нет в других размерах
[NodeJS] Добавлена защита от бесконечных циклов и долгих регулярок
[NodeJS] Исправлена работа
this.cookies.getAll()
[JS парсеры] Добавлена опция
follow_meta_refresh
для
this.request
[JS парсеры] Добавлена опция
bypass_cloudflare
для
this.request
[JS парсеры] Underscore заменен на Lodash
[JS парсеры] В логе добавлена пометка при вызове других парсеров
[JS парсеры] Использование предыдущего прокси после запроса к другому парсеру
[JS парсеры] Добавлен метод
destroy()
Исправления в связи с изменениями в выдаче
Множество исправлений в
SE::Google
Исправлен
SE::Youtube
, в т.ч. парсинг по тегам
Исправлен сбор ссылок в
Shop::eBay
Исправлен парсинг телефонов в
Maps::Google
Исправлена работа с каптчами в
SE::Yandex::ByImage
В
Rank::Social::Signal
удалена переменная
$facebook_comment
в связи с неактуальностью
SE::Startpage
,
Rank::Linkpad
,
Social::Instagram::post
,
SE::Yandex::Translate
Исправления
Исправлен баг, из-за которого игнорировался выбранный проксичекер
Исправлена работа функций
Decode HTML entities
и
Extract domain
в Конструкторе результатов
Исправлена проблема с определением кодировки
Исправлена ошибка использования
$tools.query
Исправлен баг в
Rank::MajesticSEO
при котором использовались все попытки при отсутствии результатов
Исправлена работа http2
Исправлена ошибка, когда парсер падает из-за невозможности писать в alive.txt
Исправлено разгадывание каптч в
SE::Yandex::Register
и
Check::RosKomNadzor
Исправлена разница в запросах, отправляемых через
Net::HTTP
и JS
Исправлен баг в
SE::Yahoo
Исправлены ошибки в
Rank::CMS
при выборе приложения без категории
[NodeJS] Исправлен подсчет времени исполнения кода парсера
[JS парсеры] При пустом body не передавался заголовок content-length при post запросе
[JS парсеры] Исправлена работа CloudFlare bypass
[JS парсеры] Исправлена работа с сессиями
[JS парсеры] Исправлена работа с overrides для
this.parser.request
[JS парсеры] Исправлена ошибка определения кодировки в JS парсерах
цитата
22/06/20 в 13:32
A-Parser Support
Сборник рецептов #42: поиск битых ссылок, сервисы статистики и коммерциализация запросов
Представляем 42-й сборник рецептов, в котором собраны парсеры для определения наличия на сайте битых ссылок, сбора данных об используемых сервисах статистики и определения коммерциализации ключевых слов.
Парсер Ahrefs::BrokenLink
Ahrefs Broken Link Checker - это сервис, позволяющий определить наличие битых ссылок на сайте, а также некоторую другую полезную информацию.
Парсер builtwith.com
Этот парсер собирает данные об используемых на сайтах сервисах статистики с ресурса BuiltWith. С его помощью можно получить список id используемых сервисов статистики, а также список других сайтов, на которых используются эти же id.
Определение коммерциализации запроса
Способ определения степени коммерциализации ключевых слов, основанный на анализе поисковой выдачи Яндекса. Оценивается количество вхождений определенного списка слов в анкорах и сниппетах ТОП10 выдачи.
Кроме этого:
Определение локации по координатам
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
06/07/20 в 17:06
A-Parser Support
Видео урок: где смотреть переменные, скрытые переменные и какой результат они выводят (примеры)
В этом видео рассмотрели где смотреть переменные, какие бывают скрытые переменные и какой результат они выводят на примерах.
Содержание видео:
00:20
- 1. Где смотреть какие у парсера есть переменные?
1:16
- 2. Какие бывают скрытые переменные ($query.*, $root и т.п.)?
1:22
- переменная root
2:08
- переменная root объект
3:14
- переменная query.orig
4:04
- переменная query.first
5:24
- переменная query.lvl
5:50
- переменная query.prev
6:20
- переменная query.num
Все возможные методы TT для работы с обьектами
Форматирование запросов (шаблоны)
Оставляйте комментарии и
подписывайтесь на наш канал на YouTube!
цитата
16/07/20 в 16:21
A-Parser Support
1.2.948 - новые парсеры SecurityTrails IP и Domain, поддержка доменных прокси, множество исправлений
Улучшения
Добавлен парсер
Rank::MOZ
.
Собираемые данные: вся информация, содержащаяся на странице.
Добавлены парсеры
SecurityTrails::Domain
и
SecurityTrails::IP
.
Для работы парсеров необходимо указать пресет
Util::ReCaptcha2
.
SecurityTrails::IP
В качестве запроса следует указывать ipv4 адрес.
Собирает домены по IP и информацию о них.
SecurityTrails::Domain
В качестве запроса следует указывать домен, например
a-parser.com.
Собираемые данные:
Данные по DNS
Список технологий, используемых на сайте (движки и проч.)
Список открытых портов
Alexa rank
Страна
Хостер
Даты начала и окончания регистрации
Whois статус
Регистратор
Список исторических данных по DNS
Список субдоменов
Добавлена возможность отключать валидацию TLS сертификатов.
Добавлена поддержка доменных прокси.
Исправления в связи с изменениями в выдаче
Исправлен парсинг новостей в
SE::Google
.
Исправлен
Social::Instagram::Profile
.
Исправления в
SE::Yandex
:
исправлен парсинг турбо ссылок;
исправлен парсинг новостных сниппетов.
Исправления в
SE::Google
,
SE::Baidu
,
SE::Yandex::Direct
,
Shop::Yandex::Market
.
Исправления в
SE::Yahoo
- ошибка в выборе стран, у которых одинаковый домен, восстановлен парсинг сниппетов.
Исправления
Исправлена ошибка в алгоритме автовыбора домена в
SE::Yandex
.
Исправлена работа
Rank::MajesticSEO
,
SE::Bing::Translator
.
Исправлена ошибка, если файл config.txt был сохранен в кодировке utf-8 с BOM (парсер некорректно читал файл).
Решена проблема с переопределениями опций в парсере
HTML::LinkExtractor
.
NodeJS: новые установленные модули теперь доступны до перезагрузки A-Parser'a.
Исправлено падение парсера при вызове метода getProxies.
цитата
25/08/20 в 15:50
A-Parser Support
Сборник статей #12: скорость работы парсеров, debug режим и работа с куками
В 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками.
Скорость и принцип работы парсеров
В этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга.
Использование Debug режима
В этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные.
Работа с куками и заголовками на примере соглашения с правилами сайта auto.ru
А в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer.
Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования
A-Parser
(за небольшие плюшки
) - отписывайтесь
здесь
.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники статей
цитата
09/09/20 в 15:06
A-Parser Support
Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string
В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера
Где и как можно посмотреть результаты парсинга?
Как подключить прокси с авторизацией?
Extra query string, что это такое и как применять эту опцию?
В уроке рассмотрено:
Просмотр результатов парсинга 3-мя способами:
Способ первый. "Из очереди заданий, если задание на паузе".
Способ второй. "Из очереди заданий, если задание завершено".
Способ третий. "Забираем результат из папки results".
Подключение прокси с авторизацией.
Примеры использования опции Extra query string.
Полезные ссылки:
https://a-parser.com/resources/categories/14/
- сохранение результатов (каталог)
https://a-parser.com/resources/77/
- Сохранение результатов нескольких парсеров в разные папки
https://a-parser.com/resources/394/
- Сохранение результатов в несколько файлов используя переменные, массивы и условия (видео)
https://a-parser.com/resources/397/
- Сохранение результатов в Google SpreadSheets
https://a-parser.com/wiki/proxy/
- Настройка прокси
https://a-parser.com/wiki/settings-and-presets/
- Общие настройки для парсеров
Оставляйте комментарии и
подписывайтесь на наш канал на YouTube!
цитата
22/09/20 в 16:18
A-Parser Support
Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF
43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.
Аукцион доменов REG.RU
Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.
Определение категорий сайта
Парсер, собирающий категории сайтов из MegaIndex.
Парсинг PDF
Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.
Кроме этого:
Парсер ссылок локаций для Social::Instagram::Geo
- сбор ссылок на локации в Instagram
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
23/10/20 в 15:02
A-Parser Support
Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by
44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.
Парсер Cloudflare Radar
Парсер для сбора категорий сайтов из Cloudflare Radar
Rozetka - получение данных по API
Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.
Парсинг объявлений kufar.by
Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.
А также, обновлены следующие ресурсы:
Парсинг комментариев из Youtube
Парсер собирающий вопросы и ответы из выдачи Google
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
21/12/20 в 15:55
A-Parser Support
1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку
Улучшения
В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
Net::HTTP
HTML::LinkExtractor
HTML::TextExtractor
HTML::TextExtractor::LangDetect
Check::BackLink
Основные улучшения от перевода данных парсеров на Node.js:
увеличение производительности в ~1.5 раза
унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
Добавлены новые парсеры:
DeepL::Translator
Rank::Ahrefs::KeywordDifficulty
Rank::Ahrefs::KeywordGenerator
В
HTML::EmailExtractor
добавлена опция
Skip non-HTML blocks
, позволяющая отключить сбор почт внутри тегов script, style и т.п.
В
SE::Google::Translate
добавлены новые переменные:
$translit_orig
- оригинальный текст транслитом
$translit_translated
- переведенный текст транслитом
$variants.$i.text
- список вариантов перевода оригинального текста
В
SE::Bing
обновлен список регионов и языков
В
Social::Instagram::Profile
и
Social::Instagram::Post
добавлена возможность собирать кол-во видеопросмотров
В
SE::Yandex::Translate
добавлена возможность отключать использование сессий
В
Net::HTTP
добавлена возможность указывать user-agent для Chrome
В парсере
Rank::MOZ
исправлена ошибка, возникающая при вызове парсера из JS методом
this.parser.request()
.
В
Rank::CMS
добавлена поддержка нового
apps.json
и возможность использовать
Net::HTTP
В
Net::Whois
обновлена поддержка всех зон
Для проксичекеров добавлена опция
Exclude from "All"
, а также сделаны изменения в логике:
"All" - использует все прокси выбранные для задании
конкретный проксичекер - использует его, даже если он не выбран в задании
Добавлена поддержка устаревших версий SSL
JS парсеры: Добавлена опция
tlsOpts
для
this.request()
, позволяет передавать настройки для https соединений
JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
JS парсеры: модуль
puppeteer
включен в сборку А-Парсера и не требует отдельной установки
Исправления в связи с изменениями в выдаче
Множество различных исправлений в
SE::Google
и
SE::Yandex
в связи с изменениями в выдаче
В
SE::Yandex
удалена функция автораспознавания каптч в связи с изменением вида каптч
Исправлена работа
SE::Google::Translate
В
HTML::EmailExtractor
исправлена ошибка, при которой пропускались большие блоки html
Исправлена ошибка в
Social::Instagram::profile
из-за которой не парсилось больше одной страницы
Исправлена авторизация в
SE::Google::KeywordPlanner
В
SE::Google::TrustCheck
исправлено определение горизонтальных блоков ссылок
В
SE::Baidu
исправлен парсинг related keywords
В
Shop::Amazon
исправлен сбор продавцов, а также исправлена ошибка, связанная с количество страниц
Исправлен
Rank::Linkpad
, а также в нем удалена переменная
$links_cost
, т.к. этого показателя больше нет на источнике
В
Rank::Social::Signal
в связи с неактуальностью удалена переменная
$googleplus_like
В
Rank::CMS
исправлено определение по признакам скриптов для нового apps.json
Также адаптированы к изменениям в выдаче:
SE::Yandex::Translate
,
SE::MailRu
,
Rank::MajesticSEO
,
SE::Yandex::Direct
,
SE::Google::ByImage
,
Rank::Ahrefs
,
Shop::eBay
,
SE::Yandex::Register
,
SE::Seznam
,
Shop::Yandex::Market
,
SE::Dogpile
,
SE::Dogpile::Images
,
SE::Startpage
,
SE::Baidu
,
Shop::AliExpress
,
SE::Youtube
,
Rank::Social::Signal
,
SE::Yandex::SQI
,
SecurityTrails::Domain
Исправления
В
SE::Yandex
исправлена работа
Extra query string
Исправлено регулярное выражение в
HTML::EmailExtractor
для устранения ошибок в некоторых случаях
Исправлено поведение парсера
SE::Google::KeywordPlanner
при отсутствии результатов по запросу
Maps::Yandex
исправлен и переведен на puppeteer
Исправлена ошибка в приоритетах выбора проксичекера
JS парсеры: исправлен
follow_meta_refresh
API: исправлена работа параметра
rawResults
цитата
16/02/21 в 11:55
A-Parser Support
Сборник рецептов #45: парсеры Google Places и prom.ua, получение характеристик картинок "на лету"
45-й сборник рецептов, в который вошли парсер результатов поиска на Google Places, парсер для prom.ua и пример скачивания картинок с одновременным определением их характеристик.
Парсер Google Places
Парсер для поиска заведений по ключевым словам в Google Places. В отличие от парсера Google Maps здесь не нужно задавать координаты поиска, а достаточно вместе с ключевым словом написать нужный город.
Парсер prom.ua
Парсинг товарных позиций для одной из крупнейших в Украине торговых площадок prom.ua. Кроме собственно названий товаров и их цен, позволяет собирать такие данные продавцов, как телефоны и электронные почты.
Скачивание картинок
В этом примере показан способ решения задачи по скачиванию картинок и одновременному получению их характеристик, а именно размера и ориентации. Для получения характеристик используется NodeJS модуль.
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
03/03/21 в 10:29
A-Parser Support
1.2.1148 - накопительное обновление встроенных парсеров и исправление Bypass Cloudflare
Улучшения
В
HTML::LinkExtractor
добавлена опция Skip comment blocks, которая позволяет исключить из парсинга блоки html комментариев
Повышена производительность
Shop::Yandex::Market
В
Check::RosKomNadzor
добавлена возможность выбирать источник для проверки
Maps::Yandex
переписан на TypeScript, добавлена возможность подключения сервисов разгадывания каптч
В
Rank::Alexa::API
добавлена возможность получать название страны вместо ее кода
В
Rank::Ahrefs
расширен перечень собираемых данных
В
SE::Seznam
добавлена поддержка сессий и возможность разгадывать каптчи
Реализована возможность использовать прокси с одним IP:port, но с разными логинами
Исправления в связи с изменениями в выдаче
Множество различных адаптаций к изменениям в верстке страниц с результатами в
SE::Google
и
SE::Yandex
Множество исправлений в
Rank::MajesticSEO
, связанных с постоянными изменениями в логике запроса и верстке страницы
В
Rank::Alexa::API
исправлено получение кода страны
В
Rank::Ahrefs
исправлен парсинг рейтинга
Исправлена работа с каптчами в
SE::Yandex
,
SE::Yandex::SQI
,
SE::Yandex::Images
Исправлен парсинг $keywords в
SE::Yandex::ByImage
Исправлена работа
SE::Yandex::Direct
,
SE::Ask
,
SE::Baidu
,
SE::Bing::Suggest
,
Rank::KeysSo
,
SE::Google::TrustCheck
,
SE::Google::ByImage
,
Check::RosKomNadzor
,
SE::Seznam
,
SE::MailRu
,
Rank::Ahrefs
,
Rank::Ahrefs::KeywordDifficulty
,
Rank::Ahrefs::KeywordGenerator
Исправления
Исправлен экспериментальный обход защиты Cloudflare с помощью Chrome
Исправлена ошибка в
Maps::Yandex
, из-за которой не собиралось больше 1 страницы, а также исправлена проблема с получением исходного кода страниц
В
SE::Youtube
исправлено игнорирование настроек поиска, проход по пагинации, а также в некоторых случаях не делались повторные попытки
В
SE::Google::KeywordPlanner
исправлена авторизация
Исправлена утечка памяти, которая проявлялась при долго работающих заданиях с большим числом запросов
Исправлена ошибка с Buffer, проблема появилась в одной из предыдущих версий
цитата
14/05/21 в 11:04
A-Parser Support
Обновление документации и курс по заработку на PBN используя A-Parser
Обновленная документация
Мы не стоим на месте: постоянно совершенствуем наш продукт, расширяем его функционал, ориентируясь на сегодняшние потребности пользователей и на удобство использования A-Parser. В соответствии с этим мы полностью обновили нашу техническую документацию, в первую очередь изменили интерфейс, создали логичную структуру разделов, предусмотрели удобную навигацию и поиск.
Кроме дополнения и обновления существующей документации добавлены новые, ранее не публиковавшиеся разделы:
настройка и работа с
Docker
новое
API v2
для написания JS парсеров с использованием
TypeScript
использование
Chrome с прокси
с помощью
Puppeteer
взаимодействие с A-Parser через
Redis API
использование
Node.js модулей
Также, для всех встроенных парсеров добавили блоки с примерами их использования. Вся документация сопровождается скриншотами и различными примерами, большинство из которых можно импортировать в свой А-Парсер и изучить.
Обновленная документация еще будет расширяться и дополняться, но Вы уже сейчас можете ознакомиться с ней, перейдя по ссылке:
https://a-parser.com/docs/
Курс по заработку на PBN используя A-Parser(+включает лицензию)
Наш хороший друг Николай Кодий запускает второй набор на курсы по подбору дропов и построению качественных сеток
PBN
, с применением A-Parser в качестве одного из основных инструментов. Каждый из студентов бесплатно получает весь лицензионный софт (в том числе и
A-Parser
), необходимый для подбора дропов. Данный курс без "воды" — вы получите концентрат опыта и алгоритмы наработок, которые никто другой не показывает. Курс насыщен практикой на реальных задачах. Каждый выпускник сможет в дальнейшем сотрудничать с Николаем или получить рекомендацию от него и контакты компаний, которые часто ищут специалистов по PBN. Подробнее о курсе читайте в его телеграм-канале
https://t.me/mypbn/1113
цитата
27/05/21 в 15:16
A-Parser Support
Сборник рецептов #46: парсинг сообщений из Viber, корейский поисковик и сбор контактов организаций
46-й сборник рецептов, в который вошли парсер сообщений Viber, парсер корейского поисковика и пресет для сбора контактов организаций из каталога.
Парсер Viber - сбор сообщений из публичных групп вайбер
В А-Парсере уже довольно давно существует парсер для сбора сообщений из публичных групп в Telegram. Представляем аналогичное решение для не менее популярного мессенджера - Viber.
Парсер корейского поисковика Daum.net
Еще один парсер поисковых систем, на этот раз корейской daum.net
Парсинг контактов организаций из ua-region.info
Пресет для сбора телефонов, почт, сайтов, адресов и прочей информации из каталога организаций ua-region.info
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
16/06/21 в 17:33
A-Parser Support
1.2.1239 - обновление Node.js, поддержка ReCaptcha v3 и Smart captcha, исправление ошибок
Улучшения
Node.js
обновлен до версии
15.14.0
Добавлена возможность разгадывать
Google ReCaptcha v3
в виде нового парсера
Util::ReCaptcha3
В
SE::Yandex
, а также в некоторых других парсерах Яндекса реализована обработка новой
Smart captcha
В
Rank::MajesticSEO
добавлен режим парсинга через Chrome
В
SE::DuckDuckGo
актуализированы языки и регионы
В
SE::Google::Cache
добавлена возможность использовать сервисы разгадывания рекаптч
В
SE::YouTube
добавлен сбор ссылок на канал
Актуализирован список языков в
DeepL::Translator
Теперь в
SE::Bing
при обнаружении бана, прокси банится парсером вместо простой смены
В
Shop::Amazon
обновлен юзер-агент, за счет чего выросла производительность
Исправления в связи с изменениями в выдаче
Множество адаптаций
SE::Google
и
SE::Yandex
к изменениям в верстке страниц с выдачей
Исправлен постоянный бан запросов в
SE::Google::Cache
и
SE::Bing
Исправлен проход по пагинации в
SE::DuckDuckGo
В
SE::Youtube
исправлен подсчет кол-ва результатов и определение существования следующей страницы
Исправлена работа с каптчей в
Shop::Amazon
Исправлена разбивка на блоки больших запросов в
SE::Yandex::Translate
Исправлены
SE::Bing
,
SE::MailRu
,
SE::MailRu::Position
,
SE::Google::Compromised
,
Rank::MajesticSEO
,
Rank::KeysSo
,
SE::Yandex::Direct
,
SecurityTrails::IP
,
Net::Whois
,
SE::Bing::Translator
,
SE::DuckDuckGo
,
Social::Instagram::Profile
,
Shop::Yandex::Market
,
Rank::Ahrefs::KeywordGenerator
,
Rank::Ahrefs::KeywordDifficulty
,
SE::Seznam
,
Shop::Amazon
,
Rank::Linkpad
Исправления
Исправлен баг в
HTML::LinkExtractor
, из-за которого парсинг по запросу останавливался с ошибкой
В
Rank::MOZ
исправлено отсутствие повторных попыток, а также изменена логика определения неудачных запросов
Исправлена ошибка проверки прокси, если в пароле был символ "
*
"
Исправлен баг, из-за которого при использовании шаблонизатора в
Additional headers
переставал работать
Check content
Исправлена логика проверки результатов в
SE::Bing::Images
Исправлена работа
XPath
Исправлена утечка памяти: при длительной работе процесс node.js постепенно заполнял всю доступную оперативную память
Исправлена работа с прокси на некоторых сайтах, баг появился в одной из предыдущих бета-версий
цитата
13/08/21 в 16:32
A-Parser Support
Курс по заработку на PBN используя A-Parser(+включает лицензию)
Наш хороший друг
Николай Кодий
запускает очередной набор на курсы по подбору дропов и построению качественных сеток PBN, с применением A-Parser в качестве одного из основных инструментов.
Курс учит профессии или помогает в ней прокачаться и упорядочить знания.
Каждый из студентов
бесплатно получает весь лицензионный софт (в том числе и A-Parser)
, необходимый для подбора дропов.
Данный курс без "воды" и с живыми вебинарами, с разборками домашних заданий — вы получите концентрат опыта и алгоритмы наработок, которые никто другой не показывает. А, кроме того, сможете попрактиковаться в поиске дропов на продажу. И поднятии на них сеток, для себя или на продажу.
Курс насыщен практикой на реальных задачах. Каждый выпускник получает весь необходимый инструментарий. Многие из выпускников потом находят работу в хороших компаниях или работают на себя.
Подробнее о курсе читайте на ленде курса -
https://kurs.pbn.link
цитата
27/08/21 в 18:55
A-Parser Support
Сборник рецептов #47: информация о Youtube каналах, отзывы из Google Play и чекер апдейтов
47-й сборник рецептов, в который вошли парсер данных о Youtube каналах, парсер отзывов из Google Play и универсальный чекер изменений на страницах с уведомлением в Telegram.
Парсинг данных о Youtube канале
Парсер для сбора информации о каналах на Youtube. Данный парсер собирает описания каналов, дату регистрации, общее количество просмотров, страну, ссылки и email, если он есть в описании.
Парсинг отзывов Google Play Market
Парсер комментариев к приложениям в Google Play, который позволяет парсить как тексты отзывов, так и различную информацию: имя автора, аватар, дату и рейтинг.
Универсальный чекер апдейтов(текста, цен и т.п.) на страницах с уведомлением в Telegram
Данный парсер позволяет отслеживать изменения на различных страницах и получать уведомления в Telegram. Особенностью парсера является возможность гибко добавлять признаки для разных сайтов без необходимости вмешиваться в код. Также парсер формирует отчет, в котором видно сколько раз сработали и сколько уведомлений было отправлено.
Еще больше различных рецептов в нашем
Каталоге
!
Предлагайте ваши идеи для новых парсеров
здесь
, лучшие будут реализованы и опубликованы.
Подписывайтесь на
наш канал на Youtube
- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в
Twitter
.
Все сборники рецептов
цитата
07/09/21 в 20:32
A-Parser Support
1.2.1294 - новые опции и расширение перечня типов собираемых данных в некоторых парсерах, багфиксы
Улучшения
В
SE::Google
добавлены новые опции:
Exact match
- соответствует опции в поисковике "
Точное соответствие
";
Safe search
- позволяет включать/отключать
Безопасный поиск
Google
В
SE::DuckDuckGo
добавлены опции
Safe search
и
Serp time
, а также исправлены мелкие ошибки в логике работы
В
SE::Google::Trends
добавлена опция
Use empty queries(ignore query value)
которая позволяет осуществлять поиск по категории
В
SE::Yandex::Direct
реализована поддержка каптч, а также добавлена переменная, позволяющая различать органическую и рекламную выдачу
В
SE::YouTube
добавлена возможность парсить "
Похожие запросы
", а также собирать дату добавления видео
В
SE::Yandex::Suggest
добавлен выбор способа запроса, один из которых позволяет собирать все расширенные подсказки (реклама, факты, ссылки на сайты)
В
Net::HTTP
добавлена опция
Don't verify TLS certs
В
Google::Maps
добавлена возможность парсить ссылку на карточку компании
Добавлено обнаружение ограниченных (18+) профилей в
Social::Instagram::Profile
Улучшена поддержка доменных прокси
Исправлена работа с
await this.request
в JavaScript API v2
Реализован автоматический запуск заданий в статусе
Some error
при перезагрузке A-Parser
Добавлен флаг статичного формата имени файла результата, который позволит более гибко называть файлы и при этом сохранять возможность получать ссылки на них через
getTaskResultsFile
Исправления в связи с изменениями в выдаче
Исправлено определение AMP ссылок в
SE::Google
Исправлен парсинг рекламных анкоров в
SE::Yandex
Исправлена проблема со 100%-м баном запросов в
SE::Bing
Исправлена работа
Net::Whois
с доменной зоной .sex
В
Shop::AliExpress
изменился набор собираемых данных
Адаптация к изменениям в верстке:
SE::Google
,
SE::Yandex
,
SE::Bing
,
SE::Seznam
,
Rank::MOZ
,
DeepL::Translator
,
HTML::LinkExtractor
,
SE::Startpage
,
SE::Yandex::ByImage
,
Rank::MajesticSEO
,
Shop::Yandex::Market
,
SE::Rambler
,
SE::YouTube
Исправления
Исправлена работа с поисковыми операторами в
SE::DuckDuckGo
Исправлена работа
SE::Google::Translate
с некоторыми языками
Исправлена работа
Redis API
, проблема появилась в одной из предыдущих версий
Стр.
« первая
<
7
,
8
,
9
,
10
,
11
>
последняя »
Новая тема
Ответить
Эта страница в полной версии