Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Реклама, Объявления
»
Тема:
A-Parser - продвинутый парсер ПС, PR, WS, более 35 парсеров!
Новая тема
Ответить
цитата
12/11/13 в 12:02
A-Parser Support
A-Parser - версия 1.0.183 - Русская каптча и эмуляция браузера в Яндексе
Теперь в настройках Антигейта(
Util::AntiGate) появилась возможность указать дополнительные настройки для каптчи: длину, регистрозависимость, состоит ли каптча только из цифр или её необходимо отправить русскоговорящему сотруднику, и т.п.
Яндекс ввел показ русской каптчи в выдачи, теперь парсер корректно обрабатывает её:
В дополнении к этому в парсере
SE::Yandex появилась опция эмуляции браузера, что позволяет добиться высокой скорости парсинга и малого расхода каптч. Парсинг топ-50 выдачи Яндекса в 500 потоков с использованием антигейта(средняя скорость ~2000 запросов в минуту):
Исправления:
Исправлен парсинг сниппетов в парсере
SE::Google
Подробнее тут:
Изменения в версии 1.0.183
цитата
29/11/13 в 11:44
A-Parser Support
A-Parser - версия 1.0.198 - Улучшения в работе с Google, множественные исправления
Улучшения:
Улучшения в работе с сессиями в парсере
SE::Google - уменьшено использование каптч
Улучшения в работе с сессиями в парсере
SE::Yandex::WordStat::ByDate - уменьшено использование каптч
Парсер
Net::HTTP теперь возвращает контент для обработки при любых ответах сервера(в т.ч. неудачных)
Исправления:
В парсере
SE::Google не распознавалась каптча
В парсере
SE::Yandex не сохранялись сессии
HTTP прокси с авторизацией не работали в комбинации с некоторыми парсерами(например SE::Yandex)
Макрос результата
{firstquery}
(первый запрос при использовании вложенного парсинга или парсинга с подстановками) не корректно работал с подстановками
Исправлено определение количества результатов в выдаче в парсере
SE::Google
Парсер
SE::Yandex::WordStat::ByDate не возвращал недельную разбивку, теперь выбор периода разбивки добавлен в настройки
Парсер
SE::Google::Compromised в некоторых случаях работал некорректно
Исправлен парсер
SE::AOL
Исправлен парсер
Rank::OpenSiteExplorer
Подробнее тут:
Версия 1.0.198
цитата
10/12/13 в 08:46
A-Parser Support
A-Parser - версия 1.0.201 - обновлен парсер картинок Google, парсинг Bing News
Улучшения
Полностью переписан парсер картинок
SE::Google::Images - теперь он парсит новую выдачу, до 10 страниц по 100 результатов
Парсер
SE::Bing теперь поддерживает парсинг Bing News, также теперь можно выбрать время выдачи(за все время, за 24 часа, за неделю или за месяц)
Парсер
HTML::LinkExtractor теперь автоматически считает внутренними ссылки с поддоменов www. и ftp., возможность учитывать все поддомены как внутренние оставлена без изменений
Исправления
Исправлен парсер
SE::Bing::LangDetect в связи с изменением в выдачи
Исправлен парсер
Rank::Ahrefs в связи с изменением в выдачи
Парсер
SE::Google некорректно работал с каптчей при использовании регионального домена Google
Парсер
SE::Yandex::WordStat зацикливался при работе с прокси, что приводило к остановке парсинга
Подробнее:
Изменения в версии 1.0.201
цитата
26/12/13 в 08:44
A-Parser Support
A-Parser - 1.0.214 - новогоднее обновление, более 30 изменений!
Всех с наступающим Новым годом! Мы заготовили вам большой подарок, включающий более 30 изменений!
Интерфейс претерпел множество изменений:
Переработано отображение задания в очереди, теперь оно более наглядное и информативное
Настройки теперь сгруппированы по закладкам, что сильно упрощает навигацию
Появилась возможность перемещать задание непосредственно в начало или в конец очереди
Обновлен перевод всех элементов на русский язык
В задании отображается прогресс в виде процента выполненных запросов
Иконка теперь корректно отображается во всех браузерах
Основное окно теперь можно позиционировать в верхний левый угол и масштабировать на всю рабочую область браузера
Исправлена ошибка в импорте пресетов
Добавлены новые парсеры, общее число парсеров перевалило за 50:
Rank::Linkpad - парсер беклинков(линк, анкор, уровень вложенности) и статистики(число беклинков, доноров, iGood и т.д.) с сервиса linkpad.ru(бывший solomono)
SE::Bing::Images - парсер картинок с поисковика Bing(ссылка, размер, разрешение и сниппет)
SE::Yandex::WordStat::ByRegion - парсер статистики ключевых слов по регионам и городам в Вордстате
SE::Yandex::Webmaster::Index - быстрая оценка количества проиндексированных страниц в Яндексе
SE::Google::Trends - парсер кейвордов в тренде по версии Google, дополнительно парсит принадлежность кейвордов к группам
Rank::Alexa::API - быстрый чекер алексы через API
Улучшения:
В парсер Яндекса
SE::Yandex добавлен парсинг ссылки на кэш страницы, также теперь парсер пробует использовать другую прокси если Яндекс принудительно перенаправляет на региональный домен(ua, kz, tr)
Теперь можно производить уникализацию, фильтрацию и применять конструктор результатов ко всем результатам созданным пользователем с использованием фукнции Parse custom result(парсинг произвольного контента с помощью регулярных выражений)
В настройках теперь возможно указать тип переноса строки используемый по умолчанию(Windows или Linux)
Добавлена возможность сохранять неудачные запросы
В статистику работы задания добавлен вывод забаненых проксей для каждого используемого парсера
Файл с запросами теперь можно выбирать из подпапок
В парсер частотности ключевых слов
SE::Yandex:: Direct::Frequency добавлен парсинг дополнительных ключевых слов(подсказок)
В парсер Вордстата
SE::Yandex::WordStat добавлена возможность выбора сразу нескольких регионов для оценки
Исправления:
Rank::MajesticSEO в связи с изменением в выдаче
Rank::Ahrefs в связи с изменением в выдаче
SE::AOL в связи с изменением в выдаче
Net::Whois - некорректно определял незанятые домены в некоторых зонах
Исправлено падение в некоторых случаях при использовании большого файла запросов совместно с уникализацией запросов
Подробнее:
Изменения в версии 1.0.214
цитата
11/01/14 в 11:34
A-Parser Support
A-Parser - версия 1.0.218
Улучшения
Парсер
Net::Whois теперь поддерживает работу с интернациональными доменами(IDN, например яндекс.рф)
Для парсера
SE::AOL добавлена опция No results is error - в некоторых случаях аол может вернуть пустую выдачу на вполне нормальный запрос, с этой опцией запросы с пустой выдачей будут перепаршиваться повторно
Исправления
Парсер картинок
SE::Google::Images в связи с изменением в выдаче
Парсер
SE::AOL в связи с изменением в выдаче
При использовании API после некоторого числа запросов оно переставало отвечать
Парсер
SE::Baidu в связи с изменением в выдаче
Исправлена ошибка в обработке списка файлов запросов, что приводило к невозможности выбрать файл запроса из папки queries/
Опция Try in Parser Test работала некорректно
Исправлена ошибка в интерфейсе при составлении заданий с использованием опций Parse custom result/Results Builder, появившаяся в предыдущей версии
Подробнее: Изменения в версии 1.0.218
цитата
01/02/14 в 11:36
A-Parser Support
A-Parser - версия 1.0.223
Новые парсеры:
SE::Yandex::Catalog - парсер сайтов по Яндекс.Каталогу, парсит ссылку, анкор, сниппет, категорию и гео-привязку. Также парсит количество результатов по запросу
Rank::Archive - парсит дату первого и последнего кэширования сайта в веб архиве(archive.org), также парсит количество сохраненных копий сайта. Данный парсер будет очень полезен для оценки доменов
Исправления:
Парсер
SE::AOL в связи с изменением в выдачи
Парсинг связанных кейвордов(related) в парсере
SE::Bing в связи с изменением в выдачи
В некоторых случаях могли не передаваться дополнительные параметры к запросу(Extra query string)
Подробнее: Изменения в версии 1.0.223
цитата
24/02/14 в 11:59
A-Parser Support
A-Parser - версия 1.0.232 - Новый шаблонизатор результатов, подстановка переменных и многое другое
Поздравляем всех защитников отечества с их профессиональным праздником!
В A-Parser включен шаблонизатор Template Toolkit
- мощный инструмент для форматирования результатов, запросов, строк поиска и сравнения и т.д.; его основные особенности:
Поддержка переменных, условий, циклов, макросов
Множество встроенных функций для строк, массивов и хешей
Неограниченные возможности по расширению
Подробная документация на
русском
и
английском
языках
На данный момент по умолчанию действует старый шаблонный движок, тем самым позволяя использовать все ранее сохраненные настройки. Полный переход на новый движок будет плавный и будет включать следующие этапы:
Развернутый пост о преимуществах с примерами на следующей неделе
Обновление конфигурации A-Parser с новым синтаксисом формата вывода результатов
Выпуск версии с поддержкой нового шаблонизатора по умолчанию
Помощь со стороны технической поддержки в адаптации старых проектов
Новый синтаксис применяется если шаблон содержит комбинацию
[% ... %]
, уже сейчас новый синтаксис можно использовать в:
Шаблонах форматирования результатов(Result format)
Шаблоне имени файла(Result file name)
Фильтрах результатов для подстановки переменных данных(запросов, результатов) в условия сравнения
Функции поиска по регулярному выражению(Parse custom result) в качестве части регулярного выражения
Другие улучшения:
Добавлена функция сохранения исходного кода страниц, с которых осуществляется парсинг, что даёт возможность дополнительной обработки результатов(Raw data results)
Подстановка запросов(или результатов) в условия для сравнения в фильтрах и как часть регулярного выражения для Parse custom result
Дополнительный параметр к HTTP запросу(Extra query string) теперь подставляется только для главных запросов, от которых ожидаются результаты парсинга. Для вспомогательных запросов(работа с cookie, каптчей, авторизацией) этот параметр не подставляется
Исправления:
Исправлена утечка памяти при обработке кодировки некоторых сайтов и сервисов
Исправлен парсер
SE::Yandex - в связи с изменением в выдаче результаты из рекламных блоков считались результатами основной выдачи
Парсер
Rank::CMS не работал при использовании функции логирования долгих регулярных выражений(Log long running regex)
Подробнее тут:
Версия 1.0.232
цитата
01/03/14 в 07:57
A-Parser Support
Новый шаблонизатор в A-Parser
Зачем?
Расширение возможностей - старый шаблонизатор был ограничен в возможностях, фактически он не умел ничего кроме вывода переменных и массивов
Наглядный пример: используя шаблоны можно результаты парсинга автоматически преобразовать в дорвеи, готовые для загрузки на хостинг! Другой пример: готовый отчет по анализу доменов в виде HTML или CSV файла
Лёгкий способ использовать переменные данные(запросы, результаты парсинга) на всех этапах работы парсера(формирование запроса; фильтрация, уникализация, форматирование, дополнительная обработка результатов)
Исчерпывающая документация: Template Toolkit - проверенный времен шаблонный движок, который имеет большое сообщество пользователей
Массив? Переменная? Мне нужно программировать?
Однозначно нет
A-Parser рассчитан на широкую аудиторию и из коробки позволяет выполнять все основные задачи без каких либо дополнительных знаний
Шаблоны призваны упростить решение сложных комплексных задач, например подсчет количества ссылок в топ10 выдачи Яндекса, в которых встречается исходный запрос в анкоре
Шаблон - не язык программирования, он содержит около 5 основных макросов которые легко запомнить и использовать
Читать далее
цитата
07/03/14 в 08:38
A-Parser Support
A-Parser - версия 1.0.236 - промежуточный релиз, исправление текущих ошибок
Улучшения:
Теперь можно перемещать задания в очереди используя API - добавлен метод moveTask
Многократно увеличена скорость при обработке регулярных выражений в Parse custom result
Исправления:
Исправлена ошибка в
SE::Yandex приводящая к падению парсера, ошибка появилась в предыдущей версии
Исправлен парсер
SE::YouTube в связи с изменением в выдаче
Парсер мог упасть при использовании неправильного регулярного выражения, ошибка появилась в предыдущей версии
Исправлен регистратор аккаунтов в Яндексе
SE::Yandex::Register в связи с изменением в выдаче
Исправлен парсер
SE::Yahoo в связи с изменением в выдаче
Подробнее тут:
Версия 1.0.236
цитата
31/03/14 в 09:49
A-Parser Support
A-Parser - 1.0.268 - Бета версия, полный переход на новый шаблонизатор, множество улучшений
Основные улучшения:
Переход на систему быстрых обновлений, теперь получить обновление на канале бета-версии можно за пару минут
Полный переход на
новый шаблонизатор
, старый синтаксис более недоступен
Все настройки в автоматическом режиме преобразуются под новый синтаксис при первом старте парсера
Создан
инструмент
для тестирования шаблонов, в нем можно проверить форматирование до парсинга
В настройках можно указать часто используемые макросы и функции, которые будут доступны в любом месте где используется шаблонизатор
Шаблоны также работают в полях Prepend и Append - автоматическое добавление заголовка и окончания для файлов результатов
Теперь шаблон можно задавать в удобном
многострочном редакторе
Увеличена скорость работы конструктора запросов и результатов
В парсере
SE::Yandex::Suggest теперь можно выбрать произвольный регион, в т.ч. на основе IP адреса
Исправления в связи с изменениями в выдачи:
Исправлена опция эмуляции браузера для парсера
SE::Yandex
Исправлен парсинг выдачи
SE::Yandex при запросах вида url:, а так же исправлен парсинг рекламных блоков
Исправлен парсер тИЦ
SE::Yandex::TIC
Исправлен парсер
Rank::Ahrefs - выдавал неверные данные
Исправлен парсинг общего числа результатов в
SE::Baidu
Исправлен парсер
Rank:: DMOZ
Исправлен парсер картинок
SE::Google::Images
Исправлен парсинг описаний к видео в
SE::YouTube
Информация
Для обновления необходимо зайти в Members Area, раздел Downloads, в секции A-Parser Beta запросить обновление кликнув по Update
Все вопросы по новому синтаксису шаблонов можно задавать в
этом топике
Для желающих тестировать самые последние версии создан отдельный скайп-чат, подробнее
тут
Список всех изменений в версии 1.0.268
цитата
26/05/14 в 11:20
A-Parser Support
Новая документация и текущий статус Бета-версии
В скором времени увидит свет
A-Parser
версии
1.1.0
- результат двух-месячной разработки Бета-версии. На текущий момент Бета-версия абсолютно стабильна и рекомендуется к использованию как новым пользователям, так и всем кто уже имеет лицензию
Ключевой особенностью новой версии парсера является наличие
новой документации
, в которой мы постарались осветить все возможности и особенности работы A-Parser'а. В документации подробно описаны такие возможности как:
Задания и очередь
Форматирование и подстановки запросов
Форматирование результатов
Уникализация результатов
Фильтрация результатов
Конструктор запросов
Конструктор результатов
Parse cutom result
и
использование регулярных выражений
Описание шаблонизатор Template Toolkit
и многое
другое
Обсудить новую документацию можно на
форуме
Помимо этого текущая бета версия содержит множество
исправлений и улучшений
, следите за новостями о релизе!
цитата
15/07/14 в 08:02
A-Parser Support
Новая версия Lite, автоматическая оплата прокси
Добавлена новая лицензия Lite, включающая только парсеры Google и Яндекса
Добавлена автоматическая оплата через WebMoney, Yandex.Money, Visa, MasterCard, Paxum, LiqPay, PerfectMoney, W1, Банки, СМС, Терминалы оплаты
Оплачивать можно лицензии на A-Parser, A-Poster, прокси, обновления A-Parser и дополнительные лицензии A-Parser
Новая
сетка цен
Последние изменения в бета версии
Переработано
описание парсера
Мы ждем ваших вопросов
наши контакты
цитата
23/07/14 в 08:10
A-Parser Support
Релиз A-Parser 1.1.0, автоматический прием PayPal, Wire, QIWI
Релиз
A-Parser 1.1.0
- результат активной разработки в течении двух месяцев в рамках бета-версии
Улучшения
Новый парсер
HTML::TextExtractor::LangDetect - улучшенное определение языка страницы, без использования сторонних сервисов
Для парсера
SE::Google добавлена возможность указывать локацию поиска - город или регион
Новый инструмент - обновление A-Parser, теперь обновления можно устанавливать автоматически через интерфейс, поддерживается два канала обновлений - Stable и Beta
Для уникализации результатов теперь используется LevelDB - лучшая скорость и низкое потребление памяти
Улучшена работа с битыми кодировками и детектирование кодировки страницы
В инструменте тестирования шаблонов теперь доступны предустановленные результаты для всех парсеров
Шаблонизатор теперь можно использовать в самих запросах, в формате запроса, а также в Конструкторе результатов
Для парсера
Net::HTTP при формировании POST запроса добавлена возможность использовать шаблонизатор в теле запроса
Добавлена возможность выводить результаты в формате JSON
Новая опция Not found is error для парсера
Net:: DNS - позволяет перепроверять ложные ответы от DNS серверов
Добавлена возможность удалять неиспользуемые базы данных Keep unique
Новые подсказки в интерфейсе, соответствуют новому формату шаблонов
Добавлена возможность сбросить пароль доступа к интерфейсу A-Parser
Сервер парсера теперь можно выключить или перезапустить через веб-интерфейс
Исправления
Исправлен парсер
SE::Yandex в связи с переходом на новую выдачу
Исправлен парсер
SE::AOL в связи с изменением в выдачи
Исправлен ошибка, при которой проверка прокси начиналась заново при перезагрузке интерфейса
Исправлена медленная работа очереди заданий при большом количестве заданий(более 1000)
Исправлен вывод исходного запроса $query.first при многоуровневом парсинге в
SE::Yandex::WordStat
Net:: DNS - исправлена работа на ОС Windows
SE::Yandex::Webmaster::Index удален в связи с прекращением работы сервиса
Исправлено некорректное определение некоторых полей в парсере
Net::Whois
Исправлена работа переменной $pagenum в парсере
Net::HTTP
Исправлена ошибка, при которой парсер мог вылететь при использовании уникализации по простым результам
Задания с пустым файлом запросов не завершались автоматически
Исправлен парсер
Rank::Ahrefs в связи с изменением в выдачи
Исправлен парсер
Rank::Alexa в связи с изменением в выдачи
Исправлен парсер
Rank::MajesticSEO в связи с изменением в выдачи
Исправлена работа с кодировкой windows-1251
Исправлен подсчет числа простых результатов
Исправлена работа метода CONNECT при использовании прокси с авторизацией по логин\паролю
Исправлен парсер
Rank::Category в связи с изменением в выдачи
Полный список всех изменений в
соответствующем разделе
Также мы рады сообщить что добавили прием PayPal, QIWI и Wire Transfer в
автоматическом режиме
цитата
12/08/14 в 11:50
A-Parser Support
A-Parser - версия 1.1.20 - обновление парсера Rank::CMS, разные форматы результатов для нескольких файлов
Улучшения
Полностью переработан парсер
Rank::CMS, теперь он определяет движок сайта на основе большой и качественной базы признаков Wappalyzer, также появилась возможность выбрать категорию или конкретные движки для распознавания
Появилась возможность сохранять результаты одного задания в разные файлы, с выбором формата результата для каждого файла, к примеру при парсинге Гугла можно сохранять ссылки в один файл и сниппеты в другой
Добавлена возможность использовать шаблоны в параметрах Extra query string и User Agent
В шаблонах теперь можно использовать инструменты, которые доступны через переменную $tools, первый инструмент - выбор произвольного User Agent: $tools.ua.random(), список агентов хранится в файле files/tools/user-agents.txt
Улучшен парсер
Net::DNS при работе через прокси
В API появилась возможность запрашивать статус сразу нескольких заданий
В API появилась возможность скачивать файл результата
Парсер
SE::AOL теперь позволяет выбрать US, UK, FR или DE выдачу
В парсере
Rank::Ahrefs теперь дополнительно парсятся параметры URL Rank и Ahrefs Domain Rank
Исправления
Исправлен парсер
SE::YouTube в связи с изменением в выдачи
Исправлен парсинг с блогов в парсере
SE::Google в связи с изменением в выдачи
Исправлена ошибка при которой парсер мог вылететь если в качестве запроса передать очень длинный URL
цитата
28/08/14 в 09:18
A-Parser Support
A-Parser - версия 1.1.41 - новые парсеры MailRu и Dogpile, поддержка многоядерности для чекера CMS
Улучшения
Новый парсер
SE::MailRu - собирает ссылки, анкоры и сниппеты, количество результатов в выдаче
Новый парсер
SE::MailRu::position - проверяет позиции сайтов в выдаче go.mail.ru
Новый парсер
SE::Dogpile - парсер поисковика dogpile.com, собирает ссылки, анкоры и сниппеты, количество результатов в выдаче и связанные ключевые слова
Добавлена экспериментальная поддержка многоядерных процессоров для наиболее требовательного к ресурсам процессора парсера
Rank::CMS
Для парсера
Rank::Ahrefs добавлен парсинг социальных факторов(google+, twitter, facebook), а также возможность выбора режима отчета(ссылка, папка, домен, домен с сабдоменами)
Для парсера
Rank::MajesticSEO добавлена возможность получать данные по полной ссылке
Новая опция Emulate browser headers для парсера
Net::HTTP - автоматически эмулирует хедеры современных браузеров
Для парсера
SE::Yandex::position теперь доступна статистика по использованию каптчи
Исправления
Исправлен парсинг рекламных блоков в парсере
SE::Google в связи с изменением в выдачи
Исправлен парсер
SE::Baidu в связи с изменением в выдачи
Исправлен парсер проверки языка сайта
SE::Bing::LangDetect
цитата
16/09/14 в 10:42
A-Parser Support
A-Parser - версия 1.1.61 - улучшение очереди заданий, поддержка аккаунтов в парсере Яндекса
Улучшения
Появилась возможность ограничивать общее потребление потоков, что позволяет пропускать задания превышающие текущее потребление, давая возможность выполнится заданиям с меньшим числом потоков. Также данный функционал полезен при использовании прокси-сервисов с лимитированным числом подключений, тем самым можно гарантированно не выходить за пределы тарифа
В очереди заданий теперь можно удалить все задания разом, отдельно для активной очереди и очереди завершенных заданий
Парсер
SE::Yandex теперь поддерживает работу с аккаунтами(опция Use Accounts)
При парсинге рекламы в
SE::Google теперь дополнительно можно вывести позицию рекламного блока(сверху или справа), а также номер страницы выдачи, на котором показано рекламное объявление
Исправления
Исправлено отображение русских имен файлов запросов и результатов на ОС Linux
Исправлено определение ТИц в парсере
SE::Yandex::TIC
Исправлено распознавание каптчи в регистраторе аккаунтов Яндекса
SE::Yandex::Register в связи с изменением в выдачи
Исправлена работа с заблокированными аккаунтами в парсере
SE::Yandex::WordStat
цитата
29/09/14 в 09:09
A-Parser Support
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
Этот пост начинает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Определяем CMS для 1000000 доменов за 15 часов
В примере рассказано как определить используемый движок у сайтов из базы Алексы топ-миллион, результат автоматически сортируется по файлам с названием CMS. Также дан пример как увеличить скорость обработки и проверить 1 миллион доменов всего за 2 часа
Немного статистики:
Скорость парсинга составила 1100 доменов в минуту
Всего определились 301841 из 1000000 доменов как использующие на своей главной странице одну из популярных CMS, форумов или Wiki
Определено 126 различных CMS
Топ 10 самых популярных CMS, первое значение определяет количество доменов:
Код:
209855 WordPress
23732 Joomla
22945 Drupal
6488 TYPO3 CMS
4917 vBulletin
3726 1C-Bitrix
2515 phpBB
2415 ExpressionEngine
2022 DataLife Engine
1928 Microsoft SharePoint
Читать целиком »
Оценка частотности по Вордстату, словарь Даля, 115000 слов за 40 минут
Проверяем словарь Даля на частотность запросов в Яндексе используя парсер
SE::Yandex::WordStat, скорость парсинга составила 3000 слов в минуту без использования каптчи! Результат сохраняется в 2 разных файла - в первом статистика по исходным запросам, во втором - все новые ключевые слова из левой и правой колонки Вордстата
Немного статистики:
Парсинг 115390 ключевых слов занял всего 40 минут
80208 слов из 115390 имеют ненулевую статистику в Вордстате
Общее число показов всех слов составляет 20001443927, ~20 миллиардов в месяц
Дополнительно спаршено 1143045 новых ключевых слов с общим числом показов ~36 миллиардов в месяц
Читать целиком »
Создаем парсер VKontakte обрабатывающий 14000 анкет в минуту
В примере показывается как с помощью парсера
Net::HTTP и регулярных выражений можно создать парсеры почти любых сайтов и сервисов, например VKonktake
Пример разделен на 2 части:
Сбор ссылок на анкеты из результатов поиска
Обработка анкет - парсинг полей "Родной город", "Семейное положение" и "Время захода на анкету"
В результате получаем файл с примерно следующим содержимым:
Код:
http://vk.com/id1492
- none - none - none
http://vk.com/id1485
- п. Сиверский - всё сложно - заходил 15 сентября в 1:34
http://vk.com/id1489
- Ленинград - none - Online
http://vk.com/id1481
- Санкт-Петербург - none - заходила 48 минут назад
http://vk.com/id1482
- град Поднебесный - не женат - Online
http://vk.com/id1493
- none - none - none
Читать целиком »
цитата
14/10/14 в 11:03
A-Parser Support
A-Parser - версия 1.1.86 - поддержка многоядерной обработки и фильтрации результатов
В данной версии добавлена поддержка обработки и фильтрации результатов(Parse custom result, Конструкторы результатов и фильтры) на многоядерных процессорах, что в несколько раз увеличивает скорость парсинга при использовании "тяжелых" регулярных выражений, например
скорость сбора email адресов
со страниц достигает 10000 ссылок в минуту при 2000 потоках(при этом A-Parser обрабатывает поток 130 мбит\с gzip-сжатых данных)
Другие улучшения
Добавлена возможность указать сразу несколько форматов для запроса, что позволяет комбинировать множество вариантов подстановок для одних и тех же запросов в одном задании
Добавлена возможность использовать формат запроса на всех уровнях вложенного парсинга, например при парсинге ключевых слов с подсказок Google подстановки будут добавляться так же и для новых найденных ключевых слов(как и для исходных запросов)
Для парсера
SE::Yandex добавлена возможность парсить не персонализированную выдачу, что позволяет более точно снимать позиции сайтов
В парсере
Net::HTTP опция Check next page теперь поддерживает захват следующей ссылки для перехода, она будет использоваться если не указана опция Use pages
Исправления
В некоторых случаях могли неверно обрабатываться страницы большого размера с сжатием gzip
Парсер
Net::Whois не работал без использования прокси, ошибка появилась в предыдущей версии
В конструкторе результатов, при использовании замены по регулярному выражению, некорректно обрабатывалась замена переменных $1 $2...
Парсер мог упасть при использовании одинаковой базы Keep unique в двух одновременно работающих заданиях
цитата
29/10/14 в 09:19
A-Parser Support
A-Parser - 1.1.108 - улучшения паука сбора ссылок, множество исправлений
Улучшения парсера
HTML::LinkExtractor
Добавлена опция Follow links позволяющая выбрать порядок следования по ссылкам: только по внутренним, по внутренним и внешним, только по внешним
Добавлен массив результатов $followlinks, который содержит ссылки для последующего перехода, над этим массивом можно применять фильтры и конструкторы результатов, что позволяет переходить только по определенным ссылкам(например только по топикам форумов)
Добавлена корректная обработка тега <base href=
Другие улучшения
Теперь парсер автоматически определяет кодировку по содержимому страницы, если другие методы не дали результатов. В случае если кодировку определить не удается и она не является корректной с точки зрения UTF-8 то содержимое страницы становится недоступным для обработки. Данное улучшение призвано исправить редкие проблемы когда файл результата A-Parser'а невозможно использовать в качестве запросов, т.к. файл мог содержать некорректную кодировку
При парсинге рекламы в
SE::Google теперь дополнительно парсится видимая ссылка на сайт
Исправления
Исправлен парсер
SE::Yandex в связи с изменением в выдачи
На платформе Windows при закрытии приложения парсера возникала ошибка
В парсере
Net::Whois не был доступен исходный результат $data для пользовательской обработки
В парсере
SE::Yandex была ошибка в получении каптчи если в запросе содержалась скобка
Результат $query мог быть изменен некоторыми парсерами
Парсер
Rank::OpenSiteExplorer исправлен в связи с изменением в выдачи
Добавлен запрет на изменение результатов с зарезервированными именами($query, $info)
При использовании нескольких конструкторов результатов невозможно было выбрать новые результаты для обработки
цитата
06/11/14 в 12:56
A-Parser Support
Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов
Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Парсим базу для XRumer: 420000 форумов за 9 часов
Учимся быстро собирать большие базы методом перебора
За 9 часов работы:
Было обработано 525254 запроса на максимальную глубину
Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
Средняя скорость парсинга составила 1000 запросов в минуту
Собираем 1.65 миллиона email со страниц контактов за 2.5 часа
Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса
Средняя скорость обработки составила 12000 ссылок в минуту
ТОП-10 почтовых доменов:
Код:
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net
Сбор перелинкованных топиков
Метод описывает как используя возможности парсера
HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer
Алгоритм работы:
Переходим только по внешним ссылкам
Фильтруем ссылки для перехода по признакам форумов
Добавляем уникализацию по домену
Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся
Парсинг форумов по признакам и запросам
Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену
Предыдущие рецепты:
Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте
цитата
24/11/14 в 09:13
A-Parser Support
A-Parser - версия 1.1.135 - множество улучшений и исправлений в связи с изменениями в выдачи
Улучшения
Теперь парсер-паук для сбора ссылок
HTML::LinkExtractor основывается на парсере
Net::HTTP и поддерживает все его возможности и опции, включая работу с Cookies
В парсер
SE::Google добавлена возможность подставлять в запросы найденные Related keywords, что позволяет собрать большую базу тематических ключевых слов, которая будет сильно отличаться от подсказок
Добавлена возможность выбора текущего пресета для прокси-чекера через API
В парсере
SE::Google добавлен обход лишнего редиректа на HTTPS
Улучшена скорость обработки HTTPS запросов на некоторых сайтах, затрагивает парсер
SE::Yandex::WordStat
На ОС Windows x64 парсер может использовать до 3Гб оперативной памяти
В интерфейсе добавления заданий появилась возможность сворачивать настройки парсеров
Улучшен импорт пресетов: теперь при совпадении названий пресетов настроек парсеров пользователю будет предложено заменить пресет или создать новый с другим именем
Исправления
В парсере
Net::HTTP исправлена медленная обработка запросов при одновременном использовании опции Emulate browser headers и методе HEAD
Исправлена проблема с запуском парсера на некоторых версиях Windows
В парсере
SE::Google исправлена обработка запросов с нулевым результатом, в связи с изменением в выдачи
В парсере
SE::Yahoo исправлена работа с региональными доменами, в связи с изменением в выдачи
Исправлена ошибка в парсере
SE::Google при которой парсер мог вылетать если использовалась опция Location
Исправлена ошибка в интерфейсе добавления Конструкторов результата, при которой в списке результатов могли появляться лишние элементы
Парсер
SE::Baidu исправлен в связи с изменением в выдачи
В парсере
SE::YouTube исправлен парсинг общего числа результатов, в связи с изменением в выдачи
Неудачные запросы сохранялись в неверной кодировке
Исправлена работа опции Raw data results
В парсере SE::Google исправлена работа опции Parse not found, в связи с изменением в выдачи
В парсере SE::Yandex исправлен парсинг Related keywords, в связи с изменением в выдачи
Исправлена работа с доменами в зоне .be для парсера Net::Whois
Парсер SE::Yahoo исправлен в связи с изменением в выдачи
В парсере SE::Yandex исправлена обработка времени кэширования страниц для некоторых форматов дат
В API исправлен метод getTaskResultsFile, в некоторых случаях IP адрес сервера заменялся IP адресом клиента
цитата
15/12/14 в 11:29
A-Parser Support
A-Parser - 1.1.162 - новые парсеры Seznam и подсказок AOL, уменьшено потребление памяти на 40%
Улучшения
SE::Seznam - парсер чешской поисковой системы seznam.cz
SE::AOL::Suggest - парсер подсказок с поисковой системы AOL
Уменьшено начальное потребление памяти на 40%
В парсере
Net::HTTP добавлена возможность указать произвольные заголовки запроса, с поддержкой возможностей шаблонизатора
Добавлена опция позволяющая сохранять параметры окна интерфейса A-Parser
Добавлена возможность пропускать обновления на определенную версию
Улучшено отображение интерфейса при изменении размеров окна и растягивании на весь экран
Добавлен параметр командной строки -nofork позволяющий отключить многоядерную обработку результатов
Исправления
Исправлено отображение текущий версии A-Parser для пользователей Lite версии
Исправлена работа тестового парсинга с некоторыми ресурсами
Исправлен парсер
Rank::Ahrefs в связи с изменением в выдаче
Исправлена работа опции Use pages для парсера
Net::HTTP при использовании перебора запросов
цитата
06/01/15 в 12:53
A-Parser Support
A-Parser - 1.1.177 - Новый модуль SEO::Ping и парсер Rank::Mustat, улучшения в интерфейсе
Улучшения
Новый модуль
SEO::Ping - массовая отправка Ping запросов в сервисы поддерживающие Weblog API(Google Blog Search, Feed Burner, Ping-o-Matic и т.п.)
Новый парсер
Rank::Mustat - оценка трафика на сайте, также стоимость и рейтинг домена
Для парсера
Net::Whois добавлена возможность вручную указать адрес whois-сервера
В поле Additional headers парсера
Net::HTTP теперь возможно использовать переменные из конструктора запросов
Добавлена опция позволяющая перезаписывать файл результата
Добавлена возможность поиска пресета задания по названию
Автоматическая прокрутка к выбранному элементу во всех списках в интерфейсе парсера
В очереди заданий теперь отображаются названия пресетов
Исправления
Парсер
Rank::Ahrefs исправлен в связи с изменением в выдачи
Исправлен вывод Raw results для парсера
Net::Whois
Исправлен вывод порядкового номера запроса $query.num
Исправлена работа метода API bulkRequest
цитата
13/02/15 в 10:46
A-Parser Support
A-Parser - 1.1.200 - возможность добавлять запросы на основе результатов парсинга, множество исправлений
Улучшения
Добавлена возможность добавлять новые запросы на основе результатов парсинга, что позволяет составлять более продвинутые пресеты по сбору данных
Парсер
SE::Google::Images теперь парсит без https
Добавлена возможность ограничить максимальное число соединений на один прокси сервер
В API добавлена возможность удалять файл результата
Обновлен Perl модуль по работе с API AParser.pm
В Конструкторе результатов теперь автоматически подставляются имена результирующих переменных
Добавлена возможность использовать запрос $query в настройке Extra query string
Исправления
В парсере
SE::Yandex исправлена обработка каптчи, переход по страницам и парсинг времени кэширования, в связи с изменением в выдачи
Исправлена возможность сохранять бинарные данные(скачивать картинки, видео, документы...)
Исправлен вывод запроса после форматирования для конкретного парсера, используя конструкцию $p1.query.query
Исправлена кодировка при сохранении неудачных запросов
Исправлена ошибка, при которой задания могли не удалятся из очереди
Исправлена кодировка в именах файлов результатов
В парсере
HTML::LinkExtractor исправлена работа при переходе одновременно по внутренним и внешним ссылкам
При использовании нескольких парсеров и опции Parse to level в некоторых случаях могли накапливаться запросы что приводило к утечке памяти
Исправлен вылет парсера при использовании некоторых регулярных выражений
Исправлена обработка относительных путей в парсере
Net::HTTP при использовании опции Next Page Regex
Исправлен парсинг количества результатов в парсере
SE::Google при использовании арабской локализации
Исправлена блокировка файла после завершения задачи при использовании нескольких файлов результатов
Исправлен парсер
Rank::Ahrefs в связи с изменением в выдачи
Исправлена ошибка работы с исходным кодом страницы в парсере
SE::Google
цитата
06/03/15 в 06:34
A-Parser Support
Демо версия A-Parser
Рады представить онлайн
демо версию A-Parser
, в которой можно ознакомиться со всеми возможностями перед покупкой парсера или перед переходом на новую версию
Демо версия предоставляет доступ к A-Parser установленному на нашем сервере, период тестирования - 6 часов, по истечению этого времени все настройки автоматически будут сброшены
Ограничения демо версии:
Результаты парсинга не доступны для загрузки
Максимальное число потоков - 100
Парсинг возможен только с использованием прокси
Стр.
« первая
<
1
,
2
,
3
,
4
,
5
>
последняя »
Новая тема
Ответить
Эта страница в полной версии