Spinn3r
Spinn3r — это сервис, который позволяет парсить данные из блогов, новостных лент, новостных каналов RSS и Atom, социальных сетей
Описание
Spinn3r предоставляет API для социальных сетей, блогов, новостей, видео и веб-контента в реальном времени для клиентов на любом языке и в больших объемах.
Особенности Spinn3r
- Spinn3r имеет «обновляемый» API, который делает 95 процентов работы по индексации. Это предполагает усовершенствованную защиту от спама и повышенный уровень безопасности данных.
- Spinn3r индексирует контент, как Google, и сохраняет извлеченные данные в файлах формата JSON.
- Инструмент постоянно сканирует сеть и находит обновления нужной информации из множества источников, пользователь всегда имеет обновляемую в реальном времени информацию.
- Консоль администрирования позволяет управлять процессом исследования; имеется полнотекстовый поиск.
- API полнотекстового поиска основан на Elasticsearch и предоставляет расширенные возможности поиска поверх высококачественного индекса контента.
- API позволяет искать произвольные текстовые строки, выполнять поиск со сложной логической логикой, использовать фильтры и другие расширенные функции, такие как агрегаты. Результаты затем возвращаются как обычные документы JSON.
- Classifier API позволяет разработчикам отправлять текст (или URL-адреса) и предоставлять метки для этого контента на основе нашей платформы машинного обучения. Например, если вы отправите новую историю о президентских выборах в США, вы получите обратно ярлыки для кандидатов или других тем, представляющих эту статью.
- Parser API обеспечивает разбор и обработку метаданных произвольных URL-адресов в Интернете. Кроме того, мы выполняем увеличение данных метаданных, включая определение пола, определение настроения и т. Д.
- Firehose API разработан для массового доступа к огромным объемам контента. На заказ 200-500Гб в сутки.
- Spinn3r использует простые HTTP-заголовки для аутентификации во всех наших APIS.
Аналоги и Альтернативы для Spinn3r
Idatica
Idatica — сервис, который позволяет парсить сайты, собирать, анализировать и очищать данные
Xenu’s Link Sleuth
Xenu или Xenu's Link Sleuth - это компьютерная программа, которая проверяет веб-сайты на наличие битых гиперссылок
Netpeak Spider
Десктопный инструмент для регулярного SEO-аудита, быстрого поиска ошибок, системного анализа и парсинга сайтов
OutWit Hub
OutwitHub — это универсальный парсер данных, встроенный в веб-браузер для всех задач
Scraper
Scraper – это расширение для Chrome с ограниченными функциями парсинга данных
80legs
80legs – это веб-инструмент парсинга сайтов, который можно очень точно подстроить под потребности пользователя
Visual Scraper
VisualScraper – это ПО для парсинга больших объемов информации из сети
ParseHub
ParseHub — это инструмент для парсинга сайтов и Интернет- магазинов, который предназначен для сканирования одного или нескольких веб-сайтов, которые используют JavaScript, AJAX, файлы cookie, сеансы и редиректы
Scrapinghub
Scrapinghub – это облачный инструмент парсинга данных, который помогает выбирать и собирать необходимые данные для любых целей
Dexi.io
Dexi.io (ранее CloudScrape) - то инструмент для веб-обработки данных для профессионалов
Блог, обзоры, новости
Парсинг сайтов — подборка 2020
Инструменты web scraping (парсинг) разработаны для извлечения, сбора любой открытой информации с веб-сайтов. Эти ресурсы нужны тогда, когда необходимо быстро получить и сохранить в структурированном виде любые данные из интернета. Парсинг сайтов – это новый метод ввода данных, который не требует повторного ввода или копипастинга.
(далее…)
Отзывы
Плюсы и минусы продукта
Отзывов пока нет.