katana – 免费开源的高性能网络爬虫框架工具

Katana 是一个由 ProjectDiscovery 打造的高性能网络爬虫框架,支持同时抓取多个域名和子域名。通过灵活的配置选项,你可以自定义抓取范围、速度、数据过滤等,满足各种复杂的爬取需求。

file

特性

标准功能

  • 快速且完全可配置的网页抓取
  • 标准和无头模式
  • 主动和被动模式
  • JavaScript 解析/抓取
  • 可自定义的自动表单填写
  • 范围控制 - 预配置字段/正则表达式
  • 可自定义的输出 - 预配置字段
    输入/输出
  • 输入:STDIN、URL 和列表
  • 输出:STDOUT、文件和 JSON

安装

# 需要 Go 1.18 才能成功安装
go install github.com/projectdiscovery/katana/cmd/katana@latest

# Docker
# 最新版
docker pull projectdiscovery/katana:latest
# 标准模式
docker run projectdiscovery/katana:latest -u https://tesla.com
# 无头模式
docker run projectdiscovery/katana:latest -u https://tesla.com -system-chrome -headless

# Ubuntu
sudo apt update
sudo snap refresh
sudo apt install zip curl wget git
sudo snap install golang --classic
wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | sudo apt-key add - 
sudo sh -c 'echo "deb http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list'
sudo apt update 
sudo apt install google-chrome-stable

官方链接

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注