Katana 是一个由 ProjectDiscovery 打造的高性能网络爬虫框架,支持同时抓取多个域名和子域名。通过灵活的配置选项,你可以自定义抓取范围、速度、数据过滤等,满足各种复杂的爬取需求。
特性
标准功能
- 快速且完全可配置的网页抓取
- 标准和无头模式
- 主动和被动模式
- JavaScript 解析/抓取
- 可自定义的自动表单填写
- 范围控制 - 预配置字段/正则表达式
- 可自定义的输出 - 预配置字段
输入/输出 - 输入:STDIN、URL 和列表
- 输出:STDOUT、文件和 JSON
安装
# 需要 Go 1.18 才能成功安装
go install github.com/projectdiscovery/katana/cmd/katana@latest
# Docker
# 最新版
docker pull projectdiscovery/katana:latest
# 标准模式
docker run projectdiscovery/katana:latest -u https://tesla.com
# 无头模式
docker run projectdiscovery/katana:latest -u https://tesla.com -system-chrome -headless
# Ubuntu
sudo apt update
sudo snap refresh
sudo apt install zip curl wget git
sudo snap install golang --classic
wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | sudo apt-key add -
sudo sh -c 'echo "deb http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list'
sudo apt update
sudo apt install google-chrome-stable