Skip to content
tinAI
Go back

GitHub - austin-weeks/miasma: Nhốt AI quét web trong hố độc vô tận

Bài gốc: GitHub - austin-weeks/miasma: Trap AI web scrapers in an endless poison pit.

Tác giả: Unknown

Ngày đăng: Dịch ngày:

TL;DR

Miasma là công cụ giúp bảo vệ website công cộng của bạn khỏi việc bị AI quét dữ liệu một cách trái phép. Bằng cách hướng traffic xấu đến Miasma, công cụ này sẽ gửi dữ liệu bị nhiễm độc nhằm làm gián đoạn quá trình huấn luyện thuật toán của AI.

🌀 Miasma

Các công ty AI thường xuyên quét dữ liệu trên internet với quy mô lớn, thu thập mọi thông tin để sử dụng cho mô hình của họ. Miasma giúp bạn đấu tranh chống lại điều này. Khi triển khai, Miasma sẽ gửi dữ liệu nhiễm độc cùng nhiều liên kết tự tham chiếu.

Cách Cài Đặt

Cài đặt Miasma với cargo:

cargo install miasma

Hoặc tải bản binary từ releases.

Bắt Đầu Nhanh

Khởi động Miasma với cấu hình mặc định:

miasma

Xem tất cả tùy chọn cấu hình:

miasma --help

Cách Bẫy AI Quét

Tạo Đường Dẫn Ẩn Nhúng các liên kết ẩn vào website của bạn dẫn đến /bots.

<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">Dữ liệu chất lượng cao ở đây!</a>

Cấu Hình Proxy Nginx Điều hướng đường dẫn /bots qua Miasma. Giả sử Miasma chạy trên cổng 9855.

location ~ ^/bots($|/.*)$ {
  proxy_pass http://localhost:9855;
}

Chạy Miasma Khởi động Miasma với tiền tố liên kết là /bots:

miasma --link-prefix '/bots' -p 9855 -c 50

robots.txt Bảo vệ bot và công cụ tìm kiếm tốt khỏi Miasma:

User-agent: Googlebot
User-agent: Bingbot
Disallow: /bots
Allow: /

Cấu Hình

OptionMặc ĐịnhMô Tả
port9999Cổng mà server sẽ bind
hostlocalhostĐịa chỉ host
max-in-flight500Số lượng request tối đa
link-prefix/Tiền tố cho liên kết
link-count5Số lượng liên kết trong mỗi trang
force-gzipfalseBắt buộc gzip phản hồi
poison-sourcehttps://rnsaffn.com/poison2/Nguồn dữ liệu nhiễm độc

Phát Triển

Đóng góp luôn được chào đón! Vui lòng mở issue cho các lỗi hoặc yêu cầu tính năng.

Giới Thiệu

Nhốt các AI quét web trong hố độc vô tận.

Chủ Đề: ai, free-software, web-scraping, anti-spam, anti-ai.

Giấy Phép: GPL-3.0


Read Original (EN) Quay lại Newsletter