🚀🤖 Crawl4AI：开源LLM友好型网络爬虫与抓取工具

Crawl4AI是GitHub趋势榜第一的开源项目，由活跃社区持续维护。它为大型语言模型、AI代理和数据管道提供极速、AI就绪的网络爬取方案。完全开源、灵活且为实时性能而构建的Crawl4AI，赋予开发者无与伦比的速度、精度和部署便捷性。

注意：如需查看旧版文档，请访问此处。

🎯 新功能：自适应网络爬取

Crawl4AI现配备智能自适应爬取功能，懂得何时停止！通过先进的信息觅食算法，它能判断何时已收集足够信息来回答您的查询。

了解自适应爬取详情→

快速开始

以下示例展示如何轻松使用Crawl4AI的异步功能：

import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    # 创建AsyncWebCrawler实例
    async with AsyncWebCrawler() as crawler:
        # 对URL运行爬虫
        result = await crawler.arun(url="https://crawl4ai.com")

        # 打印提取内容
        print(result.markdown)

# 运行异步主函数
asyncio.run(main())

视频教程

Crawl4AI能做什么？

Crawl4AI是一款功能丰富的爬虫和抓取工具，旨在：

1. 生成纯净Markdown：完美适配RAG管道或直接输入LLM。
2. 结构化提取：通过CSS、XPath或基于LLM的解析提取重复模式。
3. 高级浏览器控制：钩子、代理、隐身模式、会话复用——精细控制。
4. 高性能：并行爬取、分块提取、实时用例支持。
5. 开源：无强制API密钥、无付费墙——人人可访问数据。

核心理念： - 数据民主化：免费使用、透明且高度可配置。
- LLM友好：最小化处理、结构良好的文本/图像/元数据，便于AI模型消费。

文档结构

为帮助您快速入门，我们将文档分为清晰章节：

安装指南
通过pip或Docker安装Crawl4AI的基础说明。
快速开始
实践入门指南，展示首次爬取、生成Markdown和简单提取。
核心功能
深入讲解单页爬取、高级浏览器/爬虫参数、内容过滤和缓存。
进阶指南
探索链接与媒体处理、懒加载、钩子与认证、代理、会话管理等。
提取技术
无LLM（CSS/XPath）与基于LLM策略的详细参考，分块与聚类方法。
API参考
查阅AsyncWebCrawler、arun()和CrawlResult等类与方法的专业技术细节。

各章节均提供可直接复制粘贴的代码示例。如有遗漏或疑问，请提交issue或PR。

支持方式

加星 & Fork：若Crawl4AI对您有帮助，请在GitHub加星或fork添加新特性。
提交Issue：遇到bug或缺少功能？提交issue让我们改进。
发起PR：无论是小修复、大功能还是文档优化——欢迎贡献。
加入Discord：与社区交流爬取技巧、AI工作流。
口碑传播：在博客、演讲或社交媒体推荐Crawl4AI。

我们的使命：赋能学生、研究者、创业者和数据科学家——以速度、成本效益和创作自由访问、解析和塑造世界数据。

快速链接

感谢您加入这段旅程。让我们共同构建开放、民主的数据提取与AI方案。

爬取愉快！
— Unclecode，Crawl4AI创始人兼维护者