Crawl4AI Chrome 扩展
Crawl4AI 的可视化提取工具 - 点击即可从任何网页提取数据和内容!
🚀 功能特性
- Click2Crawl: 点击元素即时构建数据提取方案
- Markdown 提取: 选择元素并导出为简洁的 markdown 格式
- 脚本构建器 (Alpha): 录制浏览器操作以创建自动化脚本
- 智能元素选择: 提供视觉反馈的容器和字段选择功能
- 代码生成: 生成完整的 Crawl4AI Python 代码
- 精美深色 UI: 与 Crawl4AI 设计语言保持一致
📦 安装指南
方法一:加载解压的扩展(推荐用于开发)
- 打开 Chrome 并访问
chrome://extensions/
- 在右上角启用"开发者模式"
- 点击"加载已解压的扩展程序"
- 选择
crawl4ai-assistant
文件夹 - 扩展图标(🚀🤖)将出现在工具栏中
方法二:首先生成图标
如需正常显示图标:
- 在浏览器中打开
icons/generate_icons.html
- 右键单击每个画布并另存为:
icon-16.png
icon-48.png
icon-128.png
- 然后按照上述方法一操作
🎯 使用指南
使用 Click2Crawl
- 访问您想要提取数据的任何网站
- 点击工具栏中的 Crawl4AI 扩展图标
- 点击"Click2Crawl" 开始捕获模式
- 选择容器元素:
- 悬停在元素上(它们会以蓝色高亮显示)
- 点击重复的容器(例如产品卡片、文章块)
- 在容器内选择字段:
- 元素现在会以绿色高亮显示
- 点击您想要提取的每个数据片段
- 为每个字段命名(例如"title"、"price"、"description")
- 测试和导出:
- 点击"测试方案"立即查看提取的数据
- 导出为 Python 代码、JSON 方案或 markdown 格式
运行生成的代码
下载的 Python 文件包含:
# 1. The HTML snippet of your selected container
HTML_SNIPPET = """..."""
# 2. The extraction query based on your selections
EXTRACTION_QUERY = """..."""
# 3. Functions to generate and test the schema
async def generate_schema():
# Generates the extraction schema using LLM
async def test_extraction():
# Tests the schema on the actual website
使用方法:
- 安装 Crawl4AI:
pip install crawl4ai
- 运行脚本:
python crawl4ai_schema_*.py
- 脚本将生成
generated_schema.json
文件 - 在您的 Crawl4AI 项目中使用此方案!
🎨 视觉反馈
- 蓝色虚线轮廓: 容器选择模式
- 绿色虚线轮廓: 字段选择模式
- 蓝色实线轮廓: 已选容器
- 绿色实线轮廓: 已选字段
- 浮动工具栏: 显示当前模式和选择状态
⌨️ 键盘快捷键
- ESC: 取消当前捕获会话
🔧 技术细节
- 使用 Manifest V3 构建,确保安全性和性能
- 纯客户端操作 - 不向外部服务器发送数据
- 生成的代码使用 Crawl4AI 的 LLM 集成功能
- 智能选择器生成优先考虑稳定属性
🐛 故障排除
扩展无法加载
- 确保处于开发者模式
- 检查控制台是否有任何错误
- 确保所有文件都在正确的目录中
无法选择元素
- 某些网站可能会阻止扩展
- 尝试刷新页面
- 确保您已先点击"Schema Builder"
生成的代码无法工作
- 确保已安装 Crawl4AI
- 检查是否配置了 LLM API 密钥
- 确认网站结构未发生变化
🤝 贡献指南
此扩展是 Crawl4AI 项目的一部分。欢迎贡献!
- 报告问题:GitHub Issues
- 加入讨论:Discord
📄 许可证
与 Crawl4AI 相同 - 详见主项目。