开源免费无广告
代码开源,软件所有功能均免费(商用除外),且没有任何弹窗和外部广告。
跨平台
软件可以在Windows,MacOS和Linux上运行。
简单快速
图形化的设置和执行爬虫任务,通常一个爬虫任务只需要2-5分钟即可设计完成。
安全
不需要注册,所有任务和数据均保存在本地,不经过任何第三方服务器。
灵活
可任意添加浏览器插件,执行JavaScript指令,使用Selenium语句直接操纵浏览器。
并行多开
可开启任意数量的执行程序,实现大规模数据的并行采集。
动态调试
点击/双击设计完成的操作可自动标记/试运行,方便定位和调试问题,节省修改任务时间。
自定义插件
支持外挂自定义插件,实现任意的自定义功能。
验证码识别
支持多种验证码识别方案,如图形验证码,reCAPTCHA验证码等。
元素截图和OCR识别
支持元素截图和OCR识别,以及图片下载。
外部程序调用
可以任意调用系统外部程序,从而问完成任意复杂的需求。
API调用
可以通过API调用执行任务,实现高级的自动化采集。
暂停运行
随时暂停任务执行以便手工调试页面和输入验证码。
Python环境自定义
可任意修改执行时的Python环境,如可自定义变量,并将变量值写入任意代码语句。
移动端模拟
支持模拟手机端设备,实现手机网页采集。
灵活导入
支持读取Excel文件以导入大批量输入参数。
自由导出
可导出为Excel/CSV/TXT文件,支持写入MySQL数据库。
任务迁移
任务可任意复制和迁移到其他机器,无视操作系统环境。
页面滚动
可以设置页面滚动来获取需要滚动加载的内容。
IFRAME支持
支持采集在iframe标签内的数据,包括多层嵌套的iframe。
Cookies修改
可获取和修改页面Cookies值。
命令行执行
直接以命令行的方式执行任务,无缝嵌入到其他程序中。
无头模式
支持无头模式,可在后台运行,不会弹出浏览器窗口。
正则表达式
支持正则表达式,可在任意位置使用正则表达式。
修改网页内容
可修改网页内容,实现更加精密的采集需求定制。
代码调试
软件包自带执行源码,可用Python直接运行和调试代码。
下载文件
支持下载文件,可下载图片、PDF、压缩包等文件。
弹窗处理
支持处理浏览器的Alert和Confirm弹窗。