ArchiveBox网页归档工具使用指南
目录
ArchiveBox 介绍、使用和部署指南
一、什么是 ArchiveBox?
ArchiveBox 是一个开源的、自动托管的网页归档工具,专门用于将网页和各种链接的内容完整保存下来,方便长期存储和随时离线查看。它支持多种内容抓取方式(网页快照、PDF、截图、HTML等),并保持归档内容有条理地管理。
适合需要保存大量网页、新闻、文章、资料等的用户或团队,尤其注重隐私和数据掌控的人群。
二、ArchiveBox的主要功能和用处
- 网页自动归档:只需输入链接,自动抓取网页内容(包括文字、图片、视频等)。
- 多格式保存:支持HTML快照、PDF、截图、纯文本提取、WARC归档等。
- 索引与搜索:内置全文索引和搜索功能,一键查找归档内容。
- 支持多种输入源:导入书签、RSS、浏览器历史、Pocket链接等多种格式。
- 完全自托管:数据保存在自己服务器或电脑,安全私密。
- 自动化归档流水线:可定时运行,自动归档新链接。
- 友好的Web界面:通过浏览器浏览、管理和搜索归档内容。
三、ArchiveBox的典型使用场景
- 个人收藏:保存感兴趣的网页,防止链接失效或内容变更。
- 研究人员或记者:自动归档参考网页,保证资料原样保存备查。
- 团队知识库:集体维护一套网页库,支持全文检索。
- 网站管理员:备份重要外部资源或竞争对手网站内容。
四、ArchiveBox 的部署环境需求
- 支持Linux、macOS和Windows(通过WSL或原生环境)
- 需要Python 3.7+
- 推荐使用Linux服务器或本地Linux/macOS环境
- 有基本命令行使用经验
五、ArchiveBox 安装部署步骤(以Linux或Windows WSL为例)
1. 预备条件
- 安装Python 3.7及以上版本
- 安装Git
- 安装pip(Python包管理器)
Windows用户建议使用WSL (Windows Subsystem for Linux),在Ubuntu子系统中安装。
2. 安装ArchiveBox
方法1:通过pip安装(推荐)
打开终端,运行:
| |
安装完成后,验证:
| |
显示版本号即成功。
3. 初始化归档库
选择一个目录作为存放归档数据的地方,比如:
| |
该命令将在该目录创建必要的结构和配置文件。
4. 添加要归档的网址
有多种输入方式,最简单是直接在命令行添加链接:
| |
支持一次添加多个链接,也支持从文件导入:
| |
links.txt 为每行一个链接的纯文本文件。
5. 进行归档
添加后,运行归档任务:
| |
这个命令会开始抓取网页,并生成归档文件。
你也可以使用:
| |
处理所有待归档项目。
6. 启动Web服务器浏览归档内容
启动内置Web服务:
| |
默认监听地址:http://127.0.0.1:8000/
打开浏览器访问该地址,即可图形化浏览、搜索和管理已归档内容。
7. 定时自动归档(可选)
可以通过系统计划任务(crontab)定时执行:
| |
该示例每30分钟自动执行归档更新。
六、额外功能与配置
- 自定义抓取选项:修改
ArchiveBox.conf文件,配置保存格式和抓取细节(比如是否生成PDF、是否截图等)。 - 批量导入:支持导入HTML书签文件、RSS订阅、Pocket导出链接等。
- 多种抓取后端工具(可自行安装):curl, wget, chrome-headless等,确保抓取质量。
- 导出归档数据:方便备份或迁移。
七、总结和推荐资源
| 内容 | 说明 |
|---|---|
| 项目地址 | https://github.com/ArchiveBox/ArchiveBox |
| 官方文档 | https://archivebox.io/docs |
| 支持平台 | Linux, macOS, Windows(WSL等) |
| 核心依赖 | Python 3.7+ |
| 数据存储位置 | 本地文件夹(可自定义) |
| 访问归档方式 | Web界面(默认 localhost:8000),命令行接口 |
原文链接:
https://www.17you.com/tool/%E7%BD%91%E9%A1%B5%E5%BD%92%E6%A1%A3%E5%B7%A5%E5%85%B7archivebox/
已复制!
脚本编程和自动化工具
寻找技术支持帮助和技术合伙人一起搞事。