MCP Fetch Server - 官方网页内容获取和转换服务
简介
MCP Fetch Server 是 Model Context Protocol 官方提供的网页内容获取服务器,专门设计用于将 HTML 网页内容转换为 LLM 友好的 Markdown 格式。这个官方服务器让 AI 助手能够轻松获取和理解网页内容,支持智能内容提取、分页处理、robots.txt 遵守等多种功能。通过简洁的 API 接口,AI 可以快速抓取网页、提取主要内容、过滤广告和无关信息,并将结果转换为结构化的 Markdown 文档。无论是用于内容摘要、信息提取、网页分析,还是构建 RAG 应用的知识库,MCP Fetch Server 都提供了可靠、高效的网页数据获取能力。作为官方服务器,它遵循最佳实践,支持代理配置、自定义 User-Agent、内容长度控制等高级功能。
核心特性
- HTML 到 Markdown 转换 - 智能转换网页内容为 LLM 可读的 Markdown 格式
- 智能内容提取 - 自动识别和提取网页主要内容,过滤广告和导航栏
- 分页处理 - 支持大型网页的分页读取,避免内容截断
- Robots.txt 遵守 - 默认遵守网站的 robots.txt 规则,支持可选禁用
- 代理支持 - 支持 HTTP/HTTPS 代理配置
- 自定义 User-Agent - 可配置自定义的浏览器标识
- 内容长度控制 - 灵活设置返回内容的最大长度
- 调试模式 - 内置调试工具,方便排查问题
- 官方维护 - 由 MCP 团队官方维护,持续更新
工具列表
网页获取工具
fetch
描述: 获取网页内容,将 HTML 转换为 Markdown 格式供 LLM 使用
参数:
url(string): 要获取的网页地址(完整的 HTTP 或 HTTPS URL) [必需]max_length(number): 返回内容的最大字符数,默认 5000 [可选]start_index(number): 内容开始位置的索引,用于分页读取大型网页 [可选]raw(boolean): 是否返回未处理的原始 HTML 内容,默认 false [可选]
配置方式
Claude Desktop 配置
1 | { |
VS Code 配置
1 | { |
高级配置(带代理和自定义选项)
1 | { |
环境变量
USER_AGENT- 自定义 User-Agent 字符串PROXY- HTTP/HTTPS 代理地址IGNORE_ROBOTS_TXT- 是否忽略 robots.txt(true/false)
使用示例
使用 uv(推荐)
1 | # 直接运行 |
使用 pip 安装
1 | # 安装 |
使用 Docker
1 | # 拉取镜像 |
调试模式
1 | # 使用 MCP Inspector 进行调试 |
使用场景示例
1 | # 场景 1: 获取网页内容 |
实际应用场景
1. 内容摘要和分析
AI 获取网页内容后自动生成摘要、提取关键信息、分析主题和情感。
2. 网页数据提取
从结构化或半结构化网页中提取特定信息,如产品价格、联系信息、发布日期等。
3. RAG 知识库构建
抓取多个网页内容,转换为向量嵌入,构建检索增强生成(RAG)应用的知识库。
4. 竞品分析
自动获取竞争对手的网站内容,分析产品功能、定价策略、营销信息。
5. 内容监控
定期获取特定网页内容,监控变化,如产品上架、价格调整、新闻发布等。
6. 文档转换
将在线文档、博客文章转换为 Markdown 格式,便于存储、处理和再利用。
7. 研究和调研
快速收集多个来源的信息,AI 辅助分析和整合,提升研究效率。
技术实现
智能内容提取
使用先进的 HTML 解析算法,自动识别网页的主要内容区域,过滤广告、导航、页脚等无关信息。
Markdown 转换引擎
将 HTML 标签和样式转换为对应的 Markdown 语法,保持内容的层次结构和格式。
Robots.txt 遵守
默认检查并遵守网站的 robots.txt 规则,尊重网站所有者的爬虫策略。
分页处理机制
通过 start_index 和 max_length 参数实现内容分页,支持处理超大型网页。
代理和认证支持
支持 HTTP/HTTPS 代理,适应企业网络环境和需要代理访问的场景。
错误处理和重试
内置健壮的错误处理机制,自动处理网络超时、404 错误等常见问题。
官方维护保障
作为 MCP 官方服务器,持续更新和维护,确保与最新的 MCP 协议兼容。
配置最佳实践
1. 设置合理的 User-Agent
1 | # 推荐使用描述性的 User-Agent |
2. 遵守 Robots.txt
1 | # 默认配置,遵守网站规则 |
3. 控制请求频率
1 | # 在应用层实现速率限制 |
4. 处理大型网页
1 | # 分页读取大型文档 |
安全和隐私考虑
1. 尊重版权
仅获取公开可访问的内容,遵守网站的版权声明和使用条款。
2. 遵守 Robots.txt
除非有明确权限,始终遵守网站的爬虫规则。
3. 合理的请求频率
避免频繁请求导致目标服务器负载过高,实现适当的延迟和限流。
4. 数据处理合规
获取的数据应遵守 GDPR、CCPA 等数据保护法规。
获取方式
- GitHub: https://github.com/modelcontextprotocol/servers
- PyPI:
pip install mcp-server-fetch - Docker:
docker pull mcp/fetch - uv:
uvx mcp-server-fetch