MCP Fetch Server - 官方网页内容获取和转换服务

Posted on 十月 11, 2025

MCP Fetch Server - 官方网页内容获取和转换服务

简介

MCP Fetch Server 是 Model Context Protocol 官方提供的网页内容获取服务器，专门设计用于将 HTML 网页内容转换为 LLM 友好的 Markdown 格式。这个官方服务器让 AI 助手能够轻松获取和理解网页内容，支持智能内容提取、分页处理、robots.txt 遵守等多种功能。通过简洁的 API 接口，AI 可以快速抓取网页、提取主要内容、过滤广告和无关信息，并将结果转换为结构化的 Markdown 文档。无论是用于内容摘要、信息提取、网页分析，还是构建 RAG 应用的知识库，MCP Fetch Server 都提供了可靠、高效的网页数据获取能力。作为官方服务器，它遵循最佳实践，支持代理配置、自定义 User-Agent、内容长度控制等高级功能。

核心特性

HTML 到 Markdown 转换 - 智能转换网页内容为 LLM 可读的 Markdown 格式
智能内容提取 - 自动识别和提取网页主要内容，过滤广告和导航栏
分页处理 - 支持大型网页的分页读取，避免内容截断
Robots.txt 遵守 - 默认遵守网站的 robots.txt 规则，支持可选禁用
代理支持 - 支持 HTTP/HTTPS 代理配置
自定义 User-Agent - 可配置自定义的浏览器标识
内容长度控制 - 灵活设置返回内容的最大长度
调试模式 - 内置调试工具，方便排查问题
官方维护 - 由 MCP 团队官方维护，持续更新

工具列表

网页获取工具

`fetch`

描述: 获取网页内容，将 HTML 转换为 Markdown 格式供 LLM 使用

参数:

url (string): 要获取的网页地址（完整的 HTTP 或 HTTPS URL） [必需]
max_length (number): 返回内容的最大字符数，默认 5000 [可选]
start_index (number): 内容开始位置的索引，用于分页读取大型网页 [可选]
raw (boolean): 是否返回未处理的原始 HTML 内容，默认 false [可选]

配置方式

Claude Desktop 配置

{
  "mcpServers": {
    "fetch": {
      "command": "uvx",
      "args": ["mcp-server-fetch"]
    }
  }
}

VS Code 配置

{
  "mcp": {
    "servers": {
      "fetch": {
        "command": "uvx",
        "args": ["mcp-server-fetch"]
      }
    }
  }
}

高级配置（带代理和自定义选项）

{
  "mcpServers": {
    "fetch": {
      "command": "uvx",
      "args": ["mcp-server-fetch"],
      "env": {
        "USER_AGENT": "CustomBot/1.0",
        "PROXY": "http://proxy.example.com:8080",
        "IGNORE_ROBOTS_TXT": "false"
      }
    }
  }
}

环境变量

USER_AGENT - 自定义 User-Agent 字符串
PROXY - HTTP/HTTPS 代理地址
IGNORE_ROBOTS_TXT - 是否忽略 robots.txt（true/false）

使用示例

使用 uv（推荐）

# 直接运行
uvx mcp-server-fetch

# 带配置运行
USER_AGENT="MyAI/1.0" uvx mcp-server-fetch

使用 pip 安装

# 安装
pip install mcp-server-fetch

# 运行
python -m mcp_server_fetch

使用 Docker

# 拉取镜像
docker pull mcp/fetch

# 运行
docker run -i --rm mcp/fetch

# 带代理运行
docker run -i --rm \
  -e PROXY=http://proxy.example.com:8080 \
  mcp/fetch

调试模式

1 2	# 使用 MCP Inspector 进行调试 npx @modelcontextprotocol/inspector uvx mcp-server-fetch

使用场景示例

# 场景 1: 获取网页内容
# 自然语言："Fetch the content from https://example.com"

fetch(url="https://example.com")

# 返回：转换后的 Markdown 格式内容

# 场景 2: 获取长文章的第一部分
# 自然语言："Get the first 2000 characters from this blog post"

fetch(
  url="https://blog.example.com/long-article",
  max_length=2000,
  start_index=0
)

# 场景 3: 分页读取大型文档
# 自然语言："Continue reading from where we left off"

# 第一页
fetch(url="https://example.com/docs", max_length=5000, start_index=0)

# 第二页
fetch(url="https://example.com/docs", max_length=5000, start_index=5000)

# 场景 4: 获取原始 HTML
# 自然语言："Get the raw HTML of this page"

fetch(url="https://example.com", raw=true)

# 场景 5: 内容摘要
# 自然语言："Fetch and summarize this news article"

content = fetch(url="https://news.example.com/article")
# AI 自动分析和摘要内容

# 场景 6: 信息提取
# 自然语言："Extract all the pricing information from this page"

content = fetch(url="https://shop.example.com/pricing")
# AI 提取价格数据

实际应用场景

1. 内容摘要和分析

AI 获取网页内容后自动生成摘要、提取关键信息、分析主题和情感。

2. 网页数据提取

从结构化或半结构化网页中提取特定信息，如产品价格、联系信息、发布日期等。

3. RAG 知识库构建

抓取多个网页内容，转换为向量嵌入，构建检索增强生成（RAG）应用的知识库。

4. 竞品分析

自动获取竞争对手的网站内容，分析产品功能、定价策略、营销信息。

5. 内容监控

定期获取特定网页内容，监控变化，如产品上架、价格调整、新闻发布等。

6. 文档转换

将在线文档、博客文章转换为 Markdown 格式，便于存储、处理和再利用。

7. 研究和调研

快速收集多个来源的信息，AI 辅助分析和整合，提升研究效率。

技术实现

智能内容提取

使用先进的 HTML 解析算法，自动识别网页的主要内容区域，过滤广告、导航、页脚等无关信息。

Markdown 转换引擎

将 HTML 标签和样式转换为对应的 Markdown 语法，保持内容的层次结构和格式。

Robots.txt 遵守

默认检查并遵守网站的 robots.txt 规则，尊重网站所有者的爬虫策略。

分页处理机制

通过 start_index 和 max_length 参数实现内容分页，支持处理超大型网页。

代理和认证支持

支持 HTTP/HTTPS 代理，适应企业网络环境和需要代理访问的场景。

错误处理和重试

内置健壮的错误处理机制，自动处理网络超时、404 错误等常见问题。

官方维护保障

作为 MCP 官方服务器，持续更新和维护，确保与最新的 MCP 协议兼容。

配置最佳实践

1. 设置合理的 User-Agent

1 2	# 推荐使用描述性的 User-Agent USER_AGENT="MyAIApp/1.0 (Research Purpose; [email protected])"

2. 遵守 Robots.txt

# 默认配置，遵守网站规则
IGNORE_ROBOTS_TXT=false

# 仅在有明确权限时才忽略
IGNORE_ROBOTS_TXT=true

3. 控制请求频率

# 在应用层实现速率限制
import time

def fetch_with_delay(urls):
    for url in urls:
        content = fetch(url=url)
        time.sleep(1)  # 1 秒延迟
        process(content)

4. 处理大型网页

# 分页读取大型文档
def fetch_large_page(url, chunk_size=5000):
    chunks = []
    index = 0

    while True:
        chunk = fetch(
            url=url,
            max_length=chunk_size,
            start_index=index
        )

        if not chunk or len(chunk) < chunk_size:
            chunks.append(chunk)
            break

        chunks.append(chunk)
        index += chunk_size

    return "".join(chunks)

安全和隐私考虑

1. 尊重版权

2. 遵守 Robots.txt

除非有明确权限，始终遵守网站的爬虫规则。

3. 合理的请求频率

避免频繁请求导致目标服务器负载过高，实现适当的延迟和限流。

4. 数据处理合规

获取的数据应遵守 GDPR、CCPA 等数据保护法规。

获取方式

GitHub: https://github.com/modelcontextprotocol/servers
PyPI: pip install mcp-server-fetch
Docker: docker pull mcp/fetch
uv: uvx mcp-server-fetch

MCP Fetch Server - 官方网页内容获取和转换服务

简介

核心特性

工具列表

网页获取工具

fetch

配置方式

Claude Desktop 配置

VS Code 配置

高级配置（带代理和自定义选项）

环境变量

使用示例

使用 uv（推荐）

使用 pip 安装

使用 Docker

调试模式

使用场景示例

实际应用场景

1. 内容摘要和分析

2. 网页数据提取

3. RAG 知识库构建

4. 竞品分析

5. 内容监控

6. 文档转换

7. 研究和调研

技术实现

智能内容提取

Markdown 转换引擎

Robots.txt 遵守

分页处理机制

代理和认证支持

错误处理和重试

官方维护保障

配置最佳实践

1. 设置合理的 User-Agent

2. 遵守 Robots.txt

3. 控制请求频率

4. 处理大型网页

安全和隐私考虑

1. 尊重版权

2. 遵守 Robots.txt

3. 合理的请求频率

4. 数据处理合规

获取方式

相关资源

`fetch`