一日一技：2秒抓取网页并转换为 Markdown

这种方式需要自己写代码来过滤HTML中的垃圾标签。并且提取出来的文本可能会混在一起。虽然大模型在很大程度上不会受到标点符号的影响。但如果有办法把网页直接转换为Markdown的话，大模型在解析时就能更加准确。

怎么样在2秒内抓取这篇文章，并转换为Markdown呢？非常简单，你只需要在url前面加上https://r.jina.ai/并回车就可以了。完整的URL变成：https://r.jina.ai/https://zhuanlan.zhihu.com/p/351326998。浏览器上面的效果如下图所示：

直接就是Markdown!。你可以直接使用requests请求这个地址，拿到Markdown格式的正文。然后把这个正文喂给GPT，就可以提取出结构化的内容了。

这个服务不仅完全免费，而且开源！Github地址为：reader

菜单

一日一技：2秒抓取网页并转换为 Markdown

分享

一日一技：2秒抓取网页并转换为 Markdown

评论

我是如何拿到WWDC18 Scholarship的

Introducing Contextual Retrieval

一日一技：2秒抓取网页并转换为 Markdown

CRISPE — AI提问框架【学会如何与 AI 对话】

新形势下国有企业青年人才培养若干问题的思考

AI时代的思考革命：从Cursor到通用IDE的畅想

Prompt 实战：如何用Claude开发中心打造一个超强的产权交易报告助手

AI 辅助可研报告修改：我的 Prompt 工程实践

WWDC 2019 Scholarship Winner 自述

学校已不再是个正确的选择了