这种方式需要自己写代码来过滤HTML中的垃圾标签。并且提取出来的文本可能会混在一起。虽然大模型在很大程度上不会受到标点符号的影响。但如果有办法把网页直接转换为Markdown的话,大模型在解析时就能更加准确。
怎么样在2秒内抓取这篇文章,并转换为Markdown呢?非常简单,你只需要在url前面加上https://r.jina.ai/
并回车就可以了。完整的URL变成:https://r.jina.ai/https://zhuanlan.zhihu.com/p/351326998
。浏览器上面的效果如下图所示:
直接就是Markdown!。你可以直接使用requests
请求这个地址,拿到Markdown格式的正文。然后把这个正文喂给GPT,就可以提取出结构化的内容了。
这个服务不仅完全免费,而且开源!Github地址为:reader