东方洪小站 OrientHong

一日一技:2秒抓取网页并转换为 Markdown

这种方式需要自己写代码来过滤HTML中的垃圾标签。并且提取出来的文本可能会混在一起。虽然大模型在很大程度上不会受到标点符号的影响。但如果有办法把网页直接转换为Markdown的话,大模型在解析时就能更加准确。 怎么样在2秒内抓取这篇文章,并转换为Markdown呢?非常简单,你只需要在url前面加上

OrientHong 发布于 2024-09-21