gpt-crawler是一个强大的工具,能够将网站内容全面地爬取下来,并将其转换成结构化知识,为GPTs的学习提供了有力支持。这个工具的应用场景广泛,比如,如果想打造一个数字人分身,可以先将自己在社交媒体或个人博客上的内容抓取下来,然后提交给ChatGPT作为储备知识。这种方式不仅能够保存个人在网络上的言论和观点,还可以为ChatGPT提供更多的学习材料,使其更好地理解和模拟用户的语言风格和思维方式。
gpt-crawler项目地址为:https://github.com/BuilderIO/gpt-crawler。
其核心功能包括:
- 灵活配置爬虫:用户可以通过编辑config.ts文件中的URL、选择器等属性,灵活配置爬虫以适应不同的网站结构和需求。
- 定制化知识文件生成:gpt-crawler通过爬取指定网站的内容,生成包含知识数据的文件(output.json),为用户提供定制GPT所需的基础知识。
- 轻松上传到OpenAI:生成的知识文件可以方便地上传至OpenAI,支持用户在UI界面或通过API访问生成的知识,用于创建自定义GPT或助手。
- 支持Docker容器化执行:通过容器化执行,用户可以获得output.json,使整个过程更加灵活和可扩展。
此外,gpt-crawler项目鼓励用户参与贡献,通过提出Pull Request等方式改进工具,使其更加强大和适应更多场景。
使用
1.安装node.js,要大于16版本以上
2.下载代码
git clone https://github.com/builderio/gpt-crawler
3.打开代码文件夹,安装依赖
npm i
4.打开config.ts文件,找到编辑url
和selectors
这是更改爬取的网站
5.运行
npm start
6.爬完之后会生成output.json文件
7.上传到GPTs即可,创造一个专属于网站的智能助手
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容