Coggle专访「黑桃」：从实操学习RAG

201

unsetunset个人简介unsetunset

大家好，我是黑桃。不会健身的程序猿不是一个好厨子。最近大模型一直很火，趁着过年时间充足正好充下电。希望以后能跟大家共同探讨，共同进步。

https://gitee.com/heitao5200/my_blog/tree/master/docs/%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/30days-of-ml/%E5%8A%A8%E6%89%8B%E5%AD%A6RAG

一直在网上找一些大模型相关的课程，对大模型的概念，原理、langchain、RAG、微调都有了初步的了解。但是感觉还是不够深入，离具备工程化的能力还有一定差距。2月初刚好看到Coggle的RAG课程，学完感觉自己的RAG能力有进一步的提升。

下面谈谈本次学习的收获：

众所周知，数据对所有模型的重要性基本都是T0级别的，RAG当然也离不开干净的语料数据。
本次学习的数据来自于PDF，需要使用pdf读取器读取出来，其中数据包含很多特殊字符，还包含一些表格数据，另外不同的页面布局也会导致一些脏数据等。本次学习过程中对数据清洗之后，模型的效果有显著提升

QA和Instruction的区别与联系
QA是指一问一答的形式，通常是用户提问，模型给出回答。而Instruction则源自于PromptEngineering，将问题拆分为两个部分：Instruction用于描述任务，Input用于描述待处理的对象。
问答（QA）格式的训练数据通常用于训练模型回答基于知识的问题，而指令（Instruction）格式的训练数据更适用于训练模型执行具体任务。例如，对于问题"请解释VC银翘片和双黄连口服液之间的区别"
指令的形式可能使模型具有更好的泛化能力，因为它强调了任务的性质，而不仅仅是特定的输入。通常指令格式和问答格式可以相互转化。

问答（QA）格式:

指令（Instruction）： 
输入（Input）：VC银翘片和双黄连口服液之间的区别是什么？

指令（Instruction）格式:

指令（Instruction）：请解释下面两个药品之间的区别。
输入（Input）：VC银翘片和双黄连口服液。

感谢Coggle数据科学每个月组织课程学习。感谢学习群里的各位大佬帮忙答疑解惑。

# 想要一起学习吗？添加下面👇微信 #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。