满意的rag测试 – 自己的博客

之前测试rag，我使用的材料是《三国演义》的文本文件，即便是deepseek推出后，效果仍然不是非常满意。
这几天分析，除了《三国演义》本身是文言白话混杂的作品，给AI的分词、理解提高了难度。还有一个重要原因，那就是《三国演义》太有名了，AI在训练过程中，难免被污染，所以才会在出现“关公骂王朗”的“本能性”回答的笑话。
于是决定改变一下案例，使用真正私有的文件，也就是对AI全新的资料进行回答。
敝帚自珍，这次选择的资料库是我完成许久的小说。从简书按章节导出后修改为升序文件名，以目录的方式导入知识库。
指定知识库后，使用deepseek-r提问，从分析到回答，已经不再夹带私货，完全按照原作进行回答，但理解能力还是有问题。
总结一下，应该是我虽然修改了文件名，但AI读取文件时，并未按小说的时间线进行分析。
多文件不行，就把多文件生成一个markdown文件让AI理解。在AI的辅助下，编写了一个程序，将多个网页中的内容采集后合并到一个文件中。
这次，AI给出了优异的答案，理清了人物关系，并在此基础上进行了人物情感分析。
这次使用的模型是硅基流动的，相比其他运营商“Token大赠送”的扭扭捏捏，硅基流动赠送的直接是免费券，而且界面简单明了。满意之余，顺手充值了10块钱，以作奖励。
回想一下，两周过去了，能够费脑子写新代码，这事情算是真的过去了。

Leave a Reply Cancel Reply