

近日,由渊亭科技研发的“一种大规模数据的生成方法、装置及设备”获得国家知识产权局颁发的发明专利授权。该发明专利通过结合大语言模型(LLM)与蒙特卡洛搜索树(MCTS),提出了一套能够自我优化、自我迭代的数据生成框架,旨在解决传统方法在生成效率、目标导向性及结果多样性上难以兼顾的痛点。

在人工智能技术飞速发展的今天,高质量、大规模的数据是训练和微调先进模型的“燃料”。然而,传统的数据生成方法正面临诸多挑战。
一方面,直接利用大模型生成内容,往往需要投入大量人力反复调试提示词(Prompt),过程低效且结果质量参差不齐。另一方面,经典的优化算法(如蒙特卡洛搜索树),虽能优化决策,但其计算复杂度高,难以胜任大规模、高时效性的生成任务。
在实际的数据生成任务中,数据生成的效率、结果的多样性和对目标的精准导向性是三个关键需求。然现有方法往往顾此失彼,导致生成的数据要么数量庞大但质量低下,要么质量尚可但过程耗时过长,制约了AI技术的应用与发展。

为攻克这一难题,该发明专利构建了一套高效、智能、自动化的数据生成新流程。其核心创新点在于建立了一个由LLM驱动的、能够自我优化的闭环系统。
该方法主要包括四个关键步骤:
初始扩展
智能评估与建议
创建并行搜索树
策略优化与迭代
此外,该专利还设计了异步并行架构与动态剪枝机制。通过多线程和任务队列,扩展与评估过程被解耦,实现了高效并行处理。同时,系统会实时监控并“剪除”那些价值较低的探索路径,将宝贵的计算资源动态分配给潜力更高的分支,极大地提升了整体效率和资源利用率。


该发明适用于大规模数据生成任务,能够高效生成高质量、具备推理过程的问答数据,因此在AI模型训练、知识库构建、对话系统和内容创作等需要高质量数据支撑的场景中,具有巨大的应用潜力。它将为训练出更智能、更可靠的AI模型提供坚实的数据基础,加速人工智能技术的应用落地。
未来,渊亭科技将继续致力于前沿技术的探索与应用转化,为千行百业的智能化转型提供更坚实的技术支撑。








