bge_finetune/data/datasets/examples/embedding_data.jsonl
2025-07-22 16:55:25 +08:00

5 lines
3.3 KiB
JSON
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{"query":"什么是深度学习?","pos":["深度学习是机器学习的一个子领域,使用多层神经网络模拟人脑处理信息的方式","深度学习Deep Learning是人工智能和机器学习的重要分支通过构建深层神经网络来学习数据表示"],"neg":["机器学习包含多种算法,如决策树、支持向量机、神经网络等","人工智能是计算机科学的一个分支,目标是创建能够执行智能任务的系统","数据挖掘是从大型数据集中提取模式和知识的过程"],"pos_scores":[1.0,0.95],"neg_scores":[0.6,0.4,0.3],"prompt":"为此查询生成表示:","type":"normal"}
{"query":"如何制作红烧肉?","pos":["红烧肉制作步骤选五花肉切块焯水去腥热锅炒糖色下肉翻炒加生抽老抽料酒小火炖煮30-40分钟至软烂","红烧肉是经典上海菜,用五花肉、冰糖、生抽、老抽、料酒等,关键在于炒糖色和火候控制"],"neg":["红烧肉是中国传统菜肴,口感香甜软糯,深受大众喜爱","五花肉含有丰富的蛋白质和脂肪,营养价值较高","上海菜以红烧见长,口味偏甜,适合南方人饮食习惯"],"pos_scores":[1.0,0.9],"neg_scores":[0.5,0.3,0.2],"prompt":"为此查询生成表示:","type":"recipe"}
{"query":"Python编程入门应该学习哪些内容","pos":["Python编程入门需要掌握基本语法、数据类型(字符串、列表、字典)、控制结构(if/for/while)、函数定义、面向对象编程基础","Python新手学习路线先学变量和数据类型然后是条件语句和循环接着学习函数和模块最后是类和对象"],"neg":["Python是一种简单易学的编程语言语法清晰适合初学者","编程思维比语法更重要,需要培养逻辑思维能力","计算机科学包含算法、数据结构、操作系统等多个分支"],"pos_scores":[1.0,0.95],"neg_scores":[0.4,0.3,0.2],"prompt":"为此查询生成表示:","type":"programming"}
{"query":"北京有哪些必去的旅游景点?","pos":["北京必去景点推荐:故宫(紫禁城)、天安门广场、万里长城、颐和园、天坛、圆明园、北海公园、什刹海等","故宫是明清两代皇宫占地72万平方米是世界最大的古代宫殿建筑群必须提前预约参观"],"neg":["北京是中华人民共和国首都有3000多年建城史","中国拥有众多世界文化遗产,旅游资源丰富","春秋季节是北京旅游的最佳时间,气候宜人"],"pos_scores":[1.0,0.9],"neg_scores":[0.3,0.25,0.4],"prompt":"为此查询生成表示:","type":"travel"}
{"query":"机器学习和深度学习有什么区别?","pos":["机器学习是更广义的概念,深度学习是机器学习的一个子集,主要区别在于深度学习使用深层神经网络进行特征自动提取","深度学习使用多层神经网络自动学习特征,而传统机器学习通常需要人工设计特征,深度学习在图像和语音识别方面表现更优"],"neg":["机器学习算法包括监督学习、无监督学习和强化学习三大类","人工智能技术发展迅速,在各行各业都有广泛应用","神经网络是深度学习的基础,模拟人脑神经元连接"],"pos_scores":[1.0,0.95],"neg_scores":[0.4,0.3,0.5],"prompt":"为此查询生成表示:","type":"tech_comparison"}