欧洲杯体育但一遭逢需要委果清醒成见的题目就崩掉-开云官网登录入口开云app官网入口

你的位置：开云官网登录入口开云app官网入口 > 资讯 > 欧洲杯体育但一遭逢需要委果清醒成见的题目就崩掉-开云官网登录入口开云app官网入口

欧洲杯体育但一遭逢需要委果清醒成见的题目就崩掉-开云官网登录入口开云app官网入口

发布日期：2026-03-24 07:26 点击次数：140

一位从初中物理教师转型AI居品司理的实际者，用两天时候打造了一个能会诊学生物梦想维瑕疵的AI系统。莫得技能布景、莫得工程师复古，仅凭教学教诲和用心筹划的Prompt，他成效构建起掩盖力学、光学等章节的瑕疵成见常识库，并在压力测试中发现了白话化表述、领域场景处理等关节问题。这篇著述揭示了领域常识在AI居品中的中枢价值，以及怎么通过主动测试发现委果问题。

我是又名初中物理教师，教了四年书，当今在转行作念AI居品司理。

两天前，我决定不再仅仅”学习AI居品”，而是平直伊始作念一个。

这篇著述纪录我这两天作念了什么、发现了什么、踩了哪些坑。莫得技能布景的东谈主也能看懂，因为我我方也莫得技能布景。

我想治理一个委果的问题

教了四年物理，有一件事一直困扰我：我知谈班里某几个学生”没听懂”，但我说不线路他们到底卡在那边。

他们能背公式，能作念松懈题，但一遭逢需要委果清醒成见的题目就崩掉。传统的张望只可告诉我”答错了”，告诉不了我”为什么会这么想”。

而学生在课堂上的发问和薪金，刚巧藏着最委果的想维气象。比如一个学生说：

“诚实，汽车开得越快，惯性就越大，否则为啥高速行驶时刹车要滑那么远才停得下来？”

这句话里藏着一个越过典型的瑕疵——他把惯性和动能浑浊了。但在40东谈主的课堂里，这条信息说完就隐没了，从来莫得被系统性地纪录和分析过。

我想作念的，便是一个能分析这类对话的AI系统。

我有什么，莫得什么

我有的：

四年教学教诲，脑子里装着几十条学生最常犯的瑕疵。我知谈学生在讲”惯性”时最容易说出什么瑕疵，在讲”浮力”时最常见的诬陷是什么。这些东西是任何AI工程师齐莫得的。

我莫得的：

不会写代码，莫得工程师，莫得干事器，莫得预算。

就这两样东西，我开动了。

第一步：把脑子里的东西写下来

我作念的第一件事，不是搭系统，不是学技能，而是绽开一个文档，把我缅想中最典型的学生瑕疵场景写下来。

依次很松懈：

我写了10条，掩盖了参照物、摩擦力、均衡力、浮力、光学等章节。

这10条场景数据，其后成了通盘这个词系统最中枢的东西。它们同期演出了三个变装：测试集（用来判断系统会诊得准不准）、常识库种子（让系统知谈学生最常犯哪些错）、需求文档（告诉系统应该输出什么依次的服从）。

第二步：用Prompt模拟通盘这个词系统

莫得工程师，莫得代码，我用的是最松懈的花式——平直给大模子写一段良好的提示（Prompt），让它演出”物理学情会诊众人”的变装。

Prompt的中枢结构是这么的：

常识库摘抄：把我写的瑕疵成见库浓缩成几十行翰墨，告诉模子”学生最常犯哪些错、瑕疵的根因是什么”输出依次要求：强制模子用JSON依次输出，包含常识点、掌持度品级、掩饰点类型、联接问题等字段推理要求：要求模子必须按三步输出推理经由，不可平直给论断

然后我把学生对话粘贴进去，看系统输出什么。

第一条测试的输出让我以为这个场所是对的：

常识点识别准确，掩饰点判断正确，联接问题有委果课堂价值。

第三步：主动制造压力测试

跑了5条轨范场景之后，我莫得雕悍于”系统运行往往”，而是主动构造了三种领域情况来测试系统的委果材干。

测试一：疲塌白话表述

把学生原话改得更白话化：

“诚实用了动滑轮之后嗅觉庸俗多了，是不是作念的功也少了？”

服从：系统会诊场所正确，但莫得掷中常识库里的对应条件（因为常识库里写的是”省力就能省功”，而不是”嗅觉庸俗多了”）。

这败露了一个委果问题：常识库每个条件唯有一种轨范表述，白话化的变体会导致检索失效。

建树决议：为每个瑕疵成见补充3~5条白话化变体。

测试二：常识库领域测试

输入一个常识库里莫得掩盖的问题：

“铁块会千里是因为铁比水重，那相通分量的铁和木头，木头能浮起来是因为它相比轻吗？”

服从：系统莫得诚实说”这个问题超出了我的常识库范围”，而是强行匹配了一个周边的条件，置信度给了0.85。

这是一个高风险问题。教师看到0.85的置信度会倾向于信任这个服从，但骨子上系统的会诊依据不是你构建的常识库，而是模子我方的老师数据，无法追思和考据。

这个问题靠转机提示只可部分缓解，根底治理需要在工程层面加入相似度阈值过滤。这是下一阶段需要工程师来治理的事。

测试三：心情掩饰识别

输入一个系数莫得物理内容的表述：

“诚实我系数不会，这章我从来就没听懂过，算了。”

服从出乎意象地好：系统正确识别了”无法会诊”的气象，识别出了”悔怨”的心情信号，并把联接战术从”常识纠错”切换成了”心情安抚+降维拆解”——

“不紧要，这谈题咱们先不看。你以为浮力这章哪个部分最难？”

这种区别材干在现存AI栽种居品里并不常见。好多居品在学生说”我不会”的时候会平直推送常识点教导，反而加剧蹙悚。

两宇宙来，我作念了什么构建了一个掩盖力学、压强、浮力、光学四个章节的瑕疵成见常识库（11个条件）写出了一个可用的会诊Prompt（迭代到v2.2版块）跑收场13条测试（10条轨范场景 + 3条压力测试）轨范场景通过率：10/10（100%）发现并纪录了5个已知问题，其中3个已建树输出了完满的POC总论断说和测试数据

我学到的最遑急的事

第一：领域常识是最稀缺的金钱。

通盘这个词名堂里，技能部分（写Prompt、调依次）其实不难，难的是”知谈学生会犯什么错、为什么会犯、奈何联接”。这些东西来自四年的一线教学教诲，不是学AI能学来的。

如若你有某个领域的深度教诲，这便是你作念AI居品最大的护城河。

第二：压力测试比轨范测试更有价值。

10条轨范场景一起通过，这个数据看起来很好意思瞻念。但委果有价值的发现，一起来自3条压力测试——白话化表述的检索失效、领域场景的拒答机制不踏实、心情掩饰的识别材干。

一个只在梦想输入下测试的AI居品，上线之后会遭逢各式出东谈主料到的情况。提前主动制造领域情况，比比及用户反应再建树要好得多。

第三：发现问题比治理问题更遑急（在POC阶段）。

我在论说里诚实纪录了系统咫尺作念不到的事：领域场景的置信度虚高问题，靠转机提示无法根治，需要工程层面治理。

能线路界说系管辖域的居品司理，比只状貌好意思好愿景的居品司理更值得信任。

接下来

这个POC考据了中枢场所是可行的。下一步是把常识库扩张到电学章节，同期开动评估引入委果的RAG工程框架（LangChain + 向量数据库），从”手动模拟”升级到”委果的系统”。

本文由 @YM 原创发布于东谈主东谈主齐是居品司理。未经作家许可，拦阻转载

题图来自Unsplash欧洲杯体育，基于CC0公约

上一篇：体育游戏app平台脑组织对氧气的破费极其敏锐-开云官网登录入口开云app官网入口
下一篇：没有了

相关资讯

热点资讯

友情链接：

欧洲杯体育但一遭逢需要委果清醒成见的题目就崩掉-开云官网登录入口 开云app官网入口

欧洲杯体育但一遭逢需要委果清醒成见的题目就崩掉-开云官网登录入口开云app官网入口