全自动药物筛选引擎（AutoDrug Screening Engine）用户使用说明

为什么选择 AutoDrug

全流程自动化：一次性提交，平台内自动完成药物筛选全流程（提交、排队、进度追踪、日志查看与结果下载）。
覆盖不同规模：小规模化合物库可全量/随机，大规模化合物库可用 UCB 多轮迭代；支持上传库/预置库/分子生成组合候选集合。
结果可复核：输出 CSV、报告与中间产物可打包下载，便于复现与复核。
节省重复计算：支持载入历史任务与断点续算，参数微调后可从受影响阶段重算。

本文档覆盖任务提交流程、Demo 使用、结果下载与常见问题。

0. 开始前（准备清单）

新手建议先跑一次 Demo，熟悉“提交 -> 跑完 -> 下载 -> 看 CSV/报告”的闭环，再替换为自己的数据。

你通常需要准备：

靶点序列（直接粘贴）或目标文件（PDB/CIF/mmCIF/FASTA 等，系统会提取序列并回填）
MSA（A3M）：建议准备（可上传 A3M，或开启“自动获取 MSA”）。
化合物来源：上传/数据中心 CSV，或直接选择预置库（也可选启用分子生成）

可选准备：

相似性参考集合（SMILES 文件或多行文本）
QSAR 训练集（CSV，含 SMILES 列与目标值列）

1. 快速开始

打开工作流页面
填写任务名称
填写靶点序列或上传 PDB/CIF/mmCIF/FASTA（自动提取序列）
上传 MSA（A3M）或开启“自动获取 MSA”
可选：按任务规模确认采样、TopM/TopN 与复核模块等关键参数
上传化合物库 CSV（或选择数据中心 CSV/预置库；>50MB 建议使用数据中心）
选择采样策略
选择费率档位（必选）
若页面出现“扣费渠道”下拉，也请选择一个渠道（用于扣费/余额校验）
点击“运行筛选”

提交后可在任务列表查看进度、日志与结果下载。当用户任务目录占用超过上限时，提交会被拒绝，请先清理历史任务。

2. Demo 体验

Demo 数据

右上角 “加载 Demo 数据” 可选择 Demo 模式并自动填充：

Mini · 快速体验：demo_target.pdb + demo_msa.a3m + demo_compounds_minimal.csv，适合快速熟悉提交流程。
Large · 更完整样例：替换为更大数目的目标结构、MSA 与化合物样例；默认随机采样，可按需调整。

加载后可直接提交体验。

Demo 的主要目的是验证链路可跑通与理解界面字段，不代表真实项目的筛选质量或产出规模。

3. 表单字段说明

3.0 SFCT 流程概览（S/F/C/T）

页面左侧的“模块开关（S/F/C/T）”对应整个筛选流水线的四个关键环节：

S (Sampler)：合并所有已启用来源（化合物库输入 / 预置库 / 分子生成），按采样策略（全量/随机/UCB）产生候选集合。
F (Filter)：对候选做理化/警示/SA 等规则过滤；可选用 ADMET-AI 做标注或过滤。
C (Collector)：对候选做共识信号打分与筛选（GraphDTA/QSAR/相似性等），并形成用于后续高精度评估与输出的候选列表。
T (Tester)：高精度评估。当前使用 Boltz-2 做结构评估，并据此生成最终命中集与实验推荐集；可选启用 AiZynthFinder 评估合成可行性。

提交成功后，你会在任务列表看到更细的阶段名（如 Sampler/Filter/Collector/Tester/Output/Report），但整体仍可按上面的 S/F/C/T 来理解。

3.1 基础信息

任务名称：用于列表显示与检索，建议包含日期/目标名便于追踪。
靶点序列：必填，可直接粘贴氨基酸序列（或通过上传文件回填）。
目标结构/序列文件：支持 .pdb/.cif/.mmcif/.fa/.fasta/.faa，上传后会自动提取序列并回填；提供 PDB/CIF/mmCIF 时可用于 Boltz-2 模板，并会显示结构预览。该预览只展示结构文件内已有的蛋白、结构内配体和口袋邻域；CSV/SMILES 化合物库不会在页面里生成三维配体构象。一般来说计算过程中主要使用序列，结构文件只是补充。
模板策略：仅在提供 PDB/CIF/mmCIF 时生效。
- 禁用模板（默认）：按页面靶点序列与上传 MSA 运行，最稳定。
- 使用模板链序列：页面会解析结构文件中的模板链，并展示用于 Boltz-2 的模板链序列；MSA 需要匹配这条序列，可上传手动获取的 A3M，也可开启服务端自动获取。
- 自动严格匹配：仅在模板链序列与页面靶点序列完全一致时使用模板，否则自动禁用模板。
- 建议优先保持默认禁用；只有确认结构链就是要计算的蛋白链，并且能为该链序列提供或自动获取 MSA 时，再使用模板链序列。
MSA 文件：.a3m，建议提供，且需与目标序列一致。
- 常见方式：
  - 上传 A3M 文件；或
  - 开启“自动获取 MSA（服务端）”（未上传 A3M 时会在提交阶段自动获取并写入，可能稍有等待）。
    - 若出现“服务来源”下拉，一般保持默认即可（不同来源会影响获取速度与质量）。
- 服务端会进行格式/长度预检（包括 NUL 字节等异常），失败会直接拒绝提交。
- 运行阶段会再次校验 MSA 可解析性；异常会导致任务失败。
- 若上传的 MSA 与最终用于 Boltz-2 的序列长度不一致会直接失败。
- 常见报错：E_MSA_LEN_MISMATCH（MSA 序列长度与目标序列不一致）。未使用模板链序列时，以页面“靶点序列”为准重新生成 A3M；使用模板链序列时，以页面展示的模板链序列为准重新生成 A3M，或开启服务端自动获取。
- 参考工具：HHblits 在线工具
流程版本：默认 SFCT-FLOW v2，页面默认隐藏该控件；一般不需要手动设置。
任务 GPU 卡数：默认 1。表示本任务申请和计费的 GPU 数；调大后，系统会自动使用更多 GPU 加速运行。
允许 CPU fallback：默认关闭。首跑遇到 GPU/CUDA 环境问题失败后，可以先从失败任务选择“载入”恢复输入和参数，再打开该开关后“断点续算”；系统会让支持的 GPU 阶段尝试 CPU 重试。开启后可能明显变慢，适合作为失败修复手段，而不是常规默认配置。

3.2 化合物库输入

支持三类来源（可组合启用）：

化合物库输入：上传 CSV 或选择数据中心 CSV
预置库：按分组选择一个或多个已有集合
分子生成：由 REINVENT4 生成并与上述来源合并后再采样

建议：

化合物库超过 50MB 时建议使用数据中心 CSV（更稳定，也更适合重复使用）。
预置库会按集合来源分组，并显示分子数（可获取时）；多选时面板会估算总分子数，超过大库阈值时提示优先使用随机/UCB。

SMILES 预检与剔除规则（你通常只需要知道“会检查、会统计”）：

提交阶段会对 SMILES 做预检：化合物库允许少量无效（超过阈值会拒绝）；相似性参考/分子生成使用独立阈值（通常更严格）。
大文件或本地缺 RDKit 时，会改为超算端校验。
运行阶段会先清洗当前化合物源（COMPOUND_SOURCE_CSV，可能是上传/预置库/分子生成合并后的池），自动剔除无效 SMILES 并记录数量。
清洗后文件为 artifacts/compounds_clean.csv；无效条目会记录到 artifacts/invalid_smiles.csv，随后才进入 prefilter/sampler。

上传 CSV 与数据中心 CSV：

上传 CSV：直接选择本地 .csv 文件上传（适合小文件或临时验证）。
数据中心 CSV：从下拉选择主站数据中心已有文件。
- 当下拉里没有你需要的文件时，可在该面板上传到数据中心，上传完成后会出现在下拉里（大文件推荐这一方式）。

CSV 必需列：

smiles：标准化 SMILES（列名大小写不敏感；也支持 canonical_smiles / structure_smiles / structure / smile 等常见写法）

建议提供：

ligand_id：分子 ID（唯一标识；也可使用 origin_id / ID / compound_id / hit_id / molecule_id）

其余列会原样保留并随流程传递，便于后续复核。

最小 CSV 示例：

ligand_id,smiles
L0001,CCO
L0002,CC(=O)O

说明：

非 UCB：允许缺 ID 列，系统会自动补 ligand_id=ligand_<row_index>，并在面板提示风险（建议仍提供稳定 ID）。
UCB：必须包含可识别的 ID 列（如 ligand_id / origin_id / ID），否则会拒绝提交/运行。
若同时提供 ligand_id 与 origin_id，两者必须一致，否则会报错。
SMILES 列名大小写不敏感，支持常见别名；运行阶段会把列名归一化为 SMILES 供下游使用。

3.2.1 预置库（Preset Library）

预置库是平台内置的常用公开小分子集合（例如 ChEMBL、ZINC、DrugBank、TargetMol 特色库、高性价比数据库-核心等），可以不上传任何 CSV 直接作为筛选来源。

开启方式：在左侧 “S (Sampler) -> 预置库” 勾选“启用”，并在“预置库”面板选择一个或多个集合。
典型用途：快速试跑、做 baseline；也可以直接用于真实药物筛选（例如从已知药物/可购集合中优先筛一轮），或与自有库/分子生成组合后统一采样。
TargetMol 特色库会在下拉中独立分组，包含活性库、共价库、片段库、大环库、分子胶库、天然产物单体库和天然产物衍生物库，适合按药物发现场景直接选择候选来源。
高性价比数据库-核心会在下拉中独立分组，包含 D001 与 T001 两个核心集合。
组合方式：可多选预置库，也可与“化合物库输入/分子生成”同时启用，系统会合并去重后再统一采样。选择多个大库时，建议使用随机或 UCB 采样，避免直接全量筛选。
如果下拉里没有你需要的集合：联系管理员补充或开通。

3.2.2 分子生成（REINVENT4）

分子生成作为化合物来源之一，开启后会与用户库/预置库合并再采样，无需上传配置文件，系统自动选择 REINVENT4 先验模型。

直接生成（de novo）：无需输入。
相似度驱动生成：提供参考 SMILES（每行一个，支持“上传文件”或“多行文本”二选一）。
骨架约束生成：提供普通分子 SMILES 或骨架 SMILES（每行一个，支持文件或多行文本）；普通 SMILES 会自动提取 Murcko scaffold 并加 [*:1] 锚点，已带锚点但含带电 bracket atom 的骨架会先尝试标准化/去电荷。
R-group 生成：同骨架约束生成；若需要精确控制取代位置，建议直接输入带 [*:1] 的骨架。
Linker 生成：提供片段 A/B（每行一个，A/B 行数需一致；支持文件或多行文本），系统按 A|B 组合生成。
输入来源（similarity / scaffold / rgroup）：除手动输入外，还可选择使用 Boltz2 命中池自动生成输入集合。非 UCB 任务可在分子生成参数区的“历史结果任务”下拉框直接选择来源；下拉框会单独读取已完成历史任务，不受当前任务列表分页影响，支持按任务名、UUID 或 Job ID 搜索，并按 20 条/页翻页。这只会把某个历史任务的 Boltz2 命中结果选为来源，不会载入该历史任务的参数或输入文件。UCB 任务可直接使用本任务上一轮/累计池子（从 round 1 开始）。支持“全局/合并”与“最近一轮”两种池子。
生成数量：按每条输入生成，必填；默认 200。
若任务 GPU 卡数调大，系统会自动使用更多 GPU 加速分子生成，输出仍是一个候选集合。

输入文件格式：

.smi/.txt：每行一个 SMILES（空行会自动忽略）。
.csv：支持包含 SMILES 列的 CSV；若未识别到 SMILES 列，会按首列解析并在面板提示。
scaffold / rgroup 模式下，未带 [*:1] 的普通 SMILES 会在运行端自动转换为带锚点骨架；已带锚点但含带电 bracket atom 的骨架会先尝试标准化/去电荷；无法解析或无法提取时会跳过该行，全部不可用时分子生成不会产生候选。

说明：

当你选择了文件输入时，对应的文本框会被清空；反之，当你在文本框手动输入时，会自动清空文件选择（避免两者冲突）。
大输入建议用文件而不是粘贴长文本，提交更稳定，也便于“载入/断点续算”时恢复输入。

3.3 Sampler 采样策略

可选 全量 / 随机 / UCB：

采样会先合并所有已启用来源（用户库 / 预置库 / 分子生成），再统一采样。
全量：适合小库或演示场景，覆盖全部候选。
随机：适合大库快速试跑（可设置采样数量）。
UCB：适合大规模化合物库的多轮主动学习。常用保持自适应预算，只按需调整 κ；只有切到固定预算时，才填写每轮采样数和迭代轮数。
- 默认开启候选池加速：第 0 轮在候选池内采样，warmup 参数在前端不显示。
- 关闭候选池加速：可设置 sampler_warmup_size，第 0 轮按该值从全库随机冷启动。
- 候选池来源默认自动：N<=2M 优先用 Collector 排序建池，超大库回退随机初始化。
- UCB 轮内 TopM 为空时，轮内 Collector 等效直通，直接进入 Tester（Boltz-2）。
- 如果专家手动填写 TopM/Hybrid，Collector 建池来源会复用缓存评分控量；随机/全库来源才对本轮候选补跑评分链后控量。
- 注入/替换/退火参数在“高级参数”折叠区，通常保持默认即可。

UCB 迭代：选择本轮候选 → Collector（TopM/Hybrid 或直通）→ Boltz-2 评估 → Chemprop 学习 → 下一轮选点；TopM/Hybrid 只控制轮内 Collector 节点内部是否控量。注意：UCB 模式会强制启用 Boltz-2（不可关闭），并要求化合物库包含可识别的 ID 列。 UCB 详细参数与输出解释见：UCB 用户手册。

术语对照（UCB）：

Active Pool = 候选池（每轮工作的子集，不是全库）
top_n / per_round / sampler_size = 每轮采样数
warmup = 冷启动样本数（仅候选池关闭时生效）
Round0 = 冷启动轮，Round1+ = 预测采样轮
source=auto = 默认来源；N<=2M 用 Collector 排序建池，N>2M 回退随机初始化
source=collector = 初始化时前置打分建池并缓存评分列，后续 UCB 轮次默认复用缓存评分
P/E/R = 候选池大小 / 每轮注入量 / 周期替换量
tau（温度）= 注入抽样温度；越大越探索，越小越偏向头部
Tester = 高精度结构评估阶段（当前评估器为 Boltz-2）

3.4 Filter 成药性参数

设置 Ro5、分子量、AlogP、TPSA、QED 等阈值。默认值适合一般小分子筛选，命中过少可适当放宽。理化/警示开关仅控制 Ro5/MW/AlogP/TPSA/QED/PAINS/结构警示，SA 可独立启用。关闭 SA 时默认不新计算 sa_score，也不按 SA 阈值过滤。

ADMET-AI（可选：预测/硬筛）

预测：开启后会对候选做 ADMET-AI 预测，并把指标列写入输出表格（用于标注/参考）。
硬筛：在预测完成后按阈值过滤候选（缺失值不会被强制剔除）。
硬筛预设（下拉）：关闭 / 宽松（推荐） / 严格（0.5） / 自定义
- 关闭：不做过滤（只预测/标注）。
- 宽松（推荐）：hERG/AMES <=0.7，HIA >=0.3（DILI/CYP3A4 不筛）。
- 严格（0.5）：hERG/AMES/DILI/CYP3A4 <=0.5，HIA >=0.5。
- 自定义：手动勾选规则并设置阈值（0-1）。
行为：选择 宽松/严格/自定义 会自动开启“启用筛选”；选择 关闭 会关闭筛选。
提示：选择 自定义 后会保持为自定义；需要恢复 宽松/严格 时请手动再次选择对应预设。

3.5 Collector 共识筛选

Collector 会把 GraphDTA / 相似性 / QSAR 等信号汇总为候选列表，并用于最终命中筛选与排序。阈值越高保留越少；Demo 无命中时可适当降低阈值后再观察。

信号说明（面板会给出每个阈值/开关的提示与默认值）：

GraphDTA：对候选进行打分与门槛筛选；多 GPU 任务下会自动并行处理大候选池。
高精度评估器：当前为 Boltz-2，在 Tester 阶段执行；分数越大结合越强，结合概率可作为额外门槛。一般建议保持启用。
相似性基线（Morgan/Tanimoto，可选）：需要提供参考集合，用于回写 similarity_score 列，并作为辅助排序信号。
QSAR（可选）：需要提供训练集，用于回写 qsar_score 列，并作为辅助排序信号。

GraphDTA 预筛方式：

threshold：按 DTA20/DTA100 阈值保留候选。适合你明确知道希望保留的最低打分门槛。
topm：按 GraphDTA / QSAR / 相似性等排序信号融合后保留前 M 个。它更适合控制进入 Boltz-2 的候选数量，成本更稳定，是当前更推荐的默认控量方式。
hybrid：先应用阈值，再用 TopM 控量或补足。适合既要保留最低质量线，又要控制候选规模的场景。
当 GraphDTA 阈值因当前规则不可编辑时，界面会在灰色字段旁直接提示原因；例如 TopM 模式下 DTA 阈值不参与筛选，切到阈值或 hybrid 后才能编辑。
“QSAR/相似性参与 TopM 排序”只有在对应模块启用且有可用结果时才会生效；缺少结果时系统会自动忽略该信号。
共识排序的推荐参数会启用 RRF 融合，并默认打开预筛 scaffold cap（K=5），避免进入高精度评估器前过度集中于单一骨架。

相似性基线：

开启方式：在 “相似性基线” 模块勾选“启用”，并提供参考集合。
需要提供参考集合，二选一即可：
- 上传参考 SMILES 文件（.smi/.txt/.csv）；或
- 直接粘贴多行 SMILES。
相似性分数会写入 collector/collector_pool.csv（兼容 collector/top_hits.csv）与 output/final_full.csv 的 similarity_score 列，不单独生成文件。

QSAR：

开启方式：在 “QSAR（Chemprop）” 模块勾选“启用”，并上传训练集。
上传训练 CSV，并指定 SMILES 列名与目标列名。
默认列名为 smiles 与 pIC50（大小写不敏感），目标值越大代表活性越强。
训练集建议 ≥100 条；过少会导致效果不稳定或无法训练。

排序说明（当前实现）：

默认以 Boltz-2 为主排序信号；Boltz-2 不可用时，会按可用的 GraphDTA/相似性/QSAR 信号排序。

3.6 最终命中集（自适应 TopN / 阈值过滤 / 实验推荐集）

这部分决定如何从高精度评估器结果中生成最终命中集；当前评估器为 Boltz-2。

默认策略：自适应 TopN
- 系统会先保持较高的 prob 门槛，再在该 prob 层内按 Boltz-2 分数 精确截取 Top N。
- 这是一种固定规模命中集生成策略：更适合直接得到稳定的 Top 结果，不需要手工来回调阈值。
- 实际执行方式：
  1. 先按预设的 prob 门槛从高到低逐层检查候选；
  2. 在每个固定 prob 层内，按 Boltz-2 分数从高到低排序；
  3. 一旦当前层内候选数足够覆盖设定的 Top N，就从该层中精确截取前 Top N 个作为命中集。
阈值过滤：
- 若切换到“阈值过滤”，才会启用 Boltz-2 分数阈值与置信度阈值。
- 适合在你明确想手工控制命中松紧时使用。
Boltz-2 分数阈值：仅在“阈值过滤”下生效，对应 -ΔG（kcal/mol），阈值越高保留越少。
Boltz-2 置信度阈值：仅在“阈值过滤”下生效，对应结合概率，阈值越高保留越少。
命中集 TopN：默认策略下表示“命中集规模”；系统会在当前 prob 层内按 Boltz-2 分数精确截取前 N 条。仍会生成 final_hits_topN.csv 供快速浏览。
实验推荐每骨架保留数：对最终命中集做骨架聚类（scaffold），每个骨架最多保留 N 条，生成 final_hits_recommend.csv。
- 想要更多结构多样性：可以适当增大这个值。
- 只想要最精简的候选：可以减小这个值。
“命中 / 推荐预设”可一键组合命中集 TopN 与实验推荐每骨架保留数：
- 常规实验：TopN 100，每骨架最多 3 个。
- 高置信短名单：TopN 50，每骨架最多 2 个。
- 多样性优先：TopN 150，每骨架最多 1 个。
- 系列跟进：TopN 200，每骨架最多 3 个。

3.7 AiZynthFinder（可选）

用于评估“可合成性/逆合成路线”，并把指标回写到最终输出中（同时在下载包生成 aizynth/ 目录产物）。

开启方式：勾选 “AiZynthFinder 启用”。
默认评估对象：最终命中集，不默认对全量 refined.csv 跑。
sampler=ucb 时，会在 UCB 最终合并命中后只运行一次，不再每轮各跑一次。
AiZynth 筛选（可选）：默认勾选 require_solved（solved=找到路线）；取消勾选后不强制 solved，但需至少填写一个阈值；阈值留空不限制。
输出：通常会在 CSV 里新增 aizynth_is_solved、aizynth_top_score、aizynth_number_of_steps 等列，并生成 aizynth/aizynth_predictions.csv。

建议：首次跑通流程时可以先不启用；当你已有较小的命中集合时再开启更合适（整体更省时）。

3.7A 受体模板、模板重跑与口袋分组（可选/自动）

这组结构复核步骤用于让后续 PosePrep、PocketSiteCluster 和 FEP 尽量使用一致的受体和口袋语义。它们通常随 FEP 准备度复核自动启用，也可以在模块开关中单独启用 “受体模板诊断”。

PocketSiteCluster(seed)：先基于原始 Boltz-2 complex 做较宽松的 binding-site 初始分组，输出 pocket_site_seed/。它用于组织后续模板选择，不是最终 FEP 分组依据。
ReceptorTemplate：在初始 site 基础上选择有多 ligand 支持的受体模板假设，输出 receptor_template/；多 site 时会尽量保留每个 site 的标准受体。它用于回答“这一组候选应该参考哪个受体坐标系”，不是新的 docking 或 MD 稳定性验证。
TemplateRerun：当受体模板可用且开关为自动或开启时，会按初始 site 和受体模板对支持组做二轮 Boltz-2 complex 预测，输出 template_rerun/。
ReceptorFrameCanonicalization：把模板重跑后的配体构象放到对应 site 的统一受体坐标系，输出 receptor_frame/。无法可靠对齐的候选只保留诊断，不进入后续同组口袋分组或 FEP。
PocketSiteCluster(final)：在统一受体坐标系下重新做 binding-site 分组，输出 pocket_site/ 和独立口袋可视化页。FEP 默认优先按最终 binding-site group 建 network，避免把不同口袋混在一起算。
PocketStateCluster：默认只在最终 binding site 内进一步检查是否存在不同 receptor/pose state，输出 pocket_state/。只有确实存在可运行的多 state 时，FEP 才会进一步按 state 拆组；原始诊断模式的结果会隔离在 pocket_state_raw/，不作为主流程 gate。

建议：如果只是普通首轮筛选，可以保持默认；如果要做 FEP readiness 或发现同一口袋被拆得很散，应优先查看 PocketSiteCluster 的分组与可视化，再判断是否需要更严格的 state 细分。

3.11 计费与扣费（费率档位 / 扣费渠道）

费率档位：必选。用于确定本任务的 GPU 单价、页面费用展示和后端结算。
扣费渠道：如果系统启用了扣费渠道（下拉可选），请务必选择一个渠道；右侧会显示余额。
- 若余额为 0 或不足，会提示余额不足，此时请更换渠道或联系管理员处理。
常见报错：
- 提交时提示“请选择费率档位”：说明未选择费率档位。
- 提交后端报错“缺少计费单价，请刷新费率后重试”：通常是费率未拉取成功或后端无法解析费率，请刷新页面后重试；必要时联系管理员检查主站费率接口与账号配置。

4. 任务队列与状态

列表展示：任务名、阶段、进度、状态、耗时、费用（按 GPU 单价 × 任务 GPU 卡数 × 运行时长估算；运行时长基于 started_at/finished_at，排队时间不计费）
“刷新”：从超算同步当前页的任务最新状态；为了保护系统，按钮有频率限制（短时间内多次点击会暂时禁用），稍等片刻再试即可
“全部刷新”：从超算端同步所有任务的最新状态（可能更慢，也会受到刷新频率限制）
“状态”筛选：可按进行中 / 已完成 / 失败或取消过滤任务列表（含内存溢出）；当状态不是“全部”时，筛选控件会按状态类型高亮显示
“搜索”：支持按 UUID / Job ID / 任务名搜索（子串匹配）定位任务
“排序”：支持按创建时间/磁盘占用排序
“下载”：结束后的任务可以打包下载结果
点击任务名可改名，便于后续检索和区分相似任务
顶部信息栏会显示当前账号的空间占用与配额（若配置）
“提交日志”：查看提交到超算前的准备工作日志
“日志”：任务已经在超算上开始计算后的运行日志（展示最新的 run.log / run.log.last）
“告警”：状态旁出现数字徽标时，表示该任务已有运行告警或系统诊断告警。点开后会先显示卡住、运行过久、远端状态不一致等操作建议，再显示 runner 写入的 warnings.log。任务失败本身不会单独生成用户侧告警徽标，因为失败状态已显示原因；若失败任务还有 runner warning，则仍会显示告警。运行过久阈值会按任务规模和类型调整：小规模普通任务更早提示，FEP、Quantum、MD 等长任务使用更宽阈值。
“报告”：查看任务分析报告；若提示费用结算中，稍后刷新再试。按住 Shift 再点击可强制重新生成报告
“载入”：打开菜单选择载入范围。“输入+参数”只恢复历史任务的表单参数和输入文件；“结果来源”只把该任务设为分子生成的历史结果来源，不覆盖当前参数；“全部载入”同时恢复输入、参数并把该任务设为历史结果来源
“断点续算”：新建任务并复用已完成阶段产物，自动跳过已完成步骤；若先“载入”并修改参数，提交时会提示是否覆盖（确认覆盖会从最早受影响阶段重算；任务 GPU 卡数属于资源参数，只会用于新任务和后续未完成阶段，不会因为仅改 GPU 数而重跑已完成计算；打开“允许 CPU fallback”会从支持 CPU 重试的较早阶段重新进入，用于修复 GPU 路径失败；不覆盖则按原任务参数续算）
“取消”：停止任务
“删除”：软删除（清理任务文件/缓存，保留任务记录用于计费与审计）

状态说明：

SUBMITTED：已提交，排队中
RUNNING：正在运行
COMPLETED：完成，可下载
FAILED：失败（查看日志定位）
CANCELLED：已取消
OUT_OF_MEMORY：内存溢出，调度器终止（视为失败）
UNKNOWN：状态未同步（同步超时/SSH 失败等），建议稍后刷新

阶段说明：

Submitting：提交阶段（上传并保存输入，准备任务配置，提交到超算队列）
Queued：调度器排队中（尚未分配到计算节点）
Preparing：作业启动、环境准备或断点续算数据复制（已进入计算节点）
Sampler：候选采样
Filter：成药性过滤
ADMET：ADMET-AI 预测/过滤（可选）
GraphDTA：DTA 打分（可选，共识的一部分）
QSAR：QSAR 预测（可选）
Collector：共识筛选（融合 GraphDTA/相似性/QSAR，产出共识候选列表）
DockingRescore：Collector 后的小池 docking/rescore 复核（可选）
Tester：高精度结构评估，当前为 Boltz-2 计算/复用/整理结果
PocketSiteClusterSeed：基于原始 Boltz-2 complex 的前置 binding-site 初始分组（启用或自动触发时）
PocketStateClusterRaw：原始 Boltz-2 口袋状态诊断；只在原始诊断模式下出现（可选）
ReceptorTemplate：从 Boltz-2 复合物中选择可复用受体模板（启用或自动触发时）
TemplateRerun：使用选中的受体模板重新生成候选复合物（启用或自动触发时）
ReceptorFrameCanonicalization：把候选放到统一受体坐标系；无法可靠对齐的候选会保留诊断但不进入后续同组计算（启用或自动触发时）
PocketSiteCluster：按 binding site/groove 给候选分组，供 FEP 等后续复核避免混入口袋不同的候选（启用或自动触发时）
PocketStateCluster：在 final binding site 内做 receptor/pose state 诊断或细分（启用或自动触发时）
PosePrepReview：结构准备与 pose/pocket 风险复核（可选）
PocketCluster：Boltz-2 pocket label 标注（自动/可选）
AIZynth：合成可行性评估（可选）
Output：合并各阶段结果并生成最终输出 CSV
Report：生成分析报告（若成功生成，最终 stage 通常为 Report）
R0/R1 ...：UCB round 轮次前缀，后面仍是具体阶段名（如 R0/Sampler、R0/GraphDTA、R0/Chemprop；R0 为冷启动轮，R1+ 为预测采样轮）

UCB 说明：

round 0（冷启动轮）：先选候选（默认从 Active Pool；关闭 Active Pool 时按 sampler_warmup_size 从全库随机），再跑一轮 SFCT（直到 Output），最后训练 Chemprop（R0/Chemprop）。
round 1+（预测采样轮）：用上一轮模型预测并选点，再跑一轮 SFCT（直到 Output），最后训练 Chemprop（R1+/Chemprop）。
所有轮次完成后才会生成一次 Report（reports/），因此每轮目录里通常不会出现 Report 阶段产物

5. 结果下载

任务完成或失败均可点击“下载”获取结果包用于排查。下载结果为 .tar.gz 压缩包，包含完整工作目录与日志。下载会优先复用后端缓存；缓存过期或损坏会自动重打包并回填缓存。如果怀疑下载包还是旧缓存，可按住 Shift 再点击“下载”，强制重新打包。

常见目录：

output/：最终结果文件
logs/：运行日志（run.log / run.log.last）
sampler/ filter/ admet/ graphdta/ qsar/ collector/ boltz2/ aizynth/ ucb/：各阶段中间产物
docking/：Docking 小池复核产物（启用时）
receptor_template/、template_rerun/、receptor_frame/：受体模板、模板重跑和统一受体坐标系产物（启用或自动触发时）
pocket_site_seed/：原始 Boltz-2 结构上的初始 binding-site 分组（启用或随 FEP 自动触发时）
pocket_site/：统一受体坐标系下的 final binding-site 分组产物和可视化（启用或随 FEP 自动触发时）
pocket_state/：final site 内的 receptor/pose state 诊断或细分（启用或自动触发时）
pocket_state_raw/：原始 Boltz-2 口袋状态诊断产物，仅原始诊断模式会出现
poseprep/：PosePrep 结构准备产物（启用时）
reports/：报告（若生成成功）
input/：备份的输入文件

标准输出文件名（中文说明）：

以下文件位于下载包的 output/ 目录：

final_hits.csv：最终命中集（按主排序信号降序；通常以 Boltz-2 为主）
final_full.csv：全量快照（非 UCB 流程；未打分/缺失值会排在末尾）
final_hits_topN.csv：TopN 命中视图（按 Boltz-2 分数排序，N 可配置）
final_hits_recommend.csv：实验推荐集（骨架聚类后每个骨架保留一定数量，按簇内 Boltz-2 排名排序）。报告结果中会在 TopN 旁显示实验推荐集的簇数统计。
ucb_last_round.csv：UCB 最后一轮命中
ucb_last_round_full.csv：UCB 最后一轮全量快照
ucb_final_hits.csv：UCB 合并命中（去重）
ucb_final_full.csv：UCB 合并全量快照（去重，按 Boltz-2 分数降序；其中未进入 Boltz-2 精评的审计候选可能没有 score/prob，报告会单独显示 scored 行数）
ucb_final_hits_topN.csv：UCB 合并 TopN 命中视图（按 Boltz-2 分数排序）
ucb_final_hits_recommend.csv：UCB 合并实验推荐集（骨架聚类后每簇保留一定数量）
logs/run.log / logs/run.log.last：完整运行日志（超过阈值后续写 run.log.last）

推荐查看顺序（第一次使用时更省时间）：

（UCB 模式请把 final_* 替换为 ucb_final_* 对应文件。）

先看 “报告”（如果有）
再看 final_hits_topN.csv（快速浏览 Top 命中）
再看 final_hits_recommend.csv（按 scaffold 聚类后的多样性集合）
需要全量复核时再看 final_full.csv

文件名变更（2026-01-15）：

final_hits_full.csv → final_full.csv
final_hits_all_rounds.csv → ucb_final_hits.csv
final_full_all_rounds.csv → ucb_final_full.csv
旧文件名仍兼容读取（报告/统计会自动回退）

5.1 如何看输出 CSV（常用列）

常见列（不同任务/开关下可能有缺失）：

rank：命中排名（final_hits.csv 从 1 开始编号；final_full.csv 未命中通常为空）。
ligand_id：分子主键（用于 join 与去重）。
SMILES：结构字段（最终输出通常会归一化为 SMILES 一列）。
boltz2_score / boltz2_prob：Boltz-2 高精度结构评估分数与概率（越大越强/越可信）。
graphdta_dta20 / graphdta_dta100：GraphDTA 打分（越大越好）。
similarity_score：相似性分数（0~1，越大越相似；需要提供参考集合）。
qsar_score：QSAR 打分（越大越好；需要提供训练集）。

实验推荐集相关（final_hits_recommend.csv / ucb_final_hits_recommend.csv）：

scaffold_id：骨架（Murcko scaffold；用于聚类）。
cluster_size：该 scaffold 下的条目数。
cluster_rank：簇内排序名次。

排序与阈值小结：

启用 Boltz-2：主要按 boltz2_score（再 boltz2_prob）从高到低排序。
未启用 Boltz-2：会按可用的 GraphDTA/相似性/QSAR 信号排序。

6. 常见问题

问题	处理建议
任务列表空 / 刷新慢	可能在同步远端状态时超时，可稍后再刷新。
刷新按钮灰掉/倒计时	刷新需要连接超算，有节流限制，点击刷新后按钮会进入倒计时，结束后恢复可点。
Boltz-2 报错	优先检查 MSA/目标序列是否一致（最常见是 `E_MSA_LEN_MISMATCH`），以及 MSA 是否可解析。必要时下载结果包查看 `logs/run.log` 的报错上下文；仍无法定位可联系管理员协助排查运行环境。
提交报错：请选择费率档位 / 缺少计费单价	先确认已选择“费率档位”；若仍报错，通常是费率拉取失败或网络异常，刷新页面后重试。
提交报错：扣费渠道余额不足 / 扣费渠道不可用	更换扣费渠道后重试；若所有渠道都不可用，请联系管理员处理余额或渠道状态。
提交报错：化合物库 CSV 缺少列 / 文件为空	先检查 CSV 表头是否有 `smiles`，且至少包含 1 行有效数据；UCB 模式还需要稳定的可识别 ID 列（如 `ligand_id`/`origin_id`/`ID`）。若由 Excel 导出，请确认分隔符与表头未被破坏。
命中为 0 / TopN 为空	优先检查阈值是否过严： • 适当放宽 Filter（Ro5/MW/LogP/TPSA/QED）或关闭部分过滤开关 • 降低 GraphDTA 门槛 • 降低 Boltz-2 的 -ΔG/概率阈值其次检查输入与依赖： • 确认目标序列、MSA（A3M）一致且可解析 • 查看 “日志 / 报告 / 下载包” 里对应阶段的产物与错误信息（GraphDTA/Boltz-2 常见会在这里暴露根因）。
提交被拒绝：空间占用超限	删除不需要的历史任务（“删除”会清理任务目录与缓存，释放空间），再重新提交。
下载失败	任务尚未完成或远端产出未同步，请稍后重试。
任务失败：Disk quota exceeded / No space left on device	这是磁盘空间/配额问题。优先删除不需要的历史任务释放空间；若仍失败，请联系管理员检查账号配额或临时目录配置。

附录：功能名称与技术字段对照

本表用于说明页面功能背后的技术字段。日常使用时只需关注功能作用；只有复现提交配置或排查问题时，才需要查看这些字段。

页面功能	功能作用	常见技术字段（高级/排查时用）
采样方式	决定从候选集合里如何抽样进入后续流程，例如全量、随机或 UCB。	`sampler` `sampler_size` `sampler_kappa` `sampler_rounds`
候选池加速	用较小活动池加快 UCB/采样计算。	`sampler_active_pool_enabled` `sampler_active_pool_source` `sampler_active_pool_size`
理化性质过滤	按分子量、脂溶性、TPSA、QED、PAINS 等规则筛掉明显不合适的分子。	`filter.mw_` `filter.alogp_` `filter.tpsa_` `filter.qed_` `filter.pains_*`
合成可行性过滤	开启后计算 SA 分数，并按阈值筛掉分子。	`filter.sa_placement` `filter.sa_max`
ADMET-AI	预测 ADMET 指标，可只做标注，也可按阈值过滤。	`admet.enabled` `admet.filter_enabled` `admet.filters`
共识筛选	用 GraphDTA / QSAR / 相似性等信号综合排序，决定谁进入后续高精度评估。	`collector.graphdta_filter_mode` `collector.graphdta_topm` `collector.dta20_min` `collector.dta100_min`
QSAR	使用自定义训练集生成一个额外排序信号。	`qsar_enabled` `qsar_smiles_column` `qsar_target_column`
相似性参考	用参考分子做相似性排序或兜底加权。	`collector.similarity.*`
高精度评估器	对候选做高精度结构评估，并按最终命中集策略生成结果。当前评估器为 Boltz-2；默认使用自适应 TopN，也支持阈值过滤。	`boltz2_enabled` `collector.final_strategy` `collector.a1_prob_thresholds` `collector.boltz2_score_min` `collector.boltz2_prob_min` `boltz2_top_structures`
AiZynth 合成评估	评估可合成性；默认作为结果附加信息，也可只在最终命中时做硬过滤。	`aizynth.enabled` `aizynth.filter_enabled` `aizynth.filter.*`
受体模板诊断	从 Boltz-2 complex 中选择受体模板，必要时触发模板重跑、统一受体坐标系和 binding-site 分组；用于 FEP/PosePrep 前的一致性复核。	`receptor_template.enabled` `template_rerun_enabled` `receptor_frame_canonicalize_enabled` `pocket_site_enabled`
分子生成	用 REINVENT4 生成新分子并并入候选集合。	`sampler_generator_enabled` `sampler_generator_count` `sampler_generator_steps`