返回主站

全自动药物筛选引擎(AutoDrug Screening Engine)用户使用说明

为什么选择 AutoDrug

  • 全流程自动化:一次性提交,平台内自动完成药物筛选全流程(提交、排队、进度追踪、日志查看与结果下载)。
  • 覆盖不同规模:小规模化合物库可全量/随机,大规模化合物库可用 UCB 多轮迭代;支持上传库/预置库/分子生成组合候选集合。
  • 结果可复核:输出 CSV、报告与中间产物可打包下载,便于复现与复核。
  • 节省重复计算:支持载入历史任务与断点续算,参数微调后可从受影响阶段重算。

本文档覆盖任务提交流程、Demo 使用、结果下载与常见问题。

0. 开始前(准备清单)

新手建议先跑一次 Demo,熟悉“提交 -> 跑完 -> 下载 -> 看 CSV/报告”的闭环,再替换为自己的数据。

你通常需要准备:

  • 靶点序列(直接粘贴)或目标文件(PDB/CIF/mmCIF/FASTA 等,系统会提取序列并回填)
  • MSA(A3M):建议准备(可上传 A3M,或开启“自动获取 MSA”)。
  • 化合物来源:上传/数据中心 CSV,或直接选择预置库(也可选启用分子生成)

可选准备:

  • 相似性参考集合(SMILES 文件或多行文本)
  • QSAR 训练集(CSV,含 SMILES 列与目标值列)

1. 快速开始

  1. 打开工作流页面
  2. 填写任务名称
  3. 填写靶点序列或上传 PDB/CIF/mmCIF/FASTA(自动提取序列)
  4. 上传 MSA(A3M)或开启“自动获取 MSA”
  5. 可选:按任务规模确认采样、TopM/TopN 与复核模块等关键参数
  6. 上传化合物库 CSV(或选择数据中心 CSV/预置库;>50MB 建议使用数据中心)
  7. 选择采样策略
  8. 选择费率档位(必选)
  9. 若页面出现“扣费渠道”下拉,也请选择一个渠道(用于扣费/余额校验)
  10. 点击“运行筛选”

提交后可在任务列表查看进度、日志与结果下载。 当用户任务目录占用超过上限时,提交会被拒绝,请先清理历史任务。

2. Demo 体验

Demo 数据

右上角 “加载 Demo 数据” 可选择 Demo 模式并自动填充:

  • Mini · 快速体验demo_target.pdb + demo_msa.a3m + demo_compounds_minimal.csv,适合快速熟悉提交流程。
  • Large · 更完整样例:替换为更大数目的目标结构、MSA 与化合物样例;默认随机采样,可按需调整。

加载后可直接提交体验。

Demo 的主要目的是验证链路可跑通与理解界面字段,不代表真实项目的筛选质量或产出规模。

3. 表单字段说明

3.0 SFCT 流程概览(S/F/C/T)

页面左侧的“模块开关(S/F/C/T)”对应整个筛选流水线的四个关键环节:

  • S (Sampler):合并所有已启用来源(化合物库输入 / 预置库 / 分子生成),按采样策略(全量/随机/UCB)产生候选集合。
  • F (Filter):对候选做理化/警示/SA 等规则过滤;可选用 ADMET-AI 做标注或过滤。
  • C (Collector):对候选做共识信号打分与筛选(GraphDTA/QSAR/相似性等),并形成用于后续高精度评估与输出的候选列表。
  • T (Tester):高精度评估。当前使用 Boltz-2 做结构评估,并据此生成最终命中集与实验推荐集;可选启用 AiZynthFinder 评估合成可行性。

提交成功后,你会在任务列表看到更细的阶段名(如 Sampler/Filter/Collector/Tester/Output/Report),但整体仍可按上面的 S/F/C/T 来理解。

3.1 基础信息

  • 任务名称:用于列表显示与检索,建议包含日期/目标名便于追踪。
  • 靶点序列:必填,可直接粘贴氨基酸序列(或通过上传文件回填)。
  • 目标结构/序列文件:支持 .pdb/.cif/.mmcif/.fa/.fasta/.faa,上传后会自动提取序列并回填;提供 PDB/CIF/mmCIF 时可用于 Boltz-2 模板,并会显示结构预览。该预览只展示结构文件内已有的蛋白、结构内配体和口袋邻域;CSV/SMILES 化合物库不会在页面里生成三维配体构象。一般来说计算过程中主要使用序列,结构文件只是补充。
  • 模板策略:仅在提供 PDB/CIF/mmCIF 时生效。
    • 禁用模板(默认):按页面靶点序列与上传 MSA 运行,最稳定。
    • 使用模板链序列:页面会解析结构文件中的模板链,并展示用于 Boltz-2 的模板链序列;MSA 需要匹配这条序列,可上传手动获取的 A3M,也可开启服务端自动获取。
    • 自动严格匹配:仅在模板链序列与页面靶点序列完全一致时使用模板,否则自动禁用模板。
    • 建议优先保持默认禁用;只有确认结构链就是要计算的蛋白链,并且能为该链序列提供或自动获取 MSA 时,再使用模板链序列。
  • MSA 文件:.a3m,建议提供,且需与目标序列一致。
    • 常见方式:
      • 上传 A3M 文件;或
      • 开启“自动获取 MSA(服务端)”(未上传 A3M 时会在提交阶段自动获取并写入,可能稍有等待)。
        • 若出现“服务来源”下拉,一般保持默认即可(不同来源会影响获取速度与质量)。
    • 服务端会进行格式/长度预检(包括 NUL 字节等异常),失败会直接拒绝提交。
    • 运行阶段会再次校验 MSA 可解析性;异常会导致任务失败。
    • 若上传的 MSA 与最终用于 Boltz-2 的序列长度不一致会直接失败。
    • 常见报错:E_MSA_LEN_MISMATCH(MSA 序列长度与目标序列不一致)。未使用模板链序列时,以页面“靶点序列”为准重新生成 A3M;使用模板链序列时,以页面展示的模板链序列为准重新生成 A3M,或开启服务端自动获取。
    • 参考工具:HHblits 在线工具
  • 流程版本:默认 SFCT-FLOW v2,页面默认隐藏该控件;一般不需要手动设置。
  • 任务 GPU 卡数:默认 1。表示本任务申请和计费的 GPU 数;调大后,系统会自动使用更多 GPU 加速运行。
  • 允许 CPU fallback:默认关闭。首跑遇到 GPU/CUDA 环境问题失败后,可以先从失败任务选择“载入”恢复输入和参数,再打开该开关后“断点续算”;系统会让支持的 GPU 阶段尝试 CPU 重试。开启后可能明显变慢,适合作为失败修复手段,而不是常规默认配置。

3.2 化合物库输入

支持三类来源(可组合启用):

  • 化合物库输入:上传 CSV 或选择数据中心 CSV
  • 预置库:按分组选择一个或多个已有集合
  • 分子生成:由 REINVENT4 生成并与上述来源合并后再采样

建议:

  • 化合物库超过 50MB 时建议使用数据中心 CSV(更稳定,也更适合重复使用)。
  • 预置库会按集合来源分组,并显示分子数(可获取时);多选时面板会估算总分子数,超过大库阈值时提示优先使用随机/UCB。

SMILES 预检与剔除规则(你通常只需要知道“会检查、会统计”):

  • 提交阶段会对 SMILES 做预检:化合物库允许少量无效(超过阈值会拒绝);相似性参考/分子生成使用独立阈值(通常更严格)。
  • 大文件或本地缺 RDKit 时,会改为超算端校验。
  • 运行阶段会先清洗当前化合物源(COMPOUND_SOURCE_CSV,可能是上传/预置库/分子生成合并后的池),自动剔除无效 SMILES 并记录数量。
  • 清洗后文件为 artifacts/compounds_clean.csv;无效条目会记录到 artifacts/invalid_smiles.csv,随后才进入 prefilter/sampler。

上传 CSV 与数据中心 CSV:

  • 上传 CSV:直接选择本地 .csv 文件上传(适合小文件或临时验证)。
  • 数据中心 CSV:从下拉选择主站数据中心已有文件。
    • 当下拉里没有你需要的文件时,可在该面板上传到数据中心,上传完成后会出现在下拉里(大文件推荐这一方式)。

CSV 必需列:

  • smiles:标准化 SMILES(列名大小写不敏感;也支持 canonical_smiles / structure_smiles / structure / smile 等常见写法)

建议提供:

  • ligand_id:分子 ID(唯一标识;也可使用 origin_id / ID / compound_id / hit_id / molecule_id

其余列会原样保留并随流程传递,便于后续复核。

最小 CSV 示例:

ligand_id,smiles
L0001,CCO
L0002,CC(=O)O

说明:

  • 非 UCB:允许缺 ID 列,系统会自动补 ligand_id=ligand_<row_index>,并在面板提示风险(建议仍提供稳定 ID)。
  • UCB:必须包含可识别的 ID 列(如 ligand_id / origin_id / ID),否则会拒绝提交/运行。
  • 若同时提供 ligand_idorigin_id,两者必须一致,否则会报错。
  • SMILES 列名大小写不敏感,支持常见别名;运行阶段会把列名归一化为 SMILES 供下游使用。

3.2.1 预置库(Preset Library)

预置库是平台内置的常用公开小分子集合(例如 ChEMBL、ZINC、DrugBank、TargetMol 特色库、高性价比数据库-核心等),可以不上传任何 CSV 直接作为筛选来源。

  • 开启方式:在左侧 “S (Sampler) -> 预置库” 勾选“启用”,并在“预置库”面板选择一个或多个集合。
  • 典型用途:快速试跑、做 baseline;也可以直接用于真实药物筛选(例如从已知药物/可购集合中优先筛一轮),或与自有库/分子生成组合后统一采样。
  • TargetMol 特色库会在下拉中独立分组,包含活性库、共价库、片段库、大环库、分子胶库、天然产物单体库和天然产物衍生物库,适合按药物发现场景直接选择候选来源。
  • 高性价比数据库-核心会在下拉中独立分组,包含 D001T001 两个核心集合。
  • 组合方式:可多选预置库,也可与“化合物库输入/分子生成”同时启用,系统会合并去重后再统一采样。选择多个大库时,建议使用随机或 UCB 采样,避免直接全量筛选。
  • 如果下拉里没有你需要的集合:联系管理员补充或开通。

3.2.2 分子生成(REINVENT4)

分子生成作为化合物来源之一,开启后会与用户库/预置库合并再采样,无需上传配置文件,系统自动选择 REINVENT4 先验模型。

  • 直接生成(de novo):无需输入。
  • 相似度驱动生成:提供参考 SMILES(每行一个,支持“上传文件”或“多行文本”二选一)。
  • 骨架约束生成:提供普通分子 SMILES 或骨架 SMILES(每行一个,支持文件或多行文本);普通 SMILES 会自动提取 Murcko scaffold 并加 [*:1] 锚点,已带锚点但含带电 bracket atom 的骨架会先尝试标准化/去电荷。
  • R-group 生成:同骨架约束生成;若需要精确控制取代位置,建议直接输入带 [*:1] 的骨架。
  • Linker 生成:提供片段 A/B(每行一个,A/B 行数需一致;支持文件或多行文本),系统按 A|B 组合生成。
  • 输入来源(similarity / scaffold / rgroup):除手动输入外,还可选择使用 Boltz2 命中池自动生成输入集合。非 UCB 任务可在分子生成参数区的“历史结果任务”下拉框直接选择来源;下拉框会单独读取已完成历史任务,不受当前任务列表分页影响,支持按任务名、UUID 或 Job ID 搜索,并按 20 条/页翻页。这只会把某个历史任务的 Boltz2 命中结果选为来源,不会载入该历史任务的参数或输入文件。UCB 任务可直接使用本任务上一轮/累计池子(从 round 1 开始)。支持“全局/合并”与“最近一轮”两种池子。
  • 生成数量:按每条输入生成,必填;默认 200。
  • 若任务 GPU 卡数调大,系统会自动使用更多 GPU 加速分子生成,输出仍是一个候选集合。

输入文件格式:

  • .smi/.txt:每行一个 SMILES(空行会自动忽略)。
  • .csv:支持包含 SMILES 列的 CSV;若未识别到 SMILES 列,会按首列解析并在面板提示。
  • scaffold / rgroup 模式下,未带 [*:1] 的普通 SMILES 会在运行端自动转换为带锚点骨架;已带锚点但含带电 bracket atom 的骨架会先尝试标准化/去电荷;无法解析或无法提取时会跳过该行,全部不可用时分子生成不会产生候选。

说明:

  • 当你选择了文件输入时,对应的文本框会被清空;反之,当你在文本框手动输入时,会自动清空文件选择(避免两者冲突)。
  • 大输入建议用文件而不是粘贴长文本,提交更稳定,也便于“载入/断点续算”时恢复输入。

3.3 Sampler 采样策略

可选 全量 / 随机 / UCB

  • 采样会先合并所有已启用来源(用户库 / 预置库 / 分子生成),再统一采样。
  • 全量:适合小库或演示场景,覆盖全部候选。
  • 随机:适合大库快速试跑(可设置采样数量)。
  • UCB:适合大规模化合物库的多轮主动学习。常用保持自适应预算,只按需调整 κ;只有切到固定预算时,才填写每轮采样数和迭代轮数。
    • 默认开启候选池加速:第 0 轮在候选池内采样,warmup 参数在前端不显示。
    • 关闭候选池加速:可设置 sampler_warmup_size,第 0 轮按该值从全库随机冷启动。
    • 候选池来源默认自动:N<=2M 优先用 Collector 排序建池,超大库回退随机初始化。
    • UCB 轮内 TopM 为空时,轮内 Collector 等效直通,直接进入 Tester(Boltz-2)。
    • 如果专家手动填写 TopM/Hybrid,Collector 建池来源会复用缓存评分控量;随机/全库来源才对本轮候选补跑评分链后控量。
    • 注入/替换/退火参数在“高级参数”折叠区,通常保持默认即可。

UCB 迭代:选择本轮候选 → Collector(TopM/Hybrid 或直通)→ Boltz-2 评估 → Chemprop 学习 → 下一轮选点;TopM/Hybrid 只控制轮内 Collector 节点内部是否控量。 注意:UCB 模式会强制启用 Boltz-2(不可关闭),并要求化合物库包含可识别的 ID 列。 UCB 详细参数与输出解释见:UCB 用户手册

术语对照(UCB):

  • Active Pool = 候选池(每轮工作的子集,不是全库)
  • top_n / per_round / sampler_size = 每轮采样数
  • warmup = 冷启动样本数(仅候选池关闭时生效)
  • Round0 = 冷启动轮,Round1+ = 预测采样轮
  • source=auto = 默认来源;N<=2M 用 Collector 排序建池,N>2M 回退随机初始化
  • source=collector = 初始化时前置打分建池并缓存评分列,后续 UCB 轮次默认复用缓存评分
  • P/E/R = 候选池大小 / 每轮注入量 / 周期替换量
  • tau(温度)= 注入抽样温度;越大越探索,越小越偏向头部
  • Tester = 高精度结构评估阶段(当前评估器为 Boltz-2)

3.4 Filter 成药性参数

设置 Ro5、分子量、AlogP、TPSA、QED 等阈值。 默认值适合一般小分子筛选,命中过少可适当放宽。 理化/警示开关仅控制 Ro5/MW/AlogP/TPSA/QED/PAINS/结构警示,SA 可独立启用。 关闭 SA 时默认不新计算 sa_score,也不按 SA 阈值过滤。

ADMET-AI(可选:预测/硬筛)

  • 预测:开启后会对候选做 ADMET-AI 预测,并把指标列写入输出表格(用于标注/参考)。
  • 硬筛:在预测完成后按阈值过滤候选(缺失值不会被强制剔除)。
  • 硬筛预设(下拉)关闭 / 宽松(推荐) / 严格(0.5) / 自定义
    • 关闭:不做过滤(只预测/标注)。
    • 宽松(推荐):hERG/AMES <=0.7,HIA >=0.3(DILI/CYP3A4 不筛)。
    • 严格(0.5):hERG/AMES/DILI/CYP3A4 <=0.5,HIA >=0.5
    • 自定义:手动勾选规则并设置阈值(0-1)。
  • 行为:选择 宽松/严格/自定义 会自动开启“启用筛选”;选择 关闭 会关闭筛选。
  • 提示:选择 自定义 后会保持为自定义;需要恢复 宽松/严格 时请手动再次选择对应预设。

3.5 Collector 共识筛选

Collector 会把 GraphDTA / 相似性 / QSAR 等信号汇总为候选列表,并用于最终命中筛选与排序。 阈值越高保留越少;Demo 无命中时可适当降低阈值后再观察。

信号说明(面板会给出每个阈值/开关的提示与默认值):

  • GraphDTA:对候选进行打分与门槛筛选;多 GPU 任务下会自动并行处理大候选池。
  • 高精度评估器:当前为 Boltz-2,在 Tester 阶段执行;分数越大结合越强,结合概率可作为额外门槛。一般建议保持启用。
  • 相似性基线(Morgan/Tanimoto,可选):需要提供参考集合,用于回写 similarity_score 列,并作为辅助排序信号。
  • QSAR(可选):需要提供训练集,用于回写 qsar_score 列,并作为辅助排序信号。

GraphDTA 预筛方式:

  • threshold:按 DTA20/DTA100 阈值保留候选。适合你明确知道希望保留的最低打分门槛。
  • topm:按 GraphDTA / QSAR / 相似性等排序信号融合后保留前 M 个。它更适合控制进入 Boltz-2 的候选数量,成本更稳定,是当前更推荐的默认控量方式。
  • hybrid:先应用阈值,再用 TopM 控量或补足。适合既要保留最低质量线,又要控制候选规模的场景。
  • 当 GraphDTA 阈值因当前规则不可编辑时,界面会在灰色字段旁直接提示原因;例如 TopM 模式下 DTA 阈值不参与筛选,切到阈值或 hybrid 后才能编辑。
  • “QSAR/相似性参与 TopM 排序”只有在对应模块启用且有可用结果时才会生效;缺少结果时系统会自动忽略该信号。
  • 共识排序的推荐参数会启用 RRF 融合,并默认打开预筛 scaffold cap(K=5),避免进入高精度评估器前过度集中于单一骨架。

相似性基线:

  • 开启方式:在 “相似性基线” 模块勾选“启用”,并提供参考集合。
  • 需要提供参考集合,二选一即可:
    • 上传参考 SMILES 文件(.smi/.txt/.csv);或
    • 直接粘贴多行 SMILES。
  • 相似性分数会写入 collector/collector_pool.csv(兼容 collector/top_hits.csv)与 output/final_full.csvsimilarity_score 列,不单独生成文件。

QSAR:

  • 开启方式:在 “QSAR(Chemprop)” 模块勾选“启用”,并上传训练集。
  • 上传训练 CSV,并指定 SMILES 列名与目标列名。
  • 默认列名为 smilespIC50(大小写不敏感),目标值越大代表活性越强。
  • 训练集建议 ≥100 条;过少会导致效果不稳定或无法训练。

排序说明(当前实现):

  • 默认以 Boltz-2 为主排序信号;Boltz-2 不可用时,会按可用的 GraphDTA/相似性/QSAR 信号排序。

3.6 最终命中集(自适应 TopN / 阈值过滤 / 实验推荐集)

这部分决定如何从高精度评估器结果中生成最终命中集;当前评估器为 Boltz-2。

  • 默认策略:自适应 TopN
    • 系统会先保持较高的 prob 门槛,再在该 prob 层内按 Boltz-2 分数 精确截取 Top N。
    • 这是一种固定规模命中集生成策略:更适合直接得到稳定的 Top 结果,不需要手工来回调阈值。
    • 实际执行方式:
      1. 先按预设的 prob 门槛从高到低逐层检查候选;
      2. 在每个固定 prob 层内,按 Boltz-2 分数从高到低排序;
      3. 一旦当前层内候选数足够覆盖设定的 Top N,就从该层中精确截取前 Top N 个作为命中集。
  • 阈值过滤:
    • 若切换到“阈值过滤”,才会启用 Boltz-2 分数阈值与置信度阈值。
    • 适合在你明确想手工控制命中松紧时使用。
  • Boltz-2 分数阈值:仅在“阈值过滤”下生效,对应 -ΔG(kcal/mol),阈值越高保留越少。
  • Boltz-2 置信度阈值:仅在“阈值过滤”下生效,对应结合概率,阈值越高保留越少。
  • 命中集 TopN:默认策略下表示“命中集规模”;系统会在当前 prob 层内按 Boltz-2 分数精确截取前 N 条。仍会生成 final_hits_topN.csv 供快速浏览。
  • 实验推荐每骨架保留数:对最终命中集做骨架聚类(scaffold),每个骨架最多保留 N 条,生成 final_hits_recommend.csv
    • 想要更多结构多样性:可以适当增大这个值。
    • 只想要最精简的候选:可以减小这个值。
  • “命中 / 推荐预设”可一键组合命中集 TopN 与实验推荐每骨架保留数:
    • 常规实验:TopN 100,每骨架最多 3 个。
    • 高置信短名单:TopN 50,每骨架最多 2 个。
    • 多样性优先:TopN 150,每骨架最多 1 个。
    • 系列跟进:TopN 200,每骨架最多 3 个。

3.7 AiZynthFinder(可选)

用于评估“可合成性/逆合成路线”,并把指标回写到最终输出中(同时在下载包生成 aizynth/ 目录产物)。

  • 开启方式:勾选 “AiZynthFinder 启用”。
  • 默认评估对象:最终命中集,不默认对全量 refined.csv 跑。
  • sampler=ucb 时,会在 UCB 最终合并命中后只运行一次,不再每轮各跑一次。
  • AiZynth 筛选(可选):默认勾选 require_solved(solved=找到路线);取消勾选后不强制 solved,但需至少填写一个阈值;阈值留空不限制。
  • 输出:通常会在 CSV 里新增 aizynth_is_solvedaizynth_top_scoreaizynth_number_of_steps 等列,并生成 aizynth/aizynth_predictions.csv

建议:首次跑通流程时可以先不启用;当你已有较小的命中集合时再开启更合适(整体更省时)。

3.7A 受体模板、模板重跑与口袋分组(可选/自动)

这组结构复核步骤用于让后续 PosePrep、PocketSiteCluster 和 FEP 尽量使用一致的受体和口袋语义。它们通常随 FEP 准备度复核自动启用,也可以在模块开关中单独启用 “受体模板诊断”。

  • PocketSiteCluster(seed):先基于原始 Boltz-2 complex 做较宽松的 binding-site 初始分组,输出 pocket_site_seed/。它用于组织后续模板选择,不是最终 FEP 分组依据。
  • ReceptorTemplate:在初始 site 基础上选择有多 ligand 支持的受体模板假设,输出 receptor_template/;多 site 时会尽量保留每个 site 的标准受体。它用于回答“这一组候选应该参考哪个受体坐标系”,不是新的 docking 或 MD 稳定性验证。
  • TemplateRerun:当受体模板可用且开关为自动或开启时,会按初始 site 和受体模板对支持组做二轮 Boltz-2 complex 预测,输出 template_rerun/
  • ReceptorFrameCanonicalization:把模板重跑后的配体构象放到对应 site 的统一受体坐标系,输出 receptor_frame/。无法可靠对齐的候选只保留诊断,不进入后续同组口袋分组或 FEP。
  • PocketSiteCluster(final):在统一受体坐标系下重新做 binding-site 分组,输出 pocket_site/ 和独立口袋可视化页。FEP 默认优先按最终 binding-site group 建 network,避免把不同口袋混在一起算。
  • PocketStateCluster:默认只在最终 binding site 内进一步检查是否存在不同 receptor/pose state,输出 pocket_state/。只有确实存在可运行的多 state 时,FEP 才会进一步按 state 拆组;原始诊断模式的结果会隔离在 pocket_state_raw/,不作为主流程 gate。

建议:如果只是普通首轮筛选,可以保持默认;如果要做 FEP readiness 或发现同一口袋被拆得很散,应优先查看 PocketSiteCluster 的分组与可视化,再判断是否需要更严格的 state 细分。

3.11 计费与扣费(费率档位 / 扣费渠道)

  • 费率档位:必选。用于确定本任务的 GPU 单价、页面费用展示和后端结算。
  • 扣费渠道:如果系统启用了扣费渠道(下拉可选),请务必选择一个渠道;右侧会显示余额。
    • 若余额为 0 或不足,会提示余额不足,此时请更换渠道或联系管理员处理。
  • 常见报错:
    • 提交时提示“请选择费率档位”:说明未选择费率档位。
    • 提交后端报错“缺少计费单价,请刷新费率后重试”:通常是费率未拉取成功或后端无法解析费率,请刷新页面后重试;必要时联系管理员检查主站费率接口与账号配置。

4. 任务队列与状态

  • 列表展示:任务名、阶段、进度、状态、耗时、费用(按 GPU 单价 × 任务 GPU 卡数 × 运行时长估算;运行时长基于 started_at/finished_at,排队时间不计费)
  • “刷新”:从超算同步当前页的任务最新状态;为了保护系统,按钮有频率限制(短时间内多次点击会暂时禁用),稍等片刻再试即可
  • “全部刷新”:从超算端同步所有任务的最新状态(可能更慢,也会受到刷新频率限制)
  • “状态”筛选:可按进行中 / 已完成 / 失败或取消过滤任务列表(含内存溢出);当状态不是“全部”时,筛选控件会按状态类型高亮显示
  • “搜索”:支持按 UUID / Job ID / 任务名 搜索(子串匹配)定位任务
  • “排序”:支持按创建时间/磁盘占用排序
  • “下载”:结束后的任务可以打包下载结果
  • 点击任务名可改名,便于后续检索和区分相似任务
  • 顶部信息栏会显示当前账号的空间占用与配额(若配置)
  • “提交日志”:查看提交到超算前的准备工作日志
  • “日志”:任务已经在超算上开始计算后的运行日志(展示最新的 run.log / run.log.last
  • “告警”:状态旁出现数字徽标时,表示该任务已有运行告警或系统诊断告警。点开后会先显示卡住、运行过久、远端状态不一致等操作建议,再显示 runner 写入的 warnings.log。任务失败本身不会单独生成用户侧告警徽标,因为失败状态已显示原因;若失败任务还有 runner warning,则仍会显示告警。运行过久阈值会按任务规模和类型调整:小规模普通任务更早提示,FEP、Quantum、MD 等长任务使用更宽阈值。
  • “报告”:查看任务分析报告;若提示费用结算中,稍后刷新再试。按住 Shift 再点击可强制重新生成报告
  • “载入”:打开菜单选择载入范围。“输入+参数”只恢复历史任务的表单参数和输入文件;“结果来源”只把该任务设为分子生成的历史结果来源,不覆盖当前参数;“全部载入”同时恢复输入、参数并把该任务设为历史结果来源
  • “断点续算”:新建任务并复用已完成阶段产物,自动跳过已完成步骤;若先“载入”并修改参数,提交时会提示是否覆盖(确认覆盖会从最早受影响阶段重算;任务 GPU 卡数属于资源参数,只会用于新任务和后续未完成阶段,不会因为仅改 GPU 数而重跑已完成计算;打开“允许 CPU fallback”会从支持 CPU 重试的较早阶段重新进入,用于修复 GPU 路径失败;不覆盖则按原任务参数续算)
  • “取消”:停止任务
  • “删除”:软删除(清理任务文件/缓存,保留任务记录用于计费与审计)

状态说明:

  • SUBMITTED:已提交,排队中
  • RUNNING:正在运行
  • COMPLETED:完成,可下载
  • FAILED:失败(查看日志定位)
  • CANCELLED:已取消
  • OUT_OF_MEMORY:内存溢出,调度器终止(视为失败)
  • UNKNOWN:状态未同步(同步超时/SSH 失败等),建议稍后刷新

阶段说明:

  • Submitting:提交阶段(上传并保存输入,准备任务配置,提交到超算队列)
  • Queued:调度器排队中(尚未分配到计算节点)
  • Preparing:作业启动、环境准备或断点续算数据复制(已进入计算节点)
  • Sampler:候选采样
  • Filter:成药性过滤
  • ADMET:ADMET-AI 预测/过滤(可选)
  • GraphDTA:DTA 打分(可选,共识的一部分)
  • QSAR:QSAR 预测(可选)
  • Collector:共识筛选(融合 GraphDTA/相似性/QSAR,产出共识候选列表)
  • DockingRescore:Collector 后的小池 docking/rescore 复核(可选)
  • Tester:高精度结构评估,当前为 Boltz-2 计算/复用/整理结果
  • PocketSiteClusterSeed:基于原始 Boltz-2 complex 的前置 binding-site 初始分组(启用或自动触发时)
  • PocketStateClusterRaw:原始 Boltz-2 口袋状态诊断;只在原始诊断模式下出现(可选)
  • ReceptorTemplate:从 Boltz-2 复合物中选择可复用受体模板(启用或自动触发时)
  • TemplateRerun:使用选中的受体模板重新生成候选复合物(启用或自动触发时)
  • ReceptorFrameCanonicalization:把候选放到统一受体坐标系;无法可靠对齐的候选会保留诊断但不进入后续同组计算(启用或自动触发时)
  • PocketSiteCluster:按 binding site/groove 给候选分组,供 FEP 等后续复核避免混入口袋不同的候选(启用或自动触发时)
  • PocketStateCluster:在 final binding site 内做 receptor/pose state 诊断或细分(启用或自动触发时)
  • PosePrepReview:结构准备与 pose/pocket 风险复核(可选)
  • PocketCluster:Boltz-2 pocket label 标注(自动/可选)
  • AIZynth:合成可行性评估(可选)
  • Output:合并各阶段结果并生成最终输出 CSV
  • Report:生成分析报告(若成功生成,最终 stage 通常为 Report)
  • R0/R1 ...:UCB round 轮次前缀,后面仍是具体阶段名(如 R0/SamplerR0/GraphDTAR0/ChempropR0 为冷启动轮,R1+ 为预测采样轮)

UCB 说明:

  • round 0(冷启动轮):先选候选(默认从 Active Pool;关闭 Active Pool 时按 sampler_warmup_size 从全库随机),再跑一轮 SFCT(直到 Output),最后训练 Chemprop(R0/Chemprop)。
  • round 1+(预测采样轮):用上一轮模型预测并选点,再跑一轮 SFCT(直到 Output),最后训练 Chemprop(R1+/Chemprop)。
  • 所有轮次完成后才会生成一次 Reportreports/),因此每轮目录里通常不会出现 Report 阶段产物

5. 结果下载

任务完成或失败均可点击“下载”获取结果包用于排查。 下载结果为 .tar.gz 压缩包,包含完整工作目录与日志。 下载会优先复用后端缓存;缓存过期或损坏会自动重打包并回填缓存。 如果怀疑下载包还是旧缓存,可按住 Shift 再点击“下载”,强制重新打包。

常见目录:

  • output/:最终结果文件
  • logs/:运行日志(run.log / run.log.last
  • sampler/ filter/ admet/ graphdta/ qsar/ collector/ boltz2/ aizynth/ ucb/:各阶段中间产物
  • docking/:Docking 小池复核产物(启用时)
  • receptor_template/template_rerun/receptor_frame/:受体模板、模板重跑和统一受体坐标系产物(启用或自动触发时)
  • pocket_site_seed/:原始 Boltz-2 结构上的初始 binding-site 分组(启用或随 FEP 自动触发时)
  • pocket_site/:统一受体坐标系下的 final binding-site 分组产物和可视化(启用或随 FEP 自动触发时)
  • pocket_state/:final site 内的 receptor/pose state 诊断或细分(启用或自动触发时)
  • pocket_state_raw/:原始 Boltz-2 口袋状态诊断产物,仅原始诊断模式会出现
  • poseprep/:PosePrep 结构准备产物(启用时)
  • reports/:报告(若生成成功)
  • input/:备份的输入文件

标准输出文件名(中文说明):

以下文件位于下载包的 output/ 目录:

  • final_hits.csv:最终命中集(按主排序信号降序;通常以 Boltz-2 为主)
  • final_full.csv:全量快照(非 UCB 流程;未打分/缺失值会排在末尾)
  • final_hits_topN.csv:TopN 命中视图(按 Boltz-2 分数排序,N 可配置)
  • final_hits_recommend.csv:实验推荐集(骨架聚类后每个骨架保留一定数量,按簇内 Boltz-2 排名排序)。报告结果中会在 TopN 旁显示实验推荐集的簇数统计。
  • ucb_last_round.csv:UCB 最后一轮命中
  • ucb_last_round_full.csv:UCB 最后一轮全量快照
  • ucb_final_hits.csv:UCB 合并命中(去重)
  • ucb_final_full.csv:UCB 合并全量快照(去重,按 Boltz-2 分数降序;其中未进入 Boltz-2 精评的审计候选可能没有 score/prob,报告会单独显示 scored 行数)
  • ucb_final_hits_topN.csv:UCB 合并 TopN 命中视图(按 Boltz-2 分数排序)
  • ucb_final_hits_recommend.csv:UCB 合并实验推荐集(骨架聚类后每簇保留一定数量)
  • logs/run.log / logs/run.log.last:完整运行日志(超过阈值后续写 run.log.last

推荐查看顺序(第一次使用时更省时间):

(UCB 模式请把 final_* 替换为 ucb_final_* 对应文件。)

  1. 先看 “报告”(如果有)
  2. 再看 final_hits_topN.csv(快速浏览 Top 命中)
  3. 再看 final_hits_recommend.csv(按 scaffold 聚类后的多样性集合)
  4. 需要全量复核时再看 final_full.csv

文件名变更(2026-01-15):

  • final_hits_full.csvfinal_full.csv
  • final_hits_all_rounds.csvucb_final_hits.csv
  • final_full_all_rounds.csvucb_final_full.csv
  • 旧文件名仍兼容读取(报告/统计会自动回退)

5.1 如何看输出 CSV(常用列)

常见列(不同任务/开关下可能有缺失):

  • rank:命中排名(final_hits.csv 从 1 开始编号;final_full.csv 未命中通常为空)。
  • ligand_id:分子主键(用于 join 与去重)。
  • SMILES:结构字段(最终输出通常会归一化为 SMILES 一列)。
  • boltz2_score / boltz2_prob:Boltz-2 高精度结构评估分数与概率(越大越强/越可信)。
  • graphdta_dta20 / graphdta_dta100:GraphDTA 打分(越大越好)。
  • similarity_score:相似性分数(0~1,越大越相似;需要提供参考集合)。
  • qsar_score:QSAR 打分(越大越好;需要提供训练集)。

实验推荐集相关(final_hits_recommend.csv / ucb_final_hits_recommend.csv):

  • scaffold_id:骨架(Murcko scaffold;用于聚类)。
  • cluster_size:该 scaffold 下的条目数。
  • cluster_rank:簇内排序名次。

排序与阈值小结:

  • 启用 Boltz-2:主要按 boltz2_score(再 boltz2_prob)从高到低排序。
  • 未启用 Boltz-2:会按可用的 GraphDTA/相似性/QSAR 信号排序。

6. 常见问题

问题 处理建议
任务列表空 / 刷新慢 可能在同步远端状态时超时,可稍后再刷新。
刷新按钮灰掉/倒计时 刷新需要连接超算,有节流限制,点击刷新后按钮会进入倒计时,结束后恢复可点。
Boltz-2 报错 优先检查 MSA/目标序列是否一致(最常见是 E_MSA_LEN_MISMATCH),以及 MSA 是否可解析。
必要时下载结果包查看 logs/run.log 的报错上下文;仍无法定位可联系管理员协助排查运行环境。
提交报错:请选择费率档位 / 缺少计费单价 先确认已选择“费率档位”;若仍报错,通常是费率拉取失败或网络异常,刷新页面后重试。
提交报错:扣费渠道余额不足 / 扣费渠道不可用 更换扣费渠道后重试;若所有渠道都不可用,请联系管理员处理余额或渠道状态。
提交报错:化合物库 CSV 缺少列 / 文件为空 先检查 CSV 表头是否有 smiles,且至少包含 1 行有效数据;UCB 模式还需要稳定的可识别 ID 列(如 ligand_id/origin_id/ID)。若由 Excel 导出,请确认分隔符与表头未被破坏。
命中为 0 / TopN 为空 优先检查阈值是否过严:
• 适当放宽 Filter(Ro5/MW/LogP/TPSA/QED)或关闭部分过滤开关
• 降低 GraphDTA 门槛
• 降低 Boltz-2 的 -ΔG/概率阈值
其次检查输入与依赖:
• 确认目标序列、MSA(A3M)一致且可解析
• 查看 “日志 / 报告 / 下载包” 里对应阶段的产物与错误信息(GraphDTA/Boltz-2 常见会在这里暴露根因)。
提交被拒绝:空间占用超限 删除不需要的历史任务(“删除”会清理任务目录与缓存,释放空间),再重新提交。
下载失败 任务尚未完成或远端产出未同步,请稍后重试。
任务失败:Disk quota exceeded / No space left on device 这是磁盘空间/配额问题。优先删除不需要的历史任务释放空间;若仍失败,请联系管理员检查账号配额或临时目录配置。

附录:功能名称与技术字段对照

本表用于说明页面功能背后的技术字段。日常使用时只需关注功能作用;只有复现提交配置或排查问题时,才需要查看这些字段。

页面功能 功能作用 常见技术字段(高级/排查时用)
采样方式 决定从候选集合里如何抽样进入后续流程,例如全量、随机或 UCB。 sampler sampler_size sampler_kappa sampler_rounds
候选池加速 用较小活动池加快 UCB/采样计算。 sampler_active_pool_enabled sampler_active_pool_source sampler_active_pool_size
理化性质过滤 按分子量、脂溶性、TPSA、QED、PAINS 等规则筛掉明显不合适的分子。 filter.mw_* filter.alogp_* filter.tpsa_* filter.qed_* filter.pains_*
合成可行性过滤 开启后计算 SA 分数,并按阈值筛掉分子。 filter.sa_placement filter.sa_max
ADMET-AI 预测 ADMET 指标,可只做标注,也可按阈值过滤。 admet.enabled admet.filter_enabled admet.filters
共识筛选 用 GraphDTA / QSAR / 相似性等信号综合排序,决定谁进入后续高精度评估。 collector.graphdta_filter_mode collector.graphdta_topm collector.dta20_min collector.dta100_min
QSAR 使用自定义训练集生成一个额外排序信号。 qsar_enabled qsar_smiles_column qsar_target_column
相似性参考 用参考分子做相似性排序或兜底加权。 collector.similarity.*
高精度评估器 对候选做高精度结构评估,并按最终命中集策略生成结果。当前评估器为 Boltz-2;默认使用自适应 TopN,也支持阈值过滤。 boltz2_enabled collector.final_strategy collector.a1_prob_thresholds collector.boltz2_score_min collector.boltz2_prob_min boltz2_top_structures
AiZynth 合成评估 评估可合成性;默认作为结果附加信息,也可只在最终命中时做硬过滤。 aizynth.enabled aizynth.filter_enabled aizynth.filter.*
受体模板诊断 从 Boltz-2 complex 中选择受体模板,必要时触发模板重跑、统一受体坐标系和 binding-site 分组;用于 FEP/PosePrep 前的一致性复核。 receptor_template.enabled template_rerun_enabled receptor_frame_canonicalize_enabled pocket_site_enabled
分子生成 用 REINVENT4 生成新分子并并入候选集合。 sampler_generator_enabled sampler_generator_count sampler_generator_steps