全自动药物筛选引擎(AutoDrug Screening Engine)用户使用说明
为什么选择 AutoDrug
- 全流程自动化:一次性提交,平台内自动完成药物筛选全流程(提交、排队、进度追踪、日志查看与结果下载)。
- 覆盖不同规模:小规模化合物库可全量/随机,大规模化合物库可用 UCB 多轮迭代;支持上传库/预置库/分子生成组合候选集合。
- 结果可复核:输出 CSV、报告与中间产物可打包下载,便于复现与复核。
- 节省重复计算:支持载入历史任务与断点续算,参数微调后可从受影响阶段重算。
本文档覆盖任务提交流程、Demo 使用、结果下载与常见问题。
0. 开始前(准备清单)
新手建议先跑一次 Demo,熟悉“提交 -> 跑完 -> 下载 -> 看 CSV/报告”的闭环,再替换为自己的数据。
你通常需要准备:
- 靶点序列(直接粘贴)或目标文件(PDB/CIF/mmCIF/FASTA 等,系统会提取序列并回填)
- MSA(A3M):建议准备(可上传 A3M,或开启“自动获取 MSA”)。
- 化合物来源:上传/数据中心 CSV,或直接选择预置库(也可选启用分子生成)
可选准备:
- 相似性参考集合(SMILES 文件或多行文本)
- QSAR 训练集(CSV,含 SMILES 列与目标值列)
1. 快速开始
- 打开工作流页面
- 填写任务名称
- 填写靶点序列或上传 PDB/CIF/mmCIF/FASTA(自动提取序列)
- 上传 MSA(A3M)或开启“自动获取 MSA”
- 可选:按任务规模确认采样、TopM/TopN 与复核模块等关键参数
- 上传化合物库 CSV(或选择数据中心 CSV/预置库;>50MB 建议使用数据中心)
- 选择采样策略
- 选择费率档位(必选)
- 若页面出现“扣费渠道”下拉,也请选择一个渠道(用于扣费/余额校验)
- 点击“运行筛选”
提交后可在任务列表查看进度、日志与结果下载。 当用户任务目录占用超过上限时,提交会被拒绝,请先清理历史任务。
2. Demo 体验
Demo 数据
右上角 “加载 Demo 数据” 可选择 Demo 模式并自动填充:
- Mini · 快速体验:
demo_target.pdb+demo_msa.a3m+demo_compounds_minimal.csv,适合快速熟悉提交流程。 - Large · 更完整样例:替换为更大数目的目标结构、MSA 与化合物样例;默认随机采样,可按需调整。
加载后可直接提交体验。
Demo 的主要目的是验证链路可跑通与理解界面字段,不代表真实项目的筛选质量或产出规模。
3. 表单字段说明
3.0 SFCT 流程概览(S/F/C/T)
页面左侧的“模块开关(S/F/C/T)”对应整个筛选流水线的四个关键环节:
- S (Sampler):合并所有已启用来源(化合物库输入 / 预置库 / 分子生成),按采样策略(全量/随机/UCB)产生候选集合。
- F (Filter):对候选做理化/警示/SA 等规则过滤;可选用 ADMET-AI 做标注或过滤。
- C (Collector):对候选做共识信号打分与筛选(GraphDTA/QSAR/相似性等),并形成用于后续高精度评估与输出的候选列表。
- T (Tester):高精度评估。当前使用 Boltz-2 做结构评估,并据此生成最终命中集与实验推荐集;可选启用 AiZynthFinder 评估合成可行性。
提交成功后,你会在任务列表看到更细的阶段名(如 Sampler/Filter/Collector/Tester/Output/Report),但整体仍可按上面的 S/F/C/T 来理解。
3.1 基础信息
- 任务名称:用于列表显示与检索,建议包含日期/目标名便于追踪。
- 靶点序列:必填,可直接粘贴氨基酸序列(或通过上传文件回填)。
- 目标结构/序列文件:支持
.pdb/.cif/.mmcif/.fa/.fasta/.faa,上传后会自动提取序列并回填;提供 PDB/CIF/mmCIF 时可用于 Boltz-2 模板,并会显示结构预览。该预览只展示结构文件内已有的蛋白、结构内配体和口袋邻域;CSV/SMILES 化合物库不会在页面里生成三维配体构象。一般来说计算过程中主要使用序列,结构文件只是补充。 - 模板策略:仅在提供 PDB/CIF/mmCIF 时生效。
- 禁用模板(默认):按页面靶点序列与上传 MSA 运行,最稳定。
- 使用模板链序列:页面会解析结构文件中的模板链,并展示用于 Boltz-2 的模板链序列;MSA 需要匹配这条序列,可上传手动获取的 A3M,也可开启服务端自动获取。
- 自动严格匹配:仅在模板链序列与页面靶点序列完全一致时使用模板,否则自动禁用模板。
- 建议优先保持默认禁用;只有确认结构链就是要计算的蛋白链,并且能为该链序列提供或自动获取 MSA 时,再使用模板链序列。
- MSA 文件:
.a3m,建议提供,且需与目标序列一致。- 常见方式:
- 上传 A3M 文件;或
- 开启“自动获取 MSA(服务端)”(未上传 A3M
时会在提交阶段自动获取并写入,可能稍有等待)。
- 若出现“服务来源”下拉,一般保持默认即可(不同来源会影响获取速度与质量)。
- 服务端会进行格式/长度预检(包括 NUL 字节等异常),失败会直接拒绝提交。
- 运行阶段会再次校验 MSA 可解析性;异常会导致任务失败。
- 若上传的 MSA 与最终用于 Boltz-2 的序列长度不一致会直接失败。
- 常见报错:
E_MSA_LEN_MISMATCH(MSA 序列长度与目标序列不一致)。未使用模板链序列时,以页面“靶点序列”为准重新生成 A3M;使用模板链序列时,以页面展示的模板链序列为准重新生成 A3M,或开启服务端自动获取。 - 参考工具:HHblits 在线工具
- 常见方式:
- 流程版本:默认
SFCT-FLOW v2,页面默认隐藏该控件;一般不需要手动设置。 - 任务 GPU 卡数:默认
1。表示本任务申请和计费的 GPU 数;调大后,系统会自动使用更多 GPU 加速运行。 - 允许 CPU fallback:默认关闭。首跑遇到 GPU/CUDA 环境问题失败后,可以先从失败任务选择“载入”恢复输入和参数,再打开该开关后“断点续算”;系统会让支持的 GPU 阶段尝试 CPU 重试。开启后可能明显变慢,适合作为失败修复手段,而不是常规默认配置。
3.2 化合物库输入
支持三类来源(可组合启用):
- 化合物库输入:上传 CSV 或选择数据中心 CSV
- 预置库:按分组选择一个或多个已有集合
- 分子生成:由 REINVENT4 生成并与上述来源合并后再采样
建议:
- 化合物库超过 50MB 时建议使用数据中心 CSV(更稳定,也更适合重复使用)。
- 预置库会按集合来源分组,并显示分子数(可获取时);多选时面板会估算总分子数,超过大库阈值时提示优先使用随机/UCB。
SMILES 预检与剔除规则(你通常只需要知道“会检查、会统计”):
- 提交阶段会对 SMILES 做预检:化合物库允许少量无效(超过阈值会拒绝);相似性参考/分子生成使用独立阈值(通常更严格)。
- 大文件或本地缺 RDKit 时,会改为超算端校验。
- 运行阶段会先清洗当前化合物源(
COMPOUND_SOURCE_CSV,可能是上传/预置库/分子生成合并后的池),自动剔除无效 SMILES 并记录数量。 - 清洗后文件为
artifacts/compounds_clean.csv;无效条目会记录到artifacts/invalid_smiles.csv,随后才进入 prefilter/sampler。
上传 CSV 与数据中心 CSV:
- 上传 CSV:直接选择本地
.csv文件上传(适合小文件或临时验证)。 - 数据中心 CSV:从下拉选择主站数据中心已有文件。
- 当下拉里没有你需要的文件时,可在该面板上传到数据中心,上传完成后会出现在下拉里(大文件推荐这一方式)。
CSV 必需列:
smiles:标准化 SMILES(列名大小写不敏感;也支持canonical_smiles/structure_smiles/structure/smile等常见写法)
建议提供:
ligand_id:分子 ID(唯一标识;也可使用origin_id/ID/compound_id/hit_id/molecule_id)
其余列会原样保留并随流程传递,便于后续复核。
最小 CSV 示例:
ligand_id,smiles
L0001,CCO
L0002,CC(=O)O
说明:
- 非 UCB:允许缺 ID 列,系统会自动补
ligand_id=ligand_<row_index>,并在面板提示风险(建议仍提供稳定 ID)。 - UCB:必须包含可识别的 ID 列(如
ligand_id/origin_id/ID),否则会拒绝提交/运行。 - 若同时提供
ligand_id与origin_id,两者必须一致,否则会报错。 - SMILES 列名大小写不敏感,支持常见别名;运行阶段会把列名归一化为
SMILES供下游使用。
3.2.1 预置库(Preset Library)
预置库是平台内置的常用公开小分子集合(例如 ChEMBL、ZINC、DrugBank、TargetMol 特色库、高性价比数据库-核心等),可以不上传任何 CSV 直接作为筛选来源。
- 开启方式:在左侧 “S (Sampler) -> 预置库” 勾选“启用”,并在“预置库”面板选择一个或多个集合。
- 典型用途:快速试跑、做 baseline;也可以直接用于真实药物筛选(例如从已知药物/可购集合中优先筛一轮),或与自有库/分子生成组合后统一采样。
- TargetMol 特色库会在下拉中独立分组,包含活性库、共价库、片段库、大环库、分子胶库、天然产物单体库和天然产物衍生物库,适合按药物发现场景直接选择候选来源。
- 高性价比数据库-核心会在下拉中独立分组,包含
D001与T001两个核心集合。 - 组合方式:可多选预置库,也可与“化合物库输入/分子生成”同时启用,系统会合并去重后再统一采样。选择多个大库时,建议使用随机或 UCB 采样,避免直接全量筛选。
- 如果下拉里没有你需要的集合:联系管理员补充或开通。
3.2.2 分子生成(REINVENT4)
分子生成作为化合物来源之一,开启后会与用户库/预置库合并再采样,无需上传配置文件,系统自动选择 REINVENT4 先验模型。
- 直接生成(de novo):无需输入。
- 相似度驱动生成:提供参考 SMILES(每行一个,支持“上传文件”或“多行文本”二选一)。
- 骨架约束生成:提供普通分子 SMILES 或骨架
SMILES(每行一个,支持文件或多行文本);普通 SMILES 会自动提取 Murcko
scaffold 并加
[*:1]锚点,已带锚点但含带电 bracket atom 的骨架会先尝试标准化/去电荷。 - R-group 生成:同骨架约束生成;若需要精确控制取代位置,建议直接输入带
[*:1]的骨架。 - Linker 生成:提供片段 A/B(每行一个,A/B
行数需一致;支持文件或多行文本),系统按
A|B组合生成。 - 输入来源(similarity / scaffold / rgroup):除手动输入外,还可选择使用 Boltz2 命中池自动生成输入集合。非 UCB 任务可在分子生成参数区的“历史结果任务”下拉框直接选择来源;下拉框会单独读取已完成历史任务,不受当前任务列表分页影响,支持按任务名、UUID 或 Job ID 搜索,并按 20 条/页翻页。这只会把某个历史任务的 Boltz2 命中结果选为来源,不会载入该历史任务的参数或输入文件。UCB 任务可直接使用本任务上一轮/累计池子(从 round 1 开始)。支持“全局/合并”与“最近一轮”两种池子。
- 生成数量:按每条输入生成,必填;默认 200。
- 若任务 GPU 卡数调大,系统会自动使用更多 GPU 加速分子生成,输出仍是一个候选集合。
输入文件格式:
.smi/.txt:每行一个 SMILES(空行会自动忽略)。.csv:支持包含 SMILES 列的 CSV;若未识别到 SMILES 列,会按首列解析并在面板提示。- scaffold / rgroup 模式下,未带
[*:1]的普通 SMILES 会在运行端自动转换为带锚点骨架;已带锚点但含带电 bracket atom 的骨架会先尝试标准化/去电荷;无法解析或无法提取时会跳过该行,全部不可用时分子生成不会产生候选。
说明:
- 当你选择了文件输入时,对应的文本框会被清空;反之,当你在文本框手动输入时,会自动清空文件选择(避免两者冲突)。
- 大输入建议用文件而不是粘贴长文本,提交更稳定,也便于“载入/断点续算”时恢复输入。
3.3 Sampler 采样策略
可选 全量 / 随机 / UCB:
- 采样会先合并所有已启用来源(用户库 / 预置库 / 分子生成),再统一采样。
- 全量:适合小库或演示场景,覆盖全部候选。
- 随机:适合大库快速试跑(可设置采样数量)。
- UCB:适合大规模化合物库的多轮主动学习。常用保持自适应预算,只按需调整
κ;只有切到固定预算时,才填写每轮采样数和迭代轮数。
- 默认开启候选池加速:第 0 轮在候选池内采样,
warmup参数在前端不显示。 - 关闭候选池加速:可设置
sampler_warmup_size,第 0 轮按该值从全库随机冷启动。 - 候选池来源默认自动:
N<=2M优先用 Collector 排序建池,超大库回退随机初始化。 - UCB 轮内 TopM 为空时,轮内 Collector 等效直通,直接进入 Tester(Boltz-2)。
- 如果专家手动填写 TopM/Hybrid,Collector 建池来源会复用缓存评分控量;随机/全库来源才对本轮候选补跑评分链后控量。
- 注入/替换/退火参数在“高级参数”折叠区,通常保持默认即可。
- 默认开启候选池加速:第 0 轮在候选池内采样,
UCB 迭代:选择本轮候选 → Collector(TopM/Hybrid 或直通)→ Boltz-2 评估 → Chemprop 学习 → 下一轮选点;TopM/Hybrid 只控制轮内 Collector 节点内部是否控量。 注意:UCB 模式会强制启用 Boltz-2(不可关闭),并要求化合物库包含可识别的 ID 列。 UCB 详细参数与输出解释见:UCB 用户手册。
术语对照(UCB):
- Active Pool = 候选池(每轮工作的子集,不是全库)
- top_n / per_round / sampler_size = 每轮采样数
- warmup = 冷启动样本数(仅候选池关闭时生效)
- Round0 = 冷启动轮,Round1+ = 预测采样轮
- source=auto = 默认来源;
N<=2M用 Collector 排序建池,N>2M回退随机初始化 - source=collector = 初始化时前置打分建池并缓存评分列,后续 UCB 轮次默认复用缓存评分
- P/E/R = 候选池大小 / 每轮注入量 / 周期替换量
- tau(温度)= 注入抽样温度;越大越探索,越小越偏向头部
- Tester = 高精度结构评估阶段(当前评估器为 Boltz-2)
3.4 Filter 成药性参数
设置 Ro5、分子量、AlogP、TPSA、QED 等阈值。
默认值适合一般小分子筛选,命中过少可适当放宽。 理化/警示开关仅控制
Ro5/MW/AlogP/TPSA/QED/PAINS/结构警示,SA 可独立启用。 关闭 SA
时默认不新计算 sa_score,也不按 SA 阈值过滤。
ADMET-AI(可选:预测/硬筛)
- 预测:开启后会对候选做 ADMET-AI 预测,并把指标列写入输出表格(用于标注/参考)。
- 硬筛:在预测完成后按阈值过滤候选(缺失值不会被强制剔除)。
- 硬筛预设(下拉):
关闭 / 宽松(推荐) / 严格(0.5) / 自定义关闭:不做过滤(只预测/标注)。宽松(推荐):hERG/AMES<=0.7,HIA>=0.3(DILI/CYP3A4 不筛)。严格(0.5):hERG/AMES/DILI/CYP3A4<=0.5,HIA>=0.5。自定义:手动勾选规则并设置阈值(0-1)。
- 行为:选择
宽松/严格/自定义会自动开启“启用筛选”;选择关闭会关闭筛选。 - 提示:选择
自定义后会保持为自定义;需要恢复宽松/严格时请手动再次选择对应预设。
3.5 Collector 共识筛选
Collector 会把 GraphDTA / 相似性 / QSAR 等信号汇总为候选列表,并用于最终命中筛选与排序。 阈值越高保留越少;Demo 无命中时可适当降低阈值后再观察。
信号说明(面板会给出每个阈值/开关的提示与默认值):
- GraphDTA:对候选进行打分与门槛筛选;多 GPU 任务下会自动并行处理大候选池。
- 高精度评估器:当前为 Boltz-2,在 Tester 阶段执行;分数越大结合越强,结合概率可作为额外门槛。一般建议保持启用。
- 相似性基线(Morgan/Tanimoto,可选):需要提供参考集合,用于回写
similarity_score列,并作为辅助排序信号。 - QSAR(可选):需要提供训练集,用于回写
qsar_score列,并作为辅助排序信号。
GraphDTA 预筛方式:
threshold:按 DTA20/DTA100 阈值保留候选。适合你明确知道希望保留的最低打分门槛。topm:按 GraphDTA / QSAR / 相似性等排序信号融合后保留前 M 个。它更适合控制进入 Boltz-2 的候选数量,成本更稳定,是当前更推荐的默认控量方式。hybrid:先应用阈值,再用 TopM 控量或补足。适合既要保留最低质量线,又要控制候选规模的场景。- 当 GraphDTA 阈值因当前规则不可编辑时,界面会在灰色字段旁直接提示原因;例如 TopM 模式下 DTA 阈值不参与筛选,切到阈值或 hybrid 后才能编辑。
- “QSAR/相似性参与 TopM 排序”只有在对应模块启用且有可用结果时才会生效;缺少结果时系统会自动忽略该信号。
- 共识排序的推荐参数会启用 RRF 融合,并默认打开预筛 scaffold cap(K=5),避免进入高精度评估器前过度集中于单一骨架。
相似性基线:
- 开启方式:在 “相似性基线” 模块勾选“启用”,并提供参考集合。
- 需要提供参考集合,二选一即可:
- 上传参考 SMILES 文件(
.smi/.txt/.csv);或 - 直接粘贴多行 SMILES。
- 上传参考 SMILES 文件(
- 相似性分数会写入
collector/collector_pool.csv(兼容collector/top_hits.csv)与output/final_full.csv的similarity_score列,不单独生成文件。
QSAR:
- 开启方式:在 “QSAR(Chemprop)” 模块勾选“启用”,并上传训练集。
- 上传训练 CSV,并指定 SMILES 列名与目标列名。
- 默认列名为
smiles与pIC50(大小写不敏感),目标值越大代表活性越强。 - 训练集建议 ≥100 条;过少会导致效果不稳定或无法训练。
排序说明(当前实现):
- 默认以 Boltz-2 为主排序信号;Boltz-2 不可用时,会按可用的 GraphDTA/相似性/QSAR 信号排序。
3.6 最终命中集(自适应 TopN / 阈值过滤 / 实验推荐集)
这部分决定如何从高精度评估器结果中生成最终命中集;当前评估器为 Boltz-2。
- 默认策略:自适应 TopN
- 系统会先保持较高的
prob门槛,再在该prob层内按 Boltz-2 分数 精确截取 Top N。 - 这是一种固定规模命中集生成策略:更适合直接得到稳定的 Top 结果,不需要手工来回调阈值。
- 实际执行方式:
- 先按预设的
prob门槛从高到低逐层检查候选; - 在每个固定
prob层内,按 Boltz-2 分数从高到低排序; - 一旦当前层内候选数足够覆盖设定的
Top N,就从该层中精确截取前Top N个作为命中集。
- 先按预设的
- 系统会先保持较高的
- 阈值过滤:
- 若切换到“阈值过滤”,才会启用 Boltz-2 分数阈值与置信度阈值。
- 适合在你明确想手工控制命中松紧时使用。
- Boltz-2 分数阈值:仅在“阈值过滤”下生效,对应 -ΔG(kcal/mol),阈值越高保留越少。
- Boltz-2 置信度阈值:仅在“阈值过滤”下生效,对应结合概率,阈值越高保留越少。
- 命中集 TopN:默认策略下表示“命中集规模”;系统会在当前 prob 层内按
Boltz-2 分数精确截取前 N 条。仍会生成
final_hits_topN.csv供快速浏览。 - 实验推荐每骨架保留数:对最终命中集做骨架聚类(scaffold),每个骨架最多保留
N 条,生成
final_hits_recommend.csv。- 想要更多结构多样性:可以适当增大这个值。
- 只想要最精简的候选:可以减小这个值。
- “命中 / 推荐预设”可一键组合命中集 TopN 与实验推荐每骨架保留数:
- 常规实验:TopN 100,每骨架最多 3 个。
- 高置信短名单:TopN 50,每骨架最多 2 个。
- 多样性优先:TopN 150,每骨架最多 1 个。
- 系列跟进:TopN 200,每骨架最多 3 个。
3.7 AiZynthFinder(可选)
用于评估“可合成性/逆合成路线”,并把指标回写到最终输出中(同时在下载包生成
aizynth/ 目录产物)。
- 开启方式:勾选 “AiZynthFinder 启用”。
- 默认评估对象:最终命中集,不默认对全量
refined.csv跑。 sampler=ucb时,会在 UCB 最终合并命中后只运行一次,不再每轮各跑一次。- AiZynth 筛选(可选):默认勾选
require_solved(solved=找到路线);取消勾选后不强制 solved,但需至少填写一个阈值;阈值留空不限制。 - 输出:通常会在 CSV 里新增
aizynth_is_solved、aizynth_top_score、aizynth_number_of_steps等列,并生成aizynth/aizynth_predictions.csv。
建议:首次跑通流程时可以先不启用;当你已有较小的命中集合时再开启更合适(整体更省时)。
3.7A 受体模板、模板重跑与口袋分组(可选/自动)
这组结构复核步骤用于让后续 PosePrep、PocketSiteCluster 和 FEP 尽量使用一致的受体和口袋语义。它们通常随 FEP 准备度复核自动启用,也可以在模块开关中单独启用 “受体模板诊断”。
- PocketSiteCluster(seed):先基于原始 Boltz-2 complex 做较宽松的
binding-site 初始分组,输出
pocket_site_seed/。它用于组织后续模板选择,不是最终 FEP 分组依据。 - ReceptorTemplate:在初始 site 基础上选择有多 ligand
支持的受体模板假设,输出
receptor_template/;多 site 时会尽量保留每个 site 的标准受体。它用于回答“这一组候选应该参考哪个受体坐标系”,不是新的 docking 或 MD 稳定性验证。 - TemplateRerun:当受体模板可用且开关为自动或开启时,会按初始 site
和受体模板对支持组做二轮 Boltz-2 complex 预测,输出
template_rerun/。 - ReceptorFrameCanonicalization:把模板重跑后的配体构象放到对应 site
的统一受体坐标系,输出
receptor_frame/。无法可靠对齐的候选只保留诊断,不进入后续同组口袋分组或 FEP。 - PocketSiteCluster(final):在统一受体坐标系下重新做 binding-site
分组,输出
pocket_site/和独立口袋可视化页。FEP 默认优先按最终 binding-site group 建 network,避免把不同口袋混在一起算。 - PocketStateCluster:默认只在最终 binding site
内进一步检查是否存在不同 receptor/pose state,输出
pocket_state/。只有确实存在可运行的多 state 时,FEP 才会进一步按 state 拆组;原始诊断模式的结果会隔离在pocket_state_raw/,不作为主流程 gate。
建议:如果只是普通首轮筛选,可以保持默认;如果要做 FEP readiness 或发现同一口袋被拆得很散,应优先查看 PocketSiteCluster 的分组与可视化,再判断是否需要更严格的 state 细分。
3.11 计费与扣费(费率档位 / 扣费渠道)
- 费率档位:必选。用于确定本任务的 GPU 单价、页面费用展示和后端结算。
- 扣费渠道:如果系统启用了扣费渠道(下拉可选),请务必选择一个渠道;右侧会显示余额。
- 若余额为 0 或不足,会提示余额不足,此时请更换渠道或联系管理员处理。
- 常见报错:
- 提交时提示“请选择费率档位”:说明未选择费率档位。
- 提交后端报错“缺少计费单价,请刷新费率后重试”:通常是费率未拉取成功或后端无法解析费率,请刷新页面后重试;必要时联系管理员检查主站费率接口与账号配置。
4. 任务队列与状态
- 列表展示:任务名、阶段、进度、状态、耗时、费用(按 GPU 单价 × 任务 GPU 卡数 × 运行时长估算;运行时长基于 started_at/finished_at,排队时间不计费)
- “刷新”:从超算同步当前页的任务最新状态;为了保护系统,按钮有频率限制(短时间内多次点击会暂时禁用),稍等片刻再试即可
- “全部刷新”:从超算端同步所有任务的最新状态(可能更慢,也会受到刷新频率限制)
- “状态”筛选:可按进行中 / 已完成 / 失败或取消过滤任务列表(含内存溢出);当状态不是“全部”时,筛选控件会按状态类型高亮显示
- “搜索”:支持按 UUID / Job ID / 任务名 搜索(子串匹配)定位任务
- “排序”:支持按创建时间/磁盘占用排序
- “下载”:结束后的任务可以打包下载结果
- 点击任务名可改名,便于后续检索和区分相似任务
- 顶部信息栏会显示当前账号的空间占用与配额(若配置)
- “提交日志”:查看提交到超算前的准备工作日志
- “日志”:任务已经在超算上开始计算后的运行日志(展示最新的
run.log/run.log.last) - “告警”:状态旁出现数字徽标时,表示该任务已有运行告警或系统诊断告警。点开后会先显示卡住、运行过久、远端状态不一致等操作建议,再显示
runner 写入的
warnings.log。任务失败本身不会单独生成用户侧告警徽标,因为失败状态已显示原因;若失败任务还有 runner warning,则仍会显示告警。运行过久阈值会按任务规模和类型调整:小规模普通任务更早提示,FEP、Quantum、MD 等长任务使用更宽阈值。 - “报告”:查看任务分析报告;若提示费用结算中,稍后刷新再试。按住 Shift 再点击可强制重新生成报告
- “载入”:打开菜单选择载入范围。“输入+参数”只恢复历史任务的表单参数和输入文件;“结果来源”只把该任务设为分子生成的历史结果来源,不覆盖当前参数;“全部载入”同时恢复输入、参数并把该任务设为历史结果来源
- “断点续算”:新建任务并复用已完成阶段产物,自动跳过已完成步骤;若先“载入”并修改参数,提交时会提示是否覆盖(确认覆盖会从最早受影响阶段重算;任务 GPU 卡数属于资源参数,只会用于新任务和后续未完成阶段,不会因为仅改 GPU 数而重跑已完成计算;打开“允许 CPU fallback”会从支持 CPU 重试的较早阶段重新进入,用于修复 GPU 路径失败;不覆盖则按原任务参数续算)
- “取消”:停止任务
- “删除”:软删除(清理任务文件/缓存,保留任务记录用于计费与审计)
状态说明:
SUBMITTED:已提交,排队中RUNNING:正在运行COMPLETED:完成,可下载FAILED:失败(查看日志定位)CANCELLED:已取消OUT_OF_MEMORY:内存溢出,调度器终止(视为失败)UNKNOWN:状态未同步(同步超时/SSH 失败等),建议稍后刷新
阶段说明:
Submitting:提交阶段(上传并保存输入,准备任务配置,提交到超算队列)Queued:调度器排队中(尚未分配到计算节点)Preparing:作业启动、环境准备或断点续算数据复制(已进入计算节点)Sampler:候选采样Filter:成药性过滤ADMET:ADMET-AI 预测/过滤(可选)GraphDTA:DTA 打分(可选,共识的一部分)QSAR:QSAR 预测(可选)Collector:共识筛选(融合 GraphDTA/相似性/QSAR,产出共识候选列表)DockingRescore:Collector 后的小池 docking/rescore 复核(可选)Tester:高精度结构评估,当前为 Boltz-2 计算/复用/整理结果PocketSiteClusterSeed:基于原始 Boltz-2 complex 的前置 binding-site 初始分组(启用或自动触发时)PocketStateClusterRaw:原始 Boltz-2 口袋状态诊断;只在原始诊断模式下出现(可选)ReceptorTemplate:从 Boltz-2 复合物中选择可复用受体模板(启用或自动触发时)TemplateRerun:使用选中的受体模板重新生成候选复合物(启用或自动触发时)ReceptorFrameCanonicalization:把候选放到统一受体坐标系;无法可靠对齐的候选会保留诊断但不进入后续同组计算(启用或自动触发时)PocketSiteCluster:按 binding site/groove 给候选分组,供 FEP 等后续复核避免混入口袋不同的候选(启用或自动触发时)PocketStateCluster:在 final binding site 内做 receptor/pose state 诊断或细分(启用或自动触发时)PosePrepReview:结构准备与 pose/pocket 风险复核(可选)PocketCluster:Boltz-2 pocket label 标注(自动/可选)AIZynth:合成可行性评估(可选)Output:合并各阶段结果并生成最终输出 CSVReport:生成分析报告(若成功生成,最终 stage 通常为 Report)R0/R1 ...:UCB round 轮次前缀,后面仍是具体阶段名(如R0/Sampler、R0/GraphDTA、R0/Chemprop;R0为冷启动轮,R1+为预测采样轮)
UCB 说明:
round 0(冷启动轮):先选候选(默认从 Active Pool;关闭 Active Pool 时按sampler_warmup_size从全库随机),再跑一轮 SFCT(直到 Output),最后训练 Chemprop(R0/Chemprop)。round 1+(预测采样轮):用上一轮模型预测并选点,再跑一轮 SFCT(直到 Output),最后训练 Chemprop(R1+/Chemprop)。- 所有轮次完成后才会生成一次
Report(reports/),因此每轮目录里通常不会出现Report阶段产物
5. 结果下载
任务完成或失败均可点击“下载”获取结果包用于排查。 下载结果为
.tar.gz 压缩包,包含完整工作目录与日志。
下载会优先复用后端缓存;缓存过期或损坏会自动重打包并回填缓存。
如果怀疑下载包还是旧缓存,可按住 Shift 再点击“下载”,强制重新打包。
常见目录:
output/:最终结果文件logs/:运行日志(run.log/run.log.last)sampler/filter/admet/graphdta/qsar/collector/boltz2/aizynth/ucb/:各阶段中间产物docking/:Docking 小池复核产物(启用时)receptor_template/、template_rerun/、receptor_frame/:受体模板、模板重跑和统一受体坐标系产物(启用或自动触发时)pocket_site_seed/:原始 Boltz-2 结构上的初始 binding-site 分组(启用或随 FEP 自动触发时)pocket_site/:统一受体坐标系下的 final binding-site 分组产物和可视化(启用或随 FEP 自动触发时)pocket_state/:final site 内的 receptor/pose state 诊断或细分(启用或自动触发时)pocket_state_raw/:原始 Boltz-2 口袋状态诊断产物,仅原始诊断模式会出现poseprep/:PosePrep 结构准备产物(启用时)reports/:报告(若生成成功)input/:备份的输入文件
标准输出文件名(中文说明):
以下文件位于下载包的 output/ 目录:
final_hits.csv:最终命中集(按主排序信号降序;通常以 Boltz-2 为主)final_full.csv:全量快照(非 UCB 流程;未打分/缺失值会排在末尾)final_hits_topN.csv:TopN 命中视图(按 Boltz-2 分数排序,N 可配置)final_hits_recommend.csv:实验推荐集(骨架聚类后每个骨架保留一定数量,按簇内 Boltz-2 排名排序)。报告结果中会在 TopN 旁显示实验推荐集的簇数统计。ucb_last_round.csv:UCB 最后一轮命中ucb_last_round_full.csv:UCB 最后一轮全量快照ucb_final_hits.csv:UCB 合并命中(去重)ucb_final_full.csv:UCB 合并全量快照(去重,按 Boltz-2 分数降序;其中未进入 Boltz-2 精评的审计候选可能没有 score/prob,报告会单独显示 scored 行数)ucb_final_hits_topN.csv:UCB 合并 TopN 命中视图(按 Boltz-2 分数排序)ucb_final_hits_recommend.csv:UCB 合并实验推荐集(骨架聚类后每簇保留一定数量)logs/run.log/logs/run.log.last:完整运行日志(超过阈值后续写run.log.last)
推荐查看顺序(第一次使用时更省时间):
(UCB 模式请把 final_* 替换为 ucb_final_*
对应文件。)
- 先看 “报告”(如果有)
- 再看
final_hits_topN.csv(快速浏览 Top 命中) - 再看
final_hits_recommend.csv(按 scaffold 聚类后的多样性集合) - 需要全量复核时再看
final_full.csv
文件名变更(2026-01-15):
final_hits_full.csv→final_full.csvfinal_hits_all_rounds.csv→ucb_final_hits.csvfinal_full_all_rounds.csv→ucb_final_full.csv- 旧文件名仍兼容读取(报告/统计会自动回退)
5.1 如何看输出 CSV(常用列)
常见列(不同任务/开关下可能有缺失):
rank:命中排名(final_hits.csv从 1 开始编号;final_full.csv未命中通常为空)。ligand_id:分子主键(用于 join 与去重)。SMILES:结构字段(最终输出通常会归一化为SMILES一列)。boltz2_score/boltz2_prob:Boltz-2 高精度结构评估分数与概率(越大越强/越可信)。graphdta_dta20/graphdta_dta100:GraphDTA 打分(越大越好)。similarity_score:相似性分数(0~1,越大越相似;需要提供参考集合)。qsar_score:QSAR 打分(越大越好;需要提供训练集)。
实验推荐集相关(final_hits_recommend.csv /
ucb_final_hits_recommend.csv):
scaffold_id:骨架(Murcko scaffold;用于聚类)。cluster_size:该 scaffold 下的条目数。cluster_rank:簇内排序名次。
排序与阈值小结:
- 启用 Boltz-2:主要按
boltz2_score(再boltz2_prob)从高到低排序。 - 未启用 Boltz-2:会按可用的 GraphDTA/相似性/QSAR 信号排序。
6. 常见问题
| 问题 | 处理建议 |
|---|---|
| 任务列表空 / 刷新慢 | 可能在同步远端状态时超时,可稍后再刷新。 |
| 刷新按钮灰掉/倒计时 | 刷新需要连接超算,有节流限制,点击刷新后按钮会进入倒计时,结束后恢复可点。 |
| Boltz-2 报错 | 优先检查 MSA/目标序列是否一致(最常见是
E_MSA_LEN_MISMATCH),以及 MSA
是否可解析。必要时下载结果包查看 logs/run.log
的报错上下文;仍无法定位可联系管理员协助排查运行环境。 |
| 提交报错:请选择费率档位 / 缺少计费单价 | 先确认已选择“费率档位”;若仍报错,通常是费率拉取失败或网络异常,刷新页面后重试。 |
| 提交报错:扣费渠道余额不足 / 扣费渠道不可用 | 更换扣费渠道后重试;若所有渠道都不可用,请联系管理员处理余额或渠道状态。 |
| 提交报错:化合物库 CSV 缺少列 / 文件为空 | 先检查 CSV 表头是否有 smiles,且至少包含 1
行有效数据;UCB 模式还需要稳定的可识别 ID 列(如
ligand_id/origin_id/ID)。若由
Excel 导出,请确认分隔符与表头未被破坏。 |
| 命中为 0 / TopN 为空 | 优先检查阈值是否过严: • 适当放宽 Filter(Ro5/MW/LogP/TPSA/QED)或关闭部分过滤开关 • 降低 GraphDTA 门槛 • 降低 Boltz-2 的 -ΔG/概率阈值 其次检查输入与依赖: • 确认目标序列、MSA(A3M)一致且可解析 • 查看 “日志 / 报告 / 下载包” 里对应阶段的产物与错误信息(GraphDTA/Boltz-2 常见会在这里暴露根因)。 |
| 提交被拒绝:空间占用超限 | 删除不需要的历史任务(“删除”会清理任务目录与缓存,释放空间),再重新提交。 |
| 下载失败 | 任务尚未完成或远端产出未同步,请稍后重试。 |
| 任务失败:Disk quota exceeded / No space left on device | 这是磁盘空间/配额问题。优先删除不需要的历史任务释放空间;若仍失败,请联系管理员检查账号配额或临时目录配置。 |
附录:功能名称与技术字段对照
本表用于说明页面功能背后的技术字段。日常使用时只需关注功能作用;只有复现提交配置或排查问题时,才需要查看这些字段。
| 页面功能 | 功能作用 | 常见技术字段(高级/排查时用) |
|---|---|---|
| 采样方式 | 决定从候选集合里如何抽样进入后续流程,例如全量、随机或 UCB。 | sampler sampler_size
sampler_kappa sampler_rounds |
| 候选池加速 | 用较小活动池加快 UCB/采样计算。 | sampler_active_pool_enabled
sampler_active_pool_source
sampler_active_pool_size |
| 理化性质过滤 | 按分子量、脂溶性、TPSA、QED、PAINS 等规则筛掉明显不合适的分子。 | filter.mw_* filter.alogp_*
filter.tpsa_* filter.qed_*
filter.pains_* |
| 合成可行性过滤 | 开启后计算 SA 分数,并按阈值筛掉分子。 | filter.sa_placement filter.sa_max |
| ADMET-AI | 预测 ADMET 指标,可只做标注,也可按阈值过滤。 | admet.enabled admet.filter_enabled
admet.filters |
| 共识筛选 | 用 GraphDTA / QSAR / 相似性等信号综合排序,决定谁进入后续高精度评估。 | collector.graphdta_filter_mode
collector.graphdta_topm collector.dta20_min
collector.dta100_min |
| QSAR | 使用自定义训练集生成一个额外排序信号。 | qsar_enabled qsar_smiles_column
qsar_target_column |
| 相似性参考 | 用参考分子做相似性排序或兜底加权。 | collector.similarity.* |
| 高精度评估器 | 对候选做高精度结构评估,并按最终命中集策略生成结果。当前评估器为 Boltz-2;默认使用自适应 TopN,也支持阈值过滤。 | boltz2_enabled collector.final_strategy
collector.a1_prob_thresholds
collector.boltz2_score_min
collector.boltz2_prob_min
boltz2_top_structures |
| AiZynth 合成评估 | 评估可合成性;默认作为结果附加信息,也可只在最终命中时做硬过滤。 | aizynth.enabled aizynth.filter_enabled
aizynth.filter.* |
| 受体模板诊断 | 从 Boltz-2 complex 中选择受体模板,必要时触发模板重跑、统一受体坐标系和 binding-site 分组;用于 FEP/PosePrep 前的一致性复核。 | receptor_template.enabled
template_rerun_enabled
receptor_frame_canonicalize_enabled
pocket_site_enabled |
| 分子生成 | 用 REINVENT4 生成新分子并并入候选集合。 | sampler_generator_enabled
sampler_generator_count
sampler_generator_steps |