DNA分析仪(通常指用于Sanger测序的毛细管电泳遗传分析仪)的原理、结构和算法。这是第一代DNA测序技术的核心设备,至今仍是基因分型、片段分析和验证的金标准。
一、核心原理(The Core Principle)
其核心原理是 Sanger双脱氧链终止法与毛细管电泳分离的结合。
1. Sanger测序反应(化学原理)
目的:生成一系列长度相差一个碱基的DNA片段,片段的末端决定了其终止处的碱基类型。
过程:
将待测DNA模板、引物、DNA聚合酶、四种脱氧核苷酸(dNTPs:dATP, dCTP, dGTP, dTTP)混合。
额外加入少量双脱氧核苷酸(ddNTPs)。ddNTP与dNTP的区别是核糖3'位缺少羟基。
在PCR扩增过程中,当DNA聚合酶遇到ddNTP时,会将其整合到链中,但由于缺少3'-OH,DNA链的合成便会在此处终止。
结果:最终会得到四组(A, C, G, T)DNA片段混合物,每组片段都终止于特定的ddNTP(如所有终止于ddATP的片段)。每个片段的长度精确指示了该碱基在模板链上的位置。
2.毛细管电泳分离(物理原理)
目的:按长度精确分离上述DNA片段(分辨率可达1个碱基)。
原理:将四组反应物混合后,注入一根充满筛分聚合物的毛细管(直径约50μm)。在高压电场作用下,带负电的DNA片段向阳极移动。
筛分效应:毛细管中的聚合物像“分子筛”一样,小片段DNA移动得快,大片段DNA移动得慢。因此,DNA片段会严格按照长度从短到长的顺序依次到达毛细管的末端。
3.荧光检测(信息读取原理)
标记:四种ddNTP(ddA, ddC, ddG, ddT)分别用四种不同颜色的荧光染料进行标记。
检测:在毛细管的出口端,有一个激光检测窗口。当DNA片段经过此处时,会被激光激发,产生特定波长的荧光。
识别:通过检测荧光的颜色,即可知道该片段是由哪种ddNTP终止的(即末端碱基是A、C、G还是T)。通过测量片段的迁移时间,可推算出其长度(即碱基位置)。
二、设备结构(Instrumentation Diagram & Description)
一台典型的毛细管电泳DNA分析仪是一个高度自动化的系统,其核心工作流程和模块如下:
图表代码
下载
高压电源与电极
施加高压电场-.-o B
B
D
激光器
(激发光源)
光学窗口
(检测区域)
分光系统与
光电倍增管(PMT)
自动进样系统
96/384孔板
(装载测序反应产物)
机械臂与进样针
毛细管阵列
(96或更多根)
阴极槽
(进样端)
阳极槽
(检测端)
信号处理与数据采集
(ADC转换)
计算机与数据分析软件
最终输出:电泳图谱与碱基序列
以下是各部件的详细功能:
毛细管阵列:
核心:通常由96根或更多并行的熔融石英毛细管组成,以实现高通量分析。
涂层:毛细管内壁有聚合物涂层,消除电渗流影响。
筛分介质:管内填充有粘性的、均匀的筛分聚合物,用于分离DNA片段。
自动进样系统:
功能:机械臂自动将96孔或384孔板中的样品从毛细管的进样端(阴极)引入。
进样方式:通常采用电动力学进样(施加瞬间高压,利用电泳原理将样品吸入)或气压进样。
高压电源系统:
功能:在毛细管两端施加10-30 kV的稳定高压电场,驱动DNA片段电泳迁移。电压的稳定性直接决定分离分辨率。
温控系统:
功能:将毛细管阵列置于一个恒温环境中(通常为60°C)。温度稳定对于筛分介质的粘度和DNA迁移行为的重复性至关重要。
光学检测系统(仪器的心脏):
激光器:提供高强度、单色性的激发光源(如氩离子激光,488nm)。
检测窗口:毛细管阵列的出口端(阳极)被集中排列在一个光学检测池中。
光学组件:包括透镜、二向色镜和滤光片,用于收集荧光并将其按颜色分光。
检测器:通常使用CCD相机或光电倍增管阵列,同步检测四种颜色的荧光信号。
数据采集与控制系统:
功能:计算机控制整个仪器的运行(进样、加电压、温控、激光开关),并同步采集来自检测器的原始信号。
三、算法与数据处理(Algorithms & Data Processing)
从检测器采集到的原始信号到最终的碱基序列,需要经过一系列复杂的算法处理。
1.信号预处理算法
多色荧光校正:四种荧光染料的发射光谱有重叠。算法通过一个基质文件进行运算,将测得的混合荧光信号“解混”成四种独立的颜色信号,消除相互间的干扰(Color Crosstalk Correction)。
基线校正与滤波:去除电泳基线的漂移和背景噪声,使用数字滤波器(如Savitzky-Golay滤波器)平滑信号,提高信噪比。
2.碱基识别算法
这是最核心的算法,称为Base Calling。
迁移率校正:由于不同颜色的染料分子本身大小不同,会导致连接了不同染料的DNA片段在电泳中的迁移速度有微小差异。算法必须根据一个已知序列的标准品(分子量内标)运行结果,建立迁移率校正模型,对所有后续运行的序列进行校正,确保同一个碱基在不同通道中迁移时间一致。
峰检测:识别信号中每一个代表DNA片段的峰。算法会判断峰的起止点、高度和面积。
四色轨迹对齐:经过迁移率校正后,将A, C, G, T四个通道的信号轨迹在时间轴上精确对齐。
概率预测:现代Base Calling算法(如Applied Biosystems的Phred算法)会为每个碱基读取赋予一个质量值(Q值)。
Q =-10 * log10(P),其中P是该碱基被错误识别的概率。
Q20:表示错误率为1/100,准确率99%。
Q30:表示错误率为1/1000,准确率99.9%。Q30是高质量数据的标准。
3.序列分析与拼接算法
序列拼接:对于 shotgun测序,算法会将大量随机测得的短序列(reads)根据重叠区进行比对和拼接,组装成更长的连续序列(contigs)。
变异识别:将测得的序列与参考基因组进行比对,算法会自动识别出单核苷酸多态性(SNP)、插入和缺失(Indel)等变异位点。
总结:从信号到序列步骤过程核心技术/算法1.生化反应生成终止于荧光标记ddNTP的DNA片段混合物Sanger链终止法2.物理分离按长度分离DNA片段毛细管电泳与筛分机制3.光学检测在检测窗口激发并采集荧光颜色信号激光诱导荧光检测4.信号处理滤噪、校正荧光重叠、建立四色轨迹数字滤波、矩阵校正5.碱基识别将荧光信号序列转换为碱基序列(A, C, G, T)Base Calling(峰检测、迁移率校正)6.质量评估为每个碱基分配质量分数(Q值)Phred等概率算法7.最终输出生成电泳图谱(原始数据)和FASTQ文件(序列+质量值)
DNA分析仪是生物技术、化学、光学、电子和计算机科学高度融合的典范。它的出现极大地推动了人类基因组计划的完成和后续生命科学研究的飞速发展。虽然新一代测序技术(NGS)已成为主流,但基于毛细管电泳的DNA分析仪在准确读长、验证和某些应用(如STR分析)方面仍不可替代。

