超声前沿 | 基于深度学习反演的骨超声断层成像
近日复旦大学智慧医疗超声实验室在超声权威期刊IEEE Trans. on Ultrasonics在线发表题为《Deep-Learning Inversion for Bone Ultrasound Tomography》文章,为骨超声断层成像提供了高效解决方案。
摘要
作为一种非侵入式医学成像方式,超声具有安全、便捷和经济等优点。然而,由于骨组织声阻抗较高,骨成像长期以来一直具有挑战性。反演算法推动了超声断层扫描成像(UCT)在骨成像中的应用。然而,传统物理驱动的反演算法,如全波形反演(FWI),计算量大且易陷入局部极小值。为此,本研究提出一种深度学习(DL)反演方法以实现快速骨成像。该方法采用数据驱动策略,建立超声数据到骨声速分布图的映射关系。此外,我们设计了物理信息引导的先验知识增强模块,从数据中提取并融合了超声走时与低频信息。这使网络能够基于物理原则关注关键特征,提高其在波形域变化下的泛化能力。在仿真测试中,该方法可在两秒内完成皮质骨图像重建,平均结构相似性指数(SSIM)为0.9823。尽管该网络仅使用特定声源的数据进行训练,但它仍然能够适应波形域不匹配的情况,例如脉冲长度、中心频率、环境噪声以及软组织引入的传播效应变化。在实验验证中,尽管网络训练完全基于仿真数据,仍能利用实验数据成功重建骨仿体图像,SSIM达到0.9528。这表明,该先验信息引导的DL反演方法具有良好的鲁棒性,为骨成像提供了一种快速、准确且适应性强的解决方案,有效克服了传统反演方法的局限性。
研究亮点:
•本研究提出了一种快速且高精度的骨超声断层成像的深度学习(DL)反演方法,并通过实验数据进行了验证。
•为增强网络的泛化能力,本文引入了物理信息引导的先验知识增强模块,使其能够处理来自真实信号源场景的数据。
•所提出的 DL 反演方法具有实时骨超声断层成像的潜力,为临床超声骨成像与诊断提供了一种有前景的工具。
I.引言
定量超声(Quantitative Ultrasound, QUS)已成为一种新兴且前景广阔的无创骨评估技术。与计算机断层扫描(CT)和磁共振成像(MRI)等传统成像方式相比,超声具有无辐射、安全、成本低、便携和操作便捷等优势,适于临床广泛应用。因此,QUS在骨质疏松、骨折及其他骨相关疾病的诊断与监测中具有重要价值。
尽管如此,超声骨成像仍面临显著挑战,主要原因在于骨组织与周围软组织之间存在较大的声阻抗差异。在缺乏声速(Sound Speed, SoS)分布先验信息的情况下,传统超声成像方法难以获得清晰可靠的骨结构图像。
依托多种反演算法的发展,超声计算机断层扫描成像(Ultrasound Computed Tomography, UCT)逐渐用于骨参数成像。UCT通常采用环形阵列或柱面机械扫描方式,采集组织周围的反射与透射信号,并基于全矩阵观测数据恢复介质物理参数。当前常用的两类算法为超声走时反演(travel-time inversion)和全波形反演(Full-Waveform Inversion, FWI)。
超声走时反演基于射线理论,仅利用超声波的首波到达时间信息。该方法计算量小、稳定性高,但空间分辨率有限,只能重建骨结构的粗略轮廓。相比之下,FWI利用超声波的完整波场信息,通过迭代最小化观测数据与数值模拟数据之间的失配,实现高分辨率成像,能够较为清晰地呈现骨组织内部结构。
然而,FWI本质上属于大规模、非线性且病态的反问题,计算开销大,迭代过程耗时严重。同时,其优化过程容易陷入局部极小值,影响算法收敛性和实际应用效果。低频分量对于FWI的收敛至关重要,因此骨FWI通常采用多尺度反演策略,即先利用低频信息重建平滑或低波数速度结构,再逐步引入高频数据恢复高波数细微结构。但当初始模型与真实模型差异较大时,反演结果仍难以保证准确性。我们此前的研究将频域FWI应用于肌肉骨骼成像,在一定程度上改善了收敛效率。
近年来,深度学习(Deep Learning, DL)作为一种数据驱动方法,在复杂反演问题中展现出显著优势。在地球物理领域,DL已用于加速FWI过程,从而实现从地震波形数据中快速恢复地下参数。在训练数据量充足的情况下,DL网络能够显著降低计算成本,甚至实现接近实时的反演速度,同时保持较高精度。
在医学超声成像领域,DL与FWI的结合亦取得了一定进展。针对超声数据低频信息缺失的问题,研究者利用卷积神经网络(CNN)从高频数据中映射出低频信号,以辅助FWI的收敛。我们先前的骨成像研究中构建了一种基于U-net的端到端CNN,实现从采集数据到骨图像的快速重建。此外,通过引入高频特征增强机制,DL可进一步提升骨结构分辨率。
然而,上述研究目前仍存在明显局限,尤其缺乏临床实验验证。现有DL网络通常基于大量仿真数据进行训练,而实际超声信号源与仿真模型之间往往存在显著差异,导致采集波形发生变化。训练完成后的网络对由信号源变化或测量条件差异引起的波形域偏差较为敏感,从而限制了其实际应用。因此,提高数据驱动的DL反演方法在波形域变化下的泛化能力具有重要意义。
针对上述问题,本文提出一种基于物理先验信息的DL反演方法用于骨成像。在传统DL的基础上,引入基于物理准则的先验知识。通过设计先验知识增强模块,基于物理原理提取数据中的关键特征,使网络融合超声走时信息、全波信息及频域信息,从而提升成像性能并增强对波形域变化的泛化能力。该方法能够在数秒内完成骨图像重建。通过实验数据验证,证明其能够快速获得准确可靠的皮质骨图像。
本文结构安排如下:第二部分介绍超声走时(TOF)提取方法以及超声走时反演、FWI和所提出的DL反演方法;第三部分说明仿真与实验设置;第四部分给出反演结果并结合实验数据进行验证;第五和第六部分分别进行讨论与总结。

图1.基于UCT采集的骨成像示意图。图中展示了两种由观测数据重建骨图像的方法:物理驱动反演与数据驱动反演。
II.理论与方法
在UCT骨成像中,骨组织超声信号的采集通常采用一对机械扫描换能器或换能器阵列完成。由记录的信号重建骨图像本质上是一个反演问题,如图1所示。针对该问题,传统方法主要基于物理驱动策略,采用超声走时(TOF)层析和全波形反演(FWI)等算法。这类方法通常从一个初始模型出发,通过迭代优化逐步逼近最终解。
本文同时提出一种数据驱动方法,通过深度学习网络建立超声数据与骨组织参数图像之间的映射关系,实现反演过程。本节依次介绍TOF提取方法、物理驱动反演方法以及数据驱动DL反演方法。
A. 超声走时(TOF)提取
本文采用基于Akaike信息准则(AIC)的自动TOF拾取算法,以准确确定观测数据矩阵中波形的首次到达时间。
对于一个波形信号τ,在选定的感兴趣区域(ROI)内,将其在每一个数据点处分为两个区间。TOF 点通过选取AIC值最小的数据点确定,该点对应最小信息损失。
B. 基于物理的反演方法
(1)超声走时反演算法
超声走时反演基于射线理论。超声波前的超声走时满足 Eikonal 方程。实际超声走时与当前慢度分布下计算得到的理论超声走时T(s)之间存在差异。
(2)全波形反演算法
与仅利用首波到达时间的超声走时反演不同,FWI 使用超声信号的完整波场信息。
FWI 的目标是恢复介质参数,使数值模拟结果匹配观测数据。
损失函数梯度可通过伴随状态法计算,但需要大量波场运算,计算开销较大。同时,优化过程容易陷入局部极小值。

图2.深度学习反演网络架构。(a) 基于U-net的编码器-解码器网络架构。(b) 先验知识增强模块,包括(c) 空间聚焦单元与(d) 信息融合单元。
C. 数据驱动反演方法
不同于基于物理的波形反演方法,数据驱动的深度学习(DL)反演方法从大数据中自适应提取高维特征,学习从观测数据到参数模型之间的非线性映射关系。
在训练阶段,输入为通过 UCT 系统记录的骨组织观测数据,输出标签为对应的骨组织参数图。网络训练完成后,可直接将超声数据转换为参数分布图,从而完成骨成像过程。
网络的整体框架如图 2(a)所示。输入数据的维度为 Ns×Nr×Nt ,其中Ns表示UCT系统中的声源数量,同时也对应数据的通道数,Nr和Nt分别表示接收器数量和时间采样点数。网络左侧的编码器构成收缩路径(contracting path),包含四个下采样步骤。每个步骤由两个卷积层、一个批归一化(Batch Normalization, BN)层、一个修正线性单元(Rectified Linear Unit, ReLU)激活函数以及一个 2×2 最大池化操作组成,这些操作用于逐层提取输入数据的高维特征表示。网络右侧的解码器构成扩张路径(expansive path),同样包含四个上采样步骤。每个步骤包括一个反卷积层、一个跳跃连接(skip connection)以及两个卷积层,用于将编码阶段提取的高维特征逐步转换为参数分布图。最终,通过裁剪得到目标区域,并通过一个 1×1 卷积层生成输出图像。在本研究中,输出图像的尺寸为 336×336。
在进入编码器之前,我们设计了一个先验知识增强模块,用于基于物理原理手动提取输入数据中的关键特征。该模块包括空间聚焦单元(spatial focus unit)和信息融合单元(information fusion unit),其结构如图 2(b)–(d) 所示。空间聚焦单元提取超声走时(TOF),并生成与原始数据维度相同的权重矩阵,从而增强首波到达区域数据的权重。通过该操作,网络能够更加关注与传播路径密切相关的关键信号区域。
信息融合单元通过快速傅里叶变换(Fast Fourier Transform, FFT)提取所需的频域信息,并将其与 TOF 信息进行拼接。通过融合超声走时信息、完整波形信息以及频域低频信息,网络能够在保持数据物理相关性的同时增强对关键特征的表达能力,从而提升成像精度并提高在波形域变化条件下的泛化性能。
III.仿真与实验
A.数据仿真
(1)标签生成
本研究所采用的骨模型来源于人体下肢在体 X 射线 CT 扫描获取的胫骨–腓骨配对结构。背景介质设为水,其声速为1500 m/s,密度为1000 kg/m³。为模拟不同骨组织之间的差异,骨组织的声学参数在一定范围内随机设定:声速(纵波速度)取值范围为2600–2900 m/s,密度范围为1700–1900 kg/m³。剪切波速度设为纵波速度的一半。用于训练的皮质骨模型覆盖不同几何尺度,其中单根骨的外径范围为8–40 mm,皮质层厚度范围为2–6 mm,从而保证数据集中骨尺寸的多样性。
为考虑声波传播过程中的能量衰减,在 k-Wave 仿真中引入频率相关的声衰减模型。采用幂律形式的衰减模型。共生成4000个骨模型,用作 DL 反演算法的标签以及后续超声数据仿真的介质模型。其中3200个样本用于训练,800个样本用于测试。每个骨模型尺寸为20×20 cm,并离散为800×800个网格。在生成标签时,从模型中心区域提取672×672个网格,并将其下采样至336×336,以匹配网络输出尺寸。该尺寸覆盖模型中的感兴趣区域,能够有效保留骨结构的主要特征。

图3.网络输入数据的生成。(a) 单个声源在骨样本上产生的数据矩阵。(b) 所有激发信号的TOF(渡越时间)提取,红色圆圈标示初至波位置。(c) 叠加了TOF的二值图像,绿线表示TOF线。(d)和(e) 针对全部321次激发中的9次进行的频域数据提取过程,红点和蓝点分别代表在200 kHz处提取的实部和虚部。
(2)数据生成
本研究采用 k-Wave 工具箱,基于上述骨模型仿真生成观测超声数据。仿真系统采用半径为 10 cm 的环形阵列,包含 Ns 个声源和 Nr 个接收器。计算域总尺寸为22×22 cm,在原始20×20 cm 骨模型外围添加5 mm 厚水层和5 mm 厚完美匹配层(Perfectly Matched Layer, PML),并保持相同的网格分辨率。
为与实际实验换能器保持一致,仿真中的声源与接收器建模为线形单元。阵列的空间布局严格按照后续实验系统设计。具体而言,阵列包含 18 个超声激励源,间隔 20°均匀分布,即Ns=18每个声源依次发射信号,由 321 个接收器记录信号,即Nr=321。接收器在环形阵列上以 1°间隔均匀分布,相对于每个声源覆盖 20°至 340°的角度范围。该设置符合实验机械扫描的物理约束条件,即换能器之间的最小夹角为20°。
因此,每个声源产生 321 条时间序列信号,如图 3(a) 所示。激励信号采用中心频率为 400 kHz 的单周期 tone-burst 信号。总仿真时间设为 160 μs,时间步长设为 0.016 μs,以满足 Courant–Friedrichs–Lewy(CFL)条件,保证数值稳定性。因此,每个接收器记录 10000个时间采样点。全部采集数据构成一个尺寸为 18×321×10000 的三维矩阵。在预处理阶段,该数据矩阵被下采样至 18×321×400,以作为 DL 网络输入,从而在保证信息完整性的同时提高计算效率。
基于记录的数据矩阵,利用式 (1) 对每一条接收信号进行 TOF 提取。图 3(b) 展示了提取结果,红点表示识别出的首波到达时间。对于与声源相对的接收器(编号 121–201),提取的 TOF 对应透射波的首次到达时间;对于靠近声源的接收器(编号 1–121 和 201–321),对应骨样本反射波的到达时间。图 3(c) 以二值图形式展示 TOF 提取结果,绿色曲线表示 321 个接收器的 TOF 时间坐标。
基于估计得到的 TOF,构建时间加权矩阵以突出首波分量。具体而言,对于每个接收通道,在提取的 TOF 位置附近施加时间窗。时间窗宽度固定为 60 个采样点(即 24 μs),能够覆盖首波信号并排除后续波分量。在该时间窗内采用高斯加权函数,权值向边界逐渐衰减,窗外样本置零。该设计有效抑制多次散射、回波以及源相关的尾部振荡,从而强调主要受传播几何结构控制的波形特征。此外,由于该权重矩阵预先计算且不包含可训练参数,不会影响训练稳定性,且几乎不增加计算开销。
随后对观测信号进行频域处理,利用快速傅里叶变换(FFT)将时间信号转换为复数频谱。由于 FWI 收敛依赖低频信息,同时低频信号在骨结构中通常具有较好的信噪比,因此选取 200 kHz 作为特征频率,以在分辨率与穿透深度之间取得平衡。对于每个接收通道,提取 200 kHz 处的复频谱值,并分解为实部和虚部两个实数标量。图 3(d) 和 (e) 展示了 321 个接收通道中的 9 个代表性通道,红色和蓝色点分别表示实部和虚部。除 FFT 与频率选择外,不进行额外特征工程处理。所有 321 个通道的频域特征构成 321×2 的矩阵,拼接到网络输入中。
因此,对于每个骨样本(18 个声源激励),最终获得四类数据:时间域观测数据矩阵和对应权重矩阵(尺寸均为 18×321×400)、TOF 矩阵(尺寸为 18×321×1)以及频域数据(尺寸为 18×321×2)。
(3)训练细节
本研究采用均方误差(Mean Squared Error, MSE)作为网络的损失函数。
训练过程中批大小(batch size)设为 10,训练轮数(epoch)为 200。优化算法采用 Adam 优化器,初始学习率设为0.001,所有计算在NVIDIA Tesla V100-SXM2-16GB GPU 上完成。
为评估反演结果质量,采用结构相似性指数(Structural Similarity Index Measure, SSIM)作为评价指标。SSIM 用于衡量重建图像与真实图像之间的结构一致性。
B. 实验研究
在实验研究中,采用所提出的 DL 反演方法对骨组织仿体进行重建。实验系统为自行设计的 UCT 采集装置,如图 4(a) 所示。系统包括安装在水槽上方的两个旋转电机(Winner Optical Instruments, 北京,中国),每个电机独立控制一个浸没在水中的换能器。通过驱动电机旋转,两个换能器可在同一平面内围绕骨仿体进行 360°扫描,如图 4(b) 所示。扫描半径可机械调节,本研究中设为10cm,与仿真参数保持一致。骨仿体采用树脂材料,通过 3D 打印技术制作,其结构尺寸接近真实胫骨–腓骨,厚度范围为 4 - 5 mm。经测量,该树脂材料的声速约为2720m/s,能够较好地模拟真实骨组织的声学特性。实验中使用的平面换能器(Ulso Tech,中国邢台)晶片直径为10mm,能够提供足够能量穿透骨组织。换能器中心频率为 400 kHz,-6 dB 带宽约为 110%,频率范围约为 180 kHz ~ 620 kHz,该频率范围与信号功率适用于骨组织波形反演。发射端激励信号为中心频率 400 kHz 的单周期脉冲信号。信号经骨组织传播后由接收端换能器采集。采用逐点顺序扫描方式,与仿真设置一致,共获得18×321条时间序列数据,对应 18 个声源位置与 321 个接收器位置。采集系统通过数字示波器(PicoScope 5444D)与计算机连接,记录数据矩阵用于后续处理与分析。
IV.结果
A.仿真结果
在完成网络训练后,首先对测试集中的皮质骨样本仿真数据进行反演。图5 展示了两个代表性骨样本的FWI、基准U-net 以及本文提出的基于物理先验的DL 反演结果。图5(a) 和(e) 为对应样本的真实声速分布图,图5(b) 和(f) 为FWI 结果。FWI的波场计算采用与数据生成阶段相同的设置,计算域尺寸为22×22 cm,网格大小为0.25 mm。优化算法采用有限内存Broyden–Fletcher–Goldfarb–Shanno(L-BFGS)算法,每个样本迭代50 次。
由于骨组织存在较高声阻抗对比且缺乏低频分量,FWI易发生周期跳跃(cycle skipping),导致重建精度有限。两个样本的SSIM 分别为0.7155 和0.6770。重建单个样本所需时间约为3 小时。
相比之下,数据驱动方法在完成约5 小时的网络训练后,可在2 秒内完成单个骨样本重建。图5(c) 和(g) 为基准U-net 的重建结果,其SSIM 分别为0.9820 和0.9770。图5(d) 和(h) 为本文提出的先验引导DL 反演结果,其SSIM 分别为0.9886 和0.9853。在全部800 个测试集样本上,U-net的平均SSIM 为0.9805,平均RMSE 为28.2057 m/s,而本文提出方法的平均SSIM 为0.9823,平均RMSE 为26.4067 m/s。数据驱动方法在重建精度和效率方面均明显优于FWI。
由于该测试集中所用激励波形与训练阶段仿真源一致,在该完全匹配条件下,基准模型U-net 与本文方法的重建质量相近。

图4.UCT实验装置。(a) 用于环形采集的机械扫描装置,(b) 采集区域放大视图,白色为骨仿体,(c) 换能器放大视图。

图5.骨样本反演结果与真实模型对比。(a)和(e) 骨样本的真实模型。(b)和(f) 相应的FWI结果。(c)和(g) 相应的基线U-net反演结果。(d)和(h) 相应的先验信息引导的DL反演结果。

图6.在噪声测量条件下获得的反演结果(网络使用无噪声数据训练)。两个骨样本与图5相同。(a)和(d) 使用基线U-net的反演结果。(b)和(e) 使用先验信息引导的DL反演结果。(c)和(f) 显示了沿(a)和(b)以及(d)和(e)中虚线提取的一维声速剖面,对比了真实模型、无噪声反演结果以及两种方法对应的含噪声反演结果。

图7.使用三周期脉冲长度信号源进行数据采集所得的反演结果(网络使用单周期信号源训练)。(a)和(d) 骨样本的真实模型。(b)和(e) 相应的基线U-net反演结果。(c)和(f) 使用先验信息引导的DL反演结果。
B.网络泛化能力
尽管所提出的DL 反演框架在理想仿真条件下表现良好,但在实际应用中,测量波形往往与理想假设存在差异。为评估其泛化能力,分别测试其在噪声条件及波形变化条件下的鲁棒性。
首先,在测试数据中加入5% 的高斯白噪声。需要指出的是,训练阶段未加入噪声数据。图6 展示了与图5 相同两个骨样本在噪声条件下的反演结果。基准U-net 在噪声干扰下重建质量有所下降,其SSIM 分别降至0.9625 和0.9564。而本文方法在噪声条件下仍保持稳定,SSIM分别为0.9753 和0.9703。与无噪声结果相比,本文方法未出现明显性能下降,表明其具有较强的抗噪能力。
为进一步定量比较重建精度,从骨样本中沿虚线方向提取一维声速剖面,如图6(c) 和(f) 所示。黑色实线表示真实值,红色虚线表示无噪声条件下的DL 反演结果,蓝色短虚线和绿色点线分别表示本文方法与基准U-net 在噪声条件下的重建结果。在无噪声条件下,重建结果与真实值高度一致;加入噪声后,基准U-net 在骨边界位置及声速估计方面出现明显偏差,而本文方法误差较小,显示出更好的鲁棒性。
随后评估网络对信号源变化的适应能力。首先将激励信号由单周期改为三周期burst 信号,而网络仍基于单周期数据训练。图7 显示两个样本的反演结果。基准U-net 在此情况下重建效果明显下降,SSIM分别为0.9004 和0.9158,骨形态出现明显失真。这表明若直接建立数据到声速图的映射,网络可能将源信号变化误认为介质参数变化。相比之下,加入物理先验增强模块后,重建结果明显改善,SSIM分别为0.9724 和0.9550,表明该模块有助于提高对声源信号脉冲长度变化的适应能力。
进一步测试频率变化情况。网络基于400 kHz 数据训练,而测试数据采用500 kHz 激励源。图8 显示结果。基准U-net 在频率变化条件下泛化能力有限,SSIM分别为0.9172 和0.9093。本文方法由于在先验增强模块中引入200 kHz 低频信息,在频率变化条件下仍能有效恢复骨结构,SSIM提升至0.9578 和0.9715,表现出更强的泛化能力。
考虑到人体骨骼通常被复杂软组织包围,为测试网络在未见过软组织情况下的泛化能力,进一步对包含脂肪与肌肉组织的下肢模型进行反演。训练阶段仅包含骨模型数据。图9 显示结果。FWI在此条件下仍存在周期跳跃问题。尽管网络未训练软组织数据,但DL 方法仍能够大致恢复骨结构。这是因为软组织声学参数与水接近,数据中主要特征仍由骨组织主导。然而软组织的存在会降低成像质量,产生轻微误差。总体而言,网络在存在软组织时仍能恢复主要骨特征。

图8.使用500 kHz中心频率信号源进行数据采集所得的反演结果(网络使用400 kHz信号源训练)。(a)和(d) 骨样本的真实模型。(b)和(e) 对应的U-net反演结果。(c)和(f) 使用先验信息引导的DL反演结果。

图9.包含软组织在内的小腿剖面反演结果(网络仅使用皮质骨数据训练)。(a)和(d) 小腿剖面的真实模型。(b)和(e) FWI结果。(c)和(f) DL反演结果。
C. 消融实验
为进一步定量评估所提出先验知识增强模块中两个子模块(空间聚焦单元与信息融合单元)的独立贡献,开展了消融实验。除本文提出的模型外,还引入Attention U-net 作为传统U-net 之外的代表性深度学习基线模型。
我们共比较五种网络配置。第一种为不包含任何先验增强的基准模型U-net。第二种为Attention U-net。第三种仅包含基于TOF 的空间聚焦单元,通过到达时间信息构建权重矩阵。第四种仅包含信息融合单元。第五种为本文提出的完整模型,即同时包含两个子模块。
为与前述信号变化实验保持一致,使用两组测试数据:一组为长度变化测试集(训练使用单周期信号,测试使用三周期信号,对应图7),另一组为频率变化测试集(训练使用400 kHz,测试使用500 kHz,对应图8)。对每种网络结构计算测试集的平均SSIM。
结果表明,U-net在两种测试条件下均取得最低SSIM。Attention U-net 略有提升,但仍明显低于本文方法,说明单纯依靠注意力机制不足以应对源信号变化。仅引入空间聚焦单元时,在长度变化条件下SSIM 明显提高,说明首波到达信息对脉冲长度变化具有鲁棒性。仅引入频率融合单元时,在频率变化条件下性能改善,说明200 kHz 低频特征有助于网络应对频率偏移。当两个模块同时引入时,在两种测试条件下均取得最高SSIM,表明两类物理先验具有互补作用,共同提升了重建精度与泛化能力。

图10.骨微结构样本的DL反演与FWI结果,并与真实模型对比。(a)和(d) 骨样本的真实模型。(b)和(e) 相应的FWI反演结果。(c)和(f) 使用DL反演的结果。
D. 骨微结构的迁移学习
先验引导DL 反演网络在源信号不匹配与噪声条件下表现出良好的鲁棒性。本研究使用的皮质骨模型对应胫骨与腓骨骨干区域,其几何形态相对平滑,内部结构以皮质骨为主。然而人体骨骼在不同部位具有明显不同的形态与微结构特征,仅在骨干区域训练的模型难以直接泛化至结构复杂区域。
因此,本文采用迁移学习策略进行适应性调整。选取胫骨近端样本作为测试对象,该区域包含复杂的松质骨微结构,空间变化更为剧烈。按照III.A 中的数据生成方法,构建包含240 组样本的数据集,其中180 组用于微调训练,60组用于测试。以皮质骨模型为预训练初始化模型,在小规模近端胫骨数据集上进行微调,从而使网络适应新的结构特征。
图10 展示了两个代表性近端胫骨样本的重建结果。由于图像展示比例不同,图中采用放大视图以显示松质骨细节。图10(a) 与(d) 为真实模型,图10(b) 与(e) 为FWI 结果。在400 kHz 中心频率下,受物理分辨率限制,FWI无法恢复细微多孔结构,内部呈现模糊且连续性不足。图10(c) 与(f) 为迁移学习后的DL 反演结果,能够恢复主要空腔结构与大尺度连通特征,并在一定程度上捕捉局部微结构变化。结果表明,该框架可通过迁移学习有效适应不同骨结构形态。

图11.仿真数据与实验数据的对比。分别由(a) 用于网络训练的数值源和(b) 实验中的实际源在水中生成的数据。(c)和(d) 分别在(a)和(b)中黑线标示位置处,声源对面接收器记录到的透射信号。(e)和(f) 分别为(c)和(d)中信号的幅度谱。

图12. 骨模型反演结果与真实模型的对比。(a)和(e) 骨模型照片。(b)和(f) 相应的FWI结果。(c)和(g) 相应的基线U-net反演结果。(d)和(h) 相应的先验信息引导的DL反演结果。红线:从真实模型中提取的结构与边缘。

图13.不同方法在输入数据上的注意力分布。(a) 骨样本上单个声源的实验采集数据。(b) 数据直接输入传统U-net时网络生成的基于Grad-CAM的热力图,红色区域表示网络关注区域。(c) 本网络中空间聚焦单元提取的权重矩阵。
E. 实验验证
利用UCT 扫描系统采集实验数据。首先采集纯水数据,并与对应仿真数据进行比较,如图11 所示,以说明实验换能器与训练所用仿真源之间的差异。图11(a) 为仿真水数据,图11(b) 为实验采集数据。图11(c) 与(d) 分别提取对应矩阵中心位置的一维信号,可以观察到,尽管实验中采用与仿真相同的400 kHz 单周期激励信号,实际换能器产生的波形仍存在明显差异。此外,实验频谱带宽窄于仿真结果,如图11(e) 与(f) 所示。
图12 展示了骨仿体的实验重建结果。需要强调的是,网络完全基于仿真数据训练,对实验信号特性并无先验知识。图12(a) 与(e) 为骨仿体照片,红色轮廓线为从真实模型中提取的结构边界,用于对比。图12(b) 与(f) 为FWI 结果,由于周期跳跃及源建模误差,成像质量较差,SSIM分别为0.4601 和0.4546。图12(c) 与(g) 为基准U-net 结果,在实验条件下表现不佳,SSIM分别为0.4674 和0.2687。图12(d) 与(h) 为本文方法结果,SSIM分别达到0.9528 和0.9383,显示出与真实结构高度一致的重建效果。同时,DL方法重建时间约为2 秒,而FWI 约需3 小时。
图13 给出了实验数据的注意力热图分析。图13(a) 为单源采集数据。利用Grad-CAM 方法生成热图,图13(b) 显示传统U-net 对数据中直接波与多次反射区域均存在关注,可能导致误判。图13(c) 为本文方法生成的权重矩阵,其基于TOF 信息将注意力集中于首波区域。由于首波携带目标介质宏观结构信息且受源变化影响较小,该设计提高了反演准确性。

图14.接收器和声源阵元降采样条件下的DL反演结果。接收器降采样:(a) 2倍,(b) 4倍,(c) 8倍。(d) 声源降采样2倍。红线:从真实模型中提取的结构与边缘。
图14展示了不同降采样条件下先验信息引导的DL反演结果。原设置为Ns=18, Nr=321。当接收器数量减半(Nr=161)时,重建质量基本保持;当进一步减至四分之一时,重建下降明显;减至八分之一时,重建质量严重退化。图 14(d) 展示了减少声源数量时的结果。在这种情况下,重建退化更加明显。即使声源数仅减少一半(Ns = 9),重建质量也已经差于接收器数降至八分之一时的情况。这是因为在原始配置中,接收器维度本身具有较高的采样冗余,中等程度的接收器减少在插值后仍可部分补偿。而声源维度决定了网络可利用的独立照射数量,原始配置中仅有 18 个声源,因此减少声源会直接降低测量信息的多样性,从而更显著地削弱重建性能。

图15.腿部模型仿体的DL反演与FWI实验结果对比。(a) 腿部模型的照片。(b) 相应的FWI结果。(c) 相应的先验信息引导的DL反演结果。红线:从真实模型中提取的结构与边缘。
图 15 给出了包含软组织的小腿仿体实验结果。软组织由硅胶与琼脂制成,其声学特性接近人体组织。FWI 仅能粗略恢复整体轮廓,而 DL 方法能够更准确地恢复骨结构。实验中可能存在气泡等制造误差,对结果产生一定影响。计算时间方面,FWI 约需 3 小时,而 DL 方法小于 2 秒。
V.讨论
本研究提出了一种用于快速、准确骨成像的深度学习反演方法。骨超声成像长期以来是一项具有挑战性的任务。目前,骨成像研究主要依赖基于物理模型的反演算法,例如利用 FWI 重建骨图像。这类算法计算量大,长时间的计算过程削弱了超声成像快速性的优势。本研究中的基准 FWI 在 MATLAB 环境下实现,并运行于高性能 CPU 平台(AMD EPYC 7742 64-Core Processor)。在该配置下,单次重建约需 3 小时。若将前向建模过程移植至 GPU 平台可缩短计算时间,但 FWI 本质上依赖迭代优化,其计算负担仍然较重。尽管优化策略和硬件性能不断提升,基于物理模型的反演方法实现实时成像仍存在困难。此外,若采集系统无法提供低频激励源,优化过程容易陷入局部极小值。
本文提出的 DL 反演方法以数据驱动方式求解该复杂非线性问题,将反演任务构建为从多通道时间序列信号到声速分布图的映射问题。不同于先重建声速图再进行图像增强的图像到图像方法,本方法直接学习测量域数据到声速分布的映射,避免了额外的物理重建步骤。结果表明,与传统 FWI 需要数小时相比,训练完成后的 DL 网络能够在数秒内完成骨图像重建,并保持具有竞争力的精度。
建立完整的人体骨结构超声数据库存在显著挑战。目前 DL 超声成像研究通常基于仿真数据训练。当测试阶段真实声源波形与训练阶段一致时,传统 DL 方法能够获得较高精度。如图 5 所示,在完全匹配条件下,基准 U-net 与本文方法结果相近。然而实际应用中,换能器响应特性与仿真模型存在差异,导致发射波形发生变化。为提高网络在真实场景下的适应能力,本文引入物理先验知识增强模块,使网络在物理原理指导下聚焦关键特征。空间聚焦单元增强第一到达波区域权重,而信息融合单元提取 TOF 与低频频域信息,这些特征在校准后受声源变化影响较小。实验验证表明,即使实验信号与仿真信号存在差异,网络仍能准确重建骨仿体。
在实验系统中,我们采用直径 10 mm 的平面换能器,其具有明显指向性。为保证仿真与实验一致性,在数据生成阶段采用线形声源模型近似该指向性。若实际使用具有不同辐射特性的换能器,如聚焦声源,则需重新生成训练数据以保证一致性。此外,实验与仿真信号幅度差异通过幅值归一化在预处理阶段加以消除,使网络更关注波形形状的相对特征,而非绝对幅值。
本研究还分析了软组织对 DL 骨反演的影响。与皮质骨相比,脂肪和肌肉等软组织与水的声学阻抗差异较小,因此在当前胫骨–腓骨配置下,数据中的主要散射与反射仍由骨组织主导。实验结果表明,即使训练阶段未包含软组织数据,网络仍能恢复主要骨结构。如需扩展至软组织重建,可通过加入对应训练数据和先验进行扩展。
在分辨率方面,传统 FWI 的理论分辨率通常约为半个波长。对于 DL 方法,其空间分辨率难以通过解析公式定义,而取决于波场物理信息与训练数据分布。本研究中可分辨约 2 mm 厚度的皮质骨层。由于本研究模型主要关注皮质骨结构,未来可通过迁移学习扩展至更复杂骨结构。
本研究采用机械扫描方式采集全矩阵数据,每个位置需停止 1 秒以减小机械振动对声场的影响,因此完成 18 × 321位置采集约需 2.5 小时。实际临床应用中应采用环形阵列实现快速全矩阵采集。未来还可考虑多声源编码发射接收方案。传统物理反演在多源同时发射情况下容易受到串扰影响,而 DL 方法可能在此方面具有优势,从而实现更快速的数据采集与重建。
PodaMed-US
波达专注于研发和生产具有国际领先水平的开放式可编程相控阵超声科研平台。PodaMed-US超声平台可应用于无损检测(NDE/NDT)、材料科学及医学超声领域的前沿研究,为学术界和工业界的无损检测研发提供高性能的超快多通道超声系统。我们的解决方案涵盖了2D/3D超声成像、非线性超声和超声导波检测等创新技术的研发、原型机设计、声学测试和定制化开发,提供一体化的技术支持。

波达超声平台严格对标国际先进设备,在核心性能上具备显著优势,同时提供更高性价比和完善的售前、售后服务。目前,该平台已成功服务于国内多家知名研究机构,助力国产超声技术在科研领域的突破与创新。
预约咨询:
Tel:15102171511
Email:contact@podamed.com
VI.结论
本文提出了一种基于物理先验信息的DL反演方法,用于实现高效、准确的骨超声成像,并通过仿真与实验验证了其有效性。结果表明,在计算效率方面,DL方法能够在数秒内完成骨图像重建,显著优于FWI。此外,由于缺少低频数据,FWI可能会出现周期跳跃和局部最小值问题,而本文的方法克服了这些物理极限,提高了重建精度。
本文在网络中设计并引入了物理信息引导的先验知识增强模块,以提升其在波形域变化条件下的泛化能力。该模块包括一个利用TOF 提取结果聚焦关键特征的空间聚焦单元,以及一个融合TOF 与频域信息的信息融合单元。训练完成后,网络无需重新训练,即可在训练与测试条件存在波形域差异的情况下稳定重建骨声速图。
在实验验证中,本文设计了UCT 采集系统,并成功利用实验数据重建骨仿体,说明该DL 反演方法能够在无需额外训练的情况下处理真实数据。当前研究通过离体骨仿体展示了该方法的潜力,未来仍需开展体内临床实验,以全面验证其在复杂生理环境中的性能和适应性。该方法所展现的鲁棒性说明,它有望成为骨超声成像中的一种新型反演技术,并为临床骨健康诊断与监测带来新的可能。
译者:陈中旭、周宸宸
DOI: https://doi.org/10.1109/TUSON.2026.3678152
上海波达医疗科技有限公司成立于2022年,总部位于上海,是一家专注于新型超声成像前沿技术转化的高科技创新企业。公司致力于攻克脑功能超声与无创脑机接口两大产业前沿,为重大脑功能疾病的早期诊断、安全治疗及术中精准导航一体化,提供创新型解决方案。目前,波达医疗已在三维超声、脑功能超声及超分辨定位显微超声等核心技术领域,完成了从技术研发到专利布局的全链条构建。超声设备已成功进入海内外多家顶尖科研院所,正向中国卓越超声品牌的目标迈进。
关注波达
推动医学超声和工业相控阵超声创新
Empowering Ultrasound Imaging
Advancing Ultrasound Innovation

↑ 扫码添加官方微信
联系电话:+86-15102171511
官网:www.podamed.com
邮箱:contact@podamed.com
新闻中心
NEWS CENTER
上海波达医疗科技有限公司
产品中心
应用案例
新闻中心
联系我们
微信公众号
官方微信二维码