微齿眼子菜繁殖生物学特性的初步研究
PRIMARY STUDIES ON THE REPRODUCTIVE CHARACTERISTICS OF POTANOGETON MAACKIANUS
-
摘要: 微齿眼子菜以风媒传粉为主,具有明显的雌蕊先熟性,显示出明显的异交特性;同时其雌雄可育期部分重叠,被片、花药和柱头三者的空间布局使其极利于自花受粉,暗示了自交存在的可能性.花粉保持萌发活力的时间短(约20h)及萌发率低(10%)可能是导致其自然结实率(2016%)低的主要原因.自交作为衍生性状在其有性生殖中占有相当的比例,繁育系统属于兼性的交配类型,并有向自交演化的趋势.有性生殖分配与其营养体生物量呈显着正相关,异质性程度不同的生境中,微齿眼子菜表现出不同的繁殖对策,在稳定生境中以克隆生长为主,在变动生境中有性生殖率则有所增加,存在着有性生殖与无性繁殖之间的平衡.Abstract: Studies on the reproductive characteristics of Potamogeton maackianus A. Benn. were carried out under cultivation and in nature. P. maackianus, native to East Asia, is primarily wind pollinated and exhibits highly protogynous development: stigma receptivity prior to anther dehiscence. This is suitable for outcrossing, but stigmas are found to be still in receptive state when staminate stage begins, namely a "part overlapping" of male and female stages. The overall arrangment of stigmas, anthers and spatulate tepals is very beneficial for self pollination at the outset of anther dehiscence and suggests the possibility of autogamy. Low fruit set(20.16%)in nature may be attributed to short time of pollen viability(about 20h)and low rate of pollen germation(10%). Experimental evidences indicate that P. maackianus is self compatible, self pollination is presumably the derived condition and there is a tendency from outcrossing to selfing. Fruit set under isolated condition(13.6%)suggests that autogamy is an important component of the breeding system. Resource allocation to sexual reproduction is propotionally correlated with the degree of total biomass. P. maackianus shows different reproductive strategies in different habitats, and exists a sexual asexual evolutionary equilibrium.
-
Keywords:
- Aquatic angiosperms /
- Potamogeton maackianus /
- Pollination biology /
- Breeding system
-
稳定同位素技术是研究食物网生态学的重要技术手段[1—4]。与直接观察摄食或胃肠含物分析等技术手段相比, 稳定同位素技术能反映较长时间尺度内消费者营养来源的整合特征[1, 5]。基于稳定同位素质量平衡模型, 稳定同位素技术可用于消费者营养溯源, 即确定多种营养来源对消费者的贡献比重[6—8]。作为稳定同位素质量平衡模型的重要分支, 贝叶斯混合模型考虑了营养来源的不确定性, 并允许纳入协变量, 所以近十多年来得到了广泛的应用[9]。通常使用贝叶斯混合模型来估计不同营养来源的贡献; 此类模型在贝叶斯混合模型输出了每个营养来源对消费者贡献比例的概率分布特征[10], 因此其假设之一就是营养来源对消费者贡献比重满足(0, 100%)的条件。当引入某种营养来源进入模型时, 就存在了消费者确实依赖了这种营养来源的先验假设; 一个营养来源的贡献比例高, 必然会降低其他营养来源的贡献比例, 导致营养来源贡献比例不确定性增加[11]。因此, 评估贝叶斯混合模型性能, 就需要评价贝叶斯混合模型拟合结果的优劣, 及其与生态学理论和研究背景的匹配程度。
本文基于实测同位素数据集(蒙古鲌Culter mongolicus mongolicus同位素数据集), 通过识别消费者营养功能类群特征、改变营养来源先验信息特征, 构建系列贝叶斯模型; 通过比较模型总体性能、实测值与预测值差异, 及先验信息和后验信息差异等多种模型性能评价方法, 来描述模型性能评价的方法和过程, 以此为应用稳定性同位素技术开展消费者营养溯源研究, 提供模型性能评估体系。
1. 稳定同位素数据
1.1 鲌稳定同位素数据集
本研究中蒙古鲌数据引自李斌等[12]。实验材料于2010年7月采自三峡库区腹地北岸支流小江。同位素样品在西南大学地理科学学院地球化学与同位素实验室(设备型号: Flash EA112HE DELT plus XP)完成测试, 其分析精度δ13C<0.02‰, δ15N<0.03‰。样品的收集、处理和保存方法如徐军等[13]所描述。
1.2 种群营养功能群
采用K-means聚类对消费者稳定同位素值进行聚类和种群营养功能群划分。K-means聚类属于无监督学习聚类。基本原理是从n个数据对象任意选择k个对象作为初始聚类中心点[14]; 根据每个聚类对象的中心点, 计算每个数据对象与这些中心点的距离; 并根据最小距离重新对相应数据对象进行划分; 重新计算每个聚类中心点, 反复循环至每个聚类不再发生变化[14, 15]。
较为常见的聚类效果评估方法是总体类内误差平方和(Total within sum of the squared errors)评估(公式 1), 即肘部法则(Elbow Method)[14, 15]。
$ SSE = \mathop \sum \limits_{I = 1}^K \mathop \sum \limits_{p \in {C_i}} {\left| {p - {m_i}} \right|^2} $
(1) 式中, Ci是第i个簇; p是Ci中的样本点; mi是Ci的质心(Ci中所有样本的均值); SSE是所有样本的聚类误差[14]。随着聚类数k的增大, 总体类内误差平方和减小, SSE随着分组增加而降低; 在达到某个临界点时, SSE得到极大改善, 之后缓慢下降, 形成一个“肘部”形状的关系; 这个临界点附近的聚类数k即可作为聚类性能较好的分组[14,15]。
本研究分析表明, 在对消费者蒙古鲌的稳定同位素值进行聚类过程中, 发现在k=4、5、6时, SSE值形成的“手肘”形状关系; 但是分组的增加所获得的SSE值下降的回报不高(图 1A)。结合湖泊生态学基本理论和消费者种群内营养功能群的特点[16—18], 本文设置了一个聚类k值的选择条件, 即某k值(k>1)聚类所获得的SSE值与k=1时SSE值的比值小于15%时, 则分组回报不足。基于这个聚类原则, 对消费者蒙古鲌的稳定同位素值进行聚类, 最佳聚类数选3(图 1A), 分别代表鱼类食性为主(Piscivorous)、浮游动物食性为主(Planktivorous)和底栖动物食性为主(Benthivorous)等食物网功能类型(图 1B)。种群营养功能群的识别, 既有助于减小消费者同位素变异所带来的不确定, 又有助于理解消费者在食物网的功能[19, 20]。
图 1 种群内营养功能群的确定A. K-means聚类与总体类内误差平方和百分比特征; B. 鱼类食性为主、浮游动物食性为主和底栖动物食性为主的3个功能类型Figure 1. Within-population trophic functional groupsA. K-means cluster and percentage of total within sum of the squared errors; B. Three trophic functional groups, including piscivorous, planktivorous, and benthivorous1.3 营养富集因子与源矫正
构建贝叶斯混合模型的一个重要前提条件是消费者与营养来源间的同位素的差异[21, 22]。这种差异由消化和代谢过程中同位素分馏引起, 被称为营养富集因子(Trophic enrichment factor, TEF, Δ), 其定义为Δ = δtissue–δdiet(δ代表样品的同位素比值与标准物质的同位素比值之间的相对差异)[23]。由于TEF受到从生理到营养来源的多种因素影响, 实际研究中多采用营养级富集因子的统计平均值(或多个统计平均值)进行分析, 以获得最接近富集因子真实值的近似值, 从而更好地估算该种类的食源组成[21, 22]。例如, δ15N在相邻两个营养级间所产生的富集因子(Δδ15N)在3‰—5‰[24], 而δ13C在相邻营养级间富集因子(Δδ13C)为0.4‰—1.0‰[25]。
在本研究中, 消费者蒙古鲌是典型的肉食性消费者, 本研究使用Δδ15N=(3.4±0.99)‰和Δδ13C=(0.39±1.14)‰对营养来源的稳定碳氮同位素进行矫正, 即Δ+δdiet[21, 22]。结合蒙古鲌食性对食物来源进行整合, 形成四类营养来源用于模型构建, 包括浮游动物、底栖动物、浮游鱼类和底栖鱼类(图 2, 食物来源δ值数据来自李斌等[12]的实测数据)。TEF的不确定性(标准误差), 通过统计平方公差法(Root-Sum-Squares Error), 整合到食物来源同位素的误差中(公式2), 用来反映数据误差的整体特征[26]。
$ RSSE=\sqrt{\sum _{i=1}^{n}{\sigma }^{2}}$
(2) 式中, σ为标准差。
同位素混合空间中(图 2)营养来源和消费者同位素之间的共线性, 及不同营养来源之间的差异水平等情况, 可会导致统计上多种营养来源贡献的等效解决方案, 也需尽量避免[27]。结合多元方差分析(Multivariate analysis of variance, MANOVA), 结果表明4种潜在食物来源表现出一种或一种以上的稳定同位素显著差异(P<0.05), 且共线性特征不显著(图 2), 适合进一步分析消费者的食物来源。
1.4 建模数据质量检验
TEF的选择及源矫正的合理性, 对稳定同位素质量平衡混合模型的结果影响很大[21]。混合模型的基本假设之一就是, 消费者的稳定同位素必须属于多种食物来源稳定同位素所定义的同位素混合空间[9]。特别需要指出的是, 本研究案例中的贝叶斯混合模型, 其数学性质是即使数据不符合稳定同位素混合的基本假设, 也会获得方程的解[9, 10]。因此, 必须检查消费者稳定性同位素数据是否绝大多数落入多种营养来源确定的同位素混合空间中[28]。
尽管通过营养富集因子校正后的稳定同位素混合空间(图 2), 可以初步进行判断; 但直观观察很难准确确定哪些样本属于混合多边形。由于贝叶斯建模包含不确定性(本例中为均值和标准偏差), 需要借助一定的统计学方法来判断哪些消费者在模型求解过程中产生错误的风险较高。本研究采取混合多边形迭代模拟的方法来判别数据落入混合多边形的可能性。基本方法是, 基于TEF校正后的各种营养来源的同位素均值和标准偏差, 迭代生成10000次稳定同位素混合多边形; 进一步计算消费者稳定同位素落入这些混合多边形的频次; 消费者稳定同位素落在>0.05可能性区域, 为数据质量符合建模需要(图 3A、3B和3C)。
如前文所述, 同位素混合空间中营养来源和消费者之间的共线性, 可为营养来源贡献提供多种在统计上等效的解决方案[9, 10]。引起这种不确定性的主要特点是, 当消费者的稳定同位素处于由营养来源所构成的同位素空间中心区域时, 模型无法确定营养来源比例。因此, 当稳定同位素混合空间质心区域消费者样本过多时, 共线性增加, 稳定同位素混合空间模型求解不会收敛或预测值与观测值不能较好匹配[29]。本研究采取混合多边形迭代模拟的方法来判别数据质量。基本方法是, 基于TEF校正后的各种营养来源的同位素均值和标准偏差, 迭代生成10000次高风险混合同位素空间(以质心为中心的50%不规则多边形面积内)[28, 29], 进一步计算消费者同位素落入风险高的混合空间的次数; 通过计算落入混合空间次数与迭代次数的比值, 基于统计学频次计算落入高风险稳定同位素混合空间的概率, 来检验数据建模的质量; 消费者稳定同位素落在<0.95可能性区域, 为数据质量符合建模需要(图 3D、3E和3F)[28, 29]。
由图 3所示(等值线颜色深浅显示了概率轮廓), 本研究数据总体质量较高。图 3A、3B和3C则显示了消费者蒙古鲌同位素值的变化将如何影响营养来源混合模型合理求解的概率[28]。95%概率轮廓内的消费者蒙古鲌样品可用于混合模型使用, 也就是说其中一个样本(16号个体)位于营养来源之外, 因此模型解释程度低, 在后续建模分析中予以剔除。图 3D、3E和3F则显示了消费者蒙古鲌同位素值的变化将如何影响营养来源混合模型低估风险的概率[29]。消费者蒙古鲌样品落入风险区的概率总体低于50%, 未出现高于95%概率的样本。
需要强调的是, 如果在上述统计方法检验过程中, 发现较多的样本不适用于建模, 则必须考虑研究假设中是否存在1)测量过程的错误、和/或2)消费者的重要食物来源被忽略、和/或3)营养富集因子使用不合理等问题。
2. 贝叶斯质量平衡混合模型
2.1 先验信息
“从先验信息中获益(Profiting from prior information)”是贝叶斯建模中的一个常见想法[30, 31]。因此, 先验信息的确定是稳定性同位素质量平衡混合模型的一个重要条件。为特定研究设计建立合理的信息先验是建立贝叶斯模型的最佳方案。因此, 在开展研究前, 需要投入大量的时间和精力进行数据收集和分析, 了解哪些数据满足了前期的假定条件, 提升进一步建模分析的准确性[32]。当观测样本量或代表性有限时, 贝叶斯模型将观测值与先验信息相结合, 提升模型预测的准确性。在消费者营养溯源研究中, 尽管使用胃肠含物来评估营养来源具有一定的局限性[33], 但为同位素技术的研究提供了较好的先验信息, 可以提高混合模型预测的准确性[34]。此外, 环境中潜在食物来源丰度、生物量和消费者摄食行为习性等, 均可作为重要的先验信息, 以提高混合模型预测的准确性[34]。
本研究展示了3个营养来源贡献的先验信息, 包括默认先验(Uninformative)、信息先验(Informative)和高信息先验(Informative with SD; 图 4)。针对4种营养来源, 包括浮游动物、底栖动物、浮游鱼类和底栖鱼类, 默认先验的营养来源贡献由均值为零、标准偏差为1的正态分布混合确定, 并进行中心化对数比转换(Centralized logarithm ratio transformation)[35], 从而产生均值为0.25且营养来源边际贡献大的分布特征(SD≈0.2)。信息先验是基于蒙古鲌的食性分析数据, 4种来源质量比例均值分别为16.7%、28.3%、20.6%和34.4%, 依据上述方法获得营养来源边际贡献水平较大的分布特征(SD≈0.2)。高信息先验的情景则是在此基础上, 结合食性数据变化的标准偏差特点, 在均值不变的条件下, 对所有营养来源使用了SD ≈ 0.06的标准偏差(图 4)。在进一步建模分析中, 本研究采用高信息先验的情景来分析蒙古鲌数据集。
2.2 模型构建
本研究使用R包simmr来拟合所有的同位素贝叶斯混合模型(iter=50000, burn=1000, thin=10, n. chain=4), 并使用JAGS(Just Another Gibbs Sampler)从后验分布中提取样本。通过马氏链(Markov chain, MCMC)轨迹图检验法、Geweke检验法和Gelman检验法等多种方法诊断了马氏链的收敛性, 进一步估计有关参数或者进行其他统计推断。模型结果表明(表 1), 蒙古鲌鱼食性功能群的浮游饵料鱼的比重最高, 其次为底栖饵料鱼; 蒙古鲌浮游动物食性功能群的浮游动物和浮游饵料鱼的比重高; 蒙古鲌底栖动物食性功能群的底栖动物能量贡献比例最高, 结果整体符合预期。
表 1 模型结果Table 1. Model results营养聚类Trophic cluster 营养来源Sources 平均值Mean 标准差SD 2.50% 50% 97.50% 鱼类食性Piscivorous Zooplankton 0.237 0.038 0.168 0.235 0.314 Zoobenthos 0.243 0.038 0.173 0.242 0.322 Plankton prey fishes 0.268 0.041 0.192 0.267 0.352 Benthic prey fishes 0.252 0.039 0.182 0.250 0.335 浮游动物食性Planktivorous Zooplankton 0.274 0.039 0.200 0.273 0.355 Zoobenthos 0.244 0.035 0.178 0.243 0.315 Plankton prey fishes 0.271 0.041 0.195 0.270 0.355 Benthic prey fishes 0.211 0.031 0.155 0.210 0.277 底栖动物食性Benthivorous Zooplankton 0.242 0.038 0.173 0.240 0.322 Zoobenthos 0.273 0.044 0.193 0.271 0.363 Plankton prey fishes 0.233 0.037 0.167 0.231 0.311 Benthic prey fishes 0.251 0.037 0.182 0.250 0.329 3. 模型性能评价
3.1 整体性能
在模型选择阶段, 常见指标为偏差信息量准则(Deviance information criterion, DIC)。DIC是等级模型化的赤池信息量准则(Akaike information criterion, AIC), 被广泛应用于由马尔可夫链蒙特卡洛(MCMC)模拟出的后验分布的贝叶斯模型选择问题[36]。和赤池信息量准则一样, 偏差信息量准则是随样本容量增加的渐近近似, 只应用于后验分布呈多元正态分布的情况[11, 37]。一般而言, 偏差信息量准则的值越小, 模型越好。这一准则的优点是它很容易从马尔可夫链蒙特卡洛(MCMC)模拟产生的样本中计算出来[36]。在一组供选择的模型中, 如果观测值样本数不同的时候, 可使用校准的DIC(DICcor)进行比较(公式3)[11, 37], 公式如下:
$ DI{C_{{\rm{cor}}}} = \frac{n}{N}\bar D + {p_D} $
(3) 式中, N表示每个模型的样本数, n为比较的模型中样本数最低的数据。
例如, 本研究中蒙古鲌鱼食性功能群、浮游动物食性功能群和底栖动物食性功能群的3个模型的样本数分别为11、10和7; 因此, 计算DICcor的时候, 取值n=7。由此模型整体性能评价结果表明(表 2), 蒙古鲌鱼食性功能群、浮游动物食性功能群和底栖动物食性功能群的拟合总体较好(90% Coverage均为100%, 90% Coverage为观测值落入90%后验分布中的比例)。但3个模型比较看, 鱼食性功能群的拟合模型性能相对较差(DIC和DICcor最高)。需要特别指出的, 在一组供选择的模型中, 最优化的模型的选择都是具有相对性的, 并不是说所选择的模型就一定足够精确。
表 2 模型整体性能评价Table 2. Model performance营养聚类Trophic cluster 偏差信息量准则DIC 校准偏差信息量准则DICcor 参数有效数量pD 90% Coverage 模型样本数N 鱼类食性Piscivorous 80.12 49.18 2.83 100 11 浮游动物食性Planktivorous 44.43 28.39 3.87 100 10 底栖动物食性Benthivorous 44.43 41.44 2.99 100 7 3.2 预测值与观测值
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$ \widehat{y}=\sum _{n=1}^{k}{f}_{n}{\delta }_{X}$
(4) 式中, n表示消费者使用的第n种食物来源, k是食物来源的数量(本研究中k=4), f代表通过食物来源分配方法预测的食物来源对消费者的比例贡献。δX表示食物来源中测得的同位素组成。
结合模型的特点, 通常计算一个或多个基于预测值与测量值的指标来进行评价(表 3)。例如, 均方根误差(RMSE), 总结了测得值和预测值之间的平均差异, 用来评估预测值的准确程度; 较低的RMSE值表明该模型具有较小的误差和更准确的预测。预测优度统计数据(G)也用于衡量模型的有效性。G值为1表示理想的预测。G值越接近1, 模型的可靠性越高。G值为负表示该模型不太可靠。
表 3 基于预测值与测量值的模型评价方法Table 3. Evaluation methods for the difference between model predicts and observations.名称Name 全称Full name 缩写Abbreviation 公式Formula 性质Property 含义Meaning 参考文献Reference 最小预测误差 Minimum error Emin $E_{\rm{{min} } } = min\left( { { {\hat y}_i} - {y_i} } \right)$ (–∞,+∞) 预测值与真实值之间的最小偏差 [38] 最大预测误差 Maximum error Emax $E_{\rm{{max}}}= max\left( { { {\hat y}_i} - {y_i} } \right)$ (–∞,+∞) 预测值与真实值之间的最大偏差 [38] 均方误差 Mean squared error MSE ${\rm{MSE}}=\displaystyle\frac{1}{n}\sum _{i=1}^{n}{\left({\widehat{y} }_{i}-{y}_{i}\right)}^{2}$ [0,+∞) 衡量的是预测值与真实值之间的偏差,并且对数据中的异常值较为敏感。预测值与真实值完全吻合时等于0;误差越大,该值越大 [39] 根均方误差 Root mean square error RMSE ${\rm{RMSE}} = \sqrt {\displaystyle\frac{1}{n}\mathop \sum \limits_{i = 1}^n { {\left( { { {\hat y}_i} - {y_i} } \right)}^2} }$ [0,+∞) 同上。数量级上比MSE较直观,与观测值一致 [39] 标准根均方误差 Normalized root mean square error NRMSE ${\rm{NRMSE}}=\displaystyle\frac{\sqrt{\displaystyle\frac{1}{n}\sum _{i=1}^{n}{\left({\widehat{y} }_{i}-{y}_{i}\right)}^{2} } }{max\left({y}_{i}\right)-min\left({y}_{i}\right)}$ [0,1] 同上。可用于比较不同尺度观测值直接对模型预测的效果 [39] 平均绝对误差 Mean absolute error MAE ${\rm{MAE}}=\displaystyle\frac{1}{n}\sum _{i=1}^{n}\left|{\widehat{y} }_{i}-{y}_{i}\right|$ [0,+∞) 同上。更好地反映预测值误差的实际情况 [39] 平均绝对百分比误差 Mean absolute percentage error MAPE ${\rm{MAPE} }=\displaystyle\frac{100\text{%} }{n}\displaystyle\sum _{i=1}^{n}\left|\frac{ {\widehat{y} }_{i}-{y}_{i} }{ {y}_{i} }\right|$ [0,+∞) 预测值与真实值完全吻合时等于0%,大于100%则表示劣质模型分母部分为零时,不可用 [39] 对称平均绝对百分比误差 Symmetric mean absolute percentage error SMAPE ${\rm{SMAPE}}=\displaystyle\frac{100\text{%} }{n}\displaystyle\sum _{i=1}^{n}\frac{\left|{\widehat{y} }_{i}-{y}_{i}\right|}{\left(\left|{\widehat{y} }_{i}\right|-\left|{y}_{i}\right|\right)/2}$ [0,+∞) 同上 [39] 预测优度 Goodness of prediction G $G=1-\left[\displaystyle\sum _{i=1}^{n}{\left({\widehat{y} }_{i}-{y}_{i}\right)}^{2}/\sum _{i=1}^{n}{\left({y}_{i}-\overline{y}\right)}^{2}\right]$ [0,1] G值为1表示理想的预测。G值越接近1,模型的可靠性越高。G值为负表示该模型不太可靠 [40] R R R $R=\displaystyle\sum _{j=1}^{ {\delta }_{x} }\displaystyle\sum _{i=1}^{n}{\left(\frac{ {\widehat{y} }_{i,\;j} }{ {y}_{i,\;j} }-1\right)}^{2}$ [0,+∞) 预测值与真实值完全吻合时等于0;误差越大,该值越大 [40] 衡量模型的拟合程度(模型质量好坏), 没有固定的标准。例如, MAE和RMSE一样, 衡量的是真实值与预测值的偏离的绝对大小情况, 需要结合真实值的量纲才能判断差异; 而MAPE衡量的是偏离的相对大小(即百分率)。相对来说, MAE和MAPE不容易受极端值的影响; 而MSE和RMSE采用误差的平方, 会放大预测误差, 所以对于离群数据更敏感。MAPE使用百分率来衡量偏离的大小, 容易理解和解读。而MAE/RMSE需要结合真实值的量纲才能判断差异。
本研究的模型评价结果表明(表 4), 蒙古鲌鱼食性功能群、浮游动物食性功能群和底栖动物食性功能群的拟合总体较好(G>0.8), 但3个模型比较看, 鱼食性功能群的拟合模型性能相对较差。不管用哪个指标, 评估模型的好坏都不能够脱离具体的应用场景和具体的数据集。单纯地评判哪个模型好坏, 是基本上没有意义的。
表 4 模型预测值与观测值差异评价Table 4. Evaluation of the difference between model predicts and observations营养聚类
Trophic cluster最大预测误差Emax 最小预测误差
Emin均方误差MSE 根均方误差
RMSE标准根均方误差NRMSE 平均绝对误差
MAE平均绝对百分比误差
MAPE对称平均绝对百分比误差SMAPE 预测优度Goodness-of-fit R 鱼类食性Piscivorous 1.195 –3.089 2.16 1.47 0.036 1.273 127.3 8.216 0.994 0.198 浮游动物食性Planktivorous 1.603 –0.492 0.547 0.74 0.019 0.594 59.4 3.377 0.998 0.043 底栖动物食性Benthivorous 1.602 –2.261 0.938 0.969 0.026 0.732 73.2 4.513 0.997 0.055 3.3 先验信息与后验信息
贝叶斯混合模型的主要统计数据是消费者营养来源的概率分布, 而不是消费者同位素值的预测, 因此评估混合模型对消费者营养来源贡献估计的后验信息及其受先验信息的影响(图 5)。后验信息与先验信息的本质是营养贡献量的概率分布, 因此可通过信息理论的相关概念和方法进行评价(表 5)。
表 5 主要信息理论度量与统计Table 5. The important information theory measures and statistics名称Name 全称Full Name 缩写Abbrevaition 公式Formula 含义Meaning 参考文献Reference 信息熵 Shannon Entropy
或Information EntropyH(x) $H(x)=-\displaystyle\sum _{x}p(x)\mathrm{log}p(x)\\=-\displaystyle\sum _{i=1}^{n}p\left({x}_{i}\right)\mathrm{log}p\left({x}_{i}\right)$ 是一个事件总的信息量,是每一种可能的情况的信息量乘以它们发生的概率,即所有可能发生事件所带来的信息量的期望 [43, 44] 联合熵 Joint Entropy H(X, Y) $\begin{array}{c}H(X,Y)=-\displaystyle\sum _{x,\;y}p(x,\;y)\mathrm{log}p(x,y)\\ =-\displaystyle\sum _{i=1}^{n}\displaystyle\sum _{j=1}^{m}p\left({x}_{i},\;{y}_{i}\right)\mathrm{log}p\left({x}_{i},\;{y}_{j}\right)\end{array}$ 同上,拓展至多维分布。H(X) 和H(Y) 的并集是联合熵 H(X, Y) [43] 条件熵 Conditional Entropy H(Y|X) $H\left( {Y|X} \right) = H(X,Y) - H(X)$ 描述X和Y所需的信息是描述X自己所需的信息,加上给定X的条件下具体化Y所需的额外信息 [43] 互信息 Mutual Information I(X, Y) $\begin{array}{*{20}{c} } {I(X,Y) = H(X) - H(X|Y)} \\ {= H(Y) - H(Y|X)} \\ { = H(X) + H(Y) - H(Y|X)} \\ { = H(X,Y) - H(X|Y) - H(Y|X)} \end{array}$ 亦成为转移信息(Transinformation),
是两个随机变量间相互依赖性的量度。
H(X) 和 H(Y) 的交集是互信息 I(X, Y)[43] 交叉熵 Cross Entropy Hcross ${H}_{{\rm{cross}}}(p,q)=\displaystyle\sum _{x}p(x)\mathrm{log}\displaystyle\frac{1}{q(x)}\\=-\sum _{x}p(x)\mathrm{log}q(x)$ 交叉熵用来衡量在给定X下,使用Y策略消除系统的不确定性所需要付出成本的大小。值越小,两个概率分布就越接近 [43] 相对熵- KL 散度 Kullback–
Leibler divergence, KLDDKL ${D}_{{\rm{KL}}}(p\parallel q)=\displaystyle\sum _{x}p(x)\mathrm{log}\displaystyle\frac{p(x)}{q(x)}\\={E}_{p(x)}\mathrm{log}\displaystyle\frac{p(x)}{q(x)}$ ${D_{{\rm{KL}}} }(p\parallel q) = {H_{cross} }(p,\;q) - H(p)$ 衡量两个概率分布之间的差异“距离”,反映了用分布q的最佳信息传递方式来传达分布p,比用分布p自己的最佳信息传递方式来传达分布p,平均多耗费的信息长度。KL散度是用于衡量分布之间的差异程度的,又称信息增益(Information gain) [43] 相对熵 –JS散度 Jensen-Shannon divergence DJS ${D_{ {\rm{JS} } } }(p\parallel q) = \displaystyle\frac{1}{2}{D_{KL} }\left( {p\parallel \frac{ {p + q} }{2} } \right) + \\\displaystyle\frac{1}{2}{D_{KL} }\left( {q\parallel \frac{ {p + q} }{2} } \right)$ KL 散度的缺点是它不是距离、不对称。因此引入JS散度的概念,是 KL 散度的变形。JS散度是对称且非负的, $ JSD(P\parallel Q) = JSD(Q\parallel P) $ 。$JSD = 0$ , if and only if$P = Q$ [43] 相对熵 –GJS散度 Generalized Jensen-Shannon Divergence DGJS $gJS{D}_{ {\text{π} }_{1},\cdots ,{\text{π} }_{n} }\left({P}_{1},\cdots ,{P}_{n}\right)=\\H\left(\displaystyle\sum _{i=1}^{n}{\text{π} }_{i}\ast {P}_{i}\right)-\displaystyle\sum _{i=1}^{n}{\text{π} }_{i}\ast H\left({P}_{i}\right)$ 同上,拓展至多维分布 [43] 信息量用来度量一个信息的多少, 而信息熵(Shannon Entropy)则用来描述一个来源信息的不确定度, 也是信息来源的信息量期望[44]。基于信息理论的方法, 可以衡量不同营养来源概率分布之间的先验信息与后验信息的异同。进一步可评估营养来源数据的改变、消费者功能群的改变和营养来源强度的改变等对消费者营养来源信息确定和解释的影响。例如, 相对熵可以衡量先验信息与后验信息之间的距离, 当先验信息与后验信息分布相同时, 它们的相对熵为零[43]。在混合模型中, 先验信息通常较后验信息丰富, 因此当计算KL散度(Kullback-Leibler divergence), 可获得比最大熵更高的信息增益, 即后验与先验信息相差很大时, 就会出现较高的值[43], 而信息熵则代表了信息增益的有限上界。KL散度(信息增益)增高由后验信息与先验信息不同的均值和置信区间的差异变大决定(后验信息不支持先验信息或者后验信息强烈支持先验信息但置信区间较窄), 因此需结合分布信息图一同解释(图 5)。
本研究依据主要信息理论度量与统计方法, 评估了鲌贝叶斯混合模型的先验信息和后验信息结果(表 6), 先验信息和后验信息不同的信息熵值、不为0的相对熵值及较大的交叉熵值表明鲌贝叶斯混合模型的先验信息和后验信息存在一定程度差异。首先, 估计每个信息源的边际(Marginal)贡献所占的比例, 以反映文献中混合模型是如何解释的(例如大多数混合模型程序的输出包括边际均值和可信度区间)。营养来源1%水平贡献信息测量应在0.01的离散区间内计算。其次, 通过所有来源贡献的联合后验分布计算的, 说明了关于来源相互间有条件依赖的信息增益, 如食性组成权衡, 及边际贡献的变化。我们通过比较食性组成贡献的先验分布和后验分布的样本来计算总体测量值, 并使用The isometric logratio transformation等轴测对数比进行转换[48]。等轴测对数比率将比例转换为变量, 这些变量根据多元正态分布近似分布, 使我们能够使用2个多元正态分布散度的分析方程来计算信息增益。从概念上来说, 我们可以把等轴测对数比变换看作是将食性组成比例延伸到一个可能有无限边界的坐标空间。等长对数比变换意味着KL散度可以无限增加, 食性组成比例的变化非常微小。因此, 我们在log2尺度上用KL散度来表示信息增益[11, 37]。
表 7 概率分布相似度评价的几种距离法Table 7. Some distance methods to evaluate similarity of probabilistic distribution全称Full Name 缩写Abbreviation 公式Formula 含义Meaning 参考文献Reference 海灵格距离
Hellinger distanceHD ${H^2}(P,\;Q) = \displaystyle\frac{1}{2}\int {(\sqrt {dP} - \sqrt {dQ} )^2}$ 海灵格距离计算先验和后验之间的无单位差。这样做,它获得了一些可解释性,因为它的最大值是1。海灵格距离对于确定准确描述摄食者食性组成所需的样本量非常有用 [45] 最大平均差异
Maximum mean discrepancyMMD ${\rm{MMD}}[ℱ,\;X,\;Y]=\\{\left[\displaystyle\frac{1}{ {m}^{2} }\sum _{i,j=1}^{m}k\left({x}_{i},\;{x}_{j}\right)-\frac{2}{mn}\sum _{i,j=1}^{m,n}k\left({x}_{i},\;{y}_{j}\right)+\frac{1}{ {n}^{2} }\sum _{i,j=1}^{n}k\left({y}_{i},\;{y}_{j}\right)\right]}^{\frac{1}{2} }$ 基于两个分布的样本,通过寻找在样本空间上的映射函数K,求不同分布的样本在K上的函数值的均值,通过把两个均值作差可以得到两个分布对应于K的mean discrepancy。寻找一个K使得这个mean discrepancy有最大值,就得到了MMD。最后取MMD作为检验统计量(test statistic),从而判断两个分布是否相同。如果这个值足够小,就认为两个分布相同,否则就认为它们不相同。更加简单的理解就是:求两堆数据在高维空间中的均值的距离 [46] 瓦瑟斯坦距离Wasserstein distance WD ${\rm{WORK}}(P,\;Q,\;F)=\displaystyle\sum _{i=1}^{m}\sum _{j=1}^{n}{d}_{ij}{f}_{ij}^{}$ 衡量了把数据从分布p“移动成”分布q时所需要移动的平均距离的最小值,不仅给出了距离的度量,而且给出如何把一个分布变换为另一分布的转移方案 [47] 此外, 度量2个概率分布之间的距离, 还有一些其他通用的散度指标可供参考(表 7)。例如Hellinger distance[49]可量化先验分布和后验分布之间差异。如果先验分布和后验分布在其参数空间中具有相同的密度, 则为零。如果一个分布在任何地方都是零密度, 而另一个分布是正密度, 那么Hellinger distance为1[45]。
表 6 先验信息与后验信息的信息理论统计结果Table 6. The important information theory measures and statistics信息理论
Infomation theory营养来源
Source先验信息
Prior. information鱼类食性
Piscivorous浮游动物食性
Planktivorous底栖动物食性
Benthivorous信息熵 Shannon’s Entropy Zooplankton 12.86205362 14.2564454 14.2564497 14.2563905 Zoobenthos 12.85236519 14.2560339 14.2561267 14.2560087 Plankton prey fishes 12.84968762 14.2562204 14.2562049 14.2562201 Benthic prey fishes 12.85681723 14.2560032 14.2559697 14.2560624 相对熵- KL 散度 Kullback-Leibler Divergence Zooplankton — –0.1795993 –0.1789568 –0.1786544 Zoobenthos — –0.1642057 –0.1642421 –0.1639883 Plankton prey fishes — –0.1654721 –0.1650742 –0.1654557 Benthic prey fishes — –0.1682989 –0.1680717 –0.1677031 相对熵 –JS散度 Jensen-Shannon Divergence Zooplankton — 0.1387041 0.1391457 0.1390174 Zoobenthos — 0.1409801 0.1410425 0.1412026 Plankton prey fishes — 0.1412871 0.141212 0.1412597 Benthic prey fishes — 0.1400291 0.140179 0.1399777 相对熵 –GJS散度 Generalized Jensen-Shannon
DivergenceZooplankton — 0.1387041 0.1391457 0.1390174 Zoobenthos — 0.1409801 0.1410425 0.1412026 Plankton prey fishes — 0.1412871 0.141212 0.1412597 Benthic prey fishes — 0.1400291 0.140179 0.1399777 交叉熵 Cross Entropy Zooplankton — 12.6824543 12.6830969 12.6833992 Zoobenthos — 12.6881595 12.6881231 12.6883769 Plankton prey fishes — 12.6842155 12.6846134 12.6842319 Benthic prey fishes — 12.6885184 12.6887455 12.6891141 互信息 Mutual Information Zooplankton — 12.8620536 12.8620536 12.8620536 Zoobenthos — 12.8523652 12.8523652 12.8523652 Plankton prey fishes — 12.8496876 12.8496876 12.8496876 Benthic prey fishes — 12.8568172 12.8568172 12.8568172 4. 结论
本文综述了在拟合和评估贝叶斯混合模型时遵循的最佳实践(图 6), 及如何直接避免同位素构建消费者营养溯源分析中的诸多技术问题[9]。种群营养功能群的识别, 有助于减小消费者同位素变异所带来的不确定性[19, 20]; 营养来源矫正可以避免营养来源和消费者同位素之间的共线性, 及不同营养来源之间的差异水平等情况[27]; 数据质量检验可以帮助剔除异常数据、提高数据总体质量、检验数据质量是否符合建模需要[28, 29]。动态的生态系统与消费者相对快速的能量需求调整, 可强烈地影响食物网结构与功能[50]。因此, 在开展食物网研究前, 需要投入大量的时间和精力进行数据收集和分析, 了解野外调查过程中哪些数据满足了前期的假定条件, 以确保建模分析的准确性[32]。在尝试数据建模之前, 必须考虑环境中潜在食物来源的丰度、生物量、消费者的摄食行为习性、胃肠含物等重要的先验信息[33]。完整重现模型选择和模型评价的过程, 是建模、训练、验证、评价的必要条件。模型选择是根据一组不同复杂度的模型表现, 从中挑选最好的模型; 模型评价则是在选择模型后, 评价其预测误差[11, 37]。根据具体研究, 在实践过程中, 评价指标多种多样, 且分别刻画了相对“真实模型”的信息损失。由于真实模型的未知性, 这些评价仅反应现有模型构建过程中相对较好的性能, 所以具体问题仍需具体分析。
通过侧重于模型预测摄食者同位素值能力的评估方法, 可以判断模型的拟合质量。此外, 鉴于贝叶斯模型的特点, 即如果先验信息误差较低, 则信息混合模型的后验分布趋同于先验信息, 进一步进行了基于信息理论和概率距离统计方法的评估, 为同位素混合模型的输出结果的质量提供互补的评估方法[37]。这些方法的综合运用, 将进一步提高消费者营养溯源准确性, 为更深刻地认识食物网规律提供科学支撑[11, 37]。
-
[1] 金刚,崔弈波. 黄丝草生物量相对增长率与初始生物量关系的季节变化[J]. 水生生物学报,1996,20(增刊):186-190[2] 倪乐意. 武汉东湖水生植被的退化过程机理和恢复生态学[D]. 中国科学院水生生物研究所博士论文,1997[3] Grant V. Plant Speciation(Second Edition)[M]. New York: Columbia Univ Press, 1981[4] Cruden R W. Pollen ovule ratios: A conservative indicator of breeding systems in flowering plants [J]. Evolution, 1977, 31: 32-46[5] 郭友好,黄双全,陈家宽. 水生被子植物的繁育系统与进化[J]. 水生生物学报,1998,22(1): 79-85[6] Philbrick C T, Anderson G J. Implications of pollen/ovule ratios and pollen size for the reproductive biology of Potamogeton and autogamy in aquatic angiosperms [J]. Systematic Botany, 1988, 12(1): 98-105[7] Guo Youhao. Studies on the floral biology of some genera of Potamogetonaceae Sensu lato [D]. Ph. D. Thesis. Wuhan Univ. 1990[8] Titus J E, Hoover D T. Toward predicting reproductive success in submerged freshwater angiosperms [J]. Aquat Bot, 1991, 41: 111-136[9] Cook C D K. Wind pollination in aquatic angiosperms [J]. Ann Miss Bot Gard, 1988, 75: 768-777[10] 陈家宽,杨继主编;植物进化生物学[M]. 武汉:武汉大学出版社,1994,232-280[11] Faegri K, van der L Pijl. The Principles of Pollination Ecology(Third Edition)[M]. Oxford: Pergamon Press Ltd, 1979[12] Philbric C L. Aspects of floral biology in three species of Potamogeton(Pondweeds)[J]. The Michigan Botanist, 1983, 23: 35-39[13] Doust J J, Doust L L著. 方炎明等译,植物生殖生态学[M]. 山东:山东大学出版社,1988,17-18[14] Harper J L. Population Biology of Plants [M]. London: Academic Press, 1997[15] Warner R R. Sexual-asexual evolutionary equilibrium [J]. Amer Naturalist, 1978, 112: 960-962 金刚,崔弈波. 黄丝草生物量相对增长率与初始生物量关系的季节变化[J]. 水生生物学报,1996,20(增刊):186-190[2] 倪乐意. 武汉东湖水生植被的退化过程机理和恢复生态学[D]. 中国科学院水生生物研究所博士论文,1997[3] Grant V. Plant Speciation(Second Edition)[M]. New York: Columbia Univ Press, 1981[4] Cruden R W. Pollen ovule ratios: A conservative indicator of breeding systems in flowering plants [J]. Evolution, 1977, 31: 32-46[5] 郭友好,黄双全,陈家宽. 水生被子植物的繁育系统与进化[J]. 水生生物学报,1998,22(1): 79-85[6] Philbrick C T, Anderson G J. Implications of pollen/ovule ratios and pollen size for the reproductive biology of Potamogeton and autogamy in aquatic angiosperms [J]. Systematic Botany, 1988, 12(1): 98-105[7] Guo Youhao. Studies on the floral biology of some genera of Potamogetonaceae Sensu lato [D]. Ph. D. Thesis. Wuhan Univ. 1990[8] Titus J E, Hoover D T. Toward predicting reproductive success in submerged freshwater angiosperms [J]. Aquat Bot, 1991, 41: 111-136[9] Cook C D K. Wind pollination in aquatic angiosperms [J]. Ann Miss Bot Gard, 1988, 75: 768-777[10] 陈家宽,杨继主编;植物进化生物学[M]. 武汉:武汉大学出版社,1994,232-280[11] Faegri K, van der L Pijl. The Principles of Pollination Ecology(Third Edition)[M]. Oxford: Pergamon Press Ltd, 1979[12] Philbric C L. Aspects of floral biology in three species of Potamogeton(Pondweeds)[J]. The Michigan Botanist, 1983, 23: 35-39[13] Doust J J, Doust L L著. 方炎明等译,植物生殖生态学[M]. 山东:山东大学出版社,1988,17-18[14] Harper J L. Population Biology of Plants [M]. London: Academic Press, 1997[15] Warner R R. Sexual-asexual evolutionary equilibrium [J]. Amer Naturalist, 1978, 112: 960-962
计量
- 文章访问数: 930
- HTML全文浏览量: 3
- PDF下载量: 499