标准误及其计算

  • A+
所属分类:生物信息学

佚名

为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是:

(一)均数的标准误 为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。

  将100名正常人的红细胞数(万/mm 3 )写在100颗大小均匀的豌豆上。这些红细胞数见表6.1,其均数为500,标准差为43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取10个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表6.2。

表6.1  红细胞数抽样实验用的正态总体

μ=500 σ=43(单位:万/立方厘米)

383 410 422 429 430 431 435 442 442 444 445 449 450 452 455 456 459 461 462 463 465 466 468 469 470 471 472 473 476 477 478 479 480 481 482 484 485 486 487 488 489 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 511 512 513 514 515 516 518 519 520 521 522 523 524 527 528 529 530 531 532 534 535 537 538 539 541 544 545 548 550 551 555 556 558 565 569 578 590 599 600 617

表6.2 红细胞数抽样实验中的样本举例

样本号 红细胞数(万/立方毫米),X X S 1 383 599 534 442 435 486 478 476 509 544 488.6 61.65 2 503 506 520 503 489 410 528 488 509 527 498.3 33.97 3 478 463 617 544 498 485 496 462 482 569 509.4 50.96 4 529 465 535 473 531 532 556 521 459 383 498.4 52.63 5 442 493 462 527 520 519 521 512 482 471 494.9 29.51 ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇

第一号样本均数与标准差的计算:

X=4.886/10=488.6

将一百个样本均数加总,得到的数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为

  当总体标准差已知时,可计算理论的标准误σ χ ,公式是

 (6.1)

表6.1抽样实验用的总体标准差是43,每个样本的例数是10,代入公式得

可见由一百个样本均数求得的标准误13.50与理论的标准误13.60比较接近。

  在实际工作中,总体标准差往往并不知道,也不象抽样实验那样从同一总体随机抽取n相等的许多样本,而是只有手头一个样本。在此情况下,只能以样本标准差S作为总体标准差σ的估计值。这样,公式6.1中的σ就要用S代替,σ χ 改为S χ ,以资区别。

 (6.2)

将第1号样本的标准差及例数代入式6.2,得

  再若将第2号样本的数字代入,S χ 将成为10.74,余类推。由于不同样本的标准差并不相等,可见S χ 也有抽样波动,这一点是值得注意的,但它仍不失为σ χ 的较好估计值。

以上介绍了求标准误的三种方法,其实我们平常用的只是式6.2,而通过前两种方法的对比则可使我们明�标准误的含义。标准误是描述样本均数变异情况的一个指标,它的大小与总体标准差σ(一般只能用S估计)成正比,而与样本含量n的平方根成反比,因此若标准差小或样本含量大时,求出的标准误就小(标准误小表示样本均数与总体均数较接近),X代表μ较可靠,所以假若手头资料中观察值的变异程度较大(S大)时,为了保

证样本代表总体比较可靠,就得适当增大样本含量(n)。

  (二)率的标准误 若总体包括某事件的发生数与未发生数两类,所化成的比例或成数即为总体发生率(符号π)与未发生率(1-π)。从总体中随机抽取许多样本(n相等),算出各个样本率(用P表示),会是或大或小有波动的。为了表示样本率之间或样本率与总体率之间的差异程度,当总体率π已知时,可计算理论的标误σ p ,其公式是

(6.3)

  实际工作中往往不知道总体率π这时只能以样本率P作为总体率π的估计值,求得率的标准误,并用S P 表示,计算公式为

  (6.4)

现举例说明其求法。

  例6.1 某医生检测了110名成年健康人的尿紫质,发现阳性者11人,阴性者99人,于是算得阳性率P及率的标准误S P 如下:

P=11/110×100%=10% (用小数表示为0.10)

若要进一步增强样本率估计总体率的可靠性,可加大样本含量。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: