毛片在线视频观看,一级日韩免费大片,在线网站黄色,澳门在线高清一级毛片

薈聚奇文、博采眾長(zhǎng)、見(jiàn)賢思齊
當(dāng)前位置:公文素材庫(kù) > 報(bào)告體會(huì) > 心得體會(huì) > 生物信息學(xué)學(xué)習(xí)心得

生物信息學(xué)學(xué)習(xí)心得

網(wǎng)站:公文素材庫(kù) | 時(shí)間:2019-05-17 11:05:05 | 移動(dòng)端:生物信息學(xué)學(xué)習(xí)心得

第一篇:生物信息學(xué)

生物信息學(xué)是上世紀(jì)90年代初人類(lèi)基因組計(jì)劃(hgp)依賴(lài),隨著基因組學(xué)、蛋白組學(xué)等新興學(xué)科的建立,逐漸發(fā)展起來(lái)的生物學(xué)、數(shù)學(xué)和計(jì)算機(jī)信息科學(xué)的一門(mén)交叉應(yīng)用學(xué)科。目前生物信息學(xué)的研究領(lǐng)域主要包括基于生物序列數(shù)據(jù)的整理和注釋、生物信息挖掘工具開(kāi)發(fā)及利用這些工具揭示生物學(xué)基礎(chǔ)理論知識(shí)等領(lǐng)域。生物信息學(xué)作為新型交叉應(yīng)用學(xué)科,可以依托本校已有的計(jì)算機(jī)科學(xué)、信息學(xué)、生物學(xué)和數(shù)學(xué)等學(xué)科優(yōu)勢(shì),充分展現(xiàn)投入少、見(jiàn)效快、起點(diǎn)高的特色,推動(dòng)學(xué)校學(xué)科建設(shè)和本科教學(xué)水平。

本實(shí)驗(yàn)指導(dǎo)書(shū)中的8個(gè)實(shí)驗(yàn)均設(shè)計(jì)為綜合性開(kāi)發(fā)實(shí)驗(yàn),面向生物信息學(xué)院全體本科學(xué)生和研究生,以及全校對(duì)生物信息學(xué)感興趣的其他專(zhuān)業(yè)學(xué)生開(kāi)放。生物信息學(xué)實(shí)驗(yàn)室將提供系統(tǒng)的保障,包括采用mail服務(wù)器和linux帳號(hào)管理等進(jìn)行實(shí)驗(yàn)過(guò)程管理和支持。限選《生物信息學(xué)及實(shí)驗(yàn)》的生物技術(shù)專(zhuān)業(yè)本科生至少選擇其中5個(gè)實(shí)驗(yàn),并不少于8個(gè)學(xué)時(shí),即為課程要求的0.5個(gè)學(xué)分。其他選修者按照課時(shí)和學(xué)校相關(guān)規(guī)定計(jì)算創(chuàng)新學(xué)分。 實(shí)驗(yàn)一 熟悉生物信息學(xué)網(wǎng)站及其數(shù)據(jù)的生物學(xué)意義

實(shí)驗(yàn)?zāi)康模?/p>

培養(yǎng)學(xué)生利用互聯(lián)網(wǎng)資源獲取生物信息學(xué)研究前沿和相關(guān)數(shù)據(jù)的能力,熟悉生物信息學(xué)相關(guān)的一些重要國(guó)內(nèi)外網(wǎng)站,及其核酸序列、蛋白質(zhì)序列及代謝途徑等功能相關(guān)數(shù)據(jù)庫(kù),學(xué)會(huì)下載生物相關(guān)的信息數(shù)據(jù),了解不同的數(shù)據(jù)文件格式和其中重要的生物學(xué)意義。

實(shí)驗(yàn)原理:

利用互聯(lián)網(wǎng)資源檢索相關(guān)的國(guó)內(nèi)外生物信息學(xué)相關(guān)網(wǎng)站,如:ncbi、sanger、tigr、kegg、swww.seogis.comatch程序去除ests原始序列中的載體成分和引物成分,然后用phrap生成congtig和singlet,用blast程序進(jìn)一步將有同源性的contig和singlet進(jìn)行功能聚類(lèi),最后通過(guò)blast對(duì)聚類(lèi)獲得的cluster進(jìn)行功能注釋。在實(shí)驗(yàn)過(guò)程中將用到一些本實(shí)驗(yàn)室寫(xiě)好的perl程序用于連接各數(shù)據(jù)庫(kù)和工具軟件。

實(shí)驗(yàn)內(nèi)容:

1. 運(yùn)行codoncode aligner程序,并用它建立工程文件,導(dǎo)入例子文件

夾里面的數(shù)據(jù);練習(xí)對(duì)序列的各種查看方式。

2. 使用codoncode aligner程序里的clip ends, trim vector, assemble

等功能,完成序列的剪切、去雜質(zhì)、組裝工作。

實(shí)驗(yàn)報(bào)告:

1. 實(shí)驗(yàn)各步驟記錄和中間結(jié)果文件;

2. 舉例簡(jiǎn)要說(shuō)明結(jié)果文件中數(shù)據(jù)的生物學(xué)意義。

參考書(shū)目:

《生物信息學(xué)概論》 羅靜初 等譯, 北京大學(xué)出版社, 201*;

《基因表達(dá)序列標(biāo)簽(est)數(shù)據(jù)分析手冊(cè)》 胡松年 等著, 浙江大學(xué)出版社, 201*。

實(shí)驗(yàn)五 利用primer premier5.0設(shè)計(jì)

race引物

實(shí)驗(yàn)?zāi)康模?/p>

熟悉pcr引物設(shè)計(jì)工具primer premier5.0的一些基本功能,能夠根據(jù)實(shí)驗(yàn)需要選擇相應(yīng)的引物設(shè)計(jì)方法設(shè)計(jì)pcr引物。

實(shí)驗(yàn)原理:

pcr實(shí)驗(yàn)是當(dāng)代分子生物學(xué)的基本實(shí)驗(yàn)之一,由于目標(biāo)序列和實(shí)驗(yàn)?zāi)康牡牟煌鄳?yīng)設(shè)計(jì)引物的要求也不一樣。本實(shí)驗(yàn)延續(xù)ests分析結(jié)果,對(duì)于其中需要獲得全長(zhǎng)的基因進(jìn)行race引物的設(shè)計(jì),及5’和3’race引物,配合接頭序列設(shè)計(jì)單向引物,并模擬練習(xí)通過(guò)連接獲得全長(zhǎng)的基因cds序列。最后設(shè)計(jì)已知全長(zhǎng)基因序列的pcr擴(kuò)增引物。

實(shí)驗(yàn)內(nèi)容:

1. 從網(wǎng)站下載并安裝primer premier5.0;

2. 從 genbank 中任意獲取一個(gè) dna 序列,設(shè)計(jì)出該序列的合適引物; 實(shí)驗(yàn)報(bào)告:

1. 實(shí)驗(yàn)各步驟使用的數(shù)據(jù)、運(yùn)算平臺(tái)、結(jié)果文件記錄;

2. 比較不同引物設(shè)計(jì)平臺(tái)和不同pcr實(shí)驗(yàn)的差別;

參考書(shū)目:

《生物信息學(xué)概論》 羅靜初 等譯, 北京大學(xué)出版社, 201*;《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著, 浙江大學(xué)出版社, 201*; 。

實(shí)驗(yàn)八 perl程序的安裝、編寫(xiě)、調(diào)試 實(shí)驗(yàn)?zāi)康模?/p>

培養(yǎng)學(xué)生能在www.seogis.comatics--a

practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍達(dá) 孫之榮 等 譯清華大學(xué)出版社 201*年8月 第一版這本書(shū)由前衛(wèi)計(jì)算生物學(xué)家撰寫(xiě),貫穿了已有的工具和數(shù)據(jù)庫(kù),包括應(yīng)用軟件、因特網(wǎng)資源、向數(shù)據(jù)庫(kù)提交dna序列以及進(jìn)行序列分析和利用核酸序列與蛋白質(zhì)序列進(jìn)行預(yù)測(cè)的的方法。以下是該書(shū)的目錄:1.因特網(wǎng)與生物學(xué)家,2. genebank序列數(shù)據(jù)庫(kù),3.結(jié)構(gòu)數(shù)據(jù)庫(kù),4.應(yīng)用gcg進(jìn)行序列分析,5.生物數(shù)據(jù)庫(kù)的信息檢索,6. ncbi數(shù)據(jù)模型,7.序列比對(duì)和數(shù)據(jù)庫(kù)搜索,

8.多序列比對(duì)和實(shí)際應(yīng)用,9.系統(tǒng)發(fā)育分析,10.利用核酸序列的預(yù)測(cè)方法,11.利用蛋白質(zhì)序列的預(yù)測(cè)方法,12.鼠類(lèi)和人類(lèi)公用物理圖譜數(shù)據(jù)庫(kù)漫游,13. acedb: 基因組信息數(shù)據(jù)庫(kù),14.提交dna序列數(shù)據(jù)庫(kù)。本書(shū)有很多實(shí)際的序列和序列分析的例子。這本書(shū)適合高等院校的師生和從事生物工程研究的科技工作者閱讀。

在第14章提及的通訊資源:互聯(lián)網(wǎng)和通信地址;電話和傳真號(hào)碼

ddbj/embl和genbank的一般聯(lián)系信息以及提交dna序列到這些數(shù)據(jù)庫(kù)的入口。

ddbj(信息生物學(xué)中心,nig)

地址:ddbj,1111 yata, mishima,shiznoka 411,japan

傳真:81-559-81-6849

e-mail

提交: ddbjsub@ddbj.nig.ac.jp

更新: ddbjupd@ddbj.nig.ac.jp

信息: ddbj@ddbj.nig.ac.jp

互聯(lián)網(wǎng)

主頁(yè):

www.seogis.combl/doc/

embl和genbank數(shù)據(jù)庫(kù)的版本信息

embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

sequin: dna序列數(shù)據(jù)庫(kù)的提交和更新工具 http://www.seogis.com.nih.gov/dbest

sts http://www.seogis.com.nih.gov/dbgss

htgs主頁(yè):高吞吐量基因組序列資源,工具和信息 http://www.seogis.comics)主要研究測(cè)序和核苷酸序列; 結(jié)構(gòu)基因組學(xué)(structural genomics)著重于遺傳圖譜、物理圖譜和測(cè)序等方面的研究; 功能基因組學(xué)

(functional genomics)則研究以轉(zhuǎn)錄圖為基礎(chǔ)的基因組表達(dá)圖譜; 比較基因組學(xué)(comparative ge2nomics)的研究?jī)?nèi)容包括對(duì)不同進(jìn)化階段基因組的比較和不同種群和群體基因組的比較。

蛋白組和蛋白組學(xué)的概念是隨基因組和基因組學(xué)的出現(xiàn)而出現(xiàn)的. 蛋白組(proteme)的概念是由于基因表達(dá)水平并不能代表細(xì)胞中活性蛋白質(zhì)的數(shù)量, 基因組序列并不能描述活性蛋白質(zhì)所必需的翻譯后修飾和反映蛋白質(zhì)種類(lèi)和含量的動(dòng)態(tài)變化過(guò)程而提出的. 在一定條件下某一基因組蛋白質(zhì)表達(dá)的數(shù)量類(lèi)型稱(chēng)為蛋白組, 代表這一有機(jī)體全部蛋白質(zhì)組成及其作用方式. 有關(guān)蛋白組的研究稱(chēng)為蛋白組學(xué). 其中, 蛋白組的研究技術(shù)與方法、雙向凝膠電泳圖譜以及對(duì)不同條件下蛋白組變化的比較分析是蛋白組學(xué)的主要研究?jī)?nèi)容。生物信息學(xué)在基因組和蛋白組研究中所起的作用主要有:(1)基因組信息結(jié)構(gòu)的計(jì)算分析. 即對(duì)基因組數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算并預(yù)測(cè)各種新基因和功能位點(diǎn), 研究大量非編碼區(qū)序列的信息結(jié)構(gòu)和可能的生物學(xué)意義。(2)模式生物全基因組信息結(jié)構(gòu)的比較研究.即

對(duì)已完成全基因組測(cè)序的各種模式生物的基因組信息結(jié)構(gòu)進(jìn)行比較分析, 包括同源序列的搜索比較和指導(dǎo)基因克隆.(3)功能基因組的相關(guān)信息分析, 包括對(duì)基因表達(dá)圖譜及其相關(guān)算法和軟件的研究, 與功能基因組信息相關(guān)的核酸、蛋白質(zhì)的空間結(jié)構(gòu)的預(yù)測(cè)模擬以及蛋白質(zhì)的功能預(yù)測(cè)。

2、生物信息數(shù)據(jù)庫(kù)

復(fù)雜的生物和生物界和日新月異的生命科學(xué)研究產(chǎn)出的大量的生物學(xué)信息,對(duì)這些信息的儲(chǔ)存、檢索、比較分析必須借助于計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù), 包括各類(lèi)生物學(xué)信息數(shù)據(jù)庫(kù)的建立與維護(hù)、數(shù)據(jù)的添加與注釋、更新與查詢(xún)、數(shù)據(jù)庫(kù)資料的網(wǎng)絡(luò)化等研究?jī)?nèi)容,F(xiàn)有的數(shù)據(jù)庫(kù)有:核酸序列數(shù)據(jù)庫(kù)(genbank、embl、ddbj)、基因組數(shù)據(jù)庫(kù)、基因圖譜數(shù)據(jù)庫(kù)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)(swww.seogis.comatics

b數(shù)據(jù)采集

dna,rna和蛋白質(zhì)測(cè)序

1.dna測(cè)序原理

dna中核苷酸的順序是通過(guò)鏈?zhǔn)浇K止測(cè)序【也稱(chēng)為脫氧測(cè)序(dideoxy sequencing)或以發(fā)明人命名的sanger方法】來(lái)確定。

2.dna序列的類(lèi)型

基因組dna,是直接從基因組中得到,包括自然狀態(tài)的基因

復(fù)制dna(copy dna, cdna),通過(guò)反轉(zhuǎn)錄mrna得到的

重組dna,包括載體序列如質(zhì)粒,修飾過(guò)的病毒和在實(shí)驗(yàn)室使用的其他遺傳元件等

3.基因組測(cè)序策略

散彈法測(cè)序(shotgun sequence)包括隨機(jī)dna片段的生成,通過(guò)大量片段測(cè)序來(lái)覆蓋整個(gè)基因組

克隆重疊群測(cè)序(clone contig)dna片段用推理的方法亞克隆,并且進(jìn)行系統(tǒng)的測(cè)序直到整個(gè)序列完成

4.序列質(zhì)量控制

通過(guò)在dna雙鏈上進(jìn)行多次讀取完成高質(zhì)量序列數(shù)據(jù)的測(cè)定

可使用如phred等程序?qū)ψ畛醯母檾?shù)據(jù)(trace data)進(jìn)行堿基識(shí)別和質(zhì)量判斷。載體序列和重復(fù)的dna片段被屏蔽后,使用phred等程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩下的不一致部分通過(guò)人工修飾解決

5.單遍測(cè)序

低質(zhì)量的序列數(shù)據(jù)可以由單次讀段(read)產(chǎn)生(單遍測(cè)序,single-pass sequencing)。盡管不很準(zhǔn)確,但單遍測(cè)序如ests和gsss,可以低廉的價(jià)格快速大量的產(chǎn)生

6.rna測(cè)序

因?yàn)橛写罅康男『塑账幔╩inor nucleotide)(化學(xué)改變的核苷)存在于轉(zhuǎn)移rna(trna)和核糖體rna(rrna)中,所以rna測(cè)序不能像dna測(cè)序那樣直接進(jìn)行。 需要用特殊的方法來(lái)識(shí)別被改變的核苷,包括生化實(shí)驗(yàn),核磁共振譜(nrm spectroscopy)和質(zhì)譜(ms)技術(shù)

7.蛋白質(zhì)測(cè)序

蛋白質(zhì)序列可以通過(guò)dna序列推斷得到,而rna測(cè)序不能提供有關(guān)已改變殘基或其他類(lèi)型的翻譯后蛋白質(zhì)修飾(比如剪接或二硫鍵的形成)

大部分蛋白質(zhì)測(cè)序是通過(guò)質(zhì)譜(ms)技術(shù)進(jìn)行的

基因和蛋白質(zhì)表達(dá)數(shù)據(jù)

1.全局表達(dá)分析

rna水平的分析中有效的方法是從rna群體或cdna文庫(kù)中,甚至從序列數(shù)據(jù)庫(kù)中進(jìn)行序列采樣。一個(gè)簡(jiǎn)單的方法是從cdna文庫(kù)中隨機(jī)挑選5000個(gè)克隆進(jìn)行測(cè)序。含量很多的mrnas在采樣的序列中出現(xiàn)的頻率很高,而含量較少的mrna出現(xiàn)頻率則較低,通過(guò)這些數(shù)據(jù)的統(tǒng)計(jì)分析可以確定相對(duì)的表達(dá)水平。

一個(gè)更高級(jí)的技術(shù)是基因表達(dá)的連續(xù)分析(serial analysis of gene expreaaion, sage)該方法使每個(gè)cdna產(chǎn)生很短的序列標(biāo)簽(通常8~15nt),并在測(cè)序前把數(shù)百個(gè)標(biāo)簽連接成連環(huán)分子(concatemer)。這樣一個(gè)測(cè)序反應(yīng)中可搜集到幾百條mrna的豐富信息。每個(gè)sage標(biāo)簽可以特異性識(shí)別一個(gè)特定基因,通過(guò)對(duì)標(biāo)簽計(jì)數(shù),可以確定每個(gè)基因的相對(duì)表達(dá)水平。

然而,大部分全局rna表達(dá)數(shù)據(jù)還需從微陣列實(shí)驗(yàn)所測(cè)的信號(hào)強(qiáng)度中獲取。全局蛋白質(zhì)表達(dá)數(shù)據(jù)主要從雙向聚丙烯酰胺凝膠電泳(two-dimensional polyacrylamide gel electrophoresis, 2d-page)分離,產(chǎn)生點(diǎn)陣的唯一模式(每個(gè)點(diǎn)代表一個(gè)單獨(dú)的蛋白質(zhì))。在2d-page實(shí)驗(yàn)中,蛋白質(zhì)表達(dá)數(shù)據(jù)可以通過(guò)每個(gè)點(diǎn)的信號(hào)強(qiáng)度得到,每個(gè)二維凝膠上的蛋白信號(hào)必須通過(guò)質(zhì)譜(ms)技術(shù)來(lái)單個(gè)注釋。

2.dna微陣列

一個(gè)微陣列有一系列的dna元件(特征),以格子形式排列在載玻片等微型支撐物上,通過(guò)與復(fù)合rna探針雜交可同時(shí)使很多基因的表達(dá)水平可視化。若使用兩個(gè)不同的熒光標(biāo)簽的探針,可以在同樣的陣列上直接測(cè)定不同樣本的不同基因的表達(dá)。 微陣列中主要用到的兩個(gè)技術(shù):機(jī)械點(diǎn)樣dna微陣列(spotted dna microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美國(guó)affymetrix公司獨(dú)家制造),后者在制造芯片是通過(guò)固態(tài)化學(xué)合成把寡聚核苷酸印在芯片上。

3.雙向蛋白質(zhì)凝膠

2d-pag技術(shù)的原理是蛋白質(zhì)可基于兩個(gè)不同的特性來(lái)分離:等電點(diǎn)(isoelectric point)和分子質(zhì)量(molecular mass)。該技術(shù)中,第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離;在垂直方向進(jìn)行分子量的分離。在凝膠染色后,染色斑點(diǎn)(spot)的模式可作為樣品中蛋白質(zhì)的可重復(fù)使用的指紋(fringerprint)。通過(guò)樣本間比較可以識(shí)別不同表達(dá)的蛋白質(zhì),或被藥物誘導(dǎo)的蛋白質(zhì)等。離體的蛋白質(zhì)斑點(diǎn)(excised spot)可以通過(guò)質(zhì)譜技術(shù)鑒定。

蛋白質(zhì)互作數(shù)據(jù)

1.蛋白質(zhì)互作的重要性

蛋白質(zhì)-蛋白質(zhì)互作導(dǎo)致瞬時(shí)或穩(wěn)定多亞基復(fù)合物(multi-subunit complexes)的形成。了解這些復(fù)合物對(duì)于注釋蛋白質(zhì)功能是必需,也是解釋信號(hào)級(jí)聯(lián)和調(diào)控網(wǎng)絡(luò)等分子途徑的一個(gè)步驟。死效應(yīng)反映了兩個(gè)突變的蛋白質(zhì)

2.遺傳方法

抑制子突變體可以通過(guò)恢復(fù)被破壞的蛋白質(zhì)互作來(lái)補(bǔ)償有害的原始突變體。而合成致死效應(yīng)反映了兩個(gè)突變的蛋白質(zhì)不能相互作用,顯性負(fù)突變(dominant negative mutation)顯示了一種起著多聚復(fù)合體作用的蛋白質(zhì)。

3.親和性方法

可通過(guò)幾種利用蛋白質(zhì)親和性(特異結(jié)合的傾向)分析的物理方法來(lái)為蛋白質(zhì)之間的相互關(guān)系提供直接的證據(jù),比如親和性管柱層析法,免疫共沉淀。由ciphergen公司使親和實(shí)驗(yàn)格式更趨微型化,使得在蛋白質(zhì)芯片的發(fā)展中達(dá)到頂峰。

4.分子和原子的方法

x射線晶體學(xué)和核磁共振譜有助于在原子水平識(shí)別蛋白質(zhì)互作,其它的蛋白質(zhì)互作分析的分子方法包括熒光共振能量傳遞(fret),表面基元共振譜(spr)和表面增強(qiáng)激光接吸附/離子化技術(shù)(seldl),其中的很多方法可通過(guò)質(zhì)譜技術(shù)直接集成到蛋白質(zhì)注釋中。

5.基于文庫(kù)的方法

基于文庫(kù)的蛋白質(zhì)互作實(shí)驗(yàn)有兩個(gè)主要優(yōu)點(diǎn):它是高度并行的實(shí)驗(yàn)格式;候選互作蛋白質(zhì)及其cdnas之間直接關(guān)聯(lián)。

影響最大的方法是酵母雙雜交系統(tǒng)(yeast two-hybrid system,y2h),在這個(gè)系統(tǒng)中蛋白質(zhì)通過(guò)識(shí)別與之連接的一個(gè)功能轉(zhuǎn)錄因子進(jìn)行互作。

c數(shù)據(jù)庫(kù)--內(nèi)容,結(jié)構(gòu)和注釋

已注釋的序列數(shù)據(jù)庫(kù)

1.初級(jí)序列數(shù)據(jù)庫(kù)

genbank(ncbi)、核酸序列數(shù)據(jù)庫(kù)(embl)和日本的dna數(shù)據(jù)庫(kù)(ddbj)

2.swiss-prot和trembl

swiss-prot收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu),功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。相關(guān)數(shù)據(jù)庫(kù)trembl翻譯了初級(jí)核酸數(shù)據(jù)庫(kù)中的編碼序列。

其他數(shù)據(jù)庫(kù)

1.omim

omim指人類(lèi)孟德?tīng)栠z傳的聯(lián)機(jī)數(shù)據(jù)庫(kù),用于研究人類(lèi)遺傳學(xué)和人類(lèi)分子生物學(xué)的強(qiáng)大資源。每個(gè)omim條目都有一個(gè)對(duì)特定基因或性狀的已知信息的全文總結(jié),并有指向初級(jí)序列數(shù)據(jù)庫(kù)和其它遺傳學(xué)資源的鏈接。

2.incyte和unigene

incyte是商業(yè)數(shù)據(jù)庫(kù),它提供了基因序列和專(zhuān)家注釋的記錄,這是專(zhuān)門(mén)為藥物研究開(kāi)發(fā)服務(wù)的數(shù)據(jù)庫(kù)。unigene是一種用來(lái)把genbank序列聚類(lèi)并與est數(shù)據(jù)相關(guān)聯(lián)的實(shí)驗(yàn)工具。

3.結(jié)構(gòu)數(shù)據(jù)庫(kù)

蛋白質(zhì)數(shù)據(jù)庫(kù)(pdb),核酸數(shù)據(jù)庫(kù)(ndb),大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)(msd)

e通過(guò)序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫(kù)

序列相似性搜索

1.序列聯(lián)配

序列聯(lián)配是是相似度量化的第一步,用來(lái)區(qū)分偶然性的相似和真實(shí)的生物學(xué)關(guān)系。聯(lián)配結(jié)果以變化(突變)、插入或缺失(或空位indel)來(lái)顯示序列之間的差異,這些差異可以用進(jìn)化術(shù)語(yǔ)來(lái)說(shuō)明。

2.聯(lián)配算法

動(dòng)態(tài)規(guī)劃算法可以計(jì)算兩條之間的最佳聯(lián)配,其中廣泛使用的算法有smith-waterman算法(局部聯(lián)配)和needleman-wunsch算法(全局聯(lián)配)。

3.聯(lián)配分支和空位罰分

用簡(jiǎn)單的聯(lián)配分值來(lái)測(cè)量相同匹配殘基的比例或數(shù)目。得從聯(lián)配分值中扣去空位罰分,以保證聯(lián)配算法能得出有生物學(xué)意義的結(jié)果而沒(méi)有太多的空位。

數(shù)據(jù)庫(kù)搜索:fasta和blast

1.統(tǒng)計(jì)分值

相似度記分的p值是指獲得至少與兩條無(wú)關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配,這些匹配可能會(huì)有真實(shí)生物學(xué)意義。相關(guān)的e值(期望值)是至少與所識(shí)別的相似性記同樣高分值的偶然事件的期望概率。兩序列見(jiàn)相似度的低p值對(duì)應(yīng)于大數(shù)據(jù)庫(kù)搜索的高e值。

2.敏感性和特異性

敏感性衡量數(shù)據(jù)庫(kù)中真實(shí)生物序列關(guān)系的比例,該關(guān)系表現(xiàn)為擊中項(xiàng)(有意義的相似序列)。特異性指的是對(duì)應(yīng)于真實(shí)生物學(xué)關(guān)系的擊中項(xiàng)的比例。改變e和p的默認(rèn)值會(huì)導(dǎo)致這些互補(bǔ)的優(yōu)良度測(cè)量方法之間的平衡。

f多序列聯(lián)配:基因和蛋白質(zhì)家族

多序列聯(lián)配和家族關(guān)系

1.多序列聯(lián)配

多序列聯(lián)配表明兩條或兩條以上序列之間的關(guān)系,可以解釋關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。當(dāng)所考察的序列不同時(shí),保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。

2.漸進(jìn)聯(lián)配

漸進(jìn)聯(lián)配方法以?xún)尚蛄新?lián)配來(lái)初步評(píng)價(jià)序列是如何相關(guān)的,并在這個(gè)基礎(chǔ)上構(gòu)建向?qū)?shù),然后使用向?qū)?shù)逐步添加序列到聯(lián)配中,從最密切相關(guān)的序列開(kāi)始到距離最遠(yuǎn)的序列結(jié)束。

蛋白質(zhì)家族和模式數(shù)據(jù)庫(kù)

1.蛋白質(zhì)家族

把序列分配到蛋白質(zhì)家族中是預(yù)測(cè)蛋白質(zhì)功能是非常有價(jià)值的方法。多序列聯(lián)配信息的表示方法有很多種,包括聯(lián)配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的

序列家族的概率模型。這些根據(jù)不同的應(yīng)用都有不同的用途,其中大多數(shù)已經(jīng)被開(kāi)發(fā)和存儲(chǔ)在數(shù)據(jù)庫(kù)中,里面含有大量不同蛋白質(zhì)家族的信息,這樣的數(shù)據(jù)庫(kù)稱(chēng)為二級(jí)數(shù)據(jù)庫(kù)。

2.一致序列

這些序列把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點(diǎn)是除了在特定位置最常見(jiàn)的殘基之外,它們不能表示任何概率信息。一致序列的產(chǎn)生說(shuō)明了任何蛋白家族的表示都是有偏向的,這主要是由于來(lái)源的序列集是有偏向的。

3.prosite

prosite數(shù)據(jù)庫(kù)包括與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。 prosite模式與一致序列的不同在于,它們往往比序列全長(zhǎng)要短得多,并且給出了一種描述多序列聯(lián)配中一套可接受的殘基組合的方法。prosite模式中已知的假陽(yáng)性(或假陰性)都已經(jīng)在數(shù)據(jù)庫(kù)中注明。prosite數(shù)據(jù)庫(kù)在某些條目含有序列輪廓,以嘗試描述比模式更長(zhǎng)的序列片段(通常指整個(gè)結(jié)構(gòu)域)。

4.prints和blocks

prints和blocks是密切相關(guān)的,它們分別通過(guò)來(lái)自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無(wú)空位片段的形式來(lái)表示蛋白質(zhì)家族。

蛋白質(zhì)結(jié)構(gòu)域家族

1.結(jié)構(gòu)域家族

許多蛋白質(zhì)是由模式結(jié)構(gòu)的結(jié)構(gòu)域組建的,因此蛋白質(zhì)家族的研究其實(shí)是對(duì)蛋白質(zhì)結(jié)構(gòu)域家族的研究。

2.序列輪廓

序列輪廓(也成權(quán)重矩陣)是一種描繪蛋白質(zhì)結(jié)構(gòu)與家族相關(guān)序列的方法,其優(yōu)點(diǎn)是描述了結(jié)構(gòu)域序列的全長(zhǎng),包括觀察到每個(gè)氨基酸的可能性,以及序列每個(gè)位點(diǎn)插入和缺失的可能性。

3.隱馬爾科夫模型

隱馬爾科夫模型(hmms)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型,包括序列的匹配、插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概率較低。

j微陣列數(shù)據(jù)分析

微陣列數(shù)據(jù):分析方法

1.微陣列原始數(shù)據(jù)

微陣列數(shù)據(jù)就是經(jīng)過(guò)雜交的陣列的掃描圖像,掃描圖像顯示每一個(gè)點(diǎn)的雜交信號(hào)強(qiáng)度。這些圖像可通過(guò)單通道、雙通道熒光標(biāo)記、同位素標(biāo)記或比色標(biāo)記等方法獲得,其記錄方式各不相同。

2.?dāng)?shù)據(jù)質(zhì)量

準(zhǔn)確記錄個(gè)點(diǎn)的信號(hào)強(qiáng)度是微陣列數(shù)據(jù)分析的基本要求,dna陣列可包含數(shù)千個(gè)特征點(diǎn),因此數(shù)據(jù)的獲取和分析必須自動(dòng)進(jìn)行。陣列上必須包含對(duì)照點(diǎn)以衡量非特異雜交和不同

陣列上雜交的多變性。

3.基因表達(dá)矩陣

從微陣列實(shí)驗(yàn)得到的原始數(shù)據(jù)首先要轉(zhuǎn)換成表,即基因表達(dá)矩陣。表中的各行代表基因,各列代表不同的實(shí)驗(yàn)條件,表中的數(shù)據(jù)為信號(hào)強(qiáng)度,代表各個(gè)基因的相對(duì)表達(dá)水平。

4.表達(dá)數(shù)據(jù)分組

基因表達(dá)矩陣中的每一個(gè)基因都有其特定的表達(dá)模式,即一系列條件下基因表達(dá)情況的測(cè)量值。微陣列數(shù)據(jù)分析就是要將這些數(shù)據(jù)按表達(dá)模式的相似程度進(jìn)行分類(lèi)。

序列采樣和sage

1.序列采樣數(shù)據(jù)分析

差異基因表達(dá)的研究,可以通過(guò)從不同的cdna文庫(kù)中隨機(jī)挑取克隆來(lái)進(jìn)行,也可以通過(guò)抽取est數(shù)據(jù)來(lái)進(jìn)行。這種分析需要抽取成千上萬(wàn)的序列以達(dá)到統(tǒng)計(jì)上的顯著性,即使對(duì)于中度冗余度的mrna也要如此。

2.sage

sage是一種序列采樣技術(shù),其原理是將非常短的序列標(biāo)記(9~15堿基)連續(xù)為長(zhǎng)的串聯(lián)體。sage標(biāo)記的長(zhǎng)度是最適于高通量分析,但基因依然可以被明確的鑒定出來(lái)。

來(lái)源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們及時(shí)刪除。


生物信息學(xué)學(xué)習(xí)心得》由互聯(lián)網(wǎng)用戶整理提供,轉(zhuǎn)載分享請(qǐng)保留原作者信息,謝謝!
鏈接地址:http://www.seogis.com/gongwen/282284.html
相關(guān)文章