大規(guī);蚪M測序計劃的實施已改變生命科學的重心,在相當短的時期內(nèi),一些原核生物和某些低等真核生物的基因組序列已被測定. 1995年,流感嗜血桿菌基因組序列首次被破譯,在此后不到兩年的時間,近50個細菌的基因組序列已被完成. 然而,這僅僅是理解有機物功能的一個起點. 在基因組時代,許多DNA序列信息僅提供相關(guān)基因組的結(jié)構(gòu)和功能. 然而,對基因產(chǎn)物(mRNA和蛋白質(zhì))的理解是理解細胞生物學的一個不可缺少的部分. DNA序列信息不能預測:1)基因表達產(chǎn)物是否或何時被翻譯;2)基因產(chǎn)物的相應(yīng)含量;3)翻譯后修飾的程度;4)基因剔除或過表達的影響;5)遺留的小基因或<300 bp的ORFs的出現(xiàn);6)多基因現(xiàn)象的表型. 此外,mRNA水平的測量并不能完全揭示細胞調(diào)節(jié);且蛋白質(zhì)的樣品較mRNA 穩(wěn)定;蛋白質(zhì)和mRNA之間的相關(guān)系數(shù)僅為0.4~0.5,還存在轉(zhuǎn)錄后加工、翻譯調(diào)節(jié)以及翻譯后加工等. 故而,“基因組時代”的迅猛發(fā)展同時激起了人們對“后基因組時代”中蛋白質(zhì)組研究的需求.
1 蛋白質(zhì)組的含義
蛋白質(zhì)組(Proteome)的概念最先由Marc Wilkins提出,指由一個基因組(genOME),或一個細胞、組織表達的所有蛋白質(zhì)(PROTein). 蛋白質(zhì)組的概念與基因組的概念有許多差別,它隨著組織、甚至環(huán)境狀態(tài)的不同而改變. 在轉(zhuǎn)錄時,一個基因可以多種mRNA形式剪接,并且,同一蛋白可能以許多形式進行翻譯后的修飾. 故一個蛋白質(zhì)組不是一個基因組的直接產(chǎn)物,蛋白質(zhì)組中蛋白質(zhì)的數(shù)目有時可以超過基因組的數(shù)目. ?
蛋白質(zhì)組學(Proteomics)處于早期“發(fā)育”狀態(tài),這個領(lǐng)域的專家否認它是單純的方法學,就像基因組學一樣,不是一個封閉的、概念化的穩(wěn)定的知識體系,而是一個領(lǐng)域. 蛋白質(zhì)組學集中于動態(tài)描述基因調(diào)節(jié),對基因表達的蛋白質(zhì)水平進行定量的測定,鑒定疾病、藥物對生命過程的影響,以及解釋基因表達調(diào)控的機制. 作為一門科學,蛋白質(zhì)組研究并非從零開始,它是已有20年歷史的蛋白質(zhì)(多肽)譜和基因產(chǎn)物圖譜技術(shù)的一種延伸. 多肽圖譜依靠雙向電泳(Two-dimensional gel electrophoresis, 2-DE)和進一步的圖象分析;而基因產(chǎn)物圖譜依靠多種分離后的分析,如質(zhì)譜技術(shù)、氨基酸組分分析等.
2 蛋白質(zhì)組研究的核心 用于分離的雙向電泳(2-DE)
蛋白質(zhì)組研究的發(fā)展以雙向電泳技術(shù)作為核心. 雙向電泳由O’Farrell’s于1975年首次建立并成功地分離約1 000個E.coli蛋白,并表明蛋白質(zhì)譜不是穩(wěn)定的,而是隨環(huán)境而變化. 雙向電泳原理簡明,第一向進行等電聚焦,蛋白質(zhì)沿pH梯度分離,至各自的等電點;隨后,再沿垂直的方向進行分子量的分離. 目前,隨著技術(shù)的飛速發(fā)展,已能分離出10 000個斑點(spot). 當雙向電泳斑點的全面分析成為現(xiàn)實的時候,蛋白質(zhì)組的分析變得可行.
樣品制備(sample prepareation)和溶解同樣事關(guān)2-DE的成效,目標是盡可能擴大其溶解度和解聚,以提高分辨率. 用化學法和機械裂解法破碎以盡可能溶解和解聚蛋白,兩者聯(lián)合有協(xié)同作用. 對IEF(isoelectric focusing)樣品的預處理涉及溶解、變性和還原來完全破壞蛋白間的相互作用,并除去如核酸等非蛋白物質(zhì). 理想的狀態(tài)是人們應(yīng)一步完成蛋白的完全處理. 近來, 在“變性劑雞尾酒”中,含14~16個碳的磺基甘氨酸三甲內(nèi)鹽(ASB14~16)的裂解液效果最好. 而離液劑2 mol/L硫脲和表面活性劑4%CHAPS的混合液促使疏水蛋白從IPG(immobilized pH gradients)膠上的轉(zhuǎn)換. 三丁基膦(Tributyl phosphine,TBP )取代β-巰基乙醇或DTT完全溶解鏈間或鏈內(nèi)的二硫鍵,增強了蛋白的溶解度,并導致轉(zhuǎn)至第二向的增加. 兩者通過不同的方法來增加蛋白的溶解度,作為互補試劑會更有效. 在保持樣品的完整性的前提下,可利用超離和核酸內(nèi)切酶去除核酸(DNA). 除此之外,機械力被用來對蛋白分子解聚,如超聲破碎等. 另外,添加PMSF等蛋白酶抑制劑,可保持蛋白完整性. 由于商品化的IPG膠條是干燥脫水的,可在其水化的過程中加樣,覆蓋整個IPG膠,避免在樣品杯中的沉淀所致的樣品丟失. 此外,低豐度蛋白(low abundance protein)在細胞內(nèi)可能具有重要的調(diào)節(jié)功能,代表蛋白質(zhì)組研究的“冰山之尖”,故分離低豐度蛋白是一種挑戰(zhàn). 亞細胞分級和蛋白質(zhì)預分級、提高加樣量(已達到1~15 mg級的標準)、應(yīng)用敏感性檢測,可以提高其敏感性. 如一種多肽免疫2-DE印跡(MI-2DE)是利用幾種單克隆抗體技術(shù)來分析和檢測. 提高組蛋白和核糖體蛋白等堿性蛋白(basic proteins)的分離是另一難點. 由于堿性pH范圍內(nèi)凝膠基質(zhì)的不穩(wěn)定及逆向電滲流(EOF)的產(chǎn)生,對PI(等電點)超過10的堿性蛋白,通過產(chǎn)生?0~10%?的山梨醇梯度和16%的異丙醇可減少之. 亦可用雙甲基丙烯酰胺來增加基質(zhì)的穩(wěn)定性. ?
2-DE面臨的挑戰(zhàn)是高分辨率和重復性. 高分辨率確保蛋白最大程度的分離,高重復性允許進行凝膠間配比(match). 對2-DE而言,有3種方法分離蛋白:1)ISO-DALT(isoelectric focus)以O(shè)’Farrell’s技術(shù)為基礎(chǔ). 第一向應(yīng)用載體兩性電解質(zhì)(carrier ampholyte, CA),在管膠內(nèi)建立pH梯度. 隨著聚焦時間的延長,pH梯度不穩(wěn),易產(chǎn)生陰極漂移. 2) NEPHGE(non-equilibrium pH gradient electrophoresis)用于分離堿性蛋白(pH>7.0). 如果聚焦達到平衡狀態(tài),堿性蛋白會離開凝膠基質(zhì)而丟失. 因此,在等電區(qū)域的遷移須在平衡狀態(tài)之前完成,但很難控制. 3)IPG-DALT發(fā)展于80年代早期. 由于固相pH梯度(Immobilized pH gradient, IPG)的出現(xiàn)解決了pH梯度不穩(wěn)的問題. IPG通過immobiline共價偶聯(lián)于丙烯酰胺產(chǎn)生固定的pH梯度,克服了IEF的缺點,從而達到高度的重復性. 目前可以精確制作線性、漸進性和S型曲線,范圍或?qū)捇蛘膒H梯度. 新的酸性pH 3~5或堿性pH 6~11的IPG凝膠梯度聯(lián)合商品化的pH 4~7的梯度可對蛋白質(zhì)形成蛋白質(zhì)組重疊群(proteomic contigs)從而有效分離.
分離后的斑點檢測(spot detection)亦很重要. 所采用的檢測策略和分離后所采用的方法的相互作用是很重要的. 此外,還需考慮反應(yīng)的線性、飽和閾/動態(tài)范圍、敏感性、對細胞蛋白群的全體定量分析的適應(yīng)性、可行性. 目前,沒有一種蛋白染色覆蓋廣泛的濃度和PI及分離后分析技術(shù). 銀染已成為一種檢測2-DE的流行方法,可檢測少到2~5ng的蛋白,因此較考馬斯亮藍R-250敏感. 多數(shù)糖蛋白不能被考馬斯亮藍染色,一些有機染料不適于PVDF膜. 放射性標記不依賴其代謝的活性,并僅適于對合成的蛋白質(zhì)檢測. 另有一種改良的2-DE(差異凝膠電泳),即應(yīng)用兩種不同的染料熒光標記兩個樣品,使在同一凝膠上電泳后的凝膠圖象為兩個,避免了幾種2-DE的比較,可在納克級進行檢測.
較早期相比,2-DE有兩個主要的進步:首先,極高的重復性使有機體的參考圖譜,可通過Internet獲得,來比較不同組織類型、不同狀態(tài)的基因表達;其次,高加樣量使得2-DE成為一項真正的制備型技術(shù).
3 蛋白質(zhì)組技術(shù)的支柱---鑒定技術(shù)(Identification)
如果目前分離蛋白質(zhì)組的最好技術(shù)是2-DE,那么隨之而來的挑戰(zhàn)是數(shù)百數(shù)千個蛋白如何被鑒定. 在這里,我們不考慮傳統(tǒng)的蛋白鑒定方法,如免疫印跡法、內(nèi)肽的化學測序、已知或未知蛋白的comigration分析,或者在一個有機體中有意義的基因的過表達. 并不是因為這些方法無效,而是因為它們通常耗時、耗力,不適合高流通量的篩選. 目前,所選用的技術(shù)包括對于蛋白鑒定的圖象分析、微量測序;進一步對肽片段進行鑒定的氨基酸組分分析和與質(zhì)譜相關(guān)的技術(shù).
(1) 圖象分析技術(shù)(Image analysis). “滿天星”式的2-DE圖譜分析不能依靠本能的直覺,每一個圖象上斑點的上調(diào)、下調(diào)及出現(xiàn)、消失,都可能在生理和病理狀態(tài)下產(chǎn)生,必須依靠計算機為基礎(chǔ)的數(shù)據(jù)處理,進行定量分析. 在一系列高質(zhì)量的2-DE凝膠產(chǎn)生(低背景染色,高度的重復性)的前提下,圖象分析包括斑點檢測、背景消減、斑點配比和數(shù)據(jù)庫構(gòu)建. 首先,采集圖象通常所用的系統(tǒng)是電荷耦合CCD(charge coupled device)照相機;激光密度儀(laser densitometers)和Phospho或Fluoro?imagers,對圖象進行數(shù)字化. 并成為以象素(pixels)為基礎(chǔ)的空間和網(wǎng)格. 其次,在圖象灰度水平上過濾和變形,進行圖象加工,以進行斑點檢測. 利用Laplacian,Gaussian,DOG(difference of Gaussians) opreator使有意義的區(qū)域與背景分離,精確限定斑點的強度、面積、周長和方向. 圖象分析檢測的斑點須與肉眼觀測的斑點一致. 在這一原則下,多數(shù)系統(tǒng)以控制斑點的重心或最高峰來分析,邊緣檢測的軟件可精確描述斑點外觀,并進行邊緣檢測和鄰近分析,以增加精確度. 通過閾值分析、邊緣檢測、銷蝕和擴大斑點檢測的基本工具還可恢復共遷移的斑點邊界. 以PC機為基礎(chǔ)的軟件Phoretix-2D正挑戰(zhàn)古老的Unix為基礎(chǔ)的2-D分析軟件包. 第三,一旦2-DE圖象上的斑點被檢測,許多圖象需要分析比較、增加、消減或均值化. 由于在2-DE中出現(xiàn)100%的重復性是很困難的,由此凝膠間的蛋白質(zhì)的配比對于圖象分析系統(tǒng)是一個挑戰(zhàn). IPG技術(shù)的出現(xiàn)已使斑點配比變得容易. 因此,較大程度的相似性可通過斑點配比向量算法在長度和平行度觀測. 用來配比的著名軟件系統(tǒng)包括Quest,Lips,Hermes,Gemini等,計算機方法如相似性、聚類分析、等級分類和主要因素分析已被采用,而神經(jīng)網(wǎng)絡(luò)、子波變換和實用分析在未來可被采用. 配比通常由一個人操作,其手工設(shè)定大約50個突出的斑點作為“路標”,進行交叉配比. 之后,擴展至整個膠. 例如:精確的PI和MW(分子量)的估計通過參考圖上20個或更多的已知蛋白所組成的標準曲線來計算未知蛋白的PI和MW. 在凝膠圖象分析系統(tǒng)依據(jù)已知蛋白質(zhì)的pI值產(chǎn)生PI網(wǎng)絡(luò),使得凝膠上其它蛋白的PI按此分配. 所估計的精確度大大依賴于所建網(wǎng)格的結(jié)構(gòu)及標本的類型. 已知的未被修飾的大蛋白應(yīng)該作為標志,變性的修飾的蛋白的PI估計約在±0.25個單位. 同理,已知蛋白的理論分子量可以從數(shù)據(jù)庫中計算,利用產(chǎn)生的表觀分子量的網(wǎng)格來估計蛋白的分子量. 未被修飾的小蛋白的錯誤率大約30%,而翻譯后蛋白的出入更大. 故需聯(lián)合其他的技術(shù)完成鑒定. ?
(2) 微量測序(microsequencing). 蛋白質(zhì)的微量測序已成為蛋白質(zhì)分析和鑒定的基石,可以提供足夠的信息. 盡管氨基酸組分分析和肽質(zhì)指紋譜(PMF)可鑒定由2-DE分離的蛋白,但最普通的N-末端Edman降解仍然是進行鑒定的主要技術(shù). 目前已實現(xiàn)蛋白質(zhì)微量測序的自動化. 首先使經(jīng)凝膠分離的蛋白質(zhì)直接印跡在PVDF膜或玻璃纖維膜上,染色、切割,然后直接置于測序儀中,可用于subpicomole水平的蛋白質(zhì)的鑒定. 但有幾點需注意:Edman降解很緩慢,序列以每40 min 1個氨基酸的速率產(chǎn)生;與質(zhì)譜相比,Edman降解消耗大;試劑昂貴,每個氨基酸花費3~4$. 這都說明泛化的Edman降解蛋白質(zhì)不適合分析成百上千的蛋白質(zhì). 然而,如果在一個凝膠上僅有幾個有意義的蛋白質(zhì),或者如果其他技術(shù)無法測定而克隆其基因是必需的,則需要進行泛化的Edman降解測序.
近來,應(yīng)用自動化的Edman降解可產(chǎn)生短的N-末端序列標簽,這是將質(zhì)譜的序列標簽概念用于Edman降解,業(yè)已成為一種強有力的蛋白質(zhì)鑒定. 當對Edman的硬件進行簡單改進,以迅速產(chǎn)生N-末端序列標簽達10~20個/d,序列檢簽將適于在較小的蛋白質(zhì)組中進行鑒定.若聯(lián)合其他的蛋白質(zhì)屬性,如氨基酸組分分析、肽質(zhì)質(zhì)量、表現(xiàn)蛋白質(zhì)分子量、等電點,可以更加可信地鑒定蛋白質(zhì). 選擇BLAST程序,可與數(shù)據(jù)庫相配比. 目前,采用一種Tagldent的檢索程序,還可以進行種間比較鑒定,又提高了其在蛋白質(zhì)組研究中的作用.
(3) 與質(zhì)譜(mass spectrometry)相關(guān)的技術(shù). 質(zhì)譜已成為連接蛋白質(zhì)與基因的重要技術(shù),開啟了大規(guī)模自動化的蛋白質(zhì)鑒定之門. 用來分析蛋白質(zhì)或多肽的質(zhì)譜有兩個主要的部分,1)樣品入機的離子源,2)測量被介入離子的分子量的裝置. 首先是基質(zhì)輔助激光解吸附電離飛行時間質(zhì)譜(MALDI-TOF)為一脈沖式的離子化技術(shù). 它從固相標本中產(chǎn)生離子,并在飛行管中測其分子量. 其次是電噴霧質(zhì)譜(ESI-MS),是一連續(xù)離子化的方法,從液相中產(chǎn)生離子,聯(lián)合四極質(zhì)譜或在飛行時間檢測器中測其分子量. 近年來,質(zhì)譜的裝置和技術(shù)有了長足的進展. 在MALDI-TOF中,最重要的進步是離子反射器(ion reflectron)和延遲提取(delayed ion extraction),可達相當精確的分子量. 在ESI-MS中,納米級電霧源(nano-electrospray source)的出現(xiàn)使得微升級的樣品在30~40 min內(nèi)分析成為可能. 將反相液相色譜和串聯(lián)質(zhì)譜(tandem MS)聯(lián)用,可在數(shù)十個picomole的水平檢測;若利用毛細管色譜與串聯(lián)質(zhì)譜聯(lián)用,則可在低picomole到高femtomole水平檢測;當利用毛細管電泳與串聯(lián)質(zhì)譜連用時,可在小于femtomole的水平檢測[25]. 甚至可在attomole水平進行. 目前多為酶解、液相色譜分離、串聯(lián)質(zhì)譜及計算機算法的聯(lián)合應(yīng)用鑒定蛋白質(zhì). 下面以肽質(zhì)指紋術(shù)和肽片段的測序來說明怎樣通過質(zhì)譜來鑒定蛋白質(zhì).
1)肽質(zhì)指紋術(shù)(peptide mass fingerprint, PMF)是由Henzel等人于1993年提出. 用酶(最常用的是胰酶)對由2-DE分離的蛋白在膠上或在膜上于精氨酸或賴氨酸的C-末端處進行斷裂,斷裂所產(chǎn)生的精確的分子量通過質(zhì)譜來測量(MALDI-TOF-MS,或為ESI-MS),這一技術(shù)能夠完成的肽質(zhì)量可精確到0.1個分子量單位. 所有的肽質(zhì)量最后與數(shù)據(jù)庫中理論肽質(zhì)量相配比(理論肽是由實驗所用的酶來“斷裂”蛋白所產(chǎn)生的). 配比的結(jié)果是按照數(shù)據(jù)庫中肽片段與未知蛋白共有的肽片段數(shù)目作一排行榜,“冠軍”肽片段可能代表一個未知蛋白.若冠亞軍之間的肽片段存在較大差異,且這個蛋白可與實驗所示的肽片段覆蓋良好,則說明正確鑒定的可能性較大.
2)肽片段(peptide fragment)的部分測序. 肽質(zhì)指紋術(shù)對其自身而言,不能揭示所衍生的肽片段或蛋白質(zhì). 為進一步鑒定蛋白質(zhì),出現(xiàn)了一系列的質(zhì)譜方法用來描述肽片段. 用酶或化學方法從N-或C-末端按順序除去氨基酸,形成梯形肽片段(ladder peptide). 首先以一種可控制的化學模式從N-末端降解,可產(chǎn)生大小不同的一系列的梯形肽片段,所得一定數(shù)目的肽質(zhì)量由MALDI-TOF-MS測量. 另一種方法涉及羧基肽酶的應(yīng)用,從C-末端除去不同數(shù)目的氨基酸形成肽片段. 化學法和酶法可產(chǎn)生相對較長的序列,其分子量精確至以區(qū)別賴氨酸(128.09)和谷氨酰胺(128.06). 或者,在質(zhì)譜儀內(nèi)應(yīng)用源后衰變(post-source decay, PSD)和碰撞誘導解離(collision-induced dissociation, CID),目的是產(chǎn)生包含有僅異于一個氨基酸殘基質(zhì)量的一系列肽峰的質(zhì)譜. 因此,允許推斷肽片段序列. 肽片段PSD的分析在MALDI反應(yīng)器上能產(chǎn)生部分序列信息. 首先進行肽質(zhì)指紋鑒定. 之后,一個有意義的肽片段在質(zhì)譜儀被選作“母離子”,在飛行至離子反應(yīng)器的過程中降解為“子離子”. 在反應(yīng)器中,用逐漸降低的電壓可測量至檢測器的不同大小的片段. 但經(jīng)常產(chǎn)生不完全的片段. 現(xiàn)在用肽片段來測序的方法始于70年代末的CID,可以一個三聯(lián)四極質(zhì)譜ESI-MS或MALDI-TOF-MS聯(lián)合碰撞器內(nèi)來完成. 在ESI-MS中,由電霧源產(chǎn)生的肽離子在質(zhì)譜儀的第一個四極質(zhì)譜中測量,有意義的肽片段被送至第二個四極質(zhì)譜中,惰性氣體轟擊使其成為碎片,所得產(chǎn)物在第三個四極質(zhì)譜中測量. 與MALDI-PSD相比,CID穩(wěn)定、強健、普遍,肽離子片段基本沿著酰胺鍵的主架被轟擊產(chǎn)生梯形序列. 連續(xù)的片段間差異決定此序列在那一點的氨基酸的質(zhì)量. 由此,序列可被推測. 由CID圖譜還可獲得的幾個序列的殘基,叫做“肽序列標簽”. 這樣,聯(lián)合肽片段母離子的分子量和肽片段距N-、C?端的距離將足以鑒定一個蛋白質(zhì).
(4) 氨基酸組分分析. 1977年首次作為鑒定蛋白質(zhì)的一種工具,是一種獨特的“腳印”技術(shù). 利用蛋白質(zhì)異質(zhì)性的氨基酸組分特征,成為一種獨立于序列的屬性,不同于肽質(zhì)量或序列標簽. Latter首次表明氨基酸組分的數(shù)據(jù)能用于從2-DE凝膠上鑒定蛋白質(zhì). 通過放射標記的氨基酸來測定蛋白質(zhì)的組分,或者將蛋白質(zhì)印跡到PVDF膜上,在155℃進行酸性水解1 h,通過這一簡單步驟的氨基酸的提取,每一樣品的氨基酸在40min內(nèi)自動衍生并由色譜分離,常規(guī)分析為100個蛋白質(zhì)/周. 依據(jù)代表兩組分間數(shù)目差異的分數(shù),對數(shù)據(jù)庫中的蛋白質(zhì)進行排榜,“冠軍”蛋白質(zhì)具有與未知蛋白質(zhì)最相近的組分,考慮冠亞軍蛋白質(zhì)分數(shù)之間的差異,僅處于冠軍的蛋白質(zhì)的可信度大. Internet上存在多個程序可用于氨基酸組分分析,如AACompIdent,ASA,F(xiàn)INDER,AAC-PI,PROP-SEARCH等,其中,在PROP-SEARCH中,組分、序列和氨基酸的位置被用來檢索同源蛋白質(zhì). 但仍存在一些缺點,如由于不足的酸性水解或者部分降解會產(chǎn)生氨基酸的變異. 故應(yīng)聯(lián)合其他的蛋白質(zhì)屬性進行鑒定.
4 蛋白質(zhì)組研究的百科全書 數(shù)據(jù)庫(database)
蛋白質(zhì)組數(shù)據(jù)庫(proteome database)被認為是蛋白質(zhì)組知識的儲存庫,包含所有鑒定的蛋白質(zhì)信息,如蛋白質(zhì)的順序、核苷酸順序、2-D PAGE、3-D結(jié)構(gòu)、翻譯后的修飾、基因組及代謝數(shù)據(jù)庫等. 例如,SWISS-2DPAGE數(shù)據(jù)庫包括人類,細菌,細胞等物種的信息. 其中,E.coli SWISS-2DPAGE數(shù)據(jù)庫是EXPASY分子生物學服務(wù)器的一部分,通過www的URL網(wǎng)址http://www.expasy.ch/ch2d/ch2d-top.html可以查詢.
當前的計算機和網(wǎng)絡(luò)技術(shù),讓我們將所有的數(shù)據(jù)庫連在一起,并允許我們從一個數(shù)據(jù)庫中的一條信息遨游到其他的數(shù)據(jù)庫;將一個研究對象的數(shù)據(jù)與其他各種蛋白質(zhì)組中的相關(guān)數(shù)據(jù)或圖譜相連. 分析型軟件工具被稱為蛋白質(zhì)組分析機器人、數(shù)據(jù)分析軟件包. 在既定的狀態(tài)下,定量研究蛋白質(zhì)的表達水平,或者計算機輔助數(shù)據(jù)庫系統(tǒng)建立可將實驗推進一步.因此,蛋白質(zhì)組分析技術(shù)聯(lián)合蛋白質(zhì)數(shù)據(jù)庫,計算機網(wǎng)絡(luò)和其他軟件包合在一起稱為蛋白質(zhì)組的機控百科全書(Cyber-encyclopaedia of the proteome).
蛋白質(zhì)組和基因組共同分析可以產(chǎn)生大量的數(shù)據(jù). 當評估每一個數(shù)據(jù)庫的價值時,難免要考慮兩個條件:1)數(shù)據(jù)庫是否在任一時刻保持最新;2)何時能夠相互連接,且以整體狀態(tài)評估. 目前的發(fā)展趨勢:1)信息量呈指數(shù)增長;2)蛋白質(zhì)組計劃的實施會產(chǎn)生新的數(shù)據(jù)庫;3)致力于模擬細胞內(nèi)蛋白質(zhì)的相互作用的新型數(shù)據(jù)庫;4)建立高級、智慧型的咨詢工具是必需的.
5 蛋白質(zhì)組技術(shù)的規(guī)模 高流通量篩選(HTS)
HTS(High throughput screening)至今在蛋白質(zhì)組研究中已成為現(xiàn)實. 在最近的一年內(nèi),由于制藥工業(yè)對此的需求,樣品輸入自動化得以進展. 目前,正在設(shè)計的機器人可自動處理2-DE后電轉(zhuǎn)至PVDF膜. 原形機器人加工、傳輸?shù)鞍踪|(zhì)至質(zhì)譜或以液相色譜為基礎(chǔ)的分析儀,如進行斑點切割,操縱、控制多種PMF、氨基酸組分分析所需的化學反應(yīng),使每天最小的流通量達1000個蛋白. 此外,必須選擇適用的軟件包,如應(yīng)用第二代COMBINED來處理輸出的數(shù)據(jù),自動咨詢本地或網(wǎng)上的數(shù)據(jù)庫而進行系列的評估. 大量的數(shù)據(jù)分析表明HTS是刻不容緩的. 目前,對質(zhì)譜已設(shè)想一個三級方案來處理大規(guī)模的蛋白質(zhì)組:1)MALDI-TOF-MS以每天大于1000個蛋白的速率分析;2)通過ESI-MS/MS或SEQUEST,以每天每臺機器分析幾打蛋白質(zhì)的速率進行序列標簽;3)對由串聯(lián)質(zhì)譜所得的新蛋白或有意義蛋白進行全長肽段的測序,從而提供足夠的信息通過核酸探針或簡并PCR引物獲得有意義的基因.
綜上所述,高分辨率、高敏感性和高流通性的分離和分離后鑒定技術(shù),結(jié)合準確、全面的數(shù)據(jù)庫技術(shù), 使蛋白質(zhì)組技術(shù)用于生物研究卓有成效. 但僅鑒定蛋白質(zhì)是不夠的,蛋白質(zhì)組世界的挑戰(zhàn)是完善蛋白質(zhì)質(zhì)和量的分析,設(shè)想細胞活性、功能的全體性概念. 在此基礎(chǔ)上,蛋白質(zhì)組分析將會促進未來生命科學的整體發(fā)展.
1 蛋白質(zhì)組的含義
蛋白質(zhì)組(Proteome)的概念最先由Marc Wilkins提出,指由一個基因組(genOME),或一個細胞、組織表達的所有蛋白質(zhì)(PROTein). 蛋白質(zhì)組的概念與基因組的概念有許多差別,它隨著組織、甚至環(huán)境狀態(tài)的不同而改變. 在轉(zhuǎn)錄時,一個基因可以多種mRNA形式剪接,并且,同一蛋白可能以許多形式進行翻譯后的修飾. 故一個蛋白質(zhì)組不是一個基因組的直接產(chǎn)物,蛋白質(zhì)組中蛋白質(zhì)的數(shù)目有時可以超過基因組的數(shù)目. ?
蛋白質(zhì)組學(Proteomics)處于早期“發(fā)育”狀態(tài),這個領(lǐng)域的專家否認它是單純的方法學,就像基因組學一樣,不是一個封閉的、概念化的穩(wěn)定的知識體系,而是一個領(lǐng)域. 蛋白質(zhì)組學集中于動態(tài)描述基因調(diào)節(jié),對基因表達的蛋白質(zhì)水平進行定量的測定,鑒定疾病、藥物對生命過程的影響,以及解釋基因表達調(diào)控的機制. 作為一門科學,蛋白質(zhì)組研究并非從零開始,它是已有20年歷史的蛋白質(zhì)(多肽)譜和基因產(chǎn)物圖譜技術(shù)的一種延伸. 多肽圖譜依靠雙向電泳(Two-dimensional gel electrophoresis, 2-DE)和進一步的圖象分析;而基因產(chǎn)物圖譜依靠多種分離后的分析,如質(zhì)譜技術(shù)、氨基酸組分分析等.
2 蛋白質(zhì)組研究的核心 用于分離的雙向電泳(2-DE)
蛋白質(zhì)組研究的發(fā)展以雙向電泳技術(shù)作為核心. 雙向電泳由O’Farrell’s于1975年首次建立并成功地分離約1 000個E.coli蛋白,并表明蛋白質(zhì)譜不是穩(wěn)定的,而是隨環(huán)境而變化. 雙向電泳原理簡明,第一向進行等電聚焦,蛋白質(zhì)沿pH梯度分離,至各自的等電點;隨后,再沿垂直的方向進行分子量的分離. 目前,隨著技術(shù)的飛速發(fā)展,已能分離出10 000個斑點(spot). 當雙向電泳斑點的全面分析成為現(xiàn)實的時候,蛋白質(zhì)組的分析變得可行.
樣品制備(sample prepareation)和溶解同樣事關(guān)2-DE的成效,目標是盡可能擴大其溶解度和解聚,以提高分辨率. 用化學法和機械裂解法破碎以盡可能溶解和解聚蛋白,兩者聯(lián)合有協(xié)同作用. 對IEF(isoelectric focusing)樣品的預處理涉及溶解、變性和還原來完全破壞蛋白間的相互作用,并除去如核酸等非蛋白物質(zhì). 理想的狀態(tài)是人們應(yīng)一步完成蛋白的完全處理. 近來, 在“變性劑雞尾酒”中,含14~16個碳的磺基甘氨酸三甲內(nèi)鹽(ASB14~16)的裂解液效果最好. 而離液劑2 mol/L硫脲和表面活性劑4%CHAPS的混合液促使疏水蛋白從IPG(immobilized pH gradients)膠上的轉(zhuǎn)換. 三丁基膦(Tributyl phosphine,TBP )取代β-巰基乙醇或DTT完全溶解鏈間或鏈內(nèi)的二硫鍵,增強了蛋白的溶解度,并導致轉(zhuǎn)至第二向的增加. 兩者通過不同的方法來增加蛋白的溶解度,作為互補試劑會更有效. 在保持樣品的完整性的前提下,可利用超離和核酸內(nèi)切酶去除核酸(DNA). 除此之外,機械力被用來對蛋白分子解聚,如超聲破碎等. 另外,添加PMSF等蛋白酶抑制劑,可保持蛋白完整性. 由于商品化的IPG膠條是干燥脫水的,可在其水化的過程中加樣,覆蓋整個IPG膠,避免在樣品杯中的沉淀所致的樣品丟失. 此外,低豐度蛋白(low abundance protein)在細胞內(nèi)可能具有重要的調(diào)節(jié)功能,代表蛋白質(zhì)組研究的“冰山之尖”,故分離低豐度蛋白是一種挑戰(zhàn). 亞細胞分級和蛋白質(zhì)預分級、提高加樣量(已達到1~15 mg級的標準)、應(yīng)用敏感性檢測,可以提高其敏感性. 如一種多肽免疫2-DE印跡(MI-2DE)是利用幾種單克隆抗體技術(shù)來分析和檢測. 提高組蛋白和核糖體蛋白等堿性蛋白(basic proteins)的分離是另一難點. 由于堿性pH范圍內(nèi)凝膠基質(zhì)的不穩(wěn)定及逆向電滲流(EOF)的產(chǎn)生,對PI(等電點)超過10的堿性蛋白,通過產(chǎn)生?0~10%?的山梨醇梯度和16%的異丙醇可減少之. 亦可用雙甲基丙烯酰胺來增加基質(zhì)的穩(wěn)定性. ?
2-DE面臨的挑戰(zhàn)是高分辨率和重復性. 高分辨率確保蛋白最大程度的分離,高重復性允許進行凝膠間配比(match). 對2-DE而言,有3種方法分離蛋白:1)ISO-DALT(isoelectric focus)以O(shè)’Farrell’s技術(shù)為基礎(chǔ). 第一向應(yīng)用載體兩性電解質(zhì)(carrier ampholyte, CA),在管膠內(nèi)建立pH梯度. 隨著聚焦時間的延長,pH梯度不穩(wěn),易產(chǎn)生陰極漂移. 2) NEPHGE(non-equilibrium pH gradient electrophoresis)用于分離堿性蛋白(pH>7.0). 如果聚焦達到平衡狀態(tài),堿性蛋白會離開凝膠基質(zhì)而丟失. 因此,在等電區(qū)域的遷移須在平衡狀態(tài)之前完成,但很難控制. 3)IPG-DALT發(fā)展于80年代早期. 由于固相pH梯度(Immobilized pH gradient, IPG)的出現(xiàn)解決了pH梯度不穩(wěn)的問題. IPG通過immobiline共價偶聯(lián)于丙烯酰胺產(chǎn)生固定的pH梯度,克服了IEF的缺點,從而達到高度的重復性. 目前可以精確制作線性、漸進性和S型曲線,范圍或?qū)捇蛘膒H梯度. 新的酸性pH 3~5或堿性pH 6~11的IPG凝膠梯度聯(lián)合商品化的pH 4~7的梯度可對蛋白質(zhì)形成蛋白質(zhì)組重疊群(proteomic contigs)從而有效分離.
分離后的斑點檢測(spot detection)亦很重要. 所采用的檢測策略和分離后所采用的方法的相互作用是很重要的. 此外,還需考慮反應(yīng)的線性、飽和閾/動態(tài)范圍、敏感性、對細胞蛋白群的全體定量分析的適應(yīng)性、可行性. 目前,沒有一種蛋白染色覆蓋廣泛的濃度和PI及分離后分析技術(shù). 銀染已成為一種檢測2-DE的流行方法,可檢測少到2~5ng的蛋白,因此較考馬斯亮藍R-250敏感. 多數(shù)糖蛋白不能被考馬斯亮藍染色,一些有機染料不適于PVDF膜. 放射性標記不依賴其代謝的活性,并僅適于對合成的蛋白質(zhì)檢測. 另有一種改良的2-DE(差異凝膠電泳),即應(yīng)用兩種不同的染料熒光標記兩個樣品,使在同一凝膠上電泳后的凝膠圖象為兩個,避免了幾種2-DE的比較,可在納克級進行檢測.
較早期相比,2-DE有兩個主要的進步:首先,極高的重復性使有機體的參考圖譜,可通過Internet獲得,來比較不同組織類型、不同狀態(tài)的基因表達;其次,高加樣量使得2-DE成為一項真正的制備型技術(shù).
3 蛋白質(zhì)組技術(shù)的支柱---鑒定技術(shù)(Identification)
如果目前分離蛋白質(zhì)組的最好技術(shù)是2-DE,那么隨之而來的挑戰(zhàn)是數(shù)百數(shù)千個蛋白如何被鑒定. 在這里,我們不考慮傳統(tǒng)的蛋白鑒定方法,如免疫印跡法、內(nèi)肽的化學測序、已知或未知蛋白的comigration分析,或者在一個有機體中有意義的基因的過表達. 并不是因為這些方法無效,而是因為它們通常耗時、耗力,不適合高流通量的篩選. 目前,所選用的技術(shù)包括對于蛋白鑒定的圖象分析、微量測序;進一步對肽片段進行鑒定的氨基酸組分分析和與質(zhì)譜相關(guān)的技術(shù).
(1) 圖象分析技術(shù)(Image analysis). “滿天星”式的2-DE圖譜分析不能依靠本能的直覺,每一個圖象上斑點的上調(diào)、下調(diào)及出現(xiàn)、消失,都可能在生理和病理狀態(tài)下產(chǎn)生,必須依靠計算機為基礎(chǔ)的數(shù)據(jù)處理,進行定量分析. 在一系列高質(zhì)量的2-DE凝膠產(chǎn)生(低背景染色,高度的重復性)的前提下,圖象分析包括斑點檢測、背景消減、斑點配比和數(shù)據(jù)庫構(gòu)建. 首先,采集圖象通常所用的系統(tǒng)是電荷耦合CCD(charge coupled device)照相機;激光密度儀(laser densitometers)和Phospho或Fluoro?imagers,對圖象進行數(shù)字化. 并成為以象素(pixels)為基礎(chǔ)的空間和網(wǎng)格. 其次,在圖象灰度水平上過濾和變形,進行圖象加工,以進行斑點檢測. 利用Laplacian,Gaussian,DOG(difference of Gaussians) opreator使有意義的區(qū)域與背景分離,精確限定斑點的強度、面積、周長和方向. 圖象分析檢測的斑點須與肉眼觀測的斑點一致. 在這一原則下,多數(shù)系統(tǒng)以控制斑點的重心或最高峰來分析,邊緣檢測的軟件可精確描述斑點外觀,并進行邊緣檢測和鄰近分析,以增加精確度. 通過閾值分析、邊緣檢測、銷蝕和擴大斑點檢測的基本工具還可恢復共遷移的斑點邊界. 以PC機為基礎(chǔ)的軟件Phoretix-2D正挑戰(zhàn)古老的Unix為基礎(chǔ)的2-D分析軟件包. 第三,一旦2-DE圖象上的斑點被檢測,許多圖象需要分析比較、增加、消減或均值化. 由于在2-DE中出現(xiàn)100%的重復性是很困難的,由此凝膠間的蛋白質(zhì)的配比對于圖象分析系統(tǒng)是一個挑戰(zhàn). IPG技術(shù)的出現(xiàn)已使斑點配比變得容易. 因此,較大程度的相似性可通過斑點配比向量算法在長度和平行度觀測. 用來配比的著名軟件系統(tǒng)包括Quest,Lips,Hermes,Gemini等,計算機方法如相似性、聚類分析、等級分類和主要因素分析已被采用,而神經(jīng)網(wǎng)絡(luò)、子波變換和實用分析在未來可被采用. 配比通常由一個人操作,其手工設(shè)定大約50個突出的斑點作為“路標”,進行交叉配比. 之后,擴展至整個膠. 例如:精確的PI和MW(分子量)的估計通過參考圖上20個或更多的已知蛋白所組成的標準曲線來計算未知蛋白的PI和MW. 在凝膠圖象分析系統(tǒng)依據(jù)已知蛋白質(zhì)的pI值產(chǎn)生PI網(wǎng)絡(luò),使得凝膠上其它蛋白的PI按此分配. 所估計的精確度大大依賴于所建網(wǎng)格的結(jié)構(gòu)及標本的類型. 已知的未被修飾的大蛋白應(yīng)該作為標志,變性的修飾的蛋白的PI估計約在±0.25個單位. 同理,已知蛋白的理論分子量可以從數(shù)據(jù)庫中計算,利用產(chǎn)生的表觀分子量的網(wǎng)格來估計蛋白的分子量. 未被修飾的小蛋白的錯誤率大約30%,而翻譯后蛋白的出入更大. 故需聯(lián)合其他的技術(shù)完成鑒定. ?
(2) 微量測序(microsequencing). 蛋白質(zhì)的微量測序已成為蛋白質(zhì)分析和鑒定的基石,可以提供足夠的信息. 盡管氨基酸組分分析和肽質(zhì)指紋譜(PMF)可鑒定由2-DE分離的蛋白,但最普通的N-末端Edman降解仍然是進行鑒定的主要技術(shù). 目前已實現(xiàn)蛋白質(zhì)微量測序的自動化. 首先使經(jīng)凝膠分離的蛋白質(zhì)直接印跡在PVDF膜或玻璃纖維膜上,染色、切割,然后直接置于測序儀中,可用于subpicomole水平的蛋白質(zhì)的鑒定. 但有幾點需注意:Edman降解很緩慢,序列以每40 min 1個氨基酸的速率產(chǎn)生;與質(zhì)譜相比,Edman降解消耗大;試劑昂貴,每個氨基酸花費3~4$. 這都說明泛化的Edman降解蛋白質(zhì)不適合分析成百上千的蛋白質(zhì). 然而,如果在一個凝膠上僅有幾個有意義的蛋白質(zhì),或者如果其他技術(shù)無法測定而克隆其基因是必需的,則需要進行泛化的Edman降解測序.
近來,應(yīng)用自動化的Edman降解可產(chǎn)生短的N-末端序列標簽,這是將質(zhì)譜的序列標簽概念用于Edman降解,業(yè)已成為一種強有力的蛋白質(zhì)鑒定. 當對Edman的硬件進行簡單改進,以迅速產(chǎn)生N-末端序列標簽達10~20個/d,序列檢簽將適于在較小的蛋白質(zhì)組中進行鑒定.若聯(lián)合其他的蛋白質(zhì)屬性,如氨基酸組分分析、肽質(zhì)質(zhì)量、表現(xiàn)蛋白質(zhì)分子量、等電點,可以更加可信地鑒定蛋白質(zhì). 選擇BLAST程序,可與數(shù)據(jù)庫相配比. 目前,采用一種Tagldent的檢索程序,還可以進行種間比較鑒定,又提高了其在蛋白質(zhì)組研究中的作用.
(3) 與質(zhì)譜(mass spectrometry)相關(guān)的技術(shù). 質(zhì)譜已成為連接蛋白質(zhì)與基因的重要技術(shù),開啟了大規(guī)模自動化的蛋白質(zhì)鑒定之門. 用來分析蛋白質(zhì)或多肽的質(zhì)譜有兩個主要的部分,1)樣品入機的離子源,2)測量被介入離子的分子量的裝置. 首先是基質(zhì)輔助激光解吸附電離飛行時間質(zhì)譜(MALDI-TOF)為一脈沖式的離子化技術(shù). 它從固相標本中產(chǎn)生離子,并在飛行管中測其分子量. 其次是電噴霧質(zhì)譜(ESI-MS),是一連續(xù)離子化的方法,從液相中產(chǎn)生離子,聯(lián)合四極質(zhì)譜或在飛行時間檢測器中測其分子量. 近年來,質(zhì)譜的裝置和技術(shù)有了長足的進展. 在MALDI-TOF中,最重要的進步是離子反射器(ion reflectron)和延遲提取(delayed ion extraction),可達相當精確的分子量. 在ESI-MS中,納米級電霧源(nano-electrospray source)的出現(xiàn)使得微升級的樣品在30~40 min內(nèi)分析成為可能. 將反相液相色譜和串聯(lián)質(zhì)譜(tandem MS)聯(lián)用,可在數(shù)十個picomole的水平檢測;若利用毛細管色譜與串聯(lián)質(zhì)譜聯(lián)用,則可在低picomole到高femtomole水平檢測;當利用毛細管電泳與串聯(lián)質(zhì)譜連用時,可在小于femtomole的水平檢測[25]. 甚至可在attomole水平進行. 目前多為酶解、液相色譜分離、串聯(lián)質(zhì)譜及計算機算法的聯(lián)合應(yīng)用鑒定蛋白質(zhì). 下面以肽質(zhì)指紋術(shù)和肽片段的測序來說明怎樣通過質(zhì)譜來鑒定蛋白質(zhì).
1)肽質(zhì)指紋術(shù)(peptide mass fingerprint, PMF)是由Henzel等人于1993年提出. 用酶(最常用的是胰酶)對由2-DE分離的蛋白在膠上或在膜上于精氨酸或賴氨酸的C-末端處進行斷裂,斷裂所產(chǎn)生的精確的分子量通過質(zhì)譜來測量(MALDI-TOF-MS,或為ESI-MS),這一技術(shù)能夠完成的肽質(zhì)量可精確到0.1個分子量單位. 所有的肽質(zhì)量最后與數(shù)據(jù)庫中理論肽質(zhì)量相配比(理論肽是由實驗所用的酶來“斷裂”蛋白所產(chǎn)生的). 配比的結(jié)果是按照數(shù)據(jù)庫中肽片段與未知蛋白共有的肽片段數(shù)目作一排行榜,“冠軍”肽片段可能代表一個未知蛋白.若冠亞軍之間的肽片段存在較大差異,且這個蛋白可與實驗所示的肽片段覆蓋良好,則說明正確鑒定的可能性較大.
2)肽片段(peptide fragment)的部分測序. 肽質(zhì)指紋術(shù)對其自身而言,不能揭示所衍生的肽片段或蛋白質(zhì). 為進一步鑒定蛋白質(zhì),出現(xiàn)了一系列的質(zhì)譜方法用來描述肽片段. 用酶或化學方法從N-或C-末端按順序除去氨基酸,形成梯形肽片段(ladder peptide). 首先以一種可控制的化學模式從N-末端降解,可產(chǎn)生大小不同的一系列的梯形肽片段,所得一定數(shù)目的肽質(zhì)量由MALDI-TOF-MS測量. 另一種方法涉及羧基肽酶的應(yīng)用,從C-末端除去不同數(shù)目的氨基酸形成肽片段. 化學法和酶法可產(chǎn)生相對較長的序列,其分子量精確至以區(qū)別賴氨酸(128.09)和谷氨酰胺(128.06). 或者,在質(zhì)譜儀內(nèi)應(yīng)用源后衰變(post-source decay, PSD)和碰撞誘導解離(collision-induced dissociation, CID),目的是產(chǎn)生包含有僅異于一個氨基酸殘基質(zhì)量的一系列肽峰的質(zhì)譜. 因此,允許推斷肽片段序列. 肽片段PSD的分析在MALDI反應(yīng)器上能產(chǎn)生部分序列信息. 首先進行肽質(zhì)指紋鑒定. 之后,一個有意義的肽片段在質(zhì)譜儀被選作“母離子”,在飛行至離子反應(yīng)器的過程中降解為“子離子”. 在反應(yīng)器中,用逐漸降低的電壓可測量至檢測器的不同大小的片段. 但經(jīng)常產(chǎn)生不完全的片段. 現(xiàn)在用肽片段來測序的方法始于70年代末的CID,可以一個三聯(lián)四極質(zhì)譜ESI-MS或MALDI-TOF-MS聯(lián)合碰撞器內(nèi)來完成. 在ESI-MS中,由電霧源產(chǎn)生的肽離子在質(zhì)譜儀的第一個四極質(zhì)譜中測量,有意義的肽片段被送至第二個四極質(zhì)譜中,惰性氣體轟擊使其成為碎片,所得產(chǎn)物在第三個四極質(zhì)譜中測量. 與MALDI-PSD相比,CID穩(wěn)定、強健、普遍,肽離子片段基本沿著酰胺鍵的主架被轟擊產(chǎn)生梯形序列. 連續(xù)的片段間差異決定此序列在那一點的氨基酸的質(zhì)量. 由此,序列可被推測. 由CID圖譜還可獲得的幾個序列的殘基,叫做“肽序列標簽”. 這樣,聯(lián)合肽片段母離子的分子量和肽片段距N-、C?端的距離將足以鑒定一個蛋白質(zhì).
(4) 氨基酸組分分析. 1977年首次作為鑒定蛋白質(zhì)的一種工具,是一種獨特的“腳印”技術(shù). 利用蛋白質(zhì)異質(zhì)性的氨基酸組分特征,成為一種獨立于序列的屬性,不同于肽質(zhì)量或序列標簽. Latter首次表明氨基酸組分的數(shù)據(jù)能用于從2-DE凝膠上鑒定蛋白質(zhì). 通過放射標記的氨基酸來測定蛋白質(zhì)的組分,或者將蛋白質(zhì)印跡到PVDF膜上,在155℃進行酸性水解1 h,通過這一簡單步驟的氨基酸的提取,每一樣品的氨基酸在40min內(nèi)自動衍生并由色譜分離,常規(guī)分析為100個蛋白質(zhì)/周. 依據(jù)代表兩組分間數(shù)目差異的分數(shù),對數(shù)據(jù)庫中的蛋白質(zhì)進行排榜,“冠軍”蛋白質(zhì)具有與未知蛋白質(zhì)最相近的組分,考慮冠亞軍蛋白質(zhì)分數(shù)之間的差異,僅處于冠軍的蛋白質(zhì)的可信度大. Internet上存在多個程序可用于氨基酸組分分析,如AACompIdent,ASA,F(xiàn)INDER,AAC-PI,PROP-SEARCH等,其中,在PROP-SEARCH中,組分、序列和氨基酸的位置被用來檢索同源蛋白質(zhì). 但仍存在一些缺點,如由于不足的酸性水解或者部分降解會產(chǎn)生氨基酸的變異. 故應(yīng)聯(lián)合其他的蛋白質(zhì)屬性進行鑒定.
4 蛋白質(zhì)組研究的百科全書 數(shù)據(jù)庫(database)
蛋白質(zhì)組數(shù)據(jù)庫(proteome database)被認為是蛋白質(zhì)組知識的儲存庫,包含所有鑒定的蛋白質(zhì)信息,如蛋白質(zhì)的順序、核苷酸順序、2-D PAGE、3-D結(jié)構(gòu)、翻譯后的修飾、基因組及代謝數(shù)據(jù)庫等. 例如,SWISS-2DPAGE數(shù)據(jù)庫包括人類,細菌,細胞等物種的信息. 其中,E.coli SWISS-2DPAGE數(shù)據(jù)庫是EXPASY分子生物學服務(wù)器的一部分,通過www的URL網(wǎng)址http://www.expasy.ch/ch2d/ch2d-top.html可以查詢.
當前的計算機和網(wǎng)絡(luò)技術(shù),讓我們將所有的數(shù)據(jù)庫連在一起,并允許我們從一個數(shù)據(jù)庫中的一條信息遨游到其他的數(shù)據(jù)庫;將一個研究對象的數(shù)據(jù)與其他各種蛋白質(zhì)組中的相關(guān)數(shù)據(jù)或圖譜相連. 分析型軟件工具被稱為蛋白質(zhì)組分析機器人、數(shù)據(jù)分析軟件包. 在既定的狀態(tài)下,定量研究蛋白質(zhì)的表達水平,或者計算機輔助數(shù)據(jù)庫系統(tǒng)建立可將實驗推進一步.因此,蛋白質(zhì)組分析技術(shù)聯(lián)合蛋白質(zhì)數(shù)據(jù)庫,計算機網(wǎng)絡(luò)和其他軟件包合在一起稱為蛋白質(zhì)組的機控百科全書(Cyber-encyclopaedia of the proteome).
蛋白質(zhì)組和基因組共同分析可以產(chǎn)生大量的數(shù)據(jù). 當評估每一個數(shù)據(jù)庫的價值時,難免要考慮兩個條件:1)數(shù)據(jù)庫是否在任一時刻保持最新;2)何時能夠相互連接,且以整體狀態(tài)評估. 目前的發(fā)展趨勢:1)信息量呈指數(shù)增長;2)蛋白質(zhì)組計劃的實施會產(chǎn)生新的數(shù)據(jù)庫;3)致力于模擬細胞內(nèi)蛋白質(zhì)的相互作用的新型數(shù)據(jù)庫;4)建立高級、智慧型的咨詢工具是必需的.
5 蛋白質(zhì)組技術(shù)的規(guī)模 高流通量篩選(HTS)
HTS(High throughput screening)至今在蛋白質(zhì)組研究中已成為現(xiàn)實. 在最近的一年內(nèi),由于制藥工業(yè)對此的需求,樣品輸入自動化得以進展. 目前,正在設(shè)計的機器人可自動處理2-DE后電轉(zhuǎn)至PVDF膜. 原形機器人加工、傳輸?shù)鞍踪|(zhì)至質(zhì)譜或以液相色譜為基礎(chǔ)的分析儀,如進行斑點切割,操縱、控制多種PMF、氨基酸組分分析所需的化學反應(yīng),使每天最小的流通量達1000個蛋白. 此外,必須選擇適用的軟件包,如應(yīng)用第二代COMBINED來處理輸出的數(shù)據(jù),自動咨詢本地或網(wǎng)上的數(shù)據(jù)庫而進行系列的評估. 大量的數(shù)據(jù)分析表明HTS是刻不容緩的. 目前,對質(zhì)譜已設(shè)想一個三級方案來處理大規(guī)模的蛋白質(zhì)組:1)MALDI-TOF-MS以每天大于1000個蛋白的速率分析;2)通過ESI-MS/MS或SEQUEST,以每天每臺機器分析幾打蛋白質(zhì)的速率進行序列標簽;3)對由串聯(lián)質(zhì)譜所得的新蛋白或有意義蛋白進行全長肽段的測序,從而提供足夠的信息通過核酸探針或簡并PCR引物獲得有意義的基因.
綜上所述,高分辨率、高敏感性和高流通性的分離和分離后鑒定技術(shù),結(jié)合準確、全面的數(shù)據(jù)庫技術(shù), 使蛋白質(zhì)組技術(shù)用于生物研究卓有成效. 但僅鑒定蛋白質(zhì)是不夠的,蛋白質(zhì)組世界的挑戰(zhàn)是完善蛋白質(zhì)質(zhì)和量的分析,設(shè)想細胞活性、功能的全體性概念. 在此基礎(chǔ)上,蛋白質(zhì)組分析將會促進未來生命科學的整體發(fā)展.