Language

運用人工智慧(AI)與演算法(Algorithm),將醣分子一鍋化合成帶入新境界

醣類是生物體中最重要的四大巨分子之一,其與細胞間的辨識、細胞分化、癌細胞增生、炎症和免疫反應等多種生物化學過程息息相關。在人體中,醣類通常連接於醣蛋白和醣脂質上,並且透過醣苷鍵由約9-10個單醣形成,以產生巨大的結構多樣性。例如,從9種人體常見的單醣,理論上即可建構出約1500萬個四醣分子。然而,以目前的技術,若要從天然物中純化分離出一種純的醣分子,不是極其困難,就是幾乎不可能的任務。所以,人工「合成」便是唯一能夠提供足量純寡醣的樣品,好讓生物學的研究得以進行的最佳途徑。然而,在傳統液相合成領域,對於每種分子,都需要個別制訂一種合成策略,因此極為耗時。為了加速醣科學領域的研究步伐,科學家們一直在開發更有效率的醣合成方法,希望能夠有更快速取得純醣分子的方法,以利科學研究。

 

 

在用於寡醣合成的快速方法中,Peter Seeberger教授於2001年首次報導利用改良的胜肽合成儀,可在固相中成功進行寡醣的快速合成,此一方式大大縮短了寡醣分子的合成時間。但是,這個方法在用於合成複雜及生物相關的醣類結構方面,被證明缺乏可行性。

在自動化概念的合成研究持續發展的過程中,另外的里程碑包括由翁啟惠院士和他的老師Whitesides博士於1982年所開發出來,用於大規模合成寡醣的「一鍋式酵素合成法」,及翁院士團隊於1999年開發出的「程式化一鍋合成法」。

「程式化一鍋合成法」是用一個電腦程式,可以根據需要,在一個存有許多化學反應規則的資料庫中,搜尋出具有確定的相對反應性值(RRV)的構建單元(Building blocks, BBL),然後排列出一個可以依序在一個容器內執行的合成策略。然而,這個原始資料庫中僅有約50個具有測量相對反應性值的構建單元,此外,由於RRV排序要求,該方法僅能合成小的寡醣。 這個電腦程式就是後來被使用於快速合成大量的寡醣分子的Optimer軟體。

 

 

本院基因體研究中心翁啟惠院士與吳宗益研究員,在和資訊科學研究所許聞廉特聘研究員的合作之下,成功地運用人工智慧(AI)與演算法(Algorithm),把一鍋化醣分子合成的方法帶入一個新的領域。這個團隊設計出一套名為Auto-CHO的新軟體,能夠選出適用於一鍋式寡醣合成的構建單元,這個新技術將自動化合成醣分子的目標更向前邁出一大步。

在這項研究中,研究團隊將構建單元資料庫進行大幅度的改進,這裡面包括了154個經過實驗驗證RRV的構建單元和50,000個具有預測RRV的虛擬構建單元。

 

2018AIglyco Workflow Auto CHO Program
圖一、研究流程:a概念描述,醣分子合成標的輸入Auto-CHO軟體後,透過醣構建單元資料庫搜尋,軟體回傳可行的一鍋化合成方案。醣元件的RRV可以是實驗驗證的或是預測的。b細節描述,包括如何建構RRV預測模型並建立虛擬醣構建單元資料庫。

 

由於構建單元的種類眾多,以實驗一一測量其RRV非常耗時費工,研究團隊使用人工智慧學習方法,利用現有經實驗驗證的醣構建單元資料,透過特徵工程(feature engineering),建立出最佳化的RRV預測模型。這個此模型不論在交叉驗證(cross-validation)與獨立驗證(independent test)上都有傑出的表現,同時,許多虛擬建構單元也通過實驗進一步證實。

 

 

此外,研究團隊設計了階層化拆解醣分子合成標的演算法,可將一個以一鍋化方法合成出來的醣片段作為新的醣元件,再次用於另一個一鍋化方法。團隊所開發出來的新軟體Auto-CHO,是一套視覺化操作軟體,支援Windows、macOS與Ubuntu作業系統。團隊決定公開程式的原始碼,提供科學界免費使用。

Auto-CHO把一鍋化方法用階層性的架構處理,好似提供複雜的醣分子合成工作一個可以依序調配的「食譜」一般。此外,Auto-CHO也讓使用這個軟體的化學家們,可以把使用這些虛擬醣元件的心得做回饋的功能,讓整個研究的社群都可以共襄盛舉,持續的將這個資料庫的內容作修正和增添。

 

 

研究團隊已經實際的使用這個Auto-CHO軟體所提供的合成食譜,順利地合成出四種生物學上重要的寡醣分子。

本篇論文於12月6日登上國際期刊「自然通訊」(Nature Communications),論文標題為「Hierachical and Programmable One-Pot Synthesis of Oligosacchaides」,第一作者為本院TIGP生物資訊學程博士生鄭成偉,論文全文可於下列網址存取閱讀:https://doi.org/10.1038/s41467-018-07618-8

 

 

論文集