生産性向上

データサイエンスを活用したペプチド-GPCRペア高精度予測システムの開発

導入企業

公益財団法人サントリー生命科学財団

あらゆる生物が持っているシグナル分子のひとつ「ペプチド」は、生体センサーである「Gタンパク質共役受容体(GPCR)」と結合することでGタンパク質の機能を促進・抑制し、神経伝達作用やホルモン作用などの生理機能を発現させる。「ペプチドとGPCRペアの決定」は、医薬品開発に直接的に寄与するだけでなく、生物の多様性に迫る分子メカニズムの解明や生物の進化過程を検証するためにも欠かせない。しかし近年、新規ペプチド-GPCR ペアの決定が困難に直面しているという。サントリー生命科学財団 生物有機科学研究所 統合生体分子機能研究部に所属する白石慧氏が開発した『ペプチド-GPCRペア高精度予測システム』は、こうした状況を打ち破る可能性が注目されている。分子生物学分野におけるデータサイエンスの最先端の取り組みを探る。

導入プロダクト

HPEサーバー&ストレージ

目次

生物の多様性を生み出すメカニズムを分子レベルで解明

サントリー生命科学財団は、1946年に設立された財団法人食品化学研究所に源流を持つ。生物有機化学分野での生命現象に関わる基礎研究への長年にわたる取り組みは、サントリー2代目社長である佐治敬三氏が掲げた「これからの日本は学問や文化を通じて、世界の平和と繁栄に貢献していくべき」という理念に基づくものだ。同財団の生物有機科学研究所は、「膜」「代謝」「シグナリング」をキーワードとした世界最先端の研究を担っている。生物有機科学研究所 統合生体分子機能研究部研究員の白石慧氏は次のように紹介する。

「生物有機科学研究所には、構造生物学、有機化学、分子生物学を軸に多様なバックグラウンドを持った研究者が所属し、生命現象のメカニズムの解明を共通テーマに、大学や他の研究機関とは一線を画すユニークな研究に取り組んでいます。私が所属する統合生体分子機能研究部では、生物の多様性を生み出すメカニズムとその原理を分子レベルで解明することを目指しています」

白石氏の専門は、研究所の基盤技術のひとつであるバイオインフォマティクスだ。白石氏は、京都大学大学院薬学研究科を経て2013年に生物有機科学研究所に採用。内分泌学、生物機能化学を専門とする統合生体分子機能研究部 研究部長 主幹研究員 佐竹炎氏の研究グループに所属し、主に「機械学習を駆使した新規ペプチド- 受容体の高精度予測と実証」に従事してきた。2019年には、革新的な『ペプチド-GPCR ペア高精度予測システム』の開発を米国科学アカデミー紀要(Proceedings of the National Academy of Sciences of the United States of America、PNAS)に公表した。

「薬学研究科時代は、ビッグデータ医科学分野の奥野恭史教授の教えを受けて、機械学習アルゴリズムSupport Vector Machine(SVM)を駆使した薬効や副作用の予測に取り組んできました。現在は、実験系の研究とデータサイエンスの橋渡しを担う研究者として、広く生物の多様性を生み出すメカニズムの解明に力を注いでいます」(白石氏)

“脊椎動物・無脊椎動物を問わず80%以上の予測精度を達成しました。PD-incorporated SVMは、これまでの常識を覆す高精度なペプチド-GPCRペア予測システムであり、この分野では世界初となる機械学習システムです”

— 公益財団法人サントリー生命科学財団 生物有機科学研究所 統合生体分子機能研究部 研究員 白石 慧 氏

ペプチド-GPCRペア決定の困難をいかに打開するか

統合生体分子機能研究部のユニークな研究成果のひとつに、「カタユウレイボヤ(Ciona intestinalis)を対象にした神経ペプチドやペプチドホルモンの同定」がある。シグナル分子のひとつである「ペプチド」は、生体センサーである「Gタンパク質共役受容体(GPCR)」と結合することで神経伝達作用やホルモン作用などの生理機能を発現させる。

「ホヤは構造が単純な無脊椎動物でありながら、人間のような脊椎動物に近い中枢神経を持っていて、その神経支配で様々な生理機能をコントロールしています。進化的には最後に脊椎動物と分岐したことが知られています。ホヤのペプチドを研究することで、生殖、摂食、恒常性の維持、学習、記憶といった私たちの体内の基本的なメカニズムや、その祖先的性質を探ることができると考えています」(白石氏)

更に、資産化したPCの廃棄処理は、PC本体に穴をあけて廃棄するまでを、社員が見届けないといけない、価格の条件が見合わないなど、システムが複雑だという印象がありますが、DaaSにはその手間はないので、その点も採用を決定する一つの理由となりました。統合生体分子機能研究部の佐竹炎氏のチームでは、ホヤの神経ペプチドやペプチドホルモンを30種以上同定する研究成果をあげており、ホヤの卵胞成長・卵成熟・排卵に至るメカニズムの基本骨格を明らかにしつつある。

「ホヤの種特異的なペプチドにおいて、そのペアとなる受容体=GPCRを決定することは、ホヤだけでなく脊索動物の生理機能や分子メカニズム、並びにそれらの進化と多様性をより詳細に知るための大きな一歩となります。しかし、これまでの実験手法では、1~3年をかけてひとつの『新規ペプチド‐GPCRペア』を決定するのがやっと。膨大な時間とコストを要する分子動力学計算も現実的な方法とは言えませんでした」(白石氏)

こうした状況を打開するものとして大きく期待されているのが、白石氏が開発した『ペプチド-GPCRペア高精度予測システム』である。「PD-incorporated SVM」と名づけられたこのシステムは、研究部が同定していた主要な新規ペプチドのうち、12件に及ぶペプチド-GPCRペアの決定に結びつけて圧倒的な実効性を示した。

世界初、新規ペプチド‐GPCRペアを予測可能な機械学習システムを実現

種特異的なペプチドの受容体の決定には大きな意義があるものの、従来型の実験や計算に要する膨大な時間とコストがその進展を阻んできた。このジレンマを解消する「PD-incorporated SVM」は、どのように開発されたのか。

「当グループで新規ペプチド‐GPCRペアの予測にデータサイエンスを活用する構想したのは2013年のことです。これにより、困難に直面していた研究を再び加速させ、新規ペプチド‐GPCRペア決定のための新たな手法を確立したいと考えました」と白石氏は振り返る。

白石氏のアプローチは、機械学習アルゴリズムSupport Vector Machine(SVM)を採用し、学習データに「既知の様々な生物種のペプチド-GPCR ペア」を利用するものだ。

「ペプチドとGPCRの配列や物性、特異的結合の有無などを考慮したGPCRの記述子は2013年に私が開発したものを使い、ペプチドの記述子は新たに開発しています。ペプチドは大きな分子なので、これまでの低分子化合物で取られてきた化学構造を記述子変換するのではなく、アミノ酸の配列パターンを数式化して記述子に落とし込む方法を考案しました。ペプチド-GPCR ペアデータをヒト、マウス、その他脊椎動物、無脊椎動物の4種類のサブセットに分割し、それぞれを1種除いた学習データで学習した予測モデルで除いたサブセットの予測精度が向上するような記述子セットを工夫したところがポイントです」(白石氏)

学習用に投入された多様な生物の「既知のペプチド‐GPCRペア」のデータは1,352ペアに及んだ。初期の予測モデルは必ずしも満足できるものではなかったが、白石氏は各サブセットを除いた際の予測精度を基準に特徴量選択を進めながら予測精度を高めていった。

「最終的に、脊椎動物・無脊椎動物を問わず80%以上の予測精度を達成しました。PD-incorporated SVMは、これまでの常識を覆す高精度なペプチド-GPCRペア予測システムであり、この分野では世界初となる機械学習システムです」と白石氏は自信を示す。

PD-incorporated SVMによる予測結果を実験で検証

実際に、19種のホヤペプチドと、ペアを同定できていない140種のホヤGCPRを対象に、PD-incorporated SVMを用いて合計2,660通りの特異的相互作用予測を行った結果、「7種のペアが70%以上の確率で結合する」ことが予測された。さらに、この7種のペアに対して実験により反応性と特異性を調べたところ、4つのGPCRを決定することができた。

「この結果は、機械学習システムでペプチド-GPCR ペアを予測し、その予測情報を実験で証明した初めての例です。さらに、実験により実証された4ペア、予測が外れた3ペアを再学習させてPD-incorporated SVMの予測精度を改善しました。新しい予測モデルでは22ペアが結合確率70%以上を示し、実験を経てさらに8件のGPCRを決定することができました」(白石氏)

PD-incorporated SVMを利用して決定された新規ペプチド-GPCRペアは、トータルで12件に達した。最初の予測からこの成果を得るまでに要した期間はおよそ9か月。従来の実験手法で2~3年に1ペアの決定しかできなかったことを鑑みると、白石氏が開発した新手法は劇的な効率化を達成したと言えるだろう。

3TBメモリ搭載のHPE ProLiant DL560 Gen10サーバーを導入

PD-incorporated SVMの最初の予測モデル開発に約1年、特徴量を修正しながら予測精度を高める工程に数ヶ月――この間、4種の相互作用データサブセットを使った学習と予測の試行錯誤は80万回に及んだという。

「研究部で所有する1TBメモリ搭載のHPE製8ソケットサーバーを使用して、学習と予測、再学習を繰り返しました。高性能な計算機ですが、それでも初期に200の予測モデルを導き出す計算には丸ひと月を要しました。新たに導入した『HPE ProLiant DL560 Gen10』では、計算時間を数分の一に短縮できるものと期待しています」(白石氏)

統合生体分子機能研究部では、データサイエンス/ 機械学習への取り組みを強化するために、インテル® Xeon® Gold 6254 プロセッサー(3.1GHz/4CPU 計72コア)と3TBのDDR4メモリを搭載する「HPE ProLiant DL560 Gen10サーバー」を導入した。2Uサイズを実現したコンパクトな4ソケットサーバーである。

「3TBという巨大なメモリ空間に、膨大な学習用データを展開して計算できるメリットは非常に大きいですね。今後、予測モデルの精度を高めていく過程では、より多くの予測結果を再学習させていかなければなりません。メモリもCPUも計算リソースはあればあるだけ嬉しい状況です」(白石氏)

さらに、研究部ではゲノム解析用サーバーとしてもHPE ProLiant DL560 Gen10サーバーを導入している。

「実験の研究者が、次世代シーケンサーから取得したデータのアセンブリやアノテーションといった処理を効率よく行える環境を整備しました。ここでも、大容量メモリと最新の高性能CPUが威力を発揮します。バランスのとれた構成、コストパフォーマンスの高い機種選定をしていくうえで、TD シネックスのアドバイスは常に適切なものでした」(白石氏)

3TBメモリ搭載のHPE ProLiant DL560 Gen10サーバーを導入

PD-incorporated SVMがもたらした最大の成果は、「わずか9か月の取り組みで計12種のホヤ新規ペプチド-GPCR ペアを決定できたこと」と言えるだろう。29ペアを予測し12ペアの決定に結びつけた、41%という高い予測精度にも注目したい。

「データサイエンスによる予測を実験で検証して新規ペプチド-GPCR ペアを決定する、という戦略の確かさがまさに証明されました。PD-incorporated SVMは、無脊椎動物を含むあらゆる生物種の新規ペプチド-GPCR ペアの探索に使える汎用性を備えていますので、依然ペプチドを同定できていない『オーファンGPCR』から想定外のペアを発見する可能性も期待できます」(白石氏)

今回の研究では、接着系GPCR のようなペプチドとは無関係と思われていたGPCR をPD-incorporated SVMが受容体と予測し、実験を経て決定されたペプチド-GPCRペアが複数ある。白石氏は次のように話して締めくくった。

「配列相同性や分子系統樹といった従来の研究者の常識を超えたGPCR を予測できたことは、ここに別の法則性があることを示しています。この法則性を紐解いていく、数式化していくことが次のチャレンジです。これにより、ペプチドとGPCRのマッチングがどのように進化・多様化してきたか、生物の進化の本質に迫ることができると考えています。TD シネックスには、これからも、私たちの研究を前進させる計算環境づくりに協力してもらえることを期待しています」

Intel、インテル、Intel ロゴ、Ultrabook、Celeron、Celeron Inside、Core Inside、Intel Atom、Intel Atom Inside、Intel Core、Intel Inside、Intel Inside ロゴ、Intel vPro、Itanium、Itanium Inside、Pentium、Pentium Inside、vPro Inside、Xeon、Xeon Phi、Xeon Inside、Intel Optane は、アメリカ合衆国および /またはその他の国における Intel Corporation またはその子会社の商標です。

フォームから資料ダウンロード

お問合せ

製品のご購入・ご質問は、下記リンクよりフォームにご記入の上お問合せください。

ページトップ