生物学の分野で使われる様々な専門用語は、 生物学内での分野によって異なるものを指して使われている場合が多々あるのが現状である。 それでは分野を越えた情報検索や、意思疎通に支障を来すので、 それを解決すべく、様々な遺伝子データベースが協力して遺伝子オントロジー協会(Gene Ontology Consortium、GO協会)を設立した。 1998年、ショウジョウバエ(FlyBase)、パン酵母(SGD)、マウス(MGD)の3生物遺伝子データベースの協力で始まったこのGO協会は、今では15データベースが参画する組織となっている。メンバーデータベースには、モデル生物遺伝子データベース、蛋白質データベース、生物学研究者の集団などが含まれる。
遺伝子オントロジーの構成要素は語句ですが、それではそのGO語句はどのようにしてつくられているのでしょうか。
GOの各エントリーは、GO:nnnnnnn の形式で記される固有の数値IDと、語句名(例:細胞 cell、繊維芽細胞増殖因子受容体結合 fibroblast growth factor receptor binding、信号伝達 signal transduction)を持っています。 各語句には3つのオントロジー、細胞機能、細胞内要素、生物学的過程のうちのどれか1つが指示されています。
多くの語句はテキストによる定義が行われ、定義の元を参照しています。 もし定義を明確化する必要があったり、語句の使い方に関する注意があった場合は、コメント欄に分けて記載されます。
多くのGO語句は同義語(synonym)を持っています。 GOでは同義語をあいまいな意味に用いており、正確に同じ意味の言葉を記している訳ではありません。 より広義の言葉、狭義の言葉、関連語句、別の綴り、別の分野での用語法、そして本来の意味の同義語を含んでいます。 この柔軟性によって、GO検索における有益な検索支援を行うことができる(テキストマイニング(文書から意味を取り出すこと)、セマンティックマッチング(意味での検索)などの有益な応用)。
遺伝子オントロジーの対象としている範囲は、多くの他のデータベースと重複しているが、 GO語句がある対象物に関して他のデータベースと同じことを意味していた場合、 データベース相互参照が語句に追加される。 この相互参照はGOへのマッピングページからダウンロードすることができる。
GOでは生物に依存しない語彙の提供を目指しているが、 多くの機能、過程、部位は全ての生物に共通して見られるものであるとは限らない。 そこで便宜的に1つ以上の分類に属する生物に適用されるあらゆる語句を含むことにしている。 語句を適用する生物の分類を特定するために、GO Termではsensu(〜の意味で、を意味するラテン語)を使う(例:trichome differentiation (sensu Magnoliophyta) →被子植物の毛状の細胞の分化(毛状突起分化)を表す)。
たまにGOの範囲外であったり、間違った誘導や定義がされていたり、他の方法でより適切に記述されていたりする。 そういった語句は削除せず、廃止扱いとする。 語句のIDはGOデータベースに存在し続けるが、廃止のマークがつけられ、 その理由がコメント欄に記述されていることが多い。 そこでは置き換わった語句についても記述されていることが多い。
GOの基本構成は、細胞部位(cellular component)、生物学的過程(biological process)、分子機能(molecular function)の3つです。 遺伝子産物は1つ以上の細胞部位と関連づけるか、または位置づけられます。 そこでは1つ以上の生物学的過程が行われており、1つ以上の分子機能が実行されている。 例えばチトクロムc (cytochrome c) は 酸化還元酵素活性(oxidoreductase activity) という分子機能用語、酸化的リン酸化(oxdative phosphorylation) と 細胞死の誘導(induction of cell death) という生物学的過程用語、ミトコンドリアのマトリックス(mitochondrial matrix) と ミトコンドリア内膜(mitochondrial inner membrane) という細胞内部位用語と関連づけられる。