Bioinformatika: Sebuah Panduan Praktis untuk Analisis Gen dan Protein, Edisi Kedua Andreas D. Baxevanis, B. Francis F. Ouellette Copyright _ 2001 John Wiley & Sons, Inc ISBN: 0-471-38390-2 (Hardback); 0-471-38391-0 (Kertas); 0-471-22392-1 (Elektronik)
THE NCBI DATA MODEL James M. Ostell Nasional Pusat Informasi Bioteknologi National Library of Medicine Institut Kesehatan Nasional Bethesda, Maryland Sarah J. Wheelan Departemen Biologi Molekuler dan Genetika Johns Hopkins School of Medicine Baltimore, Maryland Jonathan A. Kans Nasional Pusat Informasi Bioteknologi National Library of Medicine Institut Kesehatan Nasional Bethesda, Maryland
PENDAHULUAN Mengapa Gunakan Data Model? Kebanyakan ahli biologi akrab dengan penggunaan model hewan untuk mempelajari penyakit manusia. Meskipun penyakit yang terjadi pada manusia mungkin tidak ditemukan dalam persis sama bentuk pada hewan, sering berbagi penyakit hewan yang cukup atribut dengan manusia mitra untuk memungkinkan data yang dikumpulkan pada penyakit hewan yang akan digunakan untuk membuat kesimpulan tentang proses pada manusia. Matematika model menggambarkan kekuatan yang terlibatdalam gerakan muskuloskeletal dapat dibangun dengan membayangkan bahwa otot adalah kombinasi pegas dan piston hidrolik dan tulang lengan tuas, dan, sering kali, 20 THE NCBI DATA MODEL Model tersebut memungkinkan prediksi yang bermakna yang akan dibuat dan diuji tentang jelas jauh lebih kompleks biologis sistem di bawah pertimbangan. Lebih erat dan model elegan mengikuti fenomena nyata, semakin berguna dalam memprediksi atau memahami fenomena alam itu dimaksudkan untuk meniru. Dalam nada yang sama, sekitar 12 tahun lalu, Pusat Nasional untuk Bioteknologi Informasi (NCBI) memperkenalkan model baru untuk informasi urutan-terkait. Ini model baru dan lebih kuat memungkinkan pesatnya perkembangan perangkat lunak dan integrasi database yang mendasari sistem pengambilan Entrez populer dan di yang database GenBank sekarang dibangun (lih. Bab 7 untuk informasi lebih lanjut tentang Entrez). Keuntungan dari model (misalnya, kemampuan untuk bergerak dengan mudah dari diterbitkan literatur untuk urutan DNA dengan protein mereka mengkodekan, untuk kromosom peta gen, dan tiga-dimensi struktur protein) telah ahli biologi jelas selama bertahun-tahun ahli biologi menggunakan Entrez, tapi sangat sedikit memahami dasar di mana model ini dibangun. Sebagai informasi genom menjadi lebih kaya dan lebih kompleks, lebih dari model, data yang sebenarnya yang mendasari muncul dalam umum representasi seperti file GenBank. Tanpa masuk ke detail yang besar, bab ini mencoba untuk menyajikan sebuah panduan praktis untuk prinsip-prinsip model data NCBI dan kepentingannya ahli biologi di bangku.
Beberapa Contoh Model Para flatfile GenBank adalah DNA-berpusat''''laporan, yang berarti bahwa suatu daerah DNA coding untuk protein diwakili oleh fitur''CDS,''atau wilayah''coding,''pada DNA. Sebuah kualifikasi (/ translation = "MLLYY") menggambarkan urutan amino asam yang diproduksi dengan menerjemahkan CDS. Satu set fitur yang terbatas tambahan dari DNA, seperti peptida tikar, kadang-kadang digunakan dalam flatfiles GenBank untuk menggambarkan pembelahan produk dari protein (mungkin tanpa nama) yang dijelaskan oleh / Terjemahan, tapi jelas ini bukan solusi yang memuaskan. Sebaliknya, sebagian besar protein database sekuens protein menyajikan tampilan berpusat''''di mana koneksi dengan gen pengkodean mungkin benar-benar hilang atau mungkin hanya secara tidak langsung dirujuk oleh nomor aksesi. Sering kali, koneksi ini tidak memberikan kodon yang tepat-untuk-asam amino korespondensi yang penting dalam melakukan mutasi analisis. Model Data NCBI berhubungan langsung dengan dua urutan yang terlibat: DNA urutan dan urutan protein. Proses penerjemahan direpresentasikan sebagai link antara dua sekuens daripada penjelasan pada satu sehubungan dengan lain. Protein-penjelasan terkait, seperti produk disosiasinya peptida, yang diwakili sebagai fitur dijelaskan langsung pada urutan protein. Dengan cara ini, menjadi sangat alami untuk menganalisis urutan protein yang berasal dari terjemahan fitur CDS oleh BLAST atau alat urutan pencari lainnya tanpa kehilangan hubungan yang tepat kembali untuk gen. Sebuah koleksi dari urutan DNA dan produk terjemahannya disebut Nuc-Prot ditetapkan, dan ini adalah bagaimana data tersebut diwakili oleh NCBI. Para GenBank flatfile format yang banyak pembaca yang sudah terbiasa hanyalah sebuah gaya tertentu laporan, salah satu yang''lebih''terbaca-manusia dan yang pada akhirnya merata terhubung koleksi urutan kembali ke akrab satu-urutan, DNA-berpusat tampilan. Navigasi yang disediakan oleh alat-alat seperti Entrez jauh lebih langsung mencerminkan mendasari struktur data tersebut. Urutan protein yang berasal dari WHO terjemahan yang dikembalikan oleh pencarian BLAST, pada kenyataannya, urutan proteindari Nuc-Prot set dijelaskan di atas. PENDAHULUAN 21 Format standar juga GenBank dapat menyembunyikan beberapa sifat-urutan beberapa urutan DNA. Sebagai contoh, tiga genom ekson gen tertentu yang diurutkan, dan sebagian daerah noncoding mengapit, sekitar ekson juga dapat yang tersedia, tetapi full-length urutan urutan ini intronic mungkin belum tersedia. Karena ekson tidak dalam konteks genomik lengkap mereka, akan ada menjadi tiga GenBank flatfiles dalam kasus ini, satu untuk masing-masing ekson. Tidak ada eksplisit representasi dari set lengkap urutan atas bahwa wilayah genomik; ketiga ekson datang dalam rangka genomik dan dipisahkan oleh panjang tertentu unsequenced DNA. Dalam format GenBank akan ada garis Segmen dari bentuk SEGMEN 1 dari 3 di record pertama, SEGMEN 2 dari 3 di kedua, dan SEGMEN 3 dari 3 di yang ketiga, tetapi ini hanya memberitahu pengguna bahwa garis-garis merupakan bagian dari beberapa terdefinisi, memerintahkan seri (Gambar 2.1A). Keluar dari rilis GenBank utuh, satu menempatkan Segmen yang benar catatan untuk menempatkan bersama-sama oleh algoritma melibatkan nama LOKUS.Semua segmen yang pergi bersama-sama menggunakan kombinasi pertama huruf yang sama, diakhiri dengan nomor sesuai dengan segmen, misalnya, HSDDT1, HSDDT2, dan HSDDT3. Jelas, ini pengaturan yang rumit dapat mengakibatkan masalah ketika nama LOKUS termasuk nomor yang secara tidak sengaja mengganggu seri seperti. Selain itu, tidak ada satu urutan catatan yang menggambarkan seri berkumpul utuh, dan tidak ada cara untuk menggambarkan jarak antara bagian-bagian individu. Tidak ada konvensi segmentasi di database EMBL urutan sama sekali, sehingga catatan yang berasal dari sumber itu atau didistribusikan dalam format yang kurang bahkan informasi yang tidak sempurna. Model NCBI Data mendefinisikan jenis urutan yang secara langsung mewakili seperti seri tersegmentasi, disebut urutan''''Alih tersegmentasi. daripada mengandung huruf A, G, C, dan T, urutan tersegmentasi berisi petunjuk tentang bagaimana hal itu dapat dibangun dari urutan lain. Mengingat kembali contoh di atas, urutan tersegmentasi akan berisi instruksi''mengambil semua HSDDT1, maka kesenjangan panjang tidak diketahui, maka semua HSDDT2, maka kesenjangan panjang tidak diketahui, maka semua HSDDT3''The. urutan tersegmentasi sendiri dapat memiliki nama (misalnya, HSDDT), nomor aksesi, fitur, kutipan, dan komentar, seperti GenBank catatan lainnya. Data jenis ini umumnya disimpan dalam satu set-Seg disebut''''berisi HSDDT urutan, HSDDT1, HSDDT2, HSDDT3 dan semua koneksi mereka dan fitur. Ketika GenBank rilis dibuat, seperti dalam kasus Nuc-Prot set, Seg-set yang rusak menjadi beberapa catatan, dan urutan tersegmentasi sendiri tidak terlihat. Namun, GenBank, EMBL, dan DDBJ baru-baru ini menyepakati cara untuk mewakili ini dibangun majelis, dan mereka akan ditempatkan di sebuah divisi CON baru, dengan CON berdiri untuk contig''''(Gambar 2.1b). Dalam tampilan grafis Entrez urutan tersegmentasi, urutan tersegmentasi ditampilkan sebagai garis yang menghubungkan semua komponen urutan (Gambar 2.1C). Sebuah urutan NCBI tersegmentasi tidak mengharuskan bahwa ada kesenjangan antara potongan individu. Bahkan potongan-potongan yang dapat tumpang tindih, tidak seperti kasus tersegmentasi seri dalam format GenBank. Hal ini membuat urutan tersegmentasi ideal untuk mewakili besar urutan genom seperti bakteri, yang mungkin banyak megabases panjang. Ini adalah apa yang saat ini dilakukan dalam divisi Genom Entrez untuk bakteri genom, serta kromosom lengkap lainnya seperti ragi. Para NCBI Perangkat Lunak Toolkit (Ostell, 1996) berisi fungsi yang dapat mengumpulkan data bahwa tersegmentasi urutan mengacu pada''on the fly,''termasuk urutan konstituen dan fitur, dan ini informasi secara otomatis dapat dipetakan dari koordinat kecil, individu merekam ke yang dari kromosom yang lengkap. Hal ini memungkinkan untuk memberikanTampilan grafis, flatfile GenBank pandangan, atau pandangan FASTA atau untuk melakukan analisis pada 22 THE NCBI DATA MODEL PENDAHULUAN 23 < Gambar 2.1. (A) bagian Terpilih dari GenBank-diformat catatan dalam urutan tersegmentasi. Format GenBank historis menunjukkan bahwa catatan hanya merupakan bagian dari beberapa seri memerintahkan; tidak menawarkan informasi tentang apa komponen-komponen lain atau bagaimana mereka terhubung. Untuk melihat tampilan lengkap dari catatan-catatan, lihat http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/ uid = 6849043 permintaan? & bentuk = 6 & db = n & Dopt = g. (B) Representasi urutan tersegmentasi di divisi (contig) baru CON. Sebuah ekstensi baru dari format GenBank memungkinkan rincian konstruksi catatan tersegmentasi yang akan disajikan. Garis CONTIG dapat termasuk aksesi individu, kesenjangan panjang dikenal, dan kesenjangan panjang tidak diketahui. Para komponen individu masih dapat ditampilkan dalam bentuk tradisional, meskipun tidak ada fitur atau urutan yang hadir dalam format ini. (C) Grafis representasi dari urutan tersegmentasi.Pandangan ini menampilkan fitur dipetakan ke koordinat dari urutan tersegmentasi. Segmen mencakup semua wilayah exonic dan diterjemahkan ditambah 20 pasangan basa dari urutan di ujung masing-masing intron. Kesenjangan segmen mencakup urutan intronic tersisa. Seluruh kromosom cukup mudah, meskipun data hanya ada di kecil, individu potongan. Kemampuan untuk mudah merakit satu set urutan terkait pada permintaan untuk setiap daerah kromosom yang sangat besar telah terbukti berharga bagi bakteri genom. Majelis pada permintaan akan menjadi lebih dan lebih penting yang lebih besar dan daerah yang lebih besar diurutkan, mungkin oleh kelompok-kelompok yang berbeda, dan gagasan bahwa penyidik akan bekerja pada satu record urutan besar menjadi benar-benar tidak praktis.
Apa ASN.1 Harus Lakukan Dengan Ini? Para NCBI model data sering disebut sebagai, dan bingung dengan,''NCBI ASN.1'' atau''ASN.1 Model Data.''Sintaks Notasi Abstrak 1 (ASN.1) adalah Internasional Standar Organization (ISO) standar untuk mendeskripsikan data terstruktur yang dapat diandalkan mengkodekan data dengan cara yang memungkinkan komputer dan sistem perangkat lunak dari semua jenis untuk andal pertukaran baik struktur dan isi dari entri. Mengatakan bahwa data model ditulis dalam ASN.1 adalah seperti mengatakan sebuah program komputer yang ditulis dalam C atau FORTRAN. Pernyataan itu mengidentifikasi bahasa, ia tidak mengatakan apa program tidak. Para GenBank akrab flatfile benar-benar dirancang bagi manusia untuk membaca, dari DNA-berpusat sudut pandang. ASN.1 dirancang untuk sebuah komputer untuk membaca dan setuju untuk menggambarkan hubungan yang rumit data dalam cara yang sangat spesifik. NCBI menggambarkan dan proses data menggunakan format ASN.1. Berdasarkan bahwa format, tunggal umum,sejumlah format terbaca-manusia dan alat-alat yang diproduksi, seperti Entrez, GenBank, dan database BLAST. Tanpa adanya format umum seperti ini, para tetangga dan keras-link Entrez hubungan yang tergantung pada tidak akan mungkin. Bab ini berkaitan dengan struktur dan isi dari NCBI data model dan implikasinya untuk database biomedis dan alat. Detil diskusi tentang pilihan ASN.1 untuk tugas dan bentuk keseluruhan dapat ditemukan tempat lain (Ostell, 1995).
Apa yang Menentukan? Kami telah menyinggung bagaimana model data yang mendefinisikan urutan NCBI dengan cara yang mendukung deskripsi yang lebih kaya dan lebih eksplisit dari data eksperimen dari yang dapat 24 THE NCBI DATA MODEL diperoleh dengan format GenBank. Rincian model adalah penting, dan akan diperluas di dalam diskusi berikutnya. Pada titik ini, kita perlu berhenti sejenak dan singkat menggambarkan penalaran dan prinsip-prinsip umum di balik model secara keseluruhan. Ada dua alasan utama untuk meletakkan data pada komputer: pengambilan dan penemuan. Retrieval pada dasarnya bisa mendapatkan kembali apa yang dimasukkan ke dalamnya mengumpulkan urutan informasi tanpa memberikan cara untuk mengambil itu membuat urutan informasi, pada dasarnya, tidak berguna. Meskipun ini penting, bahkan lebih berharga untuk bisa mendapatkan kembali dari pengetahuan sistem yang lebih daripada yang dimasukkan ke dalam untuk memulai dengan-yang, untuk dapat menggunakan informasi tersebut untuk membuat penemuan biologis. Para ilmuwan dapat membuat jenis penemuan oleh koneksi membedakan antara dua potongan informasi yang tidak diketahui kapan potongan dimasukkan secara terpisah ke dalam database atau dengan melakukan perhitungan pada data yang menawarkan baru wawasan ke dalam catatan. Dalam model data NCBI, penekanannya adalah pada memfasilitasi Penemuan, yang berarti data harus didefinisikan dengan cara yang setuju untuk kedua keterkaitan dan perhitungan. Sebuah pertimbangan, kedua umum untuk model adalah stabilitas. NCBI adalah Pemerintah AS lembaga, bukan kelompok didukung tahun ke tahun oleh hibah kompetitif. Jadi, NCBI staf mengambil pandangan yang sangat jangka panjang perannya dalam mendukung bioinformatika upaya. NCBI menyediakan sistem informasi besar-besaran yang akan dukungan ilmiah Permintaan baik ke masa depan. Sebagai orang yang terlibat dalam penelitian biomedis tahu, banyak revolusi konseptual dan teknis utama dapat terjadi ketika berhadapan dengan seperti rentang waktu yang lama. Entah bagaimana, NCBI harus mengatasi perubahan pandangan dan kebutuhan dengan perangkat lunak dan data yang mungkin telah dibuat tahun (atau dekade) sebelumnya. Untuk alasan itu, pengamatan dasar telah dipilih sebagai pusat data elemen, dengan interpretasi dan tata-nama (lebih elemen dapat berubah) ditempatkan di luar representasi, dasar inti dari data. Mengambil semua faktor, NCBI menggunakan data inti empat elemen: bibliografi kutipan, urutan DNA, urutan protein, dan tiga-dimensi struktur. Dalam Selain itu, dua proyek (taksonomi dan peta genom) lebih interpretatif tapi tetap sangat penting karena mengatur dan menghubungkan sumber daya yang NCBI telah membangun cukup dasar di daerah-daerah juga.
PUBS: PUBLIKASI atau binasa Publikasi merupakan inti dari setiap usaha ilmiah. Ini adalah proses yang umum dimana informasi ilmiah ditinjau, dievaluasi, didistribusikan, dan dimasukkan ke dalam catatan permanen dari kemajuan ilmu pengetahuan. Publikasi berfungsi sebagai link penting antara faktual database dari struktur yang berbeda atau domain konten (misalnya, catatan secara berurutan database dan catatan dalam database genetik dapat mengutip artikel yang sama).Mereka berfungsi sebagai titik masuk yang berharga ke dalam database faktual (''Saya telah membaca sebuah artikel tentang ini, sekarang saya ingin melihat data primer''). Publikasi juga bertindak sebagai penjelasan penting dari fungsi dan konteks untuk catatandalam database faktual. Salah satu alasan untuk ini adalah bahwa database faktual memiliki struktur yang sangat penting untuk efisiensi penggunaan database tetapi mungkin tidak memiliki representasi kapasitas untuk mengatur maju konteks biologis, eksperimental, atau sejarah penuh catatan tertentu. Sebaliknya, makalah yang diterbitkan hanya dibatasi oleh bahasa dan berisi banyak informasi yang jelas lebih lengkap dan lebih rinci daripada sebelumnya akan di catatan dalam database faktual. Mungkin yang lebih penting, penulis dievaluasi oleh PUBS: PUBLIKASI atau binasa 25 mereka ilmiah rekan-rekan berdasarkan isi kertas mereka diterbitkan, bukan oleh isi dari catatan database yang terkait. Meskipun niat baik, para ilmuwan melanjutkan dan catatan database menjadi statis, meskipun pengetahuan tentang mereka telah diperluas, dan ada insentif sangat sedikit bagi para ilmuwan sibuk untuk belajar database sistem dan menyimpan catatan didasarkan pada studi laboratorium mereka sendiri up to date. Umumnya, bentuk dan isi dari kutipan belum memikirkan dengan hati-hati oleh mereka merancang database faktual, dan kualitas, bentuk, dan isi kutipan bisa sangat bervariasi dari satu database ke yang berikutnya. Kesadaran pentingnya memiliki link ke literatur yang diterbitkan dan kesadaran bahwa bibliografi kutipan jauh lebih stabil daripada pengetahuan ilmiah yang menyebabkan keputusan bahwa pekerjaan yang cermat dan lengkap mendefinisikan kutipan adalah upaya yang bermanfaat. Beberapa komponen dari spesifikasi publikasi dijelaskan di bawah ini mungkin khusus menarik bagi para ilmuwan atau pengguna dari database NCBI, tetapi diskusi penuh dari semua isu-isu yang mengarah ke keputusan yang mengatur spesifikasi sendiri akan membutuhkan bab lain dalam dirinya sendiri.
Penulis Nama penulis diwakili dalam banyak format oleh berbagai database: nama terakhir saja, nama dan inisial terakhir, terakhir nama-koma-inisial, nama belakang dan nama depan, semua penulis dengan inisial dan yang terakhir dengan nama pertama penuh, dengan atau tanpa Gelar kehormatan (Ph.D.) atau akhiran (Jr, III), untuk nama hanya beberapa. Beberapa bibliografi database (seperti MEDLINE) mungkin hanya mewakili sejumlah penulis tetap. Meskipun inkonsistensi ini hanya buruk untuk pembaca manusia, itu menimbulkan masalah berat untuk sistem database menggabungkan nama dari berbagai sumber dan fungsi memberikan yang sederhana seperti mencari kutipan oleh nama penulis terakhir, seperti Entrez tidak. Untuk alasan ini, spesifikasi menyediakan dua bentuk representasi alternatif nama penulis: satu sederhana string dan membentuk lainnya terstruktur dengan kolom untuk nama belakang, nama pertama, dan seterusnya pada. Bila data yang disampaikan langsung kepada NCBI atau dalam kasus ketika ada yang konsisten format nama penulis dari sumber tertentu (seperti MEDLINE), yang terstruktur formulir yang digunakan. Bila formulir tidak dapat diuraikan, nama penulis tetap sebagai string. Hal ini membatasi penggunaannya untuk pengambilan tapi setidaknya memungkinkan data yang akan dilihat ketika catatan diambil dengan cara lain. Bahkan bentuk terstruktur nama penulis harus mendukung keragaman, karena beberapa sumber memberikan inisial sedangkan yang lain hanya memberikan nama pertama dan menengah. Hal ini disebutkan secara khusus menekankan dua poin. Pertama, model data NCBI dirancang baik untuk mengarahkan pandangan kita data menjadi bentuk yang lebih berguna dan untuk mengakomodasi data yang ada tersedia. (Ini sepasang fungsi dapat membingungkan untuk orang membaca spesifikasi dan melihat bentuk-bentuk alternatif dari data yang sama yang didefinisikan.) Kedua, pengembang perangkat lunak harus menyadari hal ini berbagai pernyataan dan mengakomodasi bentuk apapun harus digunakan ketika sumber tertentu sedang dikonversi. Secara umum, NCBI mencoba untuk mendapatkan sebanyak mungkin data ke dalam seragam, terstruktur bentuk mungkin tapi membawa beristirahat dalam cara yang kurang optimal daripada kehilangan sama sekali. Penulis afiliasi (yaitu, alamat institusi penulis ') bahkan lebih rumit. Seperti dengan nama penulis, ada masalah mendukung kedua bentuk terstruktur dan unparsed string. Namun, bahkan sumber dengan nama penulis cukup konsisten konvensi seringkali menghasilkan informasi afiliasi yang tidak dapat diurai dari teks ke dalam format yang terstruktur. Selain itu, mungkin ada afiliasi yang terkait dengan seluruh 26 THE NCBI DATA MODEL daftar penulis, atau mungkin ada afiliasi yang berbeda terkait dengan penulis. Para NCBI model data memungkinkan untuk kedua skenario. Pada saat penulisan ini hanya yang pertama Bentuk didukung baik dalam MEDLINE atau GenBank, kedua jenis dapat muncul dalam diterbitkan artikel.
Artikel Entitas bibliografi yang paling sering dikutip dalam ilmu biologi adalah sebuah artikel di jurnal, karena itu, format kutipan database biologis yang paling didefinisikan dengan jenis dalam pikiran. Namun,''artikel''juga dapat muncul dalam buku, manuskrip, tesis, dan sekarang dalam jurnal elektronik juga. Model data mendefinisikan field diperlukan untuk mengutip sebuah buku, jurnal, atau naskah. Sebuah kutipan artikel yang menempati salah satu lapangan; bidang lain menampilkan informasi tambahan yang diperlukan untuk secara unik mengidentifikasi artikel dalam buku, jurnal, atau naskah-penulis (s) dari artikel (sebagai lawan ke penulis atau editor buku), judul artikel, nomor halaman, dan sebagainya. Ada perbedaan penting antara bidang yang diperlukan untuk secara unik mengidentifikasisebuah artikel yang diterbitkan dari kutipan dan yang diperlukan untuk menjelaskan hal yang sama Artikel bermakna untuk pengguna database. Citation NCBI Layanan Pencocokan mengambil field dari kutipan dan upaya untuk mencari artikel yang mereka lihat. Dalam hal ini proses, pertandingan sukses akan melibatkan hanya benar cocok dengan judul jurnal, tahun, halaman pertama dari artikel, dan nama terakhir dari seorang penulis artikel. Informasi lain (misalnya, artikel judul, volume, edisi, halaman penuh, daftar penulis) berguna untuk melihat tapi sangat sering yang baik tidak tersedia atau terang-terangan salah.Sekali lagi, Model data harus memungkinkan informasi minimum yang ditetapkan untuk datang sebagai kutipan, harus dicocokkan MEDLINE, dan kemudian digantikan dengan kutipan memiliki set lengkap bidang yang diinginkan yang diperoleh dari MEDLINE untuk menghasilkan akurat, data yang berguna untuk konsumsi oleh masyarakat ilmiah.
Paten Dengan munculnya urutan dipatenkan itu menjadi penting untuk menyebutkan paten sebagai bibliografi entitas bukan artikel. Mendukung model data yang sangat lengkap paten kutipan, sebuah format dikembangkan dalam kerjasama dengan US Patent Office.Dalam prakteknya, bagaimanapun, urutan dipatenkan cenderung memiliki nilai terbatas pada ilmiah publik. Karena paten adalah dokumen hukum, bukan yang ilmiah, tujuannya adalah untuk hadir dan mendukung klaim paten, tidak sepenuhnya menggambarkan biologi urutan itu sendiri. Hal ini sering disiapkan di kantor pengacara, bukan oleh ilmuwan yang melakukan penelitian. Urutan yang disajikan dalam paten dapat berfungsi hanya untuk menggambarkan beberapa aspek mencolok paten, bukannya fokus dari dokumen. Organisme informasi, lokasi fitur biologis, dan sebagainya mungkin tidak muncul di semua jika mereka tidak erat dengan hak paten. Sejauh ini, sebagian besar urutan muncul dalam paten juga muncul dalam bentuk yang lebih berguna (para ilmuwan) dalam masyarakat database. Dalam pandangan NCBI, tujuan utama dari daftar urutan dipatenkan di GenBank adalah untuk dapat mengambil urutan dengan pencarian kesamaan yang dapat berfungsi untuk mencari paten terkait dengan urutan yang diberikan. Untuk membuat penentuan hukum dalam kasus ini, bagaimanapun, satu masih harus memeriksa teks lengkap dari paten. Untuk mengevaluasi biologi urutan, yang umumnya harus mencari informasi selain yang tercantum dalam paten. Dengan demikian, hubungan kritis antara urutan dan nomor paten. PUBS: PUBLIKASI atau binasa 27 Bidang tambahan dalam kutipan paten itu sendiri mungkin menarik beberapa, seperti judul paten dan nama-nama penemu.
Mengutip Penyampaian Data Elektronik Sebuah kelas yang relatif baru dari kutipan terdiri tindakan penyerahan data ke database, seperti GenBank. Ini adalah tindakan publikasi, serupa tetapi tidak identik dengan penerbitan sebuah artikel dalam sebuah jurnal. Dalam beberapa kasus, data pengajuan mendahului artikel publikasi oleh suatu periode yang cukup lama, atau publikasi mengenai tertentu urutan mungkin tidak pernah muncul di pers. Karena itu, ada kutipan yang terpisah dirancang untuk data urutan disimpan. Kutipan penyerahan, karena memang tindakan publikasi, mungkin memiliki daftar penulis, menampilkan nama-nama ilmuwan yang bekerja pada catatan. Hal ini mungkin atau mungkin tidak sama dengan daftar penulis pada kertas kemudian diterbitkan juga dikutip dalam catatan yang sama. Dalam kebanyakan kasus, ilmuwan yang mengirimkan data ke database juga merupakan penulis pada pengajuan kutipan. (Dalam kasus pusat sekuensing besar, hal ini tidak selalu menjadi kasus.) Akhirnya, NCBI telah mulai praktek mengutip update catatan dengan pengajuan kutipan juga. Komentar dapat disertakan dengan update, sebentar menggambarkan perubahan yang dibuat dalam catatan. Semua kutipan pengajuan dapat dipertahankan dalam catatan, memberikan catatan sejarah dari waktu ke waktu.
MEDLINE dan PubMed Identifier Sekali kutipan artikel telah disesuaikan dengan MEDLINE, paling sederhana dan paling kunci yang dapat diandalkan untuk menunjuk ke artikel adalah identifier unik MEDLINE (MUID). Ini hanyalah sebuah bilangan integer. NCBI menyediakan banyak layanan yang menggunakan MUID untuk mengambil kutipan dan abstrak dari MEDLINE, untuk menghubungkan bersama data mengutip artikel yang sama, atau untuk memberikan hyperlink Web. Baru-baru ini, dalam konser dengan MEDLINE dan sejumlah besar penerbit, NCBI telah memperkenalkan PubMed. PubMed berisi semua MEDLINE, serta kutipan diberikan langsung oleh penerbit. Dengan demikian, PubMed berisi artikel yang lebih baru dari MEDLINE, serta artikel yang tidak pernah mungkin muncul dalam MEDLINE karena mereka materi pokok. Perkembangan ini menyebabkan NCBI untuk memperkenalkan identifier artikel baru, disebut identifier PubMed (PMID). Artikel yang muncul dalam MEDLINE akan memiliki kedua sebuah PMID dan MUID suatu. Artikel yang muncul hanya di PubMed hanya akan memiliki sebuah PMID. PMID melayani tujuan yang sama sebagai MUID dalam memberikan link, sederhana yang dapat diandalkan untuk kutipan, sarana untuk menghubungkan catatan bersama-sama, dan sarana pengaturan hyperlink. Penerbit juga mulai mengirimkan informasi mendahului-of-print artikel untuk PubMed, sehingga informasi ini sekarang mungkin muncul sebelum jurnal dicetak.Sebuah baru proyek, PubMed Central, adalah dimaksudkan untuk memungkinkan publikasi elektronik terjadi sebagai pengganti atau di depan publikasi dalam sebuah jurnal, tradisional dicetak. PubMed Central catatan berisi teks penuh dari artikel, bukan hanya abstrak, dan mencakup semua angka-angka dan referensi. Model NCBI menyimpan data yang paling sebagai koleksi kutipan yang disebut Pub-equiv, satu set kutipan setara yang mencakup identifier yang dapat diandalkan (PMID atau MUID) dan kutipan itu sendiri. Kehadiran bentuk kutipan memungkinkan tampilan berguna tanpa suatu pengambilan tambahan dari database, sedangkan identifier menyediakan kunci yang dapat diandalkan untuk menghubungkan atau pengindeksan kutipan yang sama dalam catatan. 28 THE NCBI DATA MODEL
SEQ-ID: APA DALAM NAMA? Model data yang mendefinisikan NCBI seluruh kelas objek disebut Identifier Urutan (Seq-id). Harus ada seluruh kelas objek tersebut karena NCBI mengintegrasikan urutan data dari banyak sumber bahwa nama urutan catatan dalam cara yang berbeda dan mana, tentu saja, nama-nama individu yang memiliki arti yang berbeda. Dalam satu kasus sederhana, PIR, SWISS-Prot, dan database sekuens nukleotida semua menggunakan string disebut ''Nomor aksesi,''semua memiliki format yang sama. Hanya mengatakan''tidak''A10234 cukup untuk secara unik mengidentifikasi catatan urutan dari koleksi dari semua database. Satu harus membedakan''''A10234 di SWISS-Prot dari''''A10234 PIR. (Para DDBJ / EMBL / database GenBank nukleotida berbagi seperangkat aksesi nomor, karena itu,''A12345''di EMBL adalah sama dengan''''di GenBank A12345 atau DDBJ.) Untuk lebih rumit, meskipun mereka menentukan urutan database catatan sebagai berisi urutan tunggal, catatan PDB mengandung struktur tunggal, yang mungkin berisi lebih dari satu urutan. Karena ini, PDB seq-id mengandung nama molekul dan rantai ID untuk mengidentifikasi urutan yang unik tunggal. Subbagian yang mengikuti menggambarkan bentuk dan penggunaan jenis yang umum digunakan beberapa seq-id.
Nama lokus Lokus muncul pada baris LOKUS di GenBank dan DDBJ catatan dan ID baris dalam catatan EMBL. Ini awalnya adalah identifier hanya dari diskrit GenBank catatan. Seperti nama lokus genetik, itu dimaksudkan untuk bertindak baik sebagai yang unik pengidentifikasi untuk catatan dan sebagai sebuah mnemonic untuk fungsi dan organisme sumber urutan. Karena garis LOKUS dalam format tetap, nama lokus dibatasi sampai sepuluh atau lebih sedikit angka dan huruf besar. Selama bertahun-tahun di GenBank, tiga huruf pertama dari nama tersebut adalah kode organisme dan surat-surat yang tersisa kode untuk gen (misalnya, HUMHBB digunakan untuk wilayah''manusia''_-globin). Namun, sebagai lokus genetik dengan nama, nama lokus yang berubah ketika fungsi suatu daerah ditemukan untuk berbeda dari apa yang awalnya berpikir. Ini ketidakstabilan dalam lokus nama jelas merupakan masalah bagi pengidentifikasi untuk pengambilan. Dalam Selain itu, karena jumlah sekuens dan organisme terwakili di GenBank meningkat geometris selama bertahun-tahun, menjadi mustahil untuk menciptakan dan memperbarui seperti nama mnemonic dengan cara yang efisien dan tepat waktu. Pada titik ini, nama lokus sekarat keluar sebagai nama berguna dalam GenBank, meskipun terus muncul dengan jelas pada baris pertama dari flatfile untuk menghindari melanggar format didirikan.
Aksesi Nomor Karena kesulitan dalam menggunakan nama lokus / ID sebagai pengenal unik untuk urutan nukleotida catatan, mitra urutan nukleotida Internasional Basis Data (DDBJ / EMBL / GenBank) memperkenalkan nomor aksesi. Ini sengaja tidak membawa arti biologis, untuk memastikan bahwa ia akan tetap (relatif) stabil. Ini awalnya terdiri dari satu huruf besar diikuti oleh lima digit. Baru aksesi terdiri dari dua huruf besar diikuti oleh enam digit. Huruf pertama dialokasikan ke database berkolaborasi individu sehingga nomor aksesi akan menjadi unik Kolaborasi di (misalnya, entri dimulai dengan''U''berasal dari GenBank). Jumlah aksesi adalah peningkatan dari nama lokus / ID, namun, dengan digunakan, masalah dan kekurangan menjadi jelas. Sebagai contoh, meskipun aksesi SEQ-ID: APA DALAM NAMA? 29 stabil dari waktu ke waktu, banyak pengguna menyadari bahwa urutan tertentu diambil oleh aksesi tidak selalu sama. Hal ini karena aksesi mengidentifikasi seluruh Database catatan. Jika urutan dalam catatan telah diupdate (misalnya dengan menyisipkan 1000 bp di awal), nomor aksesi tidak berubah, karena merupakan diperbarui versi catatan yang sama. Jika seseorang telah menganalisis urutan asli dan dicatat bahwa pada posisi 100 aksesi U00001 ada sebuah situs yang diduga pengikatan protein, setelah update urutan yang sama sekali berbeda akan ditemukan pada posisi 100! Nomor aksesi muncul pada baris AKSESI dari catatan GenBank. Aksesi pada baris pertama, yang disebut''primer''aksesi, adalah kunci untuk mengambil catatan ini. Kebanyakan catatan hanya memiliki jenis nomor aksesi. Namun, aksesi lain mungkin mengikuti aksesi utama pada garis AKSESI. Ini ''''Aksesi sekunder dimaksudkan untuk memberikan beberapa gagasan tentang sejarah dari catatan. Misalnya, jika U00001 dan U00002 digabungkan ke dalam catatan diperbarui tunggal, maka U00001 akan menjadi aksesi utama pada catatan yang baru dan U00002 akan muncul sebagai aksesi sekunder. Dalam praktek standar, catatan U00002 akan dihapus dari GenBank, karena catatan yang lebih tua telah menjadi usang, dan sekunder aksesi akan memungkinkan pengguna untuk mengambil apapun digantikan catatan lama satu. Hal ini juga harus dicatat bahwa, secara historis, nomor aksesi sekunder tidak selalu berarti hal yang sama, karena itu, pengguna harus berhati-hati dalam penafsiran mereka. (Kebijakan di database individu berbeda, dan bahkan bergeser dari waktu ke waktu dalam diberikan database.) Penggunaan nomor aksesi sekunder juga menyebabkan masalah diyang ada masih belum cukup informasi untuk menentukan dengan tepat apa yang terjadi dan mengapa. Meskipun demikian, jumlah aksesi tetap yang paling terkontrol dan dapat diandalkan cara untuk menunjukkan catatan dalam DDBJ / EMBL / GenBank.
gi Nomor Pada tahun 1992, NCBI mulai menetapkan GenInfo Identifier (gi) untuk semua urutan diproses ke Entrez, termasuk urutan nukleotida dari DDBJ / EMBL / GenBank, protein urutan dari fitur CDS diterjemahkan, protein urutan dari SWISS-Prot, PIR, PRF, PDB, paten, dan lain-lain. Gi ditugaskan di samping aksesi nomor yang disediakan oleh database sumber. Meskipun bentuk dan makna dari aksesi seq-id bervariasi tergantung pada sumber, makna dan bentuk gi adalah sama untuk semua urutan terlepas dari sumber. Gi hanyalah jumlah integer, kadang-kadang disebut sebagai nomor GI. Hal ini pengidentifikasi untuk urutan tertentu saja. Misalkan urutan memasuki GenBank dan diberi nomor aksesi U00001 suatu. Ketika urutan diproses internal di NCBI, memasuki sebuah database yang disebut ID. ID menentukan bahwa hal itu tidak dilihat U00001 sebelum dan memberikan sebuah nomor-untuk gi misalnya, 54. Kemudian, submitter mungkin memperbarui rekor dengan mengubah kutipan, sehingga U00001 memasuki ID lagi. ID, mengakui catatan, mengambil U00001 urutan pertama dan membandingkan dengan yang baru satu. Jika keduanya sama sekali identik, ID reassigns gi 54 untuk merekam. Jika urutan berbeda dalam cara apapun, bahkan oleh seorang pasangan basa tunggal, diberikan nomor gi baru, katakan 88. Namun, urutan baru mempertahankan jumlah aksesi U00001 karena semantik dari database sumber. Pada saat ini, ID menandai rekor lama (gi 54) dengan tanggal itu diganti dan menambahkan sejarah''''mengindikasikan bahwa itu diganti oleh gi 88. ID juga menambahkan sejarah untuk gi 88 menunjukkan bahwa diganti gi 54. Jumlah gi melayani tiga tujuan utama: 30 THE NCBI DATA MODEL • Ini memberikan pengenal tunggal di urutan dari banyak sumber. • Menyediakan sebuah identifier yang menentukan urutan yang tepat. Siapapun yang analisis gi 54 dan toko analisis dapat yakin bahwa hal itu akan berlaku selama U00001 telah gi 54 melekat padanya. • Hal ini stabil dan diambil. NCBI membuat versi terakhir dari setiap nomor gi. Karena sejarah adalah termasuk dalam catatan, siapa pun yang menemukan bahwa gi 54 tidak lagi bagian dari rilis GenBank masih bisa mengambilnya dari ID melalui NCBI dan meneliti sejarah untuk melihat bahwa ia digantikan oleh gi 88. Pada menyelaraskan gi gi 54 sampai 88 untuk menentukan hubungan mereka, seorang peneliti dapat memutuskan untuk remap analisis mantan gi 88 atau mungkin reanalyze data. Ini dapat dilakukan setiap saat, tidak hanya pada waktu rilis GenBank, karena gi 54 akan selalu tersedia dari ID. Untuk alasan ini, semua proses internal urutan di NCBI, dari komputasi Tetangga urutan Entrez untuk menentukan kapan urutan baru harus diproses atau menghasilkan database BLAST, didasarkan pada angka gi.
Gabungan Accession.Version Identifier Baru-baru ini, para anggota Kolaborasi Urutan Nukleotida database Internasional (GenBank, EMBL, dan DDBJ) memperkenalkan''baik''identifier berurutan, satu yang menggabungkan suatu aksesi (yang mengidentifikasi catatan urutan tertentu) dengan nomor versi (yang melacak perubahan urutan itu sendiri). Diharapkan bahwa hal ini jenis seq-id akan menjadi metode yang disukai mengutip urutan. Pengguna masih akan dapat mengambil catatan berdasarkan jumlah aksesi saja, tanpa harus menentukan versi tertentu. Dalam hal ini, versi terbaru dari catatan akan diperoleh secara default, yang merupakan perilaku saat ini untuk query menggunakan Entrez dan program pengambilan lainnya. Para ilmuwan yang menganalisis urutan dalam database (misalnya, alkohol menyelaraskan semua dehidrogenase urutan dari kelompok taksonomi tertentu) dan ingin memiliki mereka kesimpulan tetap berlaku dari waktu ke waktu akan ingin untuk referensi urutan dengan aksesi dan nomor versi yang diberikan. Berikutnya modifikasi dari salah satu urutan dengan pemiliknya (misalnya, ekstensi 5_ selama studi regulasi gen) akan menghasilkan nomor versi yang bertambah tepat. Analisis yang dikutip aksesi dan versi tetap berlaku karena query menggunakan kedua aksesi dan versi akan kembali catatan yang diinginkan. Menggabungkan aksesi dan versi membuat jelas kepada pengguna kasual yang berurutan telah berubah sejak analisis dilakukan. Juga, menentukan berapa kali urutan telah berubah menjadi sepele dengan nomor versi. Accession.version yang nomor muncul pada baris VERSION dari flatfile GenBank. Untuk pengambilan urutan, accession.version adalah hanya dipetakan ke nomor gi yang sesuai, yang tetap identifier yang mendasari pelacakan di NCBI.
Aksesi Nomor di Urutan Protein Para Kolaborator Urutan Internasional database juga mulai aksesi menugaskan. Versi nomor urutan protein dalam catatan. Sebelumnya, hal itu sulit untuk andal mengutip produk diterjemahkan dari fitur coding wilayah tertentu, kecuali BIOSEQs: URUTAN 31 dengan nomor gi nya. Ini kegunaan produk yang terbatas diterjemahkan ditemukan dalam BLAST hasil, misalnya. Urutan ini sekarang akan memiliki status yang sama sebagai protein urutan disampaikan langsung ke database protein, dan mereka mendapatkan manfaat dari hubungan langsung ke urutan nukleotida di mana mereka dikodekan, muncul sebagai fitur CDS / protein id kualifikasi dalam tampilan flatfile. Protein aksesi di catatan ini terdiri dari tiga huruf besar diikuti oleh lima digit dan integer menunjukkan versi.
Referensi seq-id Para NCBI RefSeq proyek memberikan satu set, mengkurasi nonredundan dari urutan referensi standar untuk alami molekul biologis, mulai dari kromosom untuk transkrip untuk protein. Pengidentifikasi RefSeq adalah dalam bentuk accession.version tetapi diawali dengan NC (kromosom), NM (mRNA), NP (protein), atau NT (dibangun genomik contigs). Awalan NG akan digunakan untuk daerah genom atau gen kelompok (misalnya, wilayah imunoglobulin) di masa depan. Catatan RefSeq adalah stabil titik acuan untuk penjelasan fungsional, analisis mutasi titik, ekspresi gen penelitian, dan penemuan polimorfisme.
Umum seq-id Jenderal seq-id dimaksudkan untuk digunakan oleh pusat genom dan kelompok lain sebagai cara mengidentifikasi urutan mereka. Beberapa dari urutan ini mungkin tidak pernah muncul dalam database publik, dan lain-lain mungkin data awal yang pada akhirnya akan diserahkan. Sebagai contoh, catatan kromosom manusia di divisi Genom Entrez berisi peta fisik dan genetik beberapa, di samping komponen urutan. Peta fisik dihasilkan oleh berbagai kelompok, dan mereka menggunakan Jenderal Seq-iduntuk mengidentifikasi kelompok yang tepat.
Lokal seq-id Identifier urutan Lokal adalah yang paling menonjol digunakan dalam alat pengiriman data Payet (lihat Bab 4). Setiap urutan akhirnya akan mendapatkan aksesi. versi pengenal dan nomor gi, tapi hanya jika penyerahan selesai telah telah diproses oleh salah satu database publik. Selama proses pengiriman, payet memberikan pengenal lokal untuk setiap urutan. Karena banyak dari perangkat lunak dibuat oleh NCBI memerlukan identifier urutan, memiliki seq id-lokal memungkinkan menggunakan alat ini tanpa harus terlebih dahulu mengirimkan data ke database publik.
BIOSEQs: URUTAN Para Bioseq, atau urutan biologis, adalah unsur sentral dalam model data NCBI. Ini terdiri dari sebuah molekul tunggal terus menerus baik asam nukleat atau protein, sehingga mendefinisikan sistem, koordinat linier integer untuk urutan. Bioseq Seorang harus memiliki setidaknya satu urutan identifier (seq-id). Ini memiliki informasi tentang jenis fisik molekul (DNA, RNA, atau protein). Hal ini juga mungkin memiliki penjelasan, seperti biologi fitur mengacu ke lokasi tertentu pada Bioseqs tertentu, serta deskriptor. 32 THE NCBI DATA MODEL > Gambar 2.2. Kelas Bioseqs. Semua Bioseqs mewakili sebuah molekul tunggal terus menerus nukleat asam atau protein, meskipun urutan lengkap mungkin tidak diketahui. Dalam virtual Bioseq, jenis molekul yang diketahui, tetapi urutan tidak diketahui, dan tepat panjang mungkin tidak diketahui (misalnya, dari ukuran sebuah band pada gel elektroforesis). Sebuah baku Bioseq berisi sebuah string tunggal bersebelahan basa atau residu. Sebuah poin Bioseq tersegmentasi dengan komponennya, yang Bioseqs mentah atau virtual lain (misalnya, diurutkan ekson dan ditentukan intron). Urutan dibangun mengambil komponen asli dan subsumes mereka, sehingga Bioseq yang berisi string basis atau residu dan sejarah''''dari bagaimana dibangun. Sebuah tempat Bioseq peta gen atau penanda fisik, bukan urutan, pada koordinat. Sebuah Bioseq delta dapat mewakili urutan tersegmentasi tapi tanpa persyaratan penempatan pengidentifikasi untuk setiap komponen (termasuk kesenjangan panjang diketahui), meskipun urutan mentah terpisah masih bisa direferensikan sebagai komponen. Urutan delta digunakan untuk tinggi-throughput yang belum selesai urutan genom (HTGS) dari pusat genom dan untuk contigs genom. Deskriptor memberikan informasi tambahan, seperti organisme dari yang molekul diperoleh. Informasi dalam deskriptor menggambarkan seluruh Bioseq. Namun, Bioseq tidak selalu molekul sepenuhnya diurutkan. Ini mungkin sebuah tersegmentasi urutan di mana, misalnya, ekson telah diurutkan tetapi tidak semua urutan intronic telah ditentukan. Ini juga bisa menjadi genetik atau fisik peta, di mana hanya beberapa landmark telah ditempatkan.
Urutan adalah Sama Semua Bioseqs memiliki sistem koordinat integer, dengan nilai bilangan bulat panjang, bahkan jika urutan yang sebenarnya belum sepenuhnya ditentukan. Jadi, untuk peta fisik, atau untuk ekson dalam gen yang sangat disambung, jarak antara spidol atau mungkin ekson hanya diketahui dari sebuah band pada gel. Meskipun koordinat sepenuhnya sequencing kromosom diketahui persis, yang dalam peta genetik atau fisik adalah perkiraan terbaik, dengan kemungkinan kesalahan yang signifikan dari koordinat''nyata''. Namun demikian, Bioseq apapun dapat dijelaskan dengan jenis informasi yang sama. Sebagai contoh, sebuah fitur gen dapat ditempatkan pada wilayah sequencing DNA atau pada diskrit lokasi pada peta fisik. Peta dan urutan kemudian dapat selaras berdasarkan fitur-fitur umum mereka gen. Hal ini sangat menyederhanakan tugas menulis perangkat lunak yang dapat menampilkan jenis data yang berbeda tampaknya.
Urutan yang berbeda Meskipun manfaat yang diperoleh dari memiliki sistem koordinat umum, yang berbeda Kelas Bioseq memang berbeda dalam cara mereka diwakili. Yang paling umum kelas (Gambar 2.2) dijelaskan secara singkat di bawah. Virtual Bioseq. Dalam Bioseq maya, jenis molekul yang diketahui, dan yang panjang dan topologi (misalnya, linier, melingkar) juga dapat diketahui, namun urutan yang sebenarnya tidak diketahui. Sebuah Bioseq virtual dapat mewakili intron dalam molekul genom di mana hanya urutan ekson telah ditentukan. Panjang putatif urutan mungkin hanya diketahui oleh ukuran dari sebuah band pada gel agarosa. BIOSEQs: URUTAN 33 34 THE NCBI DATA MODEL Baku Bioseq. Ini adalah apa yang kebanyakan orang akan berpikir sebagai urutan, satu string yang berdekatan dari basa atau residu, di mana urutan yang sebenarnya diketahui.Para panjang adalah jelas dikenal dalam kasus ini, pencocokan jumlah pangkalan atau residu dalam urutan. Bioseq tersegmentasi. Sebuah Bioseq tersegmentasi tidak mengandung urutan mentah tapi bukan berisi pengenal dari Bioseqs lain dari yang dibuat. Jenis Bioseq dapat digunakan untuk mewakili urutan genom di mana hanya ekson yang dikenal. Para''bagian''di Bioseq tersegmentasi akan menjadi, individu Bioseqs baku mewakili ekson dan Bioseqs maya mewakili intron. Delta Bioseq. Bioseqs delta digunakan untuk mewakili yang belum selesai yang tinggi-throughput urutan genom (HTGS) yang berasal di berbagai pusat sekuensing genom. Menggunakan Bioseqs delta bukan Bioseqs tersegmentasi berarti bahwa hanya satu seq-id diperlukan untuk seluruh urutan, meskipun subkawasan dari Bioseq yang tidak diketahui di tingkat urutan. Secara implisit, kemudian, bahkan pada tahap awal kehadiran mereka di database, Bioseqs delta mempertahankan jumlah aksesi yang sama. Peta Bioseq. Digunakan untuk mewakili peta genetik dan fisik, Bioseq peta adalah mirip dengan Bioseq virtual di bahwa ia memiliki jenis molekul, mungkin sebuah topologi, dan panjang yang mungkin perkiraan yang sangat kasar panjang sebenarnya molekul.Informasi ini hanya memasok sistem koordinat, sebuah properti dari setiap Bioseq. Mengingat ini sistem koordinat untuk peta genetik, kami memperkirakan posisi gen pada itu berdasarkan bukti genetik. Tabel fitur gen yang dihasilkan adalah penting data dari Bioseq peta, hanya sebagai dasar atau residu merupakan data mentah yang Bioseq.
BIOSEQ-set: KOLEKSI DARI URUTAN Sebuah sekuens biologi sering disimpan paling tepat dalam konteks lain, terkait urutan. Sebagai contoh, urutan nukleotida dan urutan dari produk protein encode alami termasuk dalam set. Model data menyediakan NCBI yang Bioseq-ditetapkan untuk tujuan ini. Sebuah Bioseq-set dapat memiliki daftar deskriptor. Ketika dikemas pada Bioseq, sebuah deskriptor berlaku untuk semua Bioseq itu. Ketika dikemas pada set Bioseq-, deskriptor berlaku untuk setiap Bioseq di set. Susunan ini nyaman untuk melampirkan publikasi dan informasi sumber biologis, yang diharapkan pada semua urutan tetapi sering adalah identik dalam set urutan. Sebagai contoh, kedua DNA dan urutan protein jelas dari organisme yang sama, sehingga deskriptor ini informasi dapat diterapkan untuk mengatur. Logika yang sama berlaku untuk publikasi. Yang paling umum Bioseq-set dijelaskan dalam bagian yang mengikuti.
Nukleotida / Protein Set Set Nuc-Prot, berisi nukleotida dan satu atau lebih produk protein, adalah Jenis set yang paling sering diproduksi oleh pengiriman data payet. Komponen Bioseqs terhubung dengan urutan pengkodean wilayah (CDS) fitur yang menggambarkan bagaimana terjemahan dari nukleotida ke urutan protein untuk melanjutkan. Dalam sebuah nukleotida tradisional atau protein database yang urutan, catatan ini mungkin referensi silang untuk setiap SEQ-ANNOT: menganotasi URUTAN 35 lainnya untuk menunjukkan hubungan ini. Set Nuc-Prot membuat eksplisit oleh kemasan mereka bersama-sama. Hal ini juga memungkinkan informasi deskriptif yang berlaku untuk semua urutan (Misalnya, kutipan organisme atau publikasi) untuk dimasukkan sekali (lihat seq-descr: Mendeskripsikan Sequence, di bawah).
Kependudukan dan Studi filogenetik Sebuah kelas utama dari pengiriman urutan mewakili hasil populasi atau filogenetik studi. Penelitian tersebut melibatkan sekuensing gen yang sama dari nomor individu dalam spesies yang sama (studi populasi) atau pada spesies yang berbeda (filogenetik studi). Sebuah alignment dari urutan individu juga dapat diajukan (lihat Seq-align: keberpihakan, bawah). Jika gen mengkode protein, komponen-komponen dari Populasi atau filogenetik Bioseq-set mungkin sendiri akan Nuc-Prot set.
Lain Bioseq-set Satu set berisi Seg Bioseq tersegmentasi dan Bagian Bioseq set, yang pada gilirannya berisi mentah Bioseqs yang direferensikan oleh Bioseq tersegmentasi. Ini mungkin merupakan komponen nukleotida dari satu set Nuc-Prot. Sebuah equiv Bioseq-set digunakan di divisi Genom Entrez untuk memegang beberapa Bioseqs setara. Sebagai contoh, kromosom manusia memiliki satu atau lebih genetik peta, peta fisik diperoleh dengan metode yang berbeda dan tersegmentasi Bioseq yang ''''Pulau daerah diurutkan ditempatkan. Sebuah keselarasan antara berbagai Bioseqs dibuat berdasarkan referensi untuk setiap penanda umum tersedia.
SEQ-ANNOT: annotating URUTAN Sebuah seq-annot adalah paket mandiri penjelasan urutan atau informasi yang mengacu ke lokasi tertentu pada Bioseqs tertentu. Ini mungkin berisi fitur meja, menetapkan dari keberpihakan urutan, atau satu set atribut grafik di sepanjang urutan. Beberapa seq-annots dapat ditempatkan pada Bioseq atau pada set Bioseq-. Setiap Seqannot dapat memiliki atribusi yang spesifik. Sebagai contoh, PowerBLAST (Zhang dan Madden, 1997) menghasilkan seq-annot keberpihakan yang mengandung urutan, dan masing-masing seq-annot adalah dinamai berdasarkan program BLAST digunakan (misalnya, BLASTN, BLASTX, dll).Para blok-blok individual dari keberpihakan yang terlihat di Entrez pemirsa dan payet. Karena komponen dari seq-annot memiliki referensi khusus untuk lokasi di Bioseqs, yang seq-annot dapat berdiri sendiri atau ditukar dengan ilmuwan lain, dan itu tidak perlu berada dalam catatan urutan. Ruang lingkup deskriptor, di sisi lain, tidak tergantung di mana mereka dikemas. Dengan demikian, informasi tentang Bioseqs dapat dibuat, dipertukarkan, dan dibandingkan secara independen dari Bioseq sendiri. Ini adalah penting atribut dari seq-annot dan model data NCBI.
Seq-feat: Fitur Sebuah fitur urutan (seq-feat) adalah sebuah blok data terstruktur secara eksplisit melekat pada wilayah Bioseq melalui satu atau dua lokasi urutan (seq-locs). Para seq-feat itu sendiri dapat membawa informasi umum untuk semua fitur. Sebagai contoh, ada flag untuk menunjukkan apakah sebuah fitur parsial (yaitu, melampaui ujung dari urutan 36 THE NCBI DATA MODEL yang Bioseq), apakah ada pengecualian biologis (misalnya, RNA editing yang menjelaskan mengapa kodon pada urutan genom tidak menerjemahkan ke amino yang diharapkan asam), dan apakah fitur itu eksperimen ditentukan (misalnya, mRNA adalah diisolasi dari daerah pengkode yang diusulkan). Sebuah fitur harus selalu memiliki sebuah lokasi. Ini adalah seq-loc yang menyatakan di mana pada urutan fitur berada. Sebuah lokasi daerah pengkode biasanya dimulai pada ATG yang dan berakhir pada kodon terminator. Lokasi dapat memiliki lebih dari satu interval jika itu adalah pada urutan genom dan splicing mRNA terjadi. Dalam kasus alternatif splicing, terpisah fitur daerah pengkode diciptakan, dengan satu multi-seq-loc Interval untuk setiap jenis molekul terisolasi. Opsional, fitur mungkin memiliki produk. Untuk wilayah coding, Seqloc produk poin ke urutan protein yang dihasilkan. Ini adalah link yang memungkinkan data model untuk secara terpisah menjaga urutan nukleotida dan protein, dengan penjelasan pada setiap urutan sesuai dengan molekul yang. Sebuah fitur mRNA pada genom suatu bisa urutan sebagai produk suatu Bioseq urutan mRNA yang mencerminkan hasil editing posttranscriptional RNA. Fitur juga memiliki informasi yang unik untuk jenis fitur. Misalnya, fitur CDS kolom untuk kode genetik dan membaca frame, sedangkan fitur tRNA memiliki informasi tentang asam amino ditransfer. Desain ini benar-benar modularizes komponen yang diperlukan oleh setiap fitur jenis. Jika jenis fitur tertentu panggilan untuk bidang baru, tidak ada bidang lain yang terpengaruh. Sebuah tipe fitur baru, bahkan yang sangat kompleks, dapat ditambahkan tanpa mengubah fitur yang ada. Ini berarti bahwa software yang digunakan untuk menampilkan lokasi fitur pada Urutan perlu mempertimbangkan hanya kolom lokasi umum untuk semua fitur. Meskipun tabel fitur DDBJ / EMBL / GenBank memungkinkan berbagai jenis fitur yang akan dimasukkan (lihat Bab 3), model data yang NCBI memperlakukan beberapa fitur sebagai''lebih''sama daripada yang lain. Secara khusus, fitur tertentu secara langsung model pusat dogma biologi molekuler dan yang paling mungkin untuk digunakan dalam membuat koneksi antara catatan dan dalam menemukan informasi baru dengan perhitungan. Fitur-fitur ini dibahas berikutnya. Gen. Sebuah gen adalah fitur dalam dirinya sendiri. Di masa lalu, itu hanya kualifikasi pada fitur-fitur lainnya. Fitur Gene menunjukkan lokasi gen, yang diwariskan wilayah urutan asam nukleat yang memberikan fenotipe terukur. Fenotipe yang mungkin dicapai dengan banyak komponen gen sedang dipelajari, termasuk, namun tidak terbatas pada, coding daerah, promotor, enhancer, dan terminator. Fitur Gene dimaksudkan untuk menutupi sekitar wilayah asam nukleat dianggap oleh pekerja di lapangan untuk menjadi gen. Konsep ini diakui memiliki kesederhanaan kabur menarik,dan itu cocok baik dengan tingkat yang lebih tinggi dilihat dari gen seperti peta genetik. Ini memiliki kegunaan praktis di era genomik sekuensing besar ketika ahli biologi mungkin ingin untuk melihat gen''xyz''dan bukan keseluruhan kromosom. Fitur Gene juga dapat berisi referensi silang ke database genetik, di mana lebih rinci informasi tentang gen dapat ditemukan. RNA. Sebuah fitur RNA dapat mendeskripsikan baik intermediet pengkodean (misalnya, mRNA) dan RNA struktural (misalnya, tRNA, rRNA). Lokasi-lokasi dari mRNA dan daerah pengkode yang sesuai (CDS) benar-benar menentukan lokasi 5_ dan 3_ diterjemahkan wilayah (UTRs), ekson, dan intron. SEQ-ANNOT: menganotasi URUTAN 37 Gambar 2.3. Daerah Coding (CDS) fitur link wilayah tertentu pada urutan nukleotida dengan produk protein yang dikode nya. Semua fitur dalam model data NCBI memiliki lokasi'''' lapangan, yang biasanya satu atau lebih interval pada urutan. (Interval Beberapa di fitur CDS akan sesuai dengan ekson individu) Fitur opsional dapat memiliki produk''.'' lapangan, yang untuk fitur CDS adalah keseluruhan dari urutan protein yang dihasilkan.Para CDS fitur juga berisi field untuk kode genetik. Ini muncul di flat GenBank file sebagai kualifikasi tabel / transl. Dalam contoh ini, kode genetik bakteri (kode 11) adalah ditunjukkan. Sebuah CDS juga mungkin memiliki pengecualian terjemahan menunjukkan bahwa residu tertentu tidak apa yang diharapkan, mengingat kodon dan kode genetik. Dalam contoh ini, residu 196 protein adalah selenocysteine, ditunjukkan oleh transl / kecuali kualifikasi. NCBI perangkat lunak termasuk fungsi untuk mengkonversi antara lokasi dan lokasi kodon residu, menggunakan CDS sebagai pedoman. Kemampuan ini digunakan untuk mendukung konvensi historis GenBank format, yang memungkinkan sebuah peptida sinyal, dijelaskan pada urutan protein, muncul dalam file GenBank datar dengan lokasi di urutan nukleotida. Coding Daerah. Sebuah Daerah Coding (CDS) fitur dalam model data NCBI dapat dianggap sebagai petunjuk untuk menerjemahkan''''asam nukleat ke dalam produk proteinnya, melalui kode genetik (Gambar 2.3). Sebuah daerah pengkode berfungsi sebagai penghubung antara nukleotida dan protein. Penting untuk dicatat bahwa beberapa situasi dapat memberikan pengecualian terhadap yang colinearity klasik gen dan protein. Translasi gagap (selip ribosomal), misalnya, hanya menghasilkan adanya tumpang tindih dalam interval Fitur yang lokasi Seq-loc. Kode genetik diasumsikan untuk menjadi universal kecuali secara eksplisit diberikan dalam Coding Daerah fitur. Ketika kode genetik tidak diikuti pada posisi tertentu dalam urutan-misalnya, ketika kodon inisiasi alternatif yang digunakan di posisi pertama, ketika tRNA penekan memotong terminator, atau ketika selenocysteine ditambahkan -Fitur Daerah Coding memungkinkan anomali ini akan ditunjukkan. Protein. Sebuah nama fitur Protein (atau setidaknya menggambarkan) suatu protein atau proteolitik produk protein. Sebuah Bioseq protein tunggal mungkin memiliki fitur Protein banyak di atasnya. Ini mungkin memiliki satu lebih panjang penuh menggambarkan pro-peptida, produk utama penerjemahan. (Nama dalam fitur ini digunakan untuk kualifikasi / produk di CDS fitur yang menghasilkan protein.) Ini mungkin memiliki fitur protein pendek yang menggambarkan peptida matang atau, dalam kasus polyproteins virus, beberapa dewasa fitur peptida. Sinyal peptida yang membimbing protein melalui membran juga dapat diindikasikan. 38 THE NCBI DATA MODEL Lainnya. Beberapa fitur lainnya kurang umum digunakan. Sebuah fitur Daerah menyediakan cara sederhana untuk nama daerah kromosom (misalnya,''histokompatibilitas utama kompleks'') atau domain pada polipeptida. Sebuah fitur Obligasi menambahkan catatan obligasi antara dua residu dalam protein (misalnya, disulfida). Sebuah fitur Situs menambahkan catatan yang dikenal situs (misalnya, aktif, mengikat, glikosilasi, metilasi, fosforilasi). Akhirnya, berbagai fitur ada dalam tabel fitur hukum, mencakup banyak aspek biologi. Namun, mereka kurang mungkin dibandingkan yang disebutkan di atas fiturakan digunakan untuk membuat koneksi antara catatan atau untuk membuat penemuan berbasis pada perhitungan.
Seq-align: keberpihakan Urutan keberpihakan hanya menjelaskan hubungan antara urutan biologis dengan menunjuk bagian-bagian dari urutan yang sesuai dengan satu sama lain.Korespondensi ini dapat mencerminkan konservasi evolusi, kesamaan struktural, fungsional kesamaan, atau peristiwa acak. Alignment dapat dihasilkan algorithmically oleh perangkat lunak (Misalnya, BLAST menghasilkan seq-annot mengandung satu atau lebih seq-sejalan) atau langsung oleh ilmuwan (misalnya, seseorang yang mengirimkan sebuah studi populasi selaras menggunakan favorit keselarasan alat dan program penyerahan seperti payet; lih. Bab 4). Para Seq-align dirancang untuk menangkap hasil akhir dari proses, bukan proses itu sendiri. Daerah Blok dapat diberikan skor sesuai dengan probabilitas bahwa penyelarasan adalah kejadian kebetulan. Terlepas dari bagaimana atau mengapa alignment dihasilkan atau apa biologisnya signifikansi mungkin, catatan model data, dalam format kental, yang daerah urutan yang dikatakan sesuai. Unit dasar dari keselarasan adalah segmen, yang didefinisikan sebagai daerah tak terputus keselarasan. Dalam segmen, setiap urutan hadir baik tanpa kesenjangan atau tidak hadir sama sekali (benar-benar gapped). Keselarasan di bawah ini memiliki empat segmen, digambarkan oleh garis vertikal: MRLTLLC ------- EGEEGSELPLCASCGQRIELKYKPECYPDVKNSLHV MRLTLLCCTWREERMGEEGSELPVCASCGQRLELKYKPECFPDVKNSIHA MRLTCLCRTWREERMGEEGSEIPVCASCGQRIELKYKPE ----------- | | | | | Perhatikan bahwa ketidaksesuaian tidak pecah segmen, hanya celah membuka atau menutup acara akan memaksa penciptaan segmen baru. Dengan penataan keselarasan dalam cara ini, dapat disimpan dalam bentuk kental. Representasi data mencatat koordinat posisi awal dalam urutan untuk setiap urutan dalam segmen dan panjang segmen. Jika urutan adalah gapped dalam segmen, posisi awal adalah _1. Perhatikan bahwa representasi ini adalah independen dari urutan yang sebenarnya, yaitu, nukleotida dan keberpihakan protein diwakili sama cara, dan hanya skor alignment memberikan petunjuk mengenai berapa banyak pertandingan dan ketidaksesuaian yang hadir dalam data.
Sequence Alignment Bukan yang Perhatikan bahwa kesenjangan dalam pelurusan tidak benar-benar terwakili dalam Bioseqs sebagai strip. Sebuah properti fundamental dari kode genetik adalah bahwa hal itu''''commaless (Crick et al., 1961). Artinya, tidak ada tanda baca''''untuk membedakan satu kodon dari SEQ-ANNOT: menganotasi URUTAN 39 berikutnya atau untuk menjaga terjemahan dalam bingkai yang tepat. Gen adalah string berdekatan nukleotida. Kami mengingatkan pembaca bahwa urutan sendiri juga''gapless.'' Kesenjangan hanya ditampilkan dalam laporan keselarasan, yang dihasilkan dari data keselarasan; mereka digunakan hanya untuk perbandingan.
Kelas keberpihakan Keberpihakan bisa eksis sendiri atau dalam set dan karena itu dapat mewakili cukup rumit hubungan antara urutan. Sebuah keselarasan tunggal hanya dapat mewakili korespondensi kontinyu dan linier, tetapi satu set dapat menunjukkan keberpihakan terus menerus, terputus hubungan, linear, atau nonlinier antara urutan. Keberpihakan juga dapat bersifat lokal, yang berarti bahwa hanya bagian dari urutan disertakan dalam keselarasan, atau mereka dapat secara global, sehingga keselarasan sepenuhnya mencakup semua urutan yang terlibat. Sebuah penyelarasan terus menerus tidak memiliki daerah yang unaligned, yaitu, untuk setiap urutan dalam keselarasan, masing-masing residu antara bernomor terendah dan residu tertinggi bernomor alignment juga terkandung dalam keselarasan. Lebih hanya menempatkan, tidak ada bagian yang hilang. Karena keberpihakan tersebut tentu linier, mereka dapat ditampilkan dengan satu urutan pada setiap baris, dengan kesenjangan yang mewakili penghapusan atau sisipan. Untuk menunjukkan perbedaan dari urutan utama'''', salah satu dari urutan dapat ditampilkan tanpa celah dan tidak ada sisipan, sisanya urutan dapat memiliki kesenjangan atau segmen dimasukkan (sering ditampilkan di atas atau di bawah sisanya urutan), sesuai kebutuhan. Jika berpasangan, penyelarasan dapat ditampilkan dalam kotak matriks sebagai garis berlekuk-lekuk melintasi dua urutan. Sebuah keselarasan terputus berisi daerah yang unaligned. Sebagai contoh, keselarasan bawah ini adalah satu set dari dua keberpihakan lokal antara dua urutan protein. Daerah-daerah di antara hanya tidak selaras sama sekali: 12 MA-TLICCTW REGRMG 26 45 KPECFPDVKN SIHV 58 15 MRLTLLCCTW REERMG 30 35 KPECFPDAKN SLHV 48 Keselarasan Ini bisa antara dua protein yang memiliki dua pencocokan (tetapi tidak identik) domain struktural dihubungkan oleh sebuah segmen berbeda. Tidak ada cukup alignment untuk daerah yang tidak ditampilkan di atas. Sebuah keselarasan terputus dapat linear, seperti yang dalam contoh saat ini, sehingga urutan masih bisa ditampilkan satu untuk baris tanpa melanggar urutan residu. Lebih rumit terputus-putus keberpihakan mungkin memiliki segmen yang tumpang tindih, keberpihakan pada untai yang berlawanan (Untuk nukleotida), atau segmen diulang, sehingga mereka tidak dapat ditampilkan dalam linier ketertiban. Keberpihakan nonlinier norma dan dapat ditampilkan di alun-alun matriks (jika berpasangan), dalam daftar daerah sejajar, atau dengan skema shading kompleks.
Data Representasi dari keberpihakan Sebuah keselarasan kontinyu dapat direpresentasikan sebagai daftar koordinat tunggal, seperti yang dijelaskan di atas. Tergantung pada apakah keselarasan bentang semua urutan, maka dapat ditunjuk global atau lokal. Keberpihakan terputus harus diwakili sebagai keberpihakan set, masing-masing yang merupakan daftar koordinat tunggal. Daerah antara keberpihakan terputus tidak terwakili sama sekali dalam data, dan, untuk menampilkan daerah ini, potongan-potongan yang hilang 40 THE NCBI DATA MODEL harus dihitung. Jika keselarasan secara keseluruhan adalah linier, potongan-potongan yang hilang dapat cukup hanya dihitung dari batas-batas daerah selaras. Sebuah terputus-putus keselarasan biasanya lokal, meskipun jika terdiri dari beberapa bagian yang tumpang tindih itu mungkin sebenarnya mewakili korespondensi global antara urutan.
Seq-grafik: Grafik Grafik adalah jenis ketiga dari penjelasan yang dapat masuk ke seq-annots. Sebuah seq-grafik mendefinisikan beberapa set nilai-nilai kontinu pada interval didefinisikan pada sebuah Bioseq. Hal ini dapat digunakan untuk menunjukkan sifat seperti konten G_C, potensi permukaan, hidrofobik, atau basa akurasi lebih panjang urutan.
SEQ-descr: Mendeskripsikan URUTAN Sebuah seq-descr dimaksudkan untuk menggambarkan Bioseq (atau Bioseq-set) dan menempatkannya di biologisnya dan / atau konteks bibliografi. Seq-descrs berlaku untuk seluruh atau Bioseq ke seluruh dari masing-masing Bioseq di set Bioseq-mana seq-descr terpasang. Deskriptor diperkenalkan dalam model data NCBI untuk mengurangi informasi yang berlebihan dalam catatan. Sebagai contoh, produk protein dari urutan nukleotida harus selalu dari sumber biologis yang sama (organisme, jaringan) sebagai nukleotida itu sendiri. Dan publikasi yang menggambarkan urutan DNA dalam banyak kasus juga membahas protein diterjemahkan. Dengan penempatan item ini sebagai deskriptor di Nuc-Prot tingkat ditetapkan, hanya satu salinan dari setiap item yang diperlukan untuk benar menggambarkan semua urutan.
BioSource: Sumber Hayati Para BioSource mencakup informasi pada organisme sumber (nama ilmiah dan umum nama), garis keturunan dalam taksonomi terpadu NCBI, dan nuklir dan (jika yang sesuai) kode genetik mitokondria. Ini juga mencakup informasi tentang lokasi urutan dalam sel (misalnya, genom nuklir atau mitokondria) dan tambahan pengubah (misalnya, saring, klon, mengisolasi, lokasi peta kromosom). Sebuah catatan urutan untuk gen dan produk proteinnya biasanya akan memiliki satu BioSource descriptor pada tingkat yang ditetapkan Nuc-Prot. Sebuah studi populasi atau filogenetik, Namun, akan memiliki deskriptor BioSource untuk setiap komponen. (Komponen yang dapat akan Bioseqs nukleotida atau mereka dapat diri mereka Nuc-Prot set) yang BioSources di. sebuah studi populasi akan memiliki nama organisme yang sama dan biasanya akan dibedakan dari satu sama lain oleh informasi pengubah, seperti ketegangan atau nama clone.
MolInfo: Informasi Molekul Descriptor MolInfo menunjukkan jenis molekul [misalnya, genomik, mRNA (biasanya diisolasi sebagai cDNA), rRNA, tRNA, atau peptida], teknik dengan yang dibariskan (Misalnya, standar, EST, terjemahan konseptual dengan sekuensing peptida parsial untuk konfirmasi), dan kelengkapan urutan [misalnya, lengkap, hilang kiri (5_ atau amino) akhir, hilang kedua ujungnya]. Setiap protein nukleotida dan masing-masing harus mendapatkan deskripsi MolInfo sendiri. Biasanya, kemudian, deskripsi ini tidak akan muncul atUSING MODEL 41 tached pada tingkat yang ditetapkan Nuc-Prot. (Ini mungkin pergi pada set Seg, karena semua bagian dari tersegmentasi Bioseq harus dari jenis yang sama.)
MENGGUNAKAN MODEL YANG Ada beberapa konsekuensi dari menggunakan model data untuk membangun NCBI database dan laporan menghasilkan. Beberapa di antaranya dibahas dalam sisa bagian ini.
Format GenBank GenBank menyajikan DNA-berpusat''melihat''dari rekor urutan. (GenPept menyajikan ''setara dengan protein-berpusat''tampilan) Untuk menjaga. kompatibilitas dengan sejarahpandangan, beberapa pemetaan yang dilakukan antara fitur pada urutan yang berbeda atau antara tumpang tindih fitur pada urutan yang sama. Dalam format GenBank, produk protein dari fitur daerah pengkode ditampilkan sebagai kualifikasi / terjemahan, bukan sebagai urutan yang dapat memiliki fitur sendiri. Fitur protein terbesar di Bioseq produk digunakan sebagai kualifikasi / produk. Beberapa fitur yang sebenarnya dijelaskan pada Bioseq protein dalam NCBI model data, seperti peptida peptida matang atau sinyal, yang dipetakan ke DNA sistem koordinat (melalui interval CDS) dalam format GenBank. Fitur Gene nama daerah pada urutan, biasanya menutupi apa pun diketahui mempengaruhi fenotipe yang gen. Fitur lain yang terdapat di wilayah ini akan mengambil kualifikasi / gen dari fitur Gene. Jadi, tidak perlu secara terpisah membubuhi keterangan kualifikasi / gen pada fitur lainnya.
FASTA Format Format FASTA berisi garis definisi dan karakter berurutan dan dapat digunakan sebagai masukan untuk berbagai program analisis (lihat Bab 3). Garis Definisi dimulai dengan braket sudut kanan (>) dan biasanya diikuti oleh pengenal urutan bentuk parsable, seperti dalam contoh ini: > Gi | 2352912 | gb | AF012433.1 | HSDDT2 Sisa dari garis definisi, yang biasanya judul untuk urutan, dapat dihasilkan oleh perangkat lunak dari fitur dan informasi lainnya dalam satu set Nuc-Prot. Untuk Bioseq tersegmentasi, setiap bagian Bioseq mentah dapat disajikan secara terpisah, dengan dash memisahkan segmen. (Layanan BLAST reguler pencari menggunakan metode ini untuk memproduksi database pencarian, sehingga dihasilkan hits''''akan memetakan ke individu GenBank catatan.) Para Bioseq tersegmentasi juga dapat diperlakukan sebagai urutan tunggal, dalam hal ini komponen baku akan catenated. (Formulir ini digunakan untuk menghasilkanBLAST tetangga di Entrez; lihat Bab 7).
BLAST Para Alignment Dasar Perangkat Pencarian Lokal (BLAST;. Altschul et al, 1990) adalah populer metode memastikan kemiripan urutan. Program BLAST mengambil posisi SE42 permintaan THE NCBI DATA MODEL quence diberikan oleh pengguna dan pencarian itu terhadap seluruh database sekuens dipertahankan pada NCBI. Output untuk setiap''hit''adalah seq-align, dan ini digabungkan menjadi seq-annot. (Rincian pada melakukan pencarian BLAST dapat ditemukan di Bab 8.) Yang dihasilkan seq-annot dapat digunakan untuk menghasilkan BLAST tradisional dicetak laporan, tetapi jauh lebih berguna bila dilihat dengan perangkat lunak seperti Entrez dan payet. Penampil dalam program ini sekarang dirancang untuk menampilkan keselarasan informasi dalam bentuk yang berguna. Sebagai contoh, tampilan grafis menunjukkan hanya sisipan dan penghapusan relatif terhadap urutan permintaan, sedangkan pandangan Alignment mengambil individu menampilkan urutan dan ketidaksesuaian antara dasar atau residu dalam selaras daerah. Pandangan Urutan menunjukkan rincian keselarasan pada tingkat individu dasar atau residu. Kemampuan untuk memperbesar dari gambaran kepada rincian denda membuatnya lebih mudah untuk melihat hubungan antara urutan dibandingkan dengan single laporan. Akhirnya, seq-annot, atau salah satu nya seq-sejalan, dapat dikirimkan ke alat-alat lain (Seperti program keselarasan banded atau gapped) untuk perbaikan. Hasil kemudian dapat dikirim kembali ke tampilan program.
Entrez Urutan pengambilan Entrez Program (Schuler et al, 1996;.. Lih Bab 7) adalah dirancang untuk mengambil keuntungan dari koneksi yang ditangkap oleh model data NCBI. Sebagai contoh, publikasi dalam catatan urutan mungkin berisi UID MEDLINE atau PubMed ID. Ini adalah link langsung ke artikel PubMed, yang Entrez dapat mengambil. Selain itu, produk seq-loc dari poin Daerah Coding fitur untuk produk protein Bioseq, yang Entrez juga dapat mengambil. Link dalam model data memungkinkan pengambilan catatan terkait di sentuhan tombol. Pembagian Genom di Entrez mengambil keuntungan lebih lanjut dari model data dengan menyediakan''on the fly''tampilan daerah tertentu dari genom yang besar, seperti yang terjadi ketika seseorang menekan tombol ProtTable di Web Entrez.
Perhiasan yg berkelip-kelip Payet adalah alat penyerahan yang mengambil data sekuens mentah dan informasi biologis lainnya dan merakit catatan (biasanya Bioseq-set) untuk diserahkan kepada salah satu DDBJ / EMBL / database GenBank (Bab 4). Hal ini membuat penuh penggunaan data NCBI model dan mengambil keuntungan dari informasi yang berlebihan untuk memvalidasi masukan. Sebagai contoh, karena pengguna pasokan baik urutan nukleotida dan protein, payet bisa menentukan lokasi daerah pengkode (satu atau lebih interval pada nukleotida yang, melalui kode genetik, menghasilkan produk protein). Ini membandingkan terjemahan wilayah coding untuk protein disediakan dan laporan kejanggalan. Hal ini juga memastikan bahwa setiap Bioseq memiliki informasi BioSource diterapkan untuk itu.Persyaratan ini bisa puas untuk nukleotida dan produk proteinnya dengan menempatkan satu BioSource deskriptor pada set Nuc-Prot. Payet pemirsa adalah semua interaktif, dalam mengklik ganda pada item yang ada (Ditampilkan sebagai sebuah paragraf flatfile GenBank atau baris dalam tampilan grafis dari fitur pada urutan a) akan meluncurkan editor untuk item itu (misalnya, fitur, deskripsi, atau urutan data). 43 REFERENSI
LocusLink LocusLink adalah proyek NCBI untuk menghubungkan informasi berlaku untuk lokus genetik tertentu dari database yang berbeda beberapa. Informasi yang disimpan oleh LocusLink termasuk resmi nomenklatur, alias, urutan aksesi (aksesi terutama RefSeq), fenotipe, nomor Komisi Enzim, informasi peta, dan Warisan Mendel dalam jumlah Man. Masing-masing lokus diberikan sebuah nomor identifikasi yang unik, yang database tambahan maka dapat referensi. LocusLink dijelaskan secara lebih rinci dalam Bab 7.
KESIMPULAN Model NCBI data adalah pemetaan alami tentang bagaimana ahli biologi berpikir tentang urutan hubungan dan bagaimana mereka menjelaskannya urutan ini. Data yang hasilnya dapat disimpan, diteruskan ke program analisis lain, dimodifikasi, dan kemudian ditampilkan, semua tanpa harus melalui beberapa konversi format. Definisi model konsentrat pada elemen data dasar yang dapat diukur di laboratorium, seperti urutan molekul terisolasi. Sebagai konsep biologis baru didefinisikan dan dipahami, spesifikasi untuk data dapat dengan mudah diperluas tanpa perlu mengubah data yang ada. Perangkat lunak yang stabil dari waktu ke waktu, dan hanya perubahan incremental dibutuhkan untuk sebuah program untuk mengambil keuntungan dari bidang data baru.Memisahkan spesifikasi ke dalam domain (misalnya, kutipan, urutan, struktur, peta) mengurangi kompleksitas dari model data. Menyediakan tetangga dan link antara catatan individu meningkatkan kekayaan data dan meningkatkan kemungkinan membuat penemuan dari database.
REFERENSI Altschul, SF, Gish, W., Miller, W., Meyers, EW, dan Lipman, DJ (1990). Dasar Lokal Alignment Search Tool. J. Mol. Biol. 215, 403-410. Crick, fhc, Barnett, L., Brenner, S., dan Watts-Tobin, RJ (1961). Sifat umum kode genetik untuk protein. Alam 192, 1227-1232. Ostell, J. M. (1995). Terpadu akses ke data biomedis heterogen dari NCBI. IEEE Eng. Med. Biol. 14, 730-736. Ostell, J. M. (1996). Perangkat lunak NCBI alat. Dalam Asam Nukleat dan Analisis Protein: Sebuah Pendekatan Praktis, M. Uskup dan C. Rawlings, Eds. (IRL Tekan, Oxford), hal 31-43. Schuler, GD, Epstein, JA, Ohkawa, H., dan Kans, JA (1996). Entrez: biologi molekuler database dan sistem pencarian. Metode Enzymol. 266, 141-162. Zhang, J., dan Madden, T. L. (1997). Daya BLAST: Sebuah BLAST aplikasi jaringan baru untuk interaktif atau otomatis urutan analisis dan penjelasan. Genom Res. 7, 649-656.
Tidak ada komentar:
Posting Komentar