存档

‘DateBase’ 分类的存档

解码 XML 和 DTD

2008年7月16日 Galaxy 1 条评论

www-128.ibm.com/developerworks/cn/xml/x-dtdint/

解码 XML 和 DTD

编写格式正确和定义明确的 XML 的初学者指南

2001 年 7 月 01 日

这篇介绍性文章说明了如何创建 XML“文档类型定义(DTD)”和格式正确定义明确的 XML 文件,这些文件能够由您选择的 XML 语法分析器进行确认。虽然不必在产生的每个 XML 文件中都包含 DTD,但这样做将会使您的生活大为轻松。DTD 不仅强制使用为 XML 文件建立的语法,它还将允许文件由确认 XML 语法分析器进行语法分析。代码样本包括 DTD 和 XML 文档示例。

“可扩展标记语言”已经存在了十分长的一段时间,因此现在大多数人都熟悉其最基本的需求:所有
XML 文档都必须既格式正确又有效。但如何确定您的 XML
文档是否满足这些需求呢?简短的回答就是您不用确定。或者至少是不必。大多数时候,您会依赖于
XML 语法分析器来为您管理这些苦活。

在经过一些小调查(请参阅
参考资料)后您就会发现市场上到处充斥着 XML
语法分析器,其中大多数都可以从 Web 上免费获得。一个基本的 XML
语法分析器既强调 XML
语法规则(即,确保文件格式正确),又建立文件的有效性。XML
语法分析器可用于几乎每种相关的计算机语言,包括
C、C++、Perl、Python、Tcl 和 Java。

谈到确保 XML
格式正确时,您可以或多或少地指向一个语法分析器然后执行。然而为了确保文档有效,需要为语法分析器提供文档类型定义或
DTD。

模式如何?

最近,W3C 将长期以来一直讨论的 XML Schema
规范推进成“建议书”状态,这意味着它有可能为开发人员普遍所用。在某些方面,XML
Schema 将替代 DTD。而在其它方面,DTD 仍是最好的解决方案。有关解释
XML Schema,以及将它与 DTD 进行功能和处理上的对比的 developerWorks
文章,请参阅

参考资料

本文回顾了 XML
文档格式正确究竟意味着什么,然后会谈到较少讨论的话题确认 -
更具体地说,是 DTD。我将讨论为什么您需要将 DTD 包含在 XML
文件中、介绍一些最常用的 DTD
语法,并使用几个简单的样本来教您开始编写自己的 DTD。

为什么要格式正确?

当 XML 开发人员谈到格式正确和格式不正确的 XML
时,我们并不是参加美学讨论。当然,格式正确的 XML
文档是满足以下三个基本结构需求的文档:

  • 有一个包含所有其它元素的父(或根)元素
  • 每个开始标记都有结束标记
  • 所有元素都正确嵌套的

清单 1 是一个格式正确的 XML 示例。请注意:该文档的父元素是

<person> ,每个开始标记都有一个结束标记,并且每个结束标记都有与其开始标记完全相同的定义。通常,开始标记和结束标记之间包括的是信息或文本。不过,在某些情况下,标记之间没有包括信息或文本。空标记必须用一个右斜杠来结束。

<nothing/> 就是一个空标记。

清单 1. 格式正确的 XML

<person>
    <firstname>Jane</firstname>
    <lastname>Fung</lastname>

    <nothing/>
</person>

清单 2 是一个格式不正确的 XML
示例。它举例说明了三种常见错误。首先,开始和结束

<firstname>
标记没有完全匹配。其次,

<lastname>
标记没有结束标记。最后,空标记没有用一个右斜杠结束。

清单 2. 格式不正确的
XML

<person>
    <Firstname>Jane</firstname>
    <lastname>Fung
    <nothing>
</person>


回页首

DTD
中有什么内容?

XML
的优点在于它允许您定义自己的有意义的标记,因此您可以最大程度地定制文档。但
XML 就是
XML(可扩展),而人就是人(疯狂的人),这可能很快就会无法控制。解决方案是
DTD,它指定了 XML 文档的标记。简而言之,DTD
指定:可以在文档中存在的元素、那些元素可以具有的属性、在元素内部元素的层次结构以及元素在整个文档中出现的顺序。

虽然 DTD 不是必需的,但它们确实带来方便。DTD
适合三个基本用途。它能:

  • 对标记编制文档
  • 加强标记参数内部的一致性
  • 使 XML 语法分析器能够确认文档

如果不对 XML 文档进行 DTD 定义,文档就无法由 XML
语法分析器进行确认。使用 XML Schema 实例来代替 DTD
如何?(请参阅侧栏

模式如何?)清单 3 是清单 1
中显示的 XML 文档的 DTD。

清单 3. 精简 person.xml 的
DTD

<!ELEMENT person (firstname, lastname)>
<!ELEMENT firstname (#PCDATA)>
<!ELEMENT lastname (#PCDATA)>

<!ELEMENT nothing EMPTY>

关于示例的几点说明

清单 3 中 DTD 的第一行定义了 XML
文档的父元素:

person 。person
元素有两个子元素:

firstname

lastname

第二和第三行包含了元素属性

#PCDATA ,它表明

firstname

lastname
元素可能包含经过语法分析的字符数据(在这种情况下是文本)。DTD
文件的最后一行描述了一个空标记:

nothing

从清单 3 中的 DTD 可以看出,任何阅读我们的 XML
文档的人(以及对它进行语法分析的语法分析器)都知道

person 元素仅包含两个文本元素:

firstname

lastname 。此外,DTD
规定,在整个文档中,

firstname 元素必须在

lastname 元素之前出现。

在转到更复杂的示例之前,让我们回顾一下一些最常用的 DTD
语法元素。可以在 W3C 主页上找到完整的 DTD 规范(请参阅

参考资料)。



回页首

DTD
语法快速指南

A、B、C 和 D 是在下例中代表元素的变量。

元素必须有正好一个

A 、至少一个

B (由加号表示)、零个或多个

C (由星号表示)以及零个或一个

D (由问号表示):

<!ELEMENT element (A, B+, C*, D?)>

元素可能有

A

B

C
之一:

<!ELEMENT element (A | B | C)>

元素不包含任何内容:

<!ELEMENT element EMPTY>

元素可以包含在 DTD 中列出的任何元素:

<!ELEMENT element ANY>

元素可能包含经过语法分析的字符数据或另一个元素(

element2 )。星号(*)表示混合内容模型 — 其中元素可以包含不同类型的属性。

<!ELEMENT element (#PCDATA|element2)*>

下例将文本 “entity reference” 插到文档中它出现的任何地方:

<!ENTITY element "entity reference">

可以看到在 XML 文档中该实体引用元素如下:

&element;

下例表明其元素是一个包含三个属性的空标记:属性
1(

att1 )是一个可选属性,属性
2(

att2 )是带有固定值

"A" 的属性,属性
3(

att3 )是必需的文本属性。

   <!ELEMENT element EMPTY>

        <!ATTLIST element
     att1 ID #IMPLIED
     att2 CDATA #FIXED "A"
     att3 CDATA #REQUIRED>

可以看到在 XML 文档中使用的这个元素如下:

<element att2="A" att3="MustHave"/>

属性

CDATA

表示包括的信息应该是文本。

ID
属性表明必须填入唯一的标识。每个元素只能有一个

ID
属性。另外,

CDATA 表示

att2

att3 可能包含任何字符串。

如果您对该语法还未完全熟悉,请继续阅读。下一部分中的工作示例应该能帮助您消除疑虑。



回页首

工作示例

可以使用 Microsoft Internet Explorer 5 或更高版本查看清单 4
中显示的 XML 文档 ― 前面示例中使用的 people.xml
文件的扩展版本。如果在 IE5 中打开
people.xml,应该看到一个树结构。这是因为 IE5 带有能够将 XML
文档语法分析成元素树的 XML 语法分析器。

还可以在

参考资料中找到这个文件及其
DTD。

清单 4. people.xml
的完整清单

<?xml version="1.0"?>
<!DOCTYPE people SYSTEM "people.dtd">
<people>
    <person>
        <name>
            <firstname>Jane</firstname>

            <lastname>Fung</lastname>
        </name>
        <look>good-looking</look>
        <possession>
            <car>

                <model>Civic</model>
            </car>
            <job>&IBM;</job>
        </possession>
    </person>

    <person>
        <name>
            <firstname>G.I.</firstname>
            <lastname>Jane</lastname>
        </name>

        <look>tough</look>
        <possession>
            <house country="CANADA" city="Toronto">
                <townhouse townhouse_type="good" />
            </house>

            <bankaccount bankaccount_number="sg-123">
    <![CDATA[<greeting>5000</greeting>]]>
            </bankaccount>
        </possession>
        <other>

            <car>she has a car</car>
            <house country="CANADA" city="Toronto">
                <townhouse townhouse_type="good" />
            </house>
        </other>

    </person>
</people>

关于 XML 的几点说明

对 XML 的深入探讨主要考虑的是文档头中的几个元素,从以下开始:

<?xml version="1.0"?>

每个 XML 文档都必须包含这样的一个头,向 XML
语法分析器表示它是一个 XML 文档。头中的下一行告诉 XML
语法分析器该文档是使用什么字符编码来创建的:

<!DOCTYPE people SYSTEM "people.dtd">

在 Unix 系统上创建的 XML 文档和在 Windows 系统上创建的 XML
文档可能有不同的编码。

还可以为第一行设置可选的

standalone
属性。standalone 的缺省值是

no

no 值表示该 DTD
定义是在另一个文件中描述的。

yes 值表明该 DTD 应该在 XML
文档内部定义。我没有为示例设置这个属性;如果想设置,它应该看起来如下:

   <?xml version="1.0" standalone='yes'?>
     <!DOCTYPE people [
     <!ELEMENT people (person+)>
     <!ELEMENT person (#PCDATA)>
     ]>

还应该注意使这个文档格式正确的方法。例如,所有空标记都用一个右斜杠结束,如下所示:

<townhouse townhouse_type="good" />

还请注意

CDATA 用于对所有若不进行转义就会以 XML 语言解释的任何数据进行转义,例如:

<![CDATA[<greeting>5000</greeting>]]>

如果适当的格式化,这一行将以文本内容显示:

<greeting> 5000 </greeting>

可以从 XML 文件的进一步研究中获益,甚至可能从对您自己的文件运行
XML 语法分析器获益(请参阅

参考资料)。但是现在,让我们看一下 people.xml
文件的 DTD。

清单 5. people.dtd
的完整清单

<!ELEMENT people (person+)>
<!ELEMENT person (name, look*, possession?, other?)>
<!ELEMENT name (firstname, lastname)>
<!ELEMENT firstname (#PCDATA)>
<!ELEMENT lastname (#PCDATA)>
<!ELEMENT look (#PCDATA)>
<!ELEMENT possession (car?, house?, bankaccount?, job?)>

<!ELEMENT car (#PCDATA|model)*>
<!ELEMENT model (#PCDATA)>
<!ELEMENT house (apartment|standalone|townhouse)>
<!ATTLIST house house_area ID #IMPLIED country CDATA #FIXED
"CANADA" city CDATA #IMPLIED>
<!ELEMENT apartment EMPTY>
<!ELEMENT standalone EMPTY>
<!ELEMENT townhouse EMPTY>
<!ATTLIST townhouse townhouse_type ID #IMPLIED>
<!ELEMENT bankaccount (#PCDATA)>

<!ATTLIST bankaccount bankaccount_number ID #REQUIRED>
<!ELEMENT job (#PCDATA)>
<!ELEMENT other ANY>
<!ENTITY IBM "Proud to work for IBM">

关于 DTD 的几点说明

使用

快速指南作为参考,通过比较 XML 文件及其
DTD,您应该能够方便地定义 DTD 和 XML
文件中各元素之间的关系。不过,还有两个剩下的元素,您可能感兴趣。

清单 4 包含了对实体的引用。

<job>&IBM;</job>

实体引用用于代替在 DTD
文档中定义的特定字符或字符串。进行了语法分析后,该实体引用将读作:

<job> Proud to work for IBM </job>

还应该注意,

<other> 标记的内容类型是

ANY 。这表示

<other>
可能包含所有以前已在 DTD 中声明过的元素。因此,

other
元素可能包含

car

house

元素,如下:

   <other>
         <car>she has a car</car>
         <house country="CANADA" city="Toronto">
             <townhouse townhouse_type="good" />

         </house>
     </other>


回页首

结束语

这就结束了对创建格式和定义均正确的 XML
文件的基本介绍。您可能想要继续自己研究 people.xml 和 people.dtd
文件。如果想要尝试使用 XML
语法分析器对这些文件进行语法分析,请参阅“参考资料”来查找可供下载的语法分析器的列表。

参考资料

  • 如果希望了解有关 XML 和 DTD 语法的更多信息,

    XML
    1.0 W3C Recommendation
    应该是您的第一站。

  • Tim Bray 是 XML 1.0 规范的原始编辑之一。他维护着

    Textuality.com,可以在上面找到他关于
    XML、DTD 等内容思想。还可以找到 Lark 和 Larval,Bray 自己的 XML
    语法分析器。

  • Doug Tidwell 的


    教程:XML 简介
    展示了对“可扩展标记语言”近乎完整的探讨。

  • 您可能还想要仔细查看 Mark Johnson 在 JavaWorld 上发表的


    XML for the absolute beginner
    一文。

  • 请下载本文示例中使用的

    people.xml

    people.dtd文件,以进一步研究和分析。

XML 语法分析器:简表

  • IBM 的


    XML Parser for Java
    (XML4J),目前是版本 3.1.1,是以 100% 纯
    Java 编写的确认 XML 语法分析器。包(com.ibm.xml.parser)包含了对
    XML 文档进行语法分析、生成、操纵和确认的类和方法。

  • IBM 的


    XML for C++ parser
    (XML4C) 基于 Apache 的 Xerces-C XML
    语法分析器,它是用 C++ 的可移植子集编写的确认 XML 语法分析器。

  • TclXML

    是全 Tcl 的 XML 语法分析器。

  • Xerces 是来自
    Apache Software Foundation 的 Java 语法分析器,目前是版本
    1.4.0。

  • Lars Marius Goshol 负责维护作为公众服务的这个详尽的


    XML 语法分析器列表
    和其它 XML 工具。

相关链接

  • XML
    专区页面
    上查看最新信息。

  • 如同 DTD,在创建 XML
    文件时,样式表不是必需的,但如果希望控制浏览器中文档显示,它们就非常重要。Alan
    Knox 的 developerWorks 文章,

    Style sheets can
    write style sheets, too
    ,向您介绍如何使用 XSL 来将 XML
    数据转换成用于浏览器的复杂显示标记。

  • 阅读完上述文章后,可能想要查看 IBM alphaWorks 的

    XSL Editor

  • 如果希望探索 XML Schema 以及它与 DTD 的关系,请参阅 David Mertz
    在其 developerWorks 专栏“XML 问题 7”中的

    DTD 和 XML
    Schema 比较
    ,以及 Kevin Williams 的 developerWorks 临时讲台


    赞同使用 XMLSchema 的文章
    来了解用于数据的 XML
    文档的结构化定义。有关使用 XML Schema
    会怎样的简短说明,请参阅介绍性文章


    Basics of using XML Schema to define elements

关于作者

author

Jane Fung 目前在 IBM VisualAge for Java
技术支持小组工作,该小组为使用 VisualAge for Java
的企业开发人员提供支持。Jane
获得了加拿大安大略省的沃特卢大学电子工程应用科学学士学位,并且是一名
Sun Java 2 认证程序员。可以通过
jcyfung@ca.ibm.com 与 Jane
联系。

分类: DateBase, Programming 标签: , ,

TRANSFAC

2008年3月9日 Galaxy 3 条评论

TRANSFAC® Release 7.0 – Documentation

TRANSFAC tables and their relations

The present release comprises the following ASCII flat files or tables:

SITE 7915 entries
GENE 2397 entries (1504 entries with SITE links)
FACTOR 6133 entries
CELL 1307 entries
CLASS 50 entries
MATRIX 398 entries

The contents of each table will be detailed below.

SITE gives information on (regulatory) transcription factor binding sites within eukaryotic genes. GENE gives a short explanation of the gene where a site (or group of sites) belongs to. FACTOR describes the proteins binding to these sites. CELL gives brief information about the cellular source of proteins that have been shown to interact with the sites. CLASS contains some background information about the transcription factor classes, while the MATRIX table gives nucleotide distribution matrices for the binding sites of transcription factors.

The ASCII flat file table SITE comprises all information which in the relational model is contained in distinct but connected records (SEQUENCES, METHOD, ENTRY and REFERENCE). Similarly, FACTOR, CLASS and MATRIX contain the full reference data. However, the factors binding to a certain site are indicated within the SITE entry by name and factor accession number, and vice versa the sites a certain factor binds to are likewise listed in the FACTOR records.

http://www.gene-regulation.com/pub/databases/transfac/doc/relations.html

分类: DateBase 标签: ,

[GMOD]Chado模块记录

2008年1月26日 Galaxy 没有评论

Genetics Module: 等位基因及其与表型关系

Sequence Module: 所有与生物序列及注释相关的

Map Module: 除了序列位置以外的location

Expression Module: 转录事件,包括时空定位(localisation)。also for 蛋白表达

Companalysis Module: Sequence Module的附属,for in-silico分析

CV Module: Controlled Vocabularies / Ontologies

Organism Module: 与分类、物种相关的data

Pub Module: 出版物、书籍、参考文献

General Module: General / Core

分类: DateBase 标签: ,

Eukaryotic Promoter Database

2007年11月13日 Galaxy 3 条评论

http://www.epd.isb-sib.ch/index.html

EPD
The Eukaryotic Promoter Database
Current Release 92

 

The Eukaryotic Promoter Database is an annotated non-redundant collection of eukaryotic POL II promoters, for which the transcription start site has been determined experimentally. Access to promoter sequences is provided by pointers to positions in nucleotide sequence entries. The annotation part of an entry includes description of the initiation site mapping data, cross-references to other databases, and bibliographic references. EPD is structured in a way that facilitates dynamic extraction of biologically meaningful promoter subsets for comparative sequence analysis. [More details].
Current version is based on EMBL Release 92.

ftp://ftp.ebi.ac.uk/pub/databases/embl/release/

http://www.ebi.ac.uk/embl/

分类: DateBase 标签: , , ,

Free Datebase Design

2007年11月13日 Galaxy 没有评论
分类: DateBase 标签: ,

TIGR Rice Genome Annotation Project Overview

2007年11月12日 Galaxy 没有评论

http://rice.tigr.org/tdb/e2k1/osa1/overview.shtml

TIGR Rice Genome Annotation Project Overview

TIGR has been funded by the National Science Foundation to annotate the rice genome. This four year award began in January 2004. A summary of the project and its goals is listed below. As the project develops, we will expand our web pages to provide the community with more information on the deliverables and timelines for annotating the rice genome.

Rice is model species for the monocotyledonous plants and the cereals which are the greatest source of food for the world’s population. While rice genome sequence is available through multiple sequencing projects, high quality, uniform annotation has not yet been generated. Without annotation, researchers will independently annotate regions of interest and be unable to efficiently data-mine the rice genome for relevant features.

The objectives of this project are to provide high quality annotation for the rice genome. We will refine and update the gene models for the est. 40,000-60,000 total rice genes, provide standardized annotation for each model, link each model to functional annotation including expression data, gene ontologies, and tagged lines.

We will provide a resource to extend the annotation in the rice genome to other plant species by providing comparative alignments to other plant species. We will provide training in bioinformatics to 60 plant scientists, leveraging our informatic efforts to a broader range of scientists. We will develop an agricultural genomics lecture and teaching module for educating local high school students and teachers on the significance of agricultural genomics.

This project is funded by the National Science Foundation Plant Genome Research Program # DBI-0321538.

分类: DateBase 标签:

TIGR Rice Genome Annotation Data

2007年11月12日 Galaxy 1 条评论

http://rice.tigr.org/tdb/e2k1/osa1/batch_download.shtml
http://rice.tigr.org/tdb/e2k1/osa1/data_download.shtml

  1. Protein sequences (.pep)
  2. Protein-coding nucleotide sequence (.cds)
  3. Intron sequences (.intron)
  4. Gene sequences (.seq)
  5. UTR sequences (.UTR)
  6. 1000 bp upstream genomic sequences (lower case) from the
      translational start codons (upper case) (.1kUpstream)
  7. Intergenic sequences (.intergenic)
  8. Genomic sequences (.con)
  9. Brief information about the gene models (.TU_model.brief_info)
  10. Gene models with Pfam domain matches (.models_with_Pfam)
  11. Transcript sequences (.cDNA)
  12. Gene models with Tos17 or other insertions nearby
              (.models_near_insertion_sites)

PROTEIN_CODING genes are represented by at least four components: TU, MODEL, EXON, CDS.
The TU represents the transcriptional unit and is the highest order component of the gene.
A TU can encode multiple gene MODELs only in cases where alternative splicing exists.
A gene MODEL encapsulates all of the coding and non-coding structures of an individual splicing isoform.
Each gene MODEL can encode several mRNA EXONS and represent the spliced, intronless portions of the gene.
An mRNA EXON may only partially code for a protein; exactly the case where upstream or downstream untranslated regions exist. The protein coding portion of an individual EXON is represented by the CDS element. The CDS element will also encode the stop codon. The gene components are not ordered based on their coordinates.
For regions in which untranslated regions exist, UTR(s) will present. UTR(s) represent the non-protein-coding portions of the RNA EXON(s). UTRs are not currently supported TIGR data types outside of this DTD and they exist here only to facilitate external data analysis.

Each gene component has a coordinate set associated with it (see COORDS). The following illustration should clarify the role of each element and its coordinates:

    TU        {=============================================================================}
              |                                                                             |
    MODEL     |       {============================================================}        |
              |       |                                                            |        |
    EXON(s)   {=============}        {========================}    {========================}
              |      ||              |                        |    |               ||       |
    CDS(s)    |      |{=====}        {========================}    {===============}|       |
              |      |                                                              |       |
    UTR(s)    {======}                                                              {=======}

  UTRS specify each UTR or untranslated region.  There can be more than one if it’s a single exon gene: ie.

              5'                                                  3'  

     EXON:      {===============================================}  

     CDS :      |   |{============================}|            |  

     LEFT_UTR:  {===}                              |            |  

     RIGHT_UTR:                                    {============}     If no portion of the EXON is translated, then we have an EXTENDED_UTR, which  

     is includes the full length of the EXON.

  • Locus Genomic Sequence
  • Gene Model Sequence
  • Protein Sequence
  • Putative Functions
  • GOSlim Assignments
分类: DateBase 标签: ,

Automated Annotation of the Rice Genome

2007年11月12日 Galaxy 1 条评论

http://rice.tigr.org/tdb/e2k1/osa1/irgsp/eukan_routine_irgsp.shtml

Automated Annotation of the Rice Genome

All rice BAC/PAC were downloaded from HTGS division of GenBank as well as the PLANT division of GenBank. The BAC/PAC sequences were assembled into 12 pseudomolecules. Each of the pseudomolecule sequences were processed by our annotation pipeline as described below. Please note that all data is from automated processes and is NOT manually curated.


Steps involved in the automated annotation:

The pseudomolecule sequences and results of all analyses are stored in our central relational database (Sybase).

  1. Database search
    • The pseudomolecules were aligned with sequences from the TIGR Plant Transcript Assemblies (assemblies of EST, mRNA and FL-cDNA sequences from Rice , Arabidopsis and other plants) using dds/gap2.
    • We also search each pseudomolecule sequence against a rice repeat database to identify known repeats and transposons (DNA transposons, retroelements, MITEs, etc).
    • Simple repeats are identified and annotated with RepeatMasker
  2. Gene prediction programs
    • FGENESH (Fgenesh predicted results were used as default working gene models in TIGR automated annotation)
    • Genemark.hmm (rice)
    • Genscan (Maize)
    • Genscan+ (Arabidopsis)
    • GeneSplicer, to predict exon/intron splicing sites
    • tRNAscan-SE, to predict tRNA
  3. Improve gene model structures with rice EST/FL-cDNA using TIGR PASA
  4. Criteria for the definition of genes
    • If a gene is identical to a previously characterized gene (> 99% identity and 100% coverage), the orginal gene name is preserved in our annotation, and the annotation reads “identical to XXXXX”.
    • Gene models with protein matches are named after the database entries to indicate similarity.
    • Specifically, gene models with greater than 30% identity and greater than 50% coverage are annotated as “xxxx, putative”.
    • Genes that only align to a hypothetical protein are annotated as “conserved hypothetical”.
    • Predicted genes with no alignments to known genes are simply labeled as “hypothetical proteins”.
    • Additionally, the term “expressed” is appended to the annotation when there is some expression evidence for the gene.
  5. For additional information, see these publications.
    • Ouyang, S., Zhu, W., Hamilton, J., Lin H., Campbell, M., Childs, K., Thibaud-Nissen, F., Malek, R.L., Lee, Y., Zheng, L, Orvis, J., Haas, B., Wortman, J. and Bueel, C.R. 2007. The TIGR Rice Genome Annotation Resource: improvements and new features. Nucleic Acids Research 35: D883-D887
    • Yuan, Q., Ouyang, S., Wang, A., Zhu, W., Maiti, R., Lin, H., Hamilton, J., Haas, B., Sultana, R., Cheung, F., Wortman, J., and Buell, C.R. 2005. The Institute for Genomic Research Osa1 Rice Genome Annotation Database. Plant Physiology 138: 18-2

The sequences of the annotated genes, along with supporting evidence, can also be found on our web site.


Software Links

  • FGENESH
  • GeneMark.hmm (Borodovsky and Lukashin, School of Biology, Georgia Institute of Technology)
  • Genscan (Chris Burge, Massachusetts Institute of Technology)
  • Genscan+ (Chris Burge, Massachusetts Institute of Technology)
  • GeneSplicer (Mihaela Pertea and Steven Salzberg, The Institute for Genomic Research)
  • tRNAscan-SE (T.M. Lowe, USCS)
  • dds/gap2, dps/nap (Xiaoqiu Huang, Dept of Computer Science, Michigan Technological University)
  • RepeatMasker (A.F.A. Smit & P. Green, University of Washington)
  • Annotation Station: Neomorphic (recently purchased by Affymetrix)
分类: DateBase 标签:
Locations of visitors to this page