脱氧核糖核酸(英文DeoxyriboNucleic Acid,缩写为DNA)是生物细胞内含有的四种生物大分子之一核酸的一种。 DNA携带有合成RNA和蛋白质所必需的遗传信息,是生物体发育和正常运作必不可少的生物大分子。 DNA序列指使用一串字母(A、T、C、G)表示的真实的或者假设的携带基因信息的DNA分子的一级结构。 DNA序列测定方法有光学测序和芯片测序两种。
运行成功后,命令行应该看到下面的信息:
x# 显示前5条数据
+-----+--------------------+
|label| sequence|
+-----+--------------------+
| 4|[ATGC, TGCC, GCCC...|
| 4|[ATGA, TGAA, GAAC...|
| 3|[ATGT, TGTG, GTGT...|
| 3|[ATGT, TGTG, GTGT...|
| 3|[ATGC, TGCA, GCAA...|
+-----+--------------------+
# 特征向量
+-----+--------------------+--------------------+
|label| sequence| features|
+-----+--------------------+--------------------+
| 4|[ATGC, TGCC, GCCC...|(336,[0,8,14,17,1...|
| 4|[ATGA, TGAA, GAAC...|(336,[0,1,2,3,5,7...|
| 3|[ATGT, TGTG, GTGT...|(336,[0,1,2,3,4,5...|
| 3|[ATGT, TGTG, GTGT...|(336,[0,1,2,3,4,5...|
| 3|[ATGC, TGCA, GCAA...|(336,[0,1,2,3,4,5...|
+-----+--------------------+--------------------+