做测序的人,常常对着Excel里的一大串Locus_tag感到头疼,这些乱码一样的标签让人根本分不清哪个是哪个,想知道哪个基因上调、哪个下调更是难上加难。要把这些标记转换成大家能看懂的基因全名,还得手动去GenBank里翻页查找,效率实在是太低了。 趁着国庆假期,我动手改进了一下之前写的“序列信息小工具”,让同事们再也不用那么麻烦了。只要把测序公司提供的GenBank文件直接拖进这个工具里,点一下“一键解析”,工具就能自动把Locus_tag和Gene Name一一对应起来。这时候会出现一张关系表,还会把Product、GeneID、RefSeq等信息也一起打包好。 生成的Excel表格格式非常工整,列名直接对应主流转录组软件里的“基因名”列。打开自己的转录组Excel数据,新建一列把这张表格里的内容复制过去就行了。这个方法简单到连代码都不用写。 具体操作只需要三步:第一步是把.gbk或.gbff文件拖进工具;第二步点击“一键解析”,工具会自动匹配标签和基因名;第三步把结果粘贴到表达矩阵里。这样一来,上调下调的情况就能直观地看到了,做GO和KEGG富集分析也方便得多。 以前想查个基因名要经历好几次复制粘贴的过程:先在GenBankCtrl+F找Locus_tag,复制ID去NCBI查Gene Name,再回到软件里贴表达量。一个样本折腾下来起码要花五分钟时间。 现在只要把GenBank文件拖进小工具点一下按钮就能搞定了。生成的基因名列复制到转录组数据里全程不到两分钟,省下的时间足够拿去写论文了!