博客
关于我
【Lintcode】1900. Gene Similarity
阅读量:198 次
发布时间:2019-02-28

本文共 2835 字,大约阅读时间需要 9 分钟。

基因序列的解析与比较是解决本题的关键步骤。以下是详细的解析过程:

  • 基因序列解析:每个基因序列由数字和字母组成,数字表示后续重复的字母次数。例如,"2T3G" 解析为 "TTGGG"。解析过程需要识别每个数字和后续的字母,生成区间表示。

  • 区间比较:将每个基因序列分解为多个区间,每个区间由字符和长度组成。比较两个区间的长度,逐个字符进行比较,统计相同位置的数量。

  • 相同位置统计:比较两个区间的字符,如果相同,则增加计数,缩短较长区间的长度,继续比较剩余部分,直到所有区间都被处理完。

  • 通过上述步骤,可以准确地找出两个基因序列相同的位置数量,并计算总基因长度。

    以下是代码的优化版本:

    public class Solution {    class Gene {        char ch;        int len;        public Gene(char ch, int len) {            this.ch = ch;            this.len = len;        }    }    public String GeneSimilarity(String Gene1, String Gene2) {        int count = 0;        int totalLen1 = 0;        int totalLen2 = 0;        int idx1 = 0;        int idx2 = 0;        Gene currentG1 = new Gene(' ', 0);        Gene currentG2 = new Gene(' ', 0);        while (idx1 < Gene1.length() || idx2 < Gene2.length()) {            if (currentG1.len == 0) {                // 解析Gene1的下一个区间                int i1 = idx1;                while (i1 < Gene1.length() && Character.isDigit(Gene1.charAt(i1))) {                    i1++;                }                if (i1 > idx1) {                    char c1 = Gene1.charAt(i1);                    int len1 = Integer.parseInt(Gene1.substring(idx1, i1));                    currentG1 = new Gene(c1, len1);                    totalLen1 += len1;                    idx1 = i1 + 1;                } else {                    // 无法解析下一个区间,结束循环                    break;                }            }            if (currentG2.len == 0) {                // 解析Gene2的下一个区间                int i2 = idx2;                while (i2 < Gene2.length() && Character.isDigit(Gene2.charAt(i2))) {                    i2++;                }                if (i2 > idx2) {                    char c2 = Gene2.charAt(i2);                    int len2 = Integer.parseInt(Gene2.substring(idx2, i2));                    currentG2 = new Gene(c2, len2);                    totalLen2 += len2;                    idx2 = i2 + 1;                } else {                    // 无法解析下一个区间,结束循环                    break;                }            }            // 比较当前区间            int minLen1 = Math.min(currentG1.len, currentG2.len);            if (currentG1.ch == currentG2.ch) {                count += minLen1;                // 更新当前区间长度                currentG1.len -= minLen1;                currentG2.len -= minLen1;            } else {                // 字符不同,不增加计数            }            // 检查是否有任何区间剩余            if (currentG1.len > 0 || currentG2.len > 0) {                // 进入下一个循环会自动处理            } else {                // 两个区间都处理完毕,退出循环                break;            }        }        return count + "/" + (totalLen1 + totalLen2);    }}

    解释

  • Gene类:用于存储当前区间的字符和长度。
  • GeneSimilarity方法
    • 初始化变量,记录计数、总长度和当前比较位置。
    • 使用循环处理每个区间,直到两个基因序列都被比较完。
    • 解析基因序列,生成区间,并记录总长度。
    • 比较当前区间的字符和长度,更新计数和区间长度。
    • 继续处理下一个区间,直到所有区间处理完毕。
  • 通过这种方法,可以准确地找到两个基因序列相同位置的数量,并计算总基因长度。

    转载地址:http://pkjs.baihongyu.com/

    你可能感兴趣的文章
    Pinia:$patch的使用场景
    查看>>
    Pinia:$subscribe()的使用场景
    查看>>
    Pinpoint对Kubernetes关键业务模块进行全链路监控
    查看>>
    Pinterest 大规模缓存集群的架构剖析
    查看>>
    pintos project (2) Project 1 Thread -Mission 1 Code
    查看>>
    PinYin4j库的使用
    查看>>
    PIP
    查看>>
    pip install goose-extractor // SyntaxError: Missing parentheses in call to 'print'
    查看>>
    pip install mysqlclient报错
    查看>>
    pip install 出现报asciii码错误的解决
    查看>>
    pip throws TypeError: parse() got an unexpected keyword argument ‘transport_encoding‘ 在尝试安装新软件包时
    查看>>
    pip 下载慢
    查看>>
    pip 升级报错AttributeError: ‘NoneType’ object has no attribute ‘bytes’
    查看>>
    pip 安装opencv-python卡死
    查看>>
    pip 安装出现异常
    查看>>
    Pip 安装失败:需要 SSL
    查看>>
    Pip 安装挂起
    查看>>
    pip 或 pip3 为 Python 3 安装包?
    查看>>
    pip 文件损坏导致 pip无法使用 报错 ImportError: cannot import name 'main' from 'pip._int
    查看>>
    pip 无法从 requirements.txt 安装软件包
    查看>>