def build_bad_character_table(pattern):
    """
    构建坏字符表：记录每个字符在模式串中最后出现的位置
    """
    table = {}
    for i, ch in enumerate(pattern):
        table[ch] = i
    return table


def boyer_moore_search(text, pattern):
    """
    Boyer–Moore 字符串查找（仅使用坏字符规则）
    返回所有匹配起始位置
    """
    m = len(pattern)
    n = len(text)

    if m == 0:
        return []

    bad_char = build_bad_character_table(pattern)
    matches = []

    i = 0  # text 指针

    while i <= n - m:
        j = m - 1  # pattern 从右向左比较

        # 从右向左比较字符
        while j >= 0 and pattern[j] == text[i + j]:
            j -= 1

        if j < 0:
            # 完全匹配
            matches.append(i)
            i += m  # 可以直接跳过整个模式串长度
        else:
            # 坏字符规则跳跃
            bad_char_index = bad_char.get(text[i + j], -1)
            shift = max(1, j - bad_char_index)
            i += shift

    return matches

genome = "ATGCGTAGGCTAGGACCGTAGGTTAG"
motif = "AGG"

result = boyer_moore_search(genome, motif)
print("匹配位置:", result)

for pos in result:
    print(f"位置 {pos}: {genome[pos:pos+len(motif)]}")

匹配位置: [6, 11, 19]
位置 6: AGG
位置 11: AGG
位置 19: AGG

def build_good_suffix_table(pattern):
    """
    构建好后缀表：suffix 和 prefix
    suffix[k] = 模式串中长度为 k 的后缀在前面再次出现的位置
    prefix[k] = 长度为 k 的后缀是否同时是模式串的前缀
    """
    m = len(pattern)
    suffix = [-1] * m
    prefix = [False] * m

    for i in range(m - 1):
        j = i
        k = 0  # 公共后缀长度

        # 从 pattern[i] 向左，与 pattern 末尾向左比较
        while j >= 0 and pattern[j] == pattern[m - 1 - k]:
            j -= 1
            k += 1
            suffix[k] = j + 1  # 记录公共后缀的起始位置

        if j == -1:
            prefix[k] = True  # 如果公共后缀也是前缀

    return suffix, prefix

def move_by_good_suffix(j, m, suffix, prefix):
    """
    根据好后缀规则计算跳跃距离
    j: mismatch 发生的位置
    m: 模式串长度
    """
    k = m - 1 - j  # 好后缀长度

    # 情况 1：在前面找到另一个匹配的子串
    if suffix[k] != -1:
        return j - suffix[k] + 1

    # 情况 2：找不到匹配子串，但好后缀的某个后缀是前缀
    for r in range(j + 2, m):
        if prefix[m - r]:
            return r

    # 情况 3：完全没有匹配，整体右移 m
    return m

def boyer_moore(text, pattern):
    m = len(pattern)
    n = len(text)

    # 坏字符表
    bad_char = {ch: i for i, ch in enumerate(pattern)}

    # 好后缀表
    suffix, prefix = build_good_suffix_table(pattern)

    matches = []
    i = 0  # text 指针

    while i <= n - m:
        j = m - 1

        # 从右向左比较
        while j >= 0 and text[i + j] == pattern[j]:
            j -= 1

        if j < 0:
            matches.append(i)
            i += m  # 完全匹配，整体右移
        else:
            # 坏字符跳跃
            bad_char_index = bad_char.get(text[i + j], -1)
            bc_shift = j - bad_char_index

            # 好后缀跳跃
            gs_shift = move_by_good_suffix(j, m, suffix, prefix)

            # 取最大跳跃
            i += max(bc_shift, gs_shift)

    return matches

genome = "ATGCGTAGGCTAGGACCGTAGGTTAG"
motif = "AGG"

result = boyer_moore(genome, motif)
print("匹配位置:", result)

for pos in result:
    print(f"{pos}: {genome[pos:pos+len(motif)]}")

匹配位置: [11]
11: AGG

2026年4月24日研究日志¶

Boyer–Moore 算法在生信数据中的价值：从经典字符串匹配到现代序列搜索引擎¶

为什么生物信息学研究者应该知道 Boyer–Moore？¶

1. “跳跃式搜索”思想是所有高效比对算法的基础¶

2. “从右向左匹配”启发了 seed-based alignment¶

3. “坏字符 / 好后缀规则”是现代 mismatch 处理的雏形¶

Boyer–Moore 的核心思想¶

1. Bad Character Rule（坏字符规则）¶

2. Good Suffix Rule（好后缀规则）¶

Boyer–Moore（坏字符规则）¶

好后缀规则¶

构建好后缀表（Good Suffix Table）¶

好后缀规则的跳跃计算¶

完整 Boyer–Moore 搜索（坏字符 + 好后缀）¶

在基因组序列中测试（示例：查找 PAM 序列）¶

好后缀规则（Good Suffix Rule）解释¶

2026年4月24日 研究日志¶

Boyer–Moore 算法在生信数据中的价值：从经典字符串匹配到现代序列搜索引擎¶

为什么生物信息学研究者应该知道 Boyer–Moore？¶

1. “跳跃式搜索”思想是所有高效比对算法的基础¶

2. “从右向左匹配”启发了 seed-based alignment¶

3. “坏字符 / 好后缀规则”是现代 mismatch 处理的雏形¶

Boyer–Moore 的核心思想¶

1. Bad Character Rule（坏字符规则）¶

2. Good Suffix Rule（好后缀规则）¶

Boyer–Moore（坏字符规则）¶

好后缀规则¶

构建好后缀表（Good Suffix Table）¶

好后缀规则的跳跃计算¶

完整 Boyer–Moore 搜索（坏字符 + 好后缀）¶

在基因组序列中测试（示例：查找 PAM 序列）¶

好后缀规则（Good Suffix Rule）解释¶

2026年4月24日研究日志¶