设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 8641|回复: 27
打印 上一主题 下一主题

[科技前沿] 字符串匹配

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
发表于 2013-10-7 04:13:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 橡树村 于 2013-10-15 15:48 编辑
3 k, m2 o3 y9 N$ q/ t1 P1 H$ C4 c/ @2 ]) v" h& _* H$ F6 J( g
字符串匹配,string match,这个是计算机里面常见的问题,例如:
( o, T1 a7 t7 n, F5 j% }+ {' t6 y& F4 l( m
string1: TACGGCATGGCTATCGTAGCTAG/ ]# T3 L+ P+ X1 Y
* S6 E' Y, m; R! ^  ]1 I6 m8 A
string2: GCTAT; N1 \. f$ j8 \* Z2 O3 E
8 d* H2 m. }6 B
要求在string1里找到string2的位置,如果存在多个的话,都要找出来。
$ v; D: ^6 V, p) C/ G) B: g' l; D0 J) z1 k2 j1 r5 I9 m
可以自己估计一下时间复杂度,真实的例子是,String1长达3billion,或者6个billion。string2长约一、二百,但是数目可以是以billion计的。
7 a; w+ x2 R5 \' c1 `
) Y# i6 O& ]& P; q+ X先扛着。

该用户从未签到

沙发
发表于 2013-10-7 05:16:35 | 只看该作者
怎么感觉这个和基因研究有关?识别基因里的某种特征?

点评

这个不只是和基因有关。  发表于 2013-10-7 10:39
  • TA的每日心情
    开心
    2023-3-1 00:08
  • 签到天数: 2397 天

    [LV.Master]无

    板凳
    发表于 2013-10-7 06:17:53 | 只看该作者
    晨枫 发表于 2013-10-6 16:16
    " t$ a1 Z# a: i) F怎么感觉这个和基因研究有关?识别基因里的某种特征?

    ! |7 i8 d, W) d% R5 ?- U! ^这就是基因BLAST算法的标准定义嘛。。。7 C. l# j2 r* y  S- y9 {
    & h3 {7 O1 w9 c/ @4 q
    Google "Blast算法",一堆开源程序。
    & |9 f& s. n% J9 c: d; D3 v

    点评

    呵呵,这只是blast要解决的问题,而非定义。事实上,blast很少使用,因为首贴里的实际问题,用blast在可以容忍的时间里是完不成的,你可以估算一...  发表于 2013-10-7 08:55

    该用户从未签到

    地板
    发表于 2013-10-7 07:21:39 | 只看该作者
    MacArthur 发表于 2013-10-6 16:17 1 x; o- R; b& v6 j' n5 m
    这就是基因BLAST算法的标准定义嘛。。。. {9 I# \5 f( j1 Z5 `2 e) L
    0 |, J4 X# u0 K* m3 R+ S+ y9 V
    Google "Blast算法",一堆开源程序。
    0 ]4 R7 D$ T6 R+ K) w  ?) T; J( t6 o
    莫非麦帅也是干这一行的?不然怎么会这么熟悉?

    点评

    麦帅好职业  发表于 2013-10-7 20:51
    Work with bioinformatician  发表于 2013-10-7 11:31

    该用户从未签到

    5#
    发表于 2013-10-7 07:28:07 | 只看该作者
    晨枫 发表于 2013-10-7 07:21
    7 E0 @+ @& x: O莫非麦帅也是干这一行的?不然怎么会这么熟悉?

    : S4 [! B8 ?; \; E8 w& s0 Y这都不用动手写吧?正则表达式很多语言都支持啊

    点评

    这世界上很多东西,用就好了。  发表于 2013-10-7 10:37

    该用户从未签到

    6#
    发表于 2013-10-7 07:29:33 | 只看该作者
    假如十八 发表于 2013-10-6 17:28 0 d/ J' \( m& [& u
    这都不用动手写吧?正则表达式很多语言都支持啊
    % J$ E# J- U3 U; Q: Q& ~$ T. u+ |
    有可能是普通的bubble sort和quick sort之间的差别?也就是说,普通算法的效率不适合特别大的海量比较计算?

    点评

    往下看,有点儿意思。  发表于 2013-10-7 10:37
  • TA的每日心情
    擦汗
    2019-6-16 23:34
  • 签到天数: 1277 天

    [LV.10]大乘

    7#
    发表于 2013-10-7 07:33:11 | 只看该作者
    老兵有个群组,软件人家。

    点评

    谢谢提醒,有机会看看。  发表于 2013-10-7 08:57
  • TA的每日心情
    开心
    2016-4-24 12:49
  • 签到天数: 7 天

    [LV.3]辟谷

    8#
    发表于 2013-10-7 08:38:30 | 只看该作者
    MacArthur 发表于 2013-10-7 06:17
    / D6 n, k+ d6 Z* u" G) J+ M9 M这就是基因BLAST算法的标准定义嘛。。。
    7 g2 C9 W8 c' T6 t7 f& _# c0 ~6 @, u9 C: M( D: Q- ~( L
    Google "Blast算法",一堆开源程序。
    & ]! i! ~9 d: S$ X2 l0 M
    blast......恍若隔世,你不说我都忘了曾经有那么一段时间天天跟这个较劲。。。。

    点评

    对葵花开始滔滔江水。。。  发表于 2013-10-7 11:36
    是吗?做什么呢?  发表于 2013-10-7 10:36

    该用户从未签到

    9#
     楼主| 发表于 2013-10-7 09:01:33 | 只看该作者
    最野蛮也是最简单的办法:一个一个比。
    : E' f+ m; j1 q% C
    ) N, ?2 T9 W" Q/ g
    string1: TACGGCATGGCTATCGTAGCTAG5 m: V6 z5 {- N& O& W  Z

      m: y& g9 D9 a4 N1 bstring2: GCTAT; f1 I* |. P+ d6 F# O, L& }
    ( c7 Z; a' J( A+ {1 R2 X2 ?' Y
    要求在string1里找到string2的位置,如果存在多个的话,都要找出来。

    4 }9 V4 L, a3 c6 B' d" b% i! z& F5 p- p7 @& i3 G4 ~1 V
    拿string2和string1比,至少需要比string1的长度减去string2的长度再加1次。在实际应用中,如果string1的长度是10^9,而string2只有一二百,那么做一次基本上就是比10^9次。当然如果很幸运,string2在string1开始的地方,那一次就够了。所以平均来说,要比10^9/2次,也就是O(10^9)。# k$ P9 p/ F1 y1 F+ U

    1 h/ }. A% s  s% Y! U但是如果实际情况中,有10^6到10^9个string2s,那总共要比多少次?10^15到10^18次。这什么概念?不考虑所有的overhead,比一次只需一个时钟,那3G的CPU,意味着一秒可以比10^9次,要完成这样一个工作,需要10^6到10^9秒,1年=365天 x 24小时 x 3600秒=31Millon秒。也就是说,最短大约需要12天,最长需要30年。如果这样的操作做十次,一台CPU要算至少120天到300年!!!人都死几次还没比完,太郁闷了,所以不可接受。" q' |7 D7 Y  E' p$ \

    + C; Y2 x4 w) X- d9 ^那如果是这个样子
    ) \* ?  i& l8 N" [: @# v
    9 H  W/ d( C7 w1 @9 ]* vstring1: AAAAAATTTTCCCCCGGGTTTTAAAACCCCCCGG
    4 q9 t9 d) r6 s8 j; b8 A$ D$ _: ?: cstring2: TTAAA
    . E5 u; G; m  K( d$ b' {" i% l
    # R5 k0 H( {0 T" s5 n# f3 |是不是会快很多?
    2 x3 N7 X% D& f: [% I
    6 S& ^8 G+ n9 `: B! k5 P继续扛。
  • TA的每日心情
    开心
    2025-9-3 17:48
  • 签到天数: 595 天

    [LV.9]渡劫

    10#
    发表于 2013-10-7 09:47:11 | 只看该作者
    喜欢喝冰茶 发表于 2013-10-7 09:01 8 M) U1 P" w2 f. K2 o6 W5 o
    最野蛮也是最简单的办法:一个一个比。

    ' C$ x( b! o% H$ O+ D/ q" Z7 E$ v$ p帮你顶一下。很多问题,看起来很简单,但是在数据量大的情况下,根本不是那么回事。
    + C' B* v- ]# G7 ^: P1 A& A5 U这可以产生很多计算机专家。
    # J  E, I) E7 x6 I对于算法的问题,一般我都躲着。

    点评

    是,一旦数据量很大的时候,计算压力有时是不可容忍的,要不怎么热炒BigData呢。  发表于 2013-10-7 10:36

    该用户从未签到

    11#
     楼主| 发表于 2013-10-7 10:35:44 | 只看该作者
    本帖最后由 喜欢喝冰茶 于 2013-10-6 20:40 编辑
    7 b. L2 {# H2 g: e& M
    如果两个字符串是这个样子! D! N# b, G* y/ g$ F
    - m* h" |. o+ Q4 t8 z1 z
    string1: AAAAAATTTTCCCCCGGGTTTTAAAACCCCCCGG: G' F! L: T+ }' n# l5 M& ^+ S
    string2: TTAAA

    1 B- w1 C5 a* n, x) }5 @9 I: T8 |
    + K$ y$ k+ w4 F3 |8 }9 i当然要省很多时间,因为不需要对string1一个一个比了!!!
    - n. W. v% O( R7 f6 k8 I0 u& ?2 u' X# `, q
    string1可以写成:
    + l! }) s. [: C长度 字符 起始位置& f7 v. I: i2 |. _/ P
    6      A     1
    4 ]5 t( d2 U  q0 I! A( e. b% @4      T     70 i0 S+ o+ H# l9 `" K
    5      C     11/ B% v4 W9 L: f
    3      G     16; O2 x2 L+ ^! g  |7 I1 B! Y
    4      T     19& O* [( g8 j( b# z/ x6 a3 T
    ......1 Z* }+ {) Q# O" ^( w$ \
    ! h* _8 ?8 S( X+ d, s
    所以当用string2去比的时候,一开始根本就不用考虑字符为A,G,C的行,因为string2开始是T。因此在这个例子中,不需要去检查string1的每个位置,而是非常有限的几个位置,所以可以省很多时间。
    ; D, V' `: H( B! G8 e2 h) M0 |
    $ k& k  O4 a2 E0 C那么如果存在一种这样的转换方法能够将主贴里的字符串转化成这种,势必会省很多时间。有这样一种方法吗?哪里去找?
    ; U) L- k# d: `! E% m1 L. J7 a5 w5 p  {7 C. I" q2 i7 M5 G
    如果你是有心人,你觉得这个东西最常用在哪里?5 w4 t6 _6 T9 |9 n, r0 X

    ( l* U/ ]1 K6 H  s; c% l! Y& t对了,文件压缩
    6 Y4 G* Q& i4 Y* ]* m! S$ s2 h- P/ M# ]( O% ^
    事实上,真正的解决方法就是借鉴了最早用于文件压缩的一种算法,称为Burrows-Wheeler Transform,又称block-sorting compression。这是当年在DEC工作的Michael Burrows和David Wheeler发明的,所以以他们的名字命名,bzip2的压缩文件就是基于该算法的。它的转换其实很简单,如果感兴趣大家可以google/wiki(wikipedia上很详细的操作细节)上去看细节,但简单的来说,就是把一个字符串头围相接,不停的移动一位,然后排序,最后取出最后一列就行了。Burrows-Wheeler Transform的特性就是转换后的字符串相对于原始字符串含有大量的重复字符片段,所以就可以使得我们的问题变的相对快捷。 0 E& C& d  p" s2 R/ U5 \! z/ E
    : u. n4 P1 A8 `+ T/ m' }% D
    那么是否就十全十美,万事大吉了呢?这个需要从实际的具体需求来看。
    + d9 I( @+ A) y7 f5 X' O- L7 O3 P1 ~+ G) \- X% G1 i8 M2 n- Z; g
    扛吧,没什么好说的。# ~, i# u* L: F  D2 o6 u1 _; W

    ( G+ z- ?1 u6 ^  q

    该用户从未签到

    12#
     楼主| 发表于 2013-10-7 10:38:50 | 只看该作者
    MacArthur 发表于 2013-10-6 16:17
    9 E; K7 t+ _: @$ W这就是基因BLAST算法的标准定义嘛。。。
    ' b; h5 P, U1 l7 u! ^, w& h1 z- z- c
    ; S% b, p5 B% G* i; iGoogle "Blast算法",一堆开源程序。
    ) ^! ^! f# Y: E9 q$ \$ e/ m& I. [
    blast并非只是解决基因的问题,蛋白同样适用,只不过相对于DNA/RNA而言,蛋白质要复杂得多。
  • TA的每日心情
    开心
    2023-3-1 00:08
  • 签到天数: 2397 天

    [LV.Master]无

    13#
    发表于 2013-10-7 11:35:18 | 只看该作者
    喜欢喝冰茶 发表于 2013-10-6 21:38 1 f& a2 Q3 e" b7 A1 q- J+ L
    blast并非只是解决基因的问题,蛋白同样适用,只不过相对于DNA/RNA而言,蛋白质要复杂得多。 ...
    : ^- L9 K2 N, K4 Z
    不明觉厉。。。 上Billion字节的操作,想想就头大。。。 这个规模是不是得上并行计算了?
    * W" D8 I* a& z' p8 X7 l  J

    该用户从未签到

    14#
     楼主| 发表于 2013-10-7 11:45:36 | 只看该作者
    MacArthur 发表于 2013-10-6 21:35 & h2 x2 C  V4 ?* i' z# o7 |
    不明觉厉。。。 上Billion字节的操作,想想就头大。。。 这个规模是不是得上并行计算了?
    6 n$ U3 v  t) g( {; G6 x  j, { ...
    4 V8 G4 K+ ~; J) b. a5 m1 f3 S' n
    blast好像支持吧,主要不是分布式的问题,而是blast使用的算法对蛋白的分数的定义是很有讲究的,这些分数的定义大概要涉及到另外一个和进化相关的计算领域。
  • TA的每日心情
    奋斗
    2017-3-1 00:54
  • 签到天数: 286 天

    [LV.8]合体

    15#
    发表于 2013-10-7 11:47:04 | 只看该作者
    本帖最后由 老芒 于 2013-10-8 00:21 编辑 ; I% T9 A% P9 D- u1 x3 b
    * s0 N1 w8 k7 H  n+ s4 |  w& [1 c
    这样的短贴适合聊天版。

    点评

    这个内容还是很有深度的。  发表于 2013-10-8 00:15
    不明觉厉?什么意思?这能跟paper比吗?只不过为了照顾没基础的同学们了解罢了,例如住院医生。  发表于 2013-10-7 15:13
    不明觉厉,但是爱坛不是论文发布地。  发表于 2013-10-7 12:08
    您觉得这个东西很简单?呵呵,最早应用这种方法的文章,已经几乎3千次的引用,虽然是09年发的,另外一篇也有2500次的引用,不乏Science,Nature上的  发表于 2013-10-7 11:58
  • TA的每日心情
    开心
    2025-3-30 11:48
  • 签到天数: 1064 天

    [LV.10]大乘

    16#
    发表于 2013-10-7 12:27:10 | 只看该作者
    喜欢喝冰茶 发表于 2013-10-7 10:35 2 i: P8 a* V; Y
    当然要省很多时间,因为不需要对string1一个一个比了!!!
    % S* ?$ c6 X8 P9 B9 i# N6 ^0 y( a2 }7 C  Y5 b; [3 B' P! O
    string1可以写成:
    5 M; c  F& I: i" r4 u3 z0 ^
    是要找pattern
    + ~2 d6 L8 T6 l
    & X2 v% R- y  q7 F# j# NEnsembl就用了这种数据压缩方法,
      c; I  K# v1 I  n0 ^AAATTCCGG
    ) \9 y7 D3 e8 o8 k, M5 F. `* ZA3T2C2G2- G2 b2 [' ?1 {5 g) {- p
    * Q: u1 g+ I1 N2 i9 P: _8 x
    把string1,分成若干片段,多进程查找。

    点评

    呵呵,你这可是托?BWT based的方法是NGS能够大规模应用的基础,也是以后可以做personalize medicine一个很重要的前提,特别是癌症。基于它的程序太有名了  发表于 2013-10-7 15:17

    该用户从未签到

    17#
     楼主| 发表于 2013-10-7 21:57:48 | 只看该作者
    本帖最后由 喜欢喝冰茶 于 2013-10-7 12:05 编辑 / h+ Y# ?$ l8 u
    ) P: M% i. S5 B8 m$ P. n
    已经有同校指出了blast,一个用于对生物大分子的测序程序。这东西正式诞生于1990年,同年人类基因组计划启动。它不仅可以用于DNA/RNA的测序,还可以对蛋白测序。六年前在河里曾经写过一个搭积木的小玩意儿,其中涉及到利用计算方法来预测实验中很难测量的蛋白质空间结构,最有效的计算方法就是同源模型。在这个模型里面,我们允许寻找的字符串,string2可以不用严格的和string1,也就是模板序列,匹配的。换句话说,就是字符串匹配是容错的。具体到主贴里提到的真实问题的挑战,就是模板字符串是人类的基因组(genome),单链长达3billion结构单位,也就是3billion的字符长度,而DNA是双链的,也就是6B的长度。想一想,每个人都是unique的,所以即使都是“健康人”,每个人的基因组都不会完全一样,因此,这种字符串的匹配一定是允许错误的,否则的话,如果大家都一样,即使算法速度再慢都不是问题,因为只做一次,从时间复杂度上,就是0。
    6 ~! ?( ^. ~( e6 l
    1 z/ s. K, z4 @  V4 a* t那么如果考虑容错的匹配,基于bwt方法的算法将面临一个巨大的挑战,因为BWT是严格转换的,可是容错的实际需要,就要考虑转换前和转换后的字符串的错误问题,这会使的问题非常复杂。因此,现在的解决方案就是,当我们需要更多的关注容错的问题时,我们仍然使用传统的,也就是blast所使用的Smith-Waterman算法。具体的细节,感兴趣的可以google/wiki,基本来讲,这是一种被称之为动态编程的计算机算法,可以很好的考虑容错问题,诸如substitution、insertion、deletion或者indel(也就是insertion和deletion的混合体),而这些“错误”,则广泛的存在于病人的基因组中,特别是癌症基因组。当然,现在所使用的smith-waterman基于的方法都是修改了的,主要是计算机算法上的加速,诸如hash的SW算法。; q, @8 w0 G5 ]" G6 x) l+ I0 P
    # ~/ q0 y; L2 {4 U3 o3 }0 y& J# p- P8 ?
    但是,bwt基于的方法,运算速度非常快。曾经有朋友几年前做过测试,拿上一代mac book pro,对于5万个长达100字符的输入string2s,string1是人类第一号染色体的DNA序列。blast要跑a couple of minutes,但是第一代bwt based的应用程序,在用手捋了一下头发之后,结果就出来了,当时朋友还以为自己错了。所以相对于blast所使用的算法而言,以bwt为基础的应用,诸如bowtie/bowtie2,bwa(short read version),soap(主要运行于HPC上,由位于深圳的华大基因开发,他们大概是曙光的最大用户),这些闻名遐迩的应用程序(从文章引用次数上,bowtie是最早的,发表于2009年,引用数已经接近3千,bwa大约2千五,soap约为700。引用它们的文章,不仅包括Nature,Science,Cell还有医学领域里的一些著名杂志,像新英格兰医学杂志),使得新型测量技术得以广泛的应用。如果不考虑监管、法律和伦理方面的问题,在可以预见的将来,你的mobile device里存储自己的DNA序列将不再是梦想而是现实,而人们同时希望,DNA序列的检测成为新生儿的常规检查。

    该用户从未签到

    18#
     楼主| 发表于 2013-10-9 10:43:40 | 只看该作者
    本帖最后由 喜欢喝冰茶 于 2013-10-10 15:20 编辑
    - @2 D: O# M8 X8 `/ R5 p; x2 U' S4 E: V3 ]
    这个帖子里的东西,看起来似乎是一个简单的计算问题,但是却很可能是一场改变人类健康革命的基础。正是由于高速有效的匹配算法的发展,才使得新的测序技术得以广泛应用,不仅是基础研究,而更重要的是临床应用,这里简单的提到一些。等有空的时候,写一些有关基于genome和tanscriptome的技术以及实际应用,像分子诊断技术,这将对癌症的诊断和预期提供巨大的帮助。感兴趣的同学,可以看看AML,也就是急性骨髓性白血病的亚型分类标准,特别是WHO的新标准,还有预期,是否能看懂。
    ! C7 k( g0 p) w( e4 ]# Q3 c

    该用户从未签到

    19#
    发表于 2013-10-11 12:06:48 | 只看该作者
    喜欢喝冰茶 发表于 2013-10-9 10:43
    1 {, z8 s( R( f; s/ k$ n这个帖子里的东西,看起来似乎是一个简单的计算问题,但是却很可能是一场改变人类健康革命的基础。正是由于 ...
    % P/ Q/ X, S+ o. E5 Y: X
    欢迎欢迎。7 {; {: D/ t, |/ `
    ; X; p2 J5 z" x7 Y7 H3 R2 G  k
    如果说硬要分类,这个应该还是属于生物信息学领域吧,在科教学圃应该很对口啊。
    ! V  ]' A& S- P! g9 t. ~8 J7 ^! O% {* a) g0 [7 q
    使用NCBI网站上的BLAST都是10多年前的事情了,一眨眼人都老了。。。2 K! B6 M9 i! q" _3 `

    ) O" X; t+ B; d+ i1 ]关于你下面会介绍的内容,非常期待。很久没有学习这方面的知识了,落伍了,亟待补课9 J+ h' Z: W3 d) k* G, B9 `

    . Q7 d2 ~) o% g* l$ h$ c8 _

    该用户从未签到

    20#
     楼主| 发表于 2013-10-11 23:06:06 | 只看该作者
    chalet 发表于 2013-10-10 22:06
    . W3 x6 w2 X' M7 Q9 b' Q欢迎欢迎。
    8 C* x* V/ u" c% ~
    - k, W0 m6 t+ a! ^3 \3 T  _如果说硬要分类,这个应该还是属于生物信息学领域吧,在科教学圃应该很对口啊。

    + [# \) K; G0 V' b8 Q+ I/ }$ U握握手,看起来也是生物计算的啊,现在在做什么?! N: y( B1 x7 A3 ^4 F& K$ S# B
    . q% J  y& z( k) G4 n
    还没想好怎么写,涉及的范围得控制一下,要不太大了,而且需要用些篇幅介绍一下疾病得复杂性,像癌症,这个得加好多分子遗传方面的科普,否则的话会很难理解分子诊断方面所面临的挑战。( V- V! m7 A/ Q2 }  D* Y& A* ]

    " u. f# S" R1 \+ f3 W: v昨天刚在八卦里贴了一个,http://www.aswetalk.org/bbs/thread-25733-1-1.html,这是一个很好的分子诊断的例子,并且符合现代医学的发展趋势。以后尽可能的在八卦里发一些小东西,最后写的东西应该都能用的上,慢慢来吧。

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-21 07:58 , Processed in 0.084269 second(s), 30 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表