设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 6273|回复: 25
打印 上一主题 下一主题

[信息技术] C++ 提速的新发现

[复制链接]
  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    跳转到指定楼层
    楼主
     楼主| 发表于 2022-9-24 22:54:26 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    C++ 比 Octave 慢好多,怎么破?, a) [5 a0 I; F& U8 s+ f. C

    : q# y% M; S8 \+ h8 t自相关两层循环,内层循环涉及浮点数计算,试验了一下把内层循环内部全都 comment out 只留个壳子,  但空的内层循环本身就把速度拉下来了,看来问题并不在浮点计算。
    ) N% s; \! h. C3 h7 a; k
    7 X& R% e: k3 m3 r$ |3 }; i速度优化问题真的很有意思啊。
    0 Z+ F6 r2 q! A" O* G
    " Z- n! E# L& k% `欢迎大家继续讨论

    评分

    参与人数 2爱元 +8 收起 理由
    helloworld + 4
    住在乡下 + 4 涨姿势

    查看全部评分

  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1949 天

    [LV.Master]无

    沙发
    发表于 2022-9-24 23:04:16 | 只看该作者
    拉下来?拉多少?8 G; w9 {' n& s8 n
    把代码贴上来看看?
      E* W8 ]5 g8 C; M) j9 E3 x+ }: o7 H$ l- J2 x
    难道分支预测不准破坏流水线执行?不该啊。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
    发表于 2022-9-24 23:15:41 | 只看该作者
    会不会代码本身的缺陷阻止了自动优化?另外,硬件配置和开发环境可能也有关系。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-6-14 10:13
  • 签到天数: 124 天

    [LV.7]分神

    地板
    发表于 2022-9-24 23:33:02 | 只看该作者
    Maybe Debug mode?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    5#
     楼主| 发表于 2022-9-24 23:54:10 | 只看该作者
    本帖最后由 雷达 于 2022-9-24 23:57 编辑
    5 C( j  X5 {+ L" C6 ]; X/ I! z5 G3 j
    数值分析 发表于 2022-9-24 23:045 s8 t9 h: q6 _5 W- p
    拉下来?拉多少?
    0 x. }( d. T# V- `+ G& Y' ~把代码贴上来看看?

    - Z% U1 _: k* k8 e2 i7 A+ ]' C: G5 A) ?+ U3 i
    void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
    4 E0 N* P# [- H" T{
    3 c" ~: `, i* B: u( c! b2 r, t        comp temp, xtimesy;  L% b+ M/ V9 v1 q
            xtimesy.re = 0;9 Y& C; @+ D. W( P2 K2 O
            xtimesy.im = 0;
    + {4 }8 N" ^. Z' c( H$ e% t! ^2 }$ b        int j0 = lenB - 1;) {, O% E: R- z0 V
            int    i, j, i1, reali;
    # Q/ M9 E- O" O, S        if (lenA % 2 == 1). V: G1 ?  X/ L3 F& \* N$ }; H
                    reali = lenA + 1;
    0 G7 [5 i, [2 z0 ]# Z+ |. Z7 N4 O9 c        else( q7 Z# B# d/ w! F# o4 k! t
                    reali = lenA;
    5 c% E- J! J; q& O: Z        reali /= 2;
    + q6 z+ w# d0 |4 V8 Y  Z) S. y+ j+ X+ X, s" W/ l8 g8 X
            int nconv = reali + lenB;
    ; r9 w. V4 H( G        //#pragma omp parallel for4 K& X1 o: [: \- Q) Y! w2 ?1 S, i* {
            for (i = reali; i < nconv; i++); H# O  u. F3 `/ p
            {
    9 E: w7 w  C0 c6 m- d8 S' J- t9 X                temp.re = 0;" M8 a3 [# e# i1 b) N: A1 {2 @
                    temp.im = 0;; ^: V% O4 W8 k3 Z( D
                    i1 = i;7 F6 e% \' P  M) z
                    for (j = j0; j >= 0; j--)
    ( {  w; i2 H' E/ F6 E! }/ H. h                {8 L- P& l/ S8 \$ ?
                            /* floating date operation */# Y* |% b  A2 v9 n) N; }- ^9 J( k
                    }
    ; H- t( L  g' |! Q6 g( L4 v' w
            }
    - V+ o8 l8 B/ M: q}
    - ], g& A/ B3 `  ?# j3 t! o% A! Y: v) [7 |' F* D
    xcorr函数代码如上,comp是复数struct, 做过长度为11、19两个矢量的测试,和octave结果完全一样
    * P. a; @. V7 |3 P' R0 L( B. ^* M) V! w% V- E
    红色部分是内循环,现在其内部操作都comment out 了, j0大概是 6000。
    + d9 G/ a5 r+ ^, p! t. D4 `现在call xcorr 100次,耗时78s.
    0 K% v% i4 Q- s( n& m" j3 g: r- r  @* h, }. d7 S! P* f: U
    如果把红色部分内循环本身完全comment out, call xcorr 1000次,耗时 <1s.
    / J  l- }: F! ], F# H& L% u+ R2 X$ _6 V" \  ]6 a$ |: ]0 C
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    6#
     楼主| 发表于 2022-9-25 00:17:17 | 只看该作者
    风雨无阻 发表于 2022-9-24 23:33
    * I/ {4 U% g* J% H5 O% J& EMaybe Debug mode?
    # g1 s5 B+ F) F" z4 c

    ) |3 ^8 P' x8 T) R8 y6 w% q不应该,看我上面的回复。: `. G( C, o6 _2 M1 h7 L

    ( c6 b/ U* m0 ?7 g8 J我更怀疑是 VS 社区版的问题
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1949 天

    [LV.Master]无

    7#
    发表于 2022-9-25 00:20:10 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 00:24 编辑 ) H. I! P2 k) T4 X7 K; X9 i' m
    雷达 发表于 2022-9-24 23:54
    9 N( r( T; z7 `7 H) s0 dvoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
    # J( f" W) s7 [  ?0 }* B% h5 s{& W8 p# b. Y, h" W/ u( W- k
            comp temp, xtimesy;

    7 T* o; C$ O% L" I; N% b# t: N* X9 J* X: G3 ?# X! I+ D
    这个不是这么比的吧。。。% ]7 Y9 a3 u) M+ J& `# l9 M3 E" }' B
    # T1 d6 {3 r- J
    您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    * o- }/ `  z. y8 G  B
    - h3 z5 f. J9 b" y! r9 C: P而加上内循环,光jmp和dec指令就至少多执行了6000个,慢个几十倍不是正常的么?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    8#
     楼主| 发表于 2022-9-25 00:46:56 | 只看该作者
    本帖最后由 雷达 于 2022-9-25 01:09 编辑
    ( M5 f$ g2 m: }7 y2 |+ |* z
    数值分析 发表于 2022-9-25 00:203 a% G7 v8 W4 i# F/ B
    这个不是这么比的吧。。。% c9 U5 Q" Z1 O. h
    , r7 o6 _  }* U# K3 \
    您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    " A$ [" a$ B7 b4 l
    ) m- m1 ^9 A( @; I- V2 d* [
    有道理。: s- M0 O/ _; w+ B9 G  s6 p8 n" k3 O
    所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,记得 numeric 库里有算向量内积的,我回头试试。
    9 `$ n- Y) b: J3 _2 s! n" J: |
    - m7 x( l( v; p0 q( K我先尝试尽量用标准库,一个小程序,不想搞得太复杂。多谢了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
    发表于 2022-9-25 01:27:53 | 只看该作者
    雷达 发表于 2022-9-25 00:462 O$ ]5 B4 g6 k. l" G2 ~
    有道理。% B" N) U) p6 ^; L
    所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...

    3 U! J. M+ I8 q! g' g# C% f你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子,把循环本身翻译成机器指令loop或dec/jnz,两者速度上会差很多* `& y2 N3 Z4 g2 D
    Why is the loop instruction slow? Couldn't Intel have implemented it efficiently?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    10#
    发表于 2022-9-25 01:48:51 | 只看该作者
    数值分析 发表于 2022-9-25 00:20& X6 c% q0 y- m; Y% ~
    这个不是这么比的吧。。。
    6 j2 Z, C3 _  r; s
    0 }! t1 q, s* K4 u% s您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    而加上内循环,光jmp和dec指令就至少多执行了6000个

    ' H4 z" Q" ]  R
    # k" ~& z% Z  T" y现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果循环这样跑,花不了多少时间。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1949 天

    [LV.Master]无

    11#
    发表于 2022-9-25 02:06:44 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 02:16 编辑 ' k6 q2 E; e7 R. A; i, E- T
    沉宝 发表于 2022-9-25 01:48! y; Y/ W. l' K6 S2 `" ^1 b% T/ y
    现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...

    1 D( |8 P, Q$ t3 P6 ?& Y9 v! x9 a9 u6 I# ?
    是的,兄台说的对。
    7 ^5 s( Y  ]4 ?6 u9 P; g) E9 K7 G
    " W2 W5 o7 h. i! I6 I其实我想说的是 真正数值计算部分和代码中其他不直接计算的overhead的比值这个事儿。2 z% l9 Y* L0 }$ }. M

      b$ n. C, c, W6 i+ i2 i  J( O雷达兄构造测试用例的时候,屏蔽掉了所有计算的部分,使得剩下的都是overhead,这样run time比较的结果就显得好像不合理了。如果把计算加回去,计算部分的run time会dominate,结果就不那么离谱了。因为不好说,所以用指令数对比的方式试图直观地说明这一点。
    & v) J/ g$ a5 }3 d6 `" _  G7 w+ L" J$ [3 P6 r! ]& r
    比如说,如果有计算,那么跑六千个循环相对于计算应该用不了多少时间。但是如果一边是什么都不做,另一边是六千个循环,那六千个循环比什么都不做慢几十倍了,就不是那么不合理了。# B5 v  Z+ V1 }2 i4 N. `( t
    5 L* ^/ G% ~" H
    当然也有可能像兄台说的,是优化参数的问题,但我觉得更多地是测试用例设计的不合理。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    12#
     楼主| 发表于 2022-9-25 04:47:43 | 只看该作者
    本帖最后由 雷达 于 2022-9-25 04:49 编辑 / Z; K( P3 V' R8 l# C
    沉宝 发表于 2022-9-25 01:27
    1 Q9 s6 z- i1 l- ~; z9 {' P你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
    0 i. r) P( r1 g/ v! E% `9 V
    % \9 _9 B0 J, t! i
    又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差一倍,我上面这个差的太多了。
    3 H) x' s# S+ x) E6 d& F- _
    ' j; H" P7 B% A我已经完全懵了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
    发表于 2022-9-25 05:51:23 | 只看该作者
    雷达 发表于 2022-9-25 04:474 Z' @* d& T2 |% n
    又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...

    9 {& V# I" |: |时间差一倍的结果可以接受。$ t/ V4 k% ?% [* Q
    ; _8 Z* r7 t4 t- w+ p9 t3 y" j
    你还是用profile工具看看吧。现在大家都主观瞎猜。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1949 天

    [LV.Master]无

    14#
    发表于 2022-9-25 14:58:59 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 15:38 编辑 & {2 W- @" [, C+ a! z; P+ @5 I
    雷达 发表于 2022-9-25 04:47% S" C) Q( A; ]4 g, N8 `6 n7 X* U
    又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
      y- h* q* V, `. S) F- g2 B

    ! L4 u. l3 b& I  `% j2 s
    / I# y0 ^# Z! S0 t, g
    ! C3 R0 {9 f+ i0 z能不能把这个也贴上来,看看和上一个有什么不同?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    15#
     楼主| 发表于 2022-9-26 01:30:03 | 只看该作者
    本帖最后由 雷达 于 2022-9-27 01:17 编辑
      b" [( _' p. f: z
    数值分析 发表于 2022-9-25 14:585 |% A6 v5 o1 D( G# k2 o
    能不能把这个也贴上来,看看和上一个有什么不同?
    & B5 p0 y0 ~( \1 e- R
    理了理思路,重新做了一个测试。
    " m/ l: y7 a; g# q6 f: `; {做了两个 vector 和 两个 float *, 都长 100000
    * y2 x# I- f) i  @. q9 @% }外循环 6000,里面先做随机数生成,模拟真实环境,避免数据的 cache.
    & R; i; R$ l2 S' ?0 B0 i$ G$ f* Y. L0 J. `5 a6 h4 _
    内循环试了4种方法,7 z4 H" Q* J2 k0 L# Q0 ^% C
    1. 直接调用 vector inner_product 247s 4 Y; i) O7 ~; n# ^; ]* U* h7 C& F
    2. vector 循环点乘累加 237s
    ' o" N7 L: M) `' |; d" F3. float * 循环点乘累加 204s% g- V+ x0 c* s" m: o
    4. 空循环 100000 次 202s
    6 o) s6 v, K/ g# ?* z- K5 s" o
    ; B: f9 p6 ^9 j9 J$ P不做内循环 200s
    0 X: q# |0 z! N8 E% h5 ^9 \( F1 M4 ]- U7 D3 g( _
    你昨天说的对,内循环本身占比是很小的,大头在其他处理。
    8 O$ X+ ^6 E3 \& ?, t! R另外可以看到, float * 循环点乘累加 并不差,比用vector 还更快。
    7 p. y5 P) [! b0 r  K* u: b4 S
    - o8 _4 F1 H0 A至于我那个原始程序,还有一些疑问,见5楼,其他都不变仅仅是有无空的内循环就有很大不同,这是不对的,也许有一些其他缺陷我没有看到。(也许可以改成 while 试试)
    ; _6 J2 b3 [, \3 N: z$ ^3 n& y# G/ X; M5 n' d3 w
    (为什么下面我贴的  b1 加 方括号里的 i , 显示出来却是 b1 ?方括号 i 消失了。 LOL . 改成  jj 好了,原来 方括号里的 i 是斜体标志  LOL)) u! `/ |  {' ?4 w; B

    ! M! o4 {& ~1 \1 B# g; \
            std::vector < float > vec1(N);
    8 E9 e8 w* i3 _! e% x$ ^# X( g: Q  B        std::vector < float > vec2(N);
    ' ?# W/ f! {. g% X2 a  b% |  r        float* b1 = new float[N];
    9 \2 _4 T6 a$ y        float* b2 = new float[N];
    8 Y) l& \3 G2 U7 I3 h; t$ B6 b
            for (int j = 0; j < 6000; j++)8 A( i- V; i  ]* G) P
            {
    + e# i1 U: f  x                std::generate(vec1.begin(), vec1.end(), []() {3 q/ s6 O3 `3 x
                            return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
    % M- ]3 \% T, u: v# h' c  p                        });2 q3 k/ m1 d# r2 U% t) q
    " @5 m9 ~7 p/ l9 a
                    std::generate(vec2.begin(), vec2.end(), []() {
    ; X( c2 h5 a! z                        return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;" Q% D: D. e8 r+ \6 j! _& y! g
                            });
    $ s0 M- N* e) P, J% ]$ Y
    / a: w& V0 y$ Y3 m0 t2 i                for (size_t jj = 0; jj < vec1.size(); jj++)
    ( L( F7 X6 S& o( U$ I                {
    ( q8 g; B! e$ t* v$ s, b- v                        b1[jj] = vec1[jj];
    , d, ?1 u  d) k                }: d2 a3 v) C# H: w: M2 S* G
    6 }, w+ r# L' c! k( h
                    for (size_t jj = 0; jj < vec2.size(); jj++)8 b& {  W! ^/ k& w5 X; }6 {! R
                    {
    ! ]7 g1 A; H  V                        b2[jj] = vec2[jj];& v# E9 Z+ o. e. B' p
                    }/ ^+ v) V- T7 a8 \) s4 c

    + Z6 u- F% Z. k9 v: E                //Method - 1  N=100000 247s  
    - u  E# e" d$ J" x) O0 j                //fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
    , g8 l5 U/ x! L, x2 _                                $ C7 I* ?; o4 S2 C# r$ J8 O8 E* n
                    //Method - 2  N=100000  237s5 Q2 M. c( k8 J" j$ R7 y
                    /*
    $ j/ w; t5 H, _$ ]' u7 Q. ?& x                for (int jj = 0; jj < N ; jj++)
    4 t; j: G" i' S) f( D7 f0 U                {8 L- O* F  r& `: P! q/ a
                            fresult += vec1[jj] * vec2[jj];' X- G  @4 u/ Y4 E9 R% t" S
                    }3 M. x4 C; N* {) {- d: N& f& S) K* H
                    */
    % l4 U  I. ?: o+ ^! a! b                                
    : I! D+ s2 K+ \& f  Z1 K                //Method - 3  N=100000 204s/ L/ Z( f  l8 T, {+ i9 L. B" w
                    /*5 G! N% ?* v& a7 D$ o/ O, z7 |
                    for (int jj = 0; jj < N; jj++)
    / X' A# g3 O! A) a+ y' [  ]+ T                {' M" r8 \8 C9 G6 Y6 a% G, X$ F6 ]
                            fresult += b1[jj] * b2[jj];& X  C! D5 ?; s! U3 l
                    }: G8 F6 b9 z: w: {+ a- w# `, I
                    */
    ; {1 S% o2 c+ h4 z
    . w8 g' h& a7 U/ D1 J; K& i                //Method - 4   202s% x0 [2 U, s9 a# }- Q9 X
                    /*, E, ?: f8 m5 h, `+ O+ U# T- \' g, F
                    for (int jj = 0; jj < N; jj++)$ N* q# R3 J8 C& M( I3 Z
                    {
    # \/ a) _6 C% v) `- A1 U; f                        ! e0 q# S; P1 T4 j- T' i
                    }
    ; C) k. G8 s6 s                */" G4 t- _9 {5 z) q9 ]' V6 I
                    //comment out all methods, N=100000  202s                ' j/ g; Q+ i1 }% v+ a5 U# U
            }3 E7 k" V0 l/ V3 e' t0 n; H
    . A; Y/ u) T( w7 X( j
            delete []b1;
    * m+ f- O" q/ j4 f        delete []b2;

    6 E+ o  D) z9 U/ B- C) u
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2020-2-8 10:08
  • 签到天数: 2 天

    [LV.1]炼气

    16#
    发表于 2022-9-27 00:15:38 | 只看该作者
    瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?6 j! v# U" w6 X7 Q
      P5 u0 b1 }: i4 N& H
    你第二个试验里面的j在循环里面又重新定义了啊,你确定真的跑了6000次?
      q& s$ W: k0 j5 t  j
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2025-9-22 22:19
  • 签到天数: 1183 天

    [LV.10]大乘

    17#
     楼主| 发表于 2022-9-27 01:16:03 | 只看该作者
    机器猫 发表于 2022-9-27 00:15& C' N9 M4 N" e" O9 e1 |0 [) v
    瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
    6 T6 x8 D! @% e  y  u* @: }& w; g
    6 j4 d6 y. u- ?8 P你第二个试验里面的j在循环里面又重新定义 ...

    7 A/ A. s  K# D. p' s内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL( d/ y8 n5 w& C6 z8 Y

    2 l) J( [% F) v0 U! M  d. s不和它较劲了,瞎耽误工夫,我已经转到 ubuntu, 也准备顺便试试 avx2 向量化。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2020-2-8 10:08
  • 签到天数: 2 天

    [LV.1]炼气

    18#
    发表于 2022-9-27 02:06:58 | 只看该作者
    雷达 发表于 2022-9-27 01:16
    1 j& _5 G. f6 Z( E% D% j内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
    ) ?' h* @7 Q+ y/ |1 l; X
    , U5 d; f  A9 p不和它 ...
    ( N$ o& \! j8 w( f4 `
    + r& ^1 H- Y& X) u7 s) ^
    不过可以试试我说的register变量。前一个试验j是混在一堆其它变量里一起定义的,很有可能是在stack上,这样内存读写会更多,要是再碰上每次都需要加载cache就更慢了。0 V# O. g6 U8 n, Z# a- T" I
    后面一个是在循环那里定义的,说不定编译器就把它优化成register变量了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    19#
    发表于 2022-9-27 07:25:57 | 只看该作者
    一个无关问题,为什么爱坛的帖子里在我这里有好些奇怪的东东在里面,是防拷贝措施吗?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    20#
    发表于 2022-9-27 20:29:50 | 只看该作者
    雷达 发表于 2022-9-24 23:54
    + L8 x: |% ^# ~void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)7 o2 V1 T' _, v! w' S7 r
    {' Q7 m! A8 {* {9 X' m5 Y
            comp temp, xtimesy;

    ! ?6 F, M9 e0 o( w这个code里面如果Openmp没有被注释掉的话,那么temp那个变量应该是定义在循环里面,否则线程之间会存在争夺写入那个temp的风险。
    * H- F4 w0 w6 N8 c内层for循环如果没有内部操作的话,编译时应该被优化掉了,和你完全注册掉整个循环是一回事。可能你的编译设置没有打开优化?/ U; B+ k  w2 N/ r( ~" Z: J8 Y3 |
    VS社区版没有问题,我工作用的就是社区版,设置正常的话不会比商业版差。以前游说头头用Intel Compiler,他说不想花钱,而且差不了多少,就一直用到现在。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-21 15:22 , Processed in 0.048229 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表