设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 4901|回复: 25
打印 上一主题 下一主题

[信息技术] C++ 提速的新发现

[复制链接]
  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    跳转到指定楼层
    楼主
     楼主| 发表于 2022-9-24 22:54:26 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    C++ 比 Octave 慢好多,怎么破?
    3 G' O- Z. r! n8 d2 Q  U% @, |( r+ X- S, q0 ]9 B1 g. ]
    自相关两层循环,内层循环涉及浮点数计算,试验了一下把内层循环内部全都 comment out 只留个壳子,  但空的内层循环本身就把速度拉下来了,看来问题并不在浮点计算。8 N) V) u, J- l0 _" q( Y

    . _2 z0 K; V! g: X3 U7 A) v速度优化问题真的很有意思啊。
    , s" P3 V4 l! G8 b3 h* A5 u% [: z1 F3 p$ t" t& G/ f5 @) G. z7 M
    欢迎大家继续讨论

    评分

    参与人数 2爱元 +8 收起 理由
    helloworld + 4
    住在乡下 + 4 涨姿势

    查看全部评分

  • TA的每日心情
    开心
    9 分钟前
  • 签到天数: 1854 天

    [LV.Master]无

    沙发
    发表于 2022-9-24 23:04:16 | 只看该作者
    拉下来?拉多少?
    9 v$ g' R. V3 v; F把代码贴上来看看?
    ! x# ~6 }; i% D& K" Y
    - h7 S# T2 ~4 a3 W6 G1 g. _难道分支预测不准破坏流水线执行?不该啊。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
    发表于 2022-9-24 23:15:41 | 只看该作者
    会不会代码本身的缺陷阻止了自动优化?另外,硬件配置和开发环境可能也有关系。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2024-4-22 03:36
  • 签到天数: 120 天

    [LV.7]分神

    地板
    发表于 2022-9-24 23:33:02 | 只看该作者
    Maybe Debug mode?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    5#
     楼主| 发表于 2022-9-24 23:54:10 | 只看该作者
    本帖最后由 雷达 于 2022-9-24 23:57 编辑 / V0 o" x7 h: C. F+ g
    数值分析 发表于 2022-9-24 23:04
    . B. f6 e- ]8 _/ D2 x# B拉下来?拉多少?
    3 {. v& H% b8 M7 q( p把代码贴上来看看?

    8 y1 `. v% f, r
    3 u% \# G* @8 lvoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
    # W* w9 n6 P  }) a) U/ i3 `{7 @- D% L8 r' [, h( \
            comp temp, xtimesy;$ F+ U8 q- \+ @
            xtimesy.re = 0;! U3 s- ]2 O2 r8 N3 m# ?2 a
            xtimesy.im = 0;4 y5 r# r" ~5 q2 w
            int j0 = lenB - 1;% R- I# n. G- @, s
            int    i, j, i1, reali;8 V' O2 X1 @" I9 d, c1 J
            if (lenA % 2 == 1)
    4 q5 N; t- B7 D) x- f                reali = lenA + 1;
    4 B5 ~1 D# F7 U        else: Z7 q! O. H- D4 L- @4 W) _
                    reali = lenA;. T- E7 g) Q& M& c9 F& ?
            reali /= 2;
    3 Z7 A& |$ x& i, m" H; e5 {4 ^* Q% f2 B+ d  F
            int nconv = reali + lenB;! s1 \* K# o2 V: a: Y0 |+ C
            //#pragma omp parallel for
    - p- M( _% I+ s1 a3 W0 h- k; q  U        for (i = reali; i < nconv; i++)( u( g' O0 w. e
            {
      ~8 [( t' H8 f" U                temp.re = 0;* s9 v3 b+ z( W" w/ M/ c5 {' F: A
                    temp.im = 0;5 k3 F: b9 a/ r% u  L
                    i1 = i;
    3 x8 }4 H1 |  W3 ~' a. g                for (j = j0; j >= 0; j--)9 G+ k5 n" B9 f2 m% h0 V1 z
                    {
    1 i0 e: p6 N; s' h. z                        /* floating date operation */
    - p& D9 ~3 D& Y1 U- k' a  W" r  q9 I                }

    3 ?% j. A5 c) K9 S        }
    % E% ?4 g: v$ a* B6 ^}+ ?" @- B% p) ~* m1 z) z+ e
    : _$ N/ j% W- \: Q
    xcorr函数代码如上,comp是复数struct, 做过长度为11、19两个矢量的测试,和octave结果完全一样
    6 i. ]' B# v- E* l$ B+ l$ [) T5 ~, x* g! m' m7 L
    红色部分是内循环,现在其内部操作都comment out 了, j0大概是 6000。) I' T" p% k% |3 u* `
    现在call xcorr 100次,耗时78s.7 E; ~5 W) f, J0 J7 e- u: J
    8 P5 m+ k/ p" n$ e0 Y# j8 N" k
    如果把红色部分内循环本身完全comment out, call xcorr 1000次,耗时 <1s. 7 z4 i; ^* [7 W5 c/ j+ P( [3 D2 F' O
    $ x" `) C' ~2 V* H
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    6#
     楼主| 发表于 2022-9-25 00:17:17 | 只看该作者
    风雨无阻 发表于 2022-9-24 23:330 l( @1 [# ^" A: a/ B, y! u
    Maybe Debug mode?

    % f+ u5 n+ _1 H# M8 ~2 E+ R- }" Y5 A  A6 V
    不应该,看我上面的回复。6 D0 g. x% O/ \
    9 O- L+ g( Z9 k- C
    我更怀疑是 VS 社区版的问题
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 分钟前
  • 签到天数: 1854 天

    [LV.Master]无

    7#
    发表于 2022-9-25 00:20:10 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 00:24 编辑 5 V' @1 C! l: Y: G- @, _
    雷达 发表于 2022-9-24 23:54
    2 w) D5 J) i( K9 P0 Z& Bvoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)  Q# Q0 ~( h4 J4 p4 a2 g* L0 u) _1 j
    {, _4 L$ d1 Z) u# f' W
            comp temp, xtimesy;
    % p4 G. [) r- P$ \$ l% ], n

    5 O1 M" L0 X8 V* ]0 _" O$ Q; {这个不是这么比的吧。。。
    ) C/ j  Y9 S7 o5 m
    - ?3 f, O4 A; n- E. @7 b" A您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    : z2 P7 Q/ n4 H8 i) n
    / \% v0 u4 g, @% g* c) y而加上内循环,光jmp和dec指令就至少多执行了6000个,慢个几十倍不是正常的么?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    8#
     楼主| 发表于 2022-9-25 00:46:56 | 只看该作者
    本帖最后由 雷达 于 2022-9-25 01:09 编辑 6 T( D% U/ J9 y" F- M% b- D
    数值分析 发表于 2022-9-25 00:20
    5 ^0 r" [% ~: `# ~这个不是这么比的吧。。。
    9 x2 P6 I/ N' [/ J8 R5 c+ K
    9 N7 T7 P: _- E) a# x8 e  ^您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。

    , G# [- J) c+ U
    4 V% Y, k+ l/ _2 Z& S7 v有道理。( h; [* N5 i. H( t& z/ c: Z
    所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,记得 numeric 库里有算向量内积的,我回头试试。
    - I& d; {# O. {8 }  P
    ; h' j. w% Q# i( `) o我先尝试尽量用标准库,一个小程序,不想搞得太复杂。多谢了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
    发表于 2022-9-25 01:27:53 | 只看该作者
    雷达 发表于 2022-9-25 00:46
    7 H5 i& I3 r0 a- I; ]有道理。
    / p5 i- l% ], p7 A所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
    + a; u8 g# x0 o/ S+ H8 B& P
    你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子,把循环本身翻译成机器指令loop或dec/jnz,两者速度上会差很多8 H8 l: J) U5 U% I' X- l6 ~+ T5 ]% }
    Why is the loop instruction slow? Couldn't Intel have implemented it efficiently?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    10#
    发表于 2022-9-25 01:48:51 | 只看该作者
    数值分析 发表于 2022-9-25 00:20
    " l6 B$ K9 V" q. \6 N这个不是这么比的吧。。。
    & v$ b2 Y* ?4 k5 h2 Y3 B0 ]
    , U8 p& X4 H) H% S: C! d  P3 ^您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
    而加上内循环,光jmp和dec指令就至少多执行了6000个
    ! B4 b9 I( d+ H, p' `: K9 f% M: ^" L' \- u
    0 U6 m$ K$ T, b* T* \
    现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果循环这样跑,花不了多少时间。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 分钟前
  • 签到天数: 1854 天

    [LV.Master]无

    11#
    发表于 2022-9-25 02:06:44 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 02:16 编辑 % ?0 P1 Z) e  r3 H4 F2 |
    沉宝 发表于 2022-9-25 01:488 G8 T: w/ x+ m7 @
    现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
      V* |# i; \# c+ @* d/ W

    3 O' f6 d9 K5 G$ P/ G是的,兄台说的对。
    * E8 T; k' A) |: m4 f8 Y5 ]
    3 ^  b& ], Y8 y4 B& e/ i9 q* p其实我想说的是 真正数值计算部分和代码中其他不直接计算的overhead的比值这个事儿。& d. t* y' m$ N, I' m: F* ]/ |

    # ^6 ~/ ^( g6 a4 G2 r. z  t雷达兄构造测试用例的时候,屏蔽掉了所有计算的部分,使得剩下的都是overhead,这样run time比较的结果就显得好像不合理了。如果把计算加回去,计算部分的run time会dominate,结果就不那么离谱了。因为不好说,所以用指令数对比的方式试图直观地说明这一点。
    4 k/ B  ~" ?1 L1 D8 W4 h6 Z  ^6 j) d5 W* }1 P+ M$ x, g% Y
    比如说,如果有计算,那么跑六千个循环相对于计算应该用不了多少时间。但是如果一边是什么都不做,另一边是六千个循环,那六千个循环比什么都不做慢几十倍了,就不是那么不合理了。! l0 t. A! l0 z3 ]& \0 h% |

    8 O" k9 z2 M" m: S( Q当然也有可能像兄台说的,是优化参数的问题,但我觉得更多地是测试用例设计的不合理。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    12#
     楼主| 发表于 2022-9-25 04:47:43 | 只看该作者
    本帖最后由 雷达 于 2022-9-25 04:49 编辑 0 X; ?! d5 q  I7 P( S
    沉宝 发表于 2022-9-25 01:27
    + v3 z% G; s8 U( Q你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
    - d0 ~& s; E( y6 U( r
    $ R! x, F: o9 m% M& m' M
    又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差一倍,我上面这个差的太多了。# B& K9 }. Q! i1 x- r# B' z" i

    2 p9 y8 G- c* c2 [/ e我已经完全懵了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    13#
    发表于 2022-9-25 05:51:23 | 只看该作者
    雷达 发表于 2022-9-25 04:474 L" T+ D& Q4 @1 y
    又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
    4 V0 g% V4 h. P
    时间差一倍的结果可以接受。
    % R/ R* a& j- A6 t7 Y7 c" Z4 P3 }. M9 L7 ]
    你还是用profile工具看看吧。现在大家都主观瞎猜。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 分钟前
  • 签到天数: 1854 天

    [LV.Master]无

    14#
    发表于 2022-9-25 14:58:59 | 只看该作者
    本帖最后由 数值分析 于 2022-9-25 15:38 编辑
    6 ~+ v1 l5 f# z% H
    雷达 发表于 2022-9-25 04:47# u: O, O' j$ a" e
    又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
    * r0 ~8 ?" ^. S4 W$ R1 @( [/ @$ q; l
    / t/ y9 x/ w% N7 G/ t; n' {# b

      ?) X& {2 i" }0 Y3 T
    3 S( G' h. F# ?) B2 }能不能把这个也贴上来,看看和上一个有什么不同?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    15#
     楼主| 发表于 2022-9-26 01:30:03 | 只看该作者
    本帖最后由 雷达 于 2022-9-27 01:17 编辑
    8 S3 b# T8 e! V6 w& |6 ~  u. }' i" x1 @
    数值分析 发表于 2022-9-25 14:58; _$ m: y7 S% z; ?8 U# O' @0 _
    能不能把这个也贴上来,看看和上一个有什么不同?

    % V0 q0 L% N; G# y. I% P理了理思路,重新做了一个测试。
    " `) h' i' N# E& ~0 Q做了两个 vector 和 两个 float *, 都长 100000" o2 k0 h9 u5 d# A6 j# Z, V/ u
    外循环 6000,里面先做随机数生成,模拟真实环境,避免数据的 cache.9 P4 D$ L, r) U+ x+ o$ ^

    ( c/ a2 X; u" K- Y3 V内循环试了4种方法,7 w2 e, E3 v+ ]+ [1 m
    1. 直接调用 vector inner_product 247s & C2 V# x  n- Q( x$ D9 Y' |
    2. vector 循环点乘累加 237s1 n# V3 x- n; c- x$ K
    3. float * 循环点乘累加 204s
    0 i0 Q8 K' W$ v9 O4. 空循环 100000 次 202s
    / ^$ V+ K& h3 G! c8 n, }; w3 W" L0 B" B$ d# K
    不做内循环 200s
    5 F# H$ C% R5 Z7 I* ~7 X
    / C; P1 `# a: D7 {% l7 R, ^+ Q  a) Z* j! @你昨天说的对,内循环本身占比是很小的,大头在其他处理。  m/ n& S# k# T. z
    另外可以看到, float * 循环点乘累加 并不差,比用vector 还更快。0 L! ^3 X, R, `% j7 e
    7 Z0 S7 G2 a4 l
    至于我那个原始程序,还有一些疑问,见5楼,其他都不变仅仅是有无空的内循环就有很大不同,这是不对的,也许有一些其他缺陷我没有看到。(也许可以改成 while 试试)
    , l3 E' E- r: W- V
    ( q( Z- A; u" _5 x/ ^(为什么下面我贴的  b1 加 方括号里的 i , 显示出来却是 b1 ?方括号 i 消失了。 LOL . 改成  jj 好了,原来 方括号里的 i 是斜体标志  LOL); Y- }$ d( B( b1 e2 H

    6 \: W  m0 a+ e$ p- \; H, `7 N4 S
            std::vector < float > vec1(N);
    - Q( H+ i$ w( D6 H- p        std::vector < float > vec2(N);- u" P: B# d5 W
            float* b1 = new float[N];
    % w' h/ D- U2 x! n% f; [' A        float* b2 = new float[N];0 K' D4 b) j1 ^$ a: J
    & g( M. B. K- W8 Y+ b; E
            for (int j = 0; j < 6000; j++)
    : K1 n# L8 t( o1 c/ w        {
    0 G2 r  p& `4 o& A                std::generate(vec1.begin(), vec1.end(), []() {
    ) V' v# a( u0 ?5 V9 ~. E                        return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
    0 O3 x& v  Z1 t2 _! j                        });
    ( i) l. k8 F4 M: A
    9 M- l* S1 I0 W# G" l8 {                std::generate(vec2.begin(), vec2.end(), []() {
    ; u( Z& d9 _1 `) ?  A0 x  H: w                        return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;( F6 O; V8 L3 Z" s5 t6 e
                            });: |& r# r8 B- \( X1 h1 a/ d* V

    - ~! `# a) o% j% w$ @# S5 g6 a* r                for (size_t jj = 0; jj < vec1.size(); jj++)9 u. A+ Q, F+ E2 i0 N3 \# E; g
                    {, K  P0 E5 S2 X; W' q
                            b1[jj] = vec1[jj];& x& [, X* n3 ~: D! Q/ T9 ]
                    }! q' M% i4 e, n- D1 f# w  h. E& U7 y

    ; ]) d. E, k$ _& I                for (size_t jj = 0; jj < vec2.size(); jj++): K. P' c& j: C1 Y, X+ w
                    {
    & O5 L) l8 U6 a2 V( v/ C4 _) G                        b2[jj] = vec2[jj];$ J1 h0 l9 T* G
                    }
    " K( [: B, Q1 W* [) i: u
    7 Z! e5 d5 \8 ?: }                //Method - 1  N=100000 247s  1 c" k# ]" S0 l. g0 I
                    //fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
    ' G& h) g' q. X                                - o* a7 S! q/ H% G
                    //Method - 2  N=100000  237s4 [+ F" G4 M; U1 s
                    /*
    $ D) J0 i3 b& D                for (int jj = 0; jj < N ; jj++)
    + M  Z, }# k! y, G. N$ B                {
    : y3 B* W, ]6 S5 W0 F2 F                        fresult += vec1[jj] * vec2[jj];" p, ?4 M* b) l
                    }+ r/ G6 f/ ?( ^8 ^
                    */! J8 t$ F+ d; h' t: F; O
                                    
    + j+ o+ ]+ h& q% Q5 a8 S                //Method - 3  N=100000 204s
    $ ?- G! v) O: M8 ?# s, L2 [+ \                /*
    # b/ ]# x- z5 \" ]                for (int jj = 0; jj < N; jj++)
    3 M( y! ?/ X) K. y                {2 l0 G  o! a0 R4 j' W4 J4 a
                            fresult += b1[jj] * b2[jj];: r# m; U- ^  l  B' h
                    }
    , F! H+ h& v" T  m# O0 U, X- y                */8 q6 \, m3 o$ }0 B6 m8 q* k0 a

    ; [! L" M) @, ~% J                //Method - 4   202s" n% V3 Y3 F5 ?( s
                    /*
    9 _6 [% R& f3 [. Z  P7 y+ T3 {0 J                for (int jj = 0; jj < N; jj++)5 \9 `) y! Q2 `
                    {% e! i+ I, X1 G, E, V6 h
                            
    1 `# F. n, g! U$ r2 C+ a5 l                }
    : R4 K, n. x- U) ^                */
    2 {8 o% a' C& _2 `                //comment out all methods, N=100000  202s                % o: X! V& B) Y6 o
            }& _6 l' [: L. Z# P+ ^
    $ E% r* E3 j) M* Y/ v# P& _
            delete []b1;: {1 C9 F1 \& ?7 f/ N0 ~
            delete []b2;

    0 @' O; q$ i3 Z7 i3 o8 o
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2020-2-8 10:08
  • 签到天数: 2 天

    [LV.1]炼气

    16#
    发表于 2022-9-27 00:15:38 | 只看该作者
    瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?; H/ f2 }9 j% K

    ) s" ]* U6 b4 e0 k, p你第二个试验里面的j在循环里面又重新定义了啊,你确定真的跑了6000次?
    7 [+ ]. k/ ?4 e; y+ R( l& ?2 P( u7 I
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2024-12-25 23:22
  • 签到天数: 1182 天

    [LV.10]大乘

    17#
     楼主| 发表于 2022-9-27 01:16:03 | 只看该作者
    机器猫 发表于 2022-9-27 00:154 n) k9 `4 g- a* D; \' X8 Q
    瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
    0 y/ m, m' \7 l# ?
    , D1 M( w. q9 t你第二个试验里面的j在循环里面又重新定义 ...

    3 Y6 e' i. {& U内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
      n5 ^% N) Y  p) ^; ^( r. r$ E" h" D: G
    不和它较劲了,瞎耽误工夫,我已经转到 ubuntu, 也准备顺便试试 avx2 向量化。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2020-2-8 10:08
  • 签到天数: 2 天

    [LV.1]炼气

    18#
    发表于 2022-9-27 02:06:58 | 只看该作者
    雷达 发表于 2022-9-27 01:16; H; o: K3 D# g! Z4 [
    内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
    + i5 K# M* o0 Y3 ]! `
    - l; R, ?6 f4 @9 Y/ g* q# w) b( M不和它 ...
    1 Y+ Z. M2 [/ l  i0 `: ]4 q# w
    - m# ~! }$ _6 x! U5 m9 a
    不过可以试试我说的register变量。前一个试验j是混在一堆其它变量里一起定义的,很有可能是在stack上,这样内存读写会更多,要是再碰上每次都需要加载cache就更慢了。
    # c5 b; o% B2 H, @! \% G后面一个是在循环那里定义的,说不定编译器就把它优化成register变量了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    19#
    发表于 2022-9-27 07:25:57 | 只看该作者
    一个无关问题,为什么爱坛的帖子里在我这里有好些奇怪的东东在里面,是防拷贝措施吗?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    20#
    发表于 2022-9-27 20:29:50 | 只看该作者
    雷达 发表于 2022-9-24 23:54
    5 J+ k1 \, N2 r& m; qvoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB): j; V9 |' F7 z1 y
    {
    & J$ F. p- L, c% s! y3 H        comp temp, xtimesy;
    & ?' x1 q! m: s/ Z0 k! r2 A
    这个code里面如果Openmp没有被注释掉的话,那么temp那个变量应该是定义在循环里面,否则线程之间会存在争夺写入那个temp的风险。
    . L  h# u/ K2 ^, N# s8 e内层for循环如果没有内部操作的话,编译时应该被优化掉了,和你完全注册掉整个循环是一回事。可能你的编译设置没有打开优化?$ s) o/ d' ~% G
    VS社区版没有问题,我工作用的就是社区版,设置正常的话不会比商业版差。以前游说头头用Intel Compiler,他说不想花钱,而且差不了多少,就一直用到现在。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-4-5 01:35 , Processed in 0.063700 second(s), 24 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表