NOI 系列赛常见技术问题整理

StudyingFather

2021-09-01 21:09:05

Personal

今天起，全新的 NOI Linux 2 正式替代了旧版 NOI Linux，成为 NOI 系列赛的官方比赛环境。每年比赛开始前，都有不少人在讨论区提问比赛技术问题，常常存在重复提问，回答不准确的情况，因此我通过搜索，找出大家关心的问题，将问题与解答整理于此，以供参考。欢迎补充，也欢迎捉虫。 ## 0 免责声明 - 本文信息来源于 NOI 官网公布的正在实施的技术规范，一些选手的实践经验，向 NOI 技术委员会询问得到的回复等，并进行了一定整理和加工，以供各位参赛选手参考。 - 本文**不应**被视为对 NOI 官网公布的技术规范的官方解读，官方规范的最终解释权归属 NOI 科学委员会，虽然作者在编写本文时已经尽到最大努力进行查证与测试，但**不保证**本文的内容完全准确。对于规范中未作出明确规定，不确定性较大的内容，将会用*斜体*进行标注。 ## 1 系统配置情况 NOI Linux 2.0 是基于 Ubuntu 20.04 LTS 定制而成的系统，为 **64 位** 系统。系统内自带 g++ 编译器，版本 9.3.0（编译时如果未指明语言标准，默认采用 **C++14 标准**），另外有 Python 2.7 和 3.8，虽然 Python 并非竞赛语言，但可以使用 Python 编写一些辅助性程序（如数据生成器，对拍器等）。评测时，程序使用的内存大小 **按声明的内存空间计算**。开过大的全局数组会导致所有测试点 MLE 而获得零分。 IDE 有 Code::Blocks，Geany。编辑器有 VS Code（安装了 C++ 扩展，但组件不完整，另外无简体中文翻译包），Vim，Emacs，gedit，Sublime Text 3 等。 ## 2 NOI 技术规范摘抄将现有的技术规范简单整理后做了份简明，方便理解的版本。后文提到的不少内容都可以在该规范中找到对应的要点。请仔细阅读并理解这部分内容后，再阅读下面的部分。不清楚这部分的内容导致的盲目提问可能会给您带来不必要的尴尬。 1. 对于一道题目，选手只应该提交一个扩展名为 `.cpp` 的源文件，且其大小不应超过 100 KB，不应使用自己编写的头文件。（2022 年起全部 NOI 系列赛均只能使用 C++ 语言） 2. 选手程序应正常结束，`main` 函数的返回值为 0。 3. 选手程序不应执行如下违规操作： - 试图访问网络 - 使用 fork、exec、system 或其它线程/进程生成函数 - 打开或创建题目规定的输入/输出文件之外的其它文件和目录 - 运行其它程序 - 改变文件系统的访问权限 - 读写文件系统的管理信息 - 使用除读写规定的输入/输出文件之外的其它系统调用 - 捕获和处理鼠标和键盘的输入消息 - 读写计算机的输入/输出端口 4. 在不违反 3 的前提下，选手可以自由使用以下划线开头的宏和函数。 5. 禁止使用内嵌汇编。 6. 禁止更改评测时使用的编译选项。 ## 3 我能在代码中使用...吗？ - `bits/stdc++.h`：可以使用。 - 需要注意这样会将所有头文件引入，会增大标识符冲突的风险。如何解决这一问题见后文。 - `#define int long long`：**不推荐**。一方面，标准指出，不能对关键字进行 `#define` 操作，否则行为未定义；另一方面，从语义上说，`int` 在标准中代表 32 位整数类型，将其强行赋予 `long long` 的含义会造成认识上的混淆（例如，使用 `scanf` 和 `printf` 的时候可能搞错使用 `%d` 还是 `%lld`）。 - 如果觉得 `long long` 太长的话，可以用 `using` 语句或 `typedef` 语句给其赋予一个较短的别名，例如 `using i64 = long long`，`typedef long long i64` 等。 - `__int128`：现在的系统是 64 位系统，因此可以使用。需要注意的是 `__int128` 并不能直接使用 cin/cout，scanf/printf 进行输入输出，需要手写输入输出函数（类似于快读快输）。~~另外使用 `__int128` 真的就能完全避开高精度吗？~~ - `ios::sync_with_stdio(false)`：可以使用。但需要注意： - 关闭流同步后不应混用 C 风格 IO（`scanf/printf/getchar/putchar` 等）和 C++ 风格 IO（`cin/cout` 等）。 - **推荐**在程序最后刷新缓冲区（原因见后文）。 - `fclose()`：没有必要。程序结束时的清理工作包括关闭输入输出。 - 如果关闭了流同步，在没有刷新缓冲区（`std::endl` 等）的情况下应用 `fclose()`，可能会导致程序没有输出！ - `fread()`：可以使用。 - `__gcd()`，`__builtin_clz()` 等一部分下划线开头函数：可以使用（因为没有被禁止的操作）。 - 标准库函数 `gcd()` 在 C++17 标准中被加入。 - `gets()`：因为存在缓冲区溢出的问题，已经于 C++11 中被弃用，C++14 中被废除。可以使用 `fgets()` 替代。 - `itoa()`：不是标准库中的函数。是否能使用取决于 NOI Linux 环境下能否正常编译。 - 在代码中手动开启 `-O2` 等优化选项：不可以。评测时只能按照 PDF 首页给出的编译选项编译程序，擅自更改编译选项属于违例。 - 指令集：不可以。理由同上。 - `exit(0)`：与 `main()` 函数最后 `return 0;` 效果一致，因此可以使用。 - 标准规定，即使 `main()` 函数最后不显式写 `return 0;`，不影响程序正常退出时返回零值。 - `pb_ds`：*可以使用*（有人发邮件询问过）。 - 无序关联式容器：C++11 起可以直接使用。需要注意它们的最坏复杂度是线性的。 - 基于范围的 `for` 循环：C++11 起可以使用。 - `auto` 类型说明符：C++11 起可以使用。 - `std::tuple`：C++11 起可以使用。 - `std::array`：C++11 起可以使用。 - 结构化绑定：C++17 起可以使用。是否能使用取决于 NOI Linux 下环境下能否正常编译。 - 多线程：不能使用。 - `register`：C++11 起被弃用，C++17 起被移除。因此 C++11 后使用它不会造成任何优化效果。 - 列表初始化：C++11 起可以使用。需要注意的是 Windows 下部分编译器在使用 C++11 以前标准编译使用列表初始化的程序时，只给出警告而无错误。更推荐的做法是使用构造函数。 - 随机函数：没有限制。但 `random_shuffle` 已经于 C++14 起被弃用，C++17 起被移除。C++11 以后可以使用 `shuffle` 函数替代。另外有关随机化造成的评测结果波动引发的申诉，按规定将不被接受。 - 需要注意，Windows 环境下的 `rand()` 返回 16 位整数（$0 \sim 2^{15}-1$），Linux 环境下的 `rand()` 返回 32 位整数（$0 \sim 2^{31}-1$）。 ## 4 比赛系统的使用考虑到有不少选手不熟悉 Linux 系统，还有不少地方仍然使用 Windows 作为比赛环境，因此特开辟一个板块，讲解 Linux 与 Windows 的相关使用技巧。有关 Linux 和 Windows 下命令行使用的相关技巧，[OI Wiki](https://oi-wiki.org/tools/cmd/) 讲述得非常详细，这里主要是介绍命令行使用以外的一些注意事项。 ### 4.1 更改栈空间一般来说，评测时的栈空间限制等于内存限制。但系统默认的栈空间往往较小，有时会出现官方评测时正常运行，而本地测试时爆栈的情况。这时候就需要对栈空间进行更改。在 Linux 系统下，由 `ulimit` 对程序使用的资源进行限制。在终端下输入 `ulimit -s <num>` 可以将栈空间更改为 `num` KiB（如 `ulimit -s 262144` 可以将栈空间改为 256 MiB），`ulimit -s unlimited` 可以将栈空间改为无限制。`ulimit -a` 可以查看各项资源的限制情况。 `ulimit` 还能对 CPU 时间（`-t`），内存（`-v`）等资源进行限制，调整限制的方法与调整栈空间限制的方法相似。需要注意的是，`ulimit` 对包括栈空间在内的资源限制的配置仅在 **当前终端** 下有效。对于 Windows 系统，栈空间在程序编译时确定，准确来说，由连接器来处理栈空间的大小问题。在编译时添加如下参数 `-Wl,--stack=<num>` 可以将栈大小改为 `num` Byte（如 `-Wl,--stack=268435456` 将栈空间确定为 256 MiB）。如果使用 Dev-C++ 编写代码的话，点击“工具”一栏下的“编译选项”，在弹出的编译选项设置对话框中选择“编译器”一栏，在“在连接器命令行加入如下命令”下的文本框添加上述编译参数（添加时记得和已有的编译参数之间用一个空格隔开），就能在编译时实现同样的效果了。 ### 4.2 Windows 下查看样例文件一般情况下，考场下发的样例文件是 Linux 格式的（换行为 `\n`），而 Windows 下的换行为 `\r\n`，因此如果在 Windows 下用记事本打开样例文件，因为无法正确识别换行的原因，样例会无法正常显示（可能表现为无换行，换行符被黑矩形字符代替等）。使用 VS Code 等高级编辑器可以有效解决这一问题（还能实现换行格式的转换）。当然如果没有提供 VS Code 的话，也可以用系统自带的写字板。当然这只是解决了显示问题，如果你尝试在写字板打开文件后，将输入直接复制到命令行，你可能会发现还是不能正常读入。正确的方法是在代码中添加重定向/文件流，或者在命令行中使用管道。 ## 5 代码编写疑难解答 ### 5.1 数组越界的检测 C++ 的原生数组并无任何数组越界的检查机制，越界访问属于未定义行为，可能会导致信息的意外修改，访问被保护的内存导致程序非零返回值终止等结果。数组越界如果不引发程序 RE，将会给调试带来非常大的麻烦。如果能在运行时检查此类错误，将会有效减少 FST 的发生。好消息是，`std::array` 和 `std::vector` 都提供了实用的越界检查功能，使用 `at(pos)` 成员函数，与直接使用下标运算符（`[pos]`）相比，会先进行越界检查，如果发现越界则直接终止程序。不可避免地，使用越界检查功能会对程序效率有一定影响，这一点也请注意。关于原生数组的运行时越界检测，在下一节“未定义行为的检测”会详细提到。 ### 5.2 未定义行为的检测（关于未定义行为的定义与示例，可以参考 [[洛谷日报#265]关于 C++ 未定义行为的一些事](https://www.luogu.com.cn/blog/StudyingFather/undefined-behavior)）在编译时打开全部警告（添加参数 `-Wall`）可以捕捉一部分未定义行为，不过由于该过程在编译时进行，并不是所有的未定义行为都能被检测出来。如果使用 Linux 系统，且编译器版本较高（NOI Linux 2.0 可以使用！），可以使用 Sanitizer 实现运行时未定义行为及内存错误的检测。在编译时加入参数 `-fsanitize=undefined` 即可开启 Undefined Behavior Sanitizer。其会在运行时检测代码中是否出现数组越界，带符号整数溢出等未定义行为，如果有，则会输出错误信息。需要注意的是，`std::vector` 的越界并不会被 Undefined Behavior Sanitizer 检测到，需要用前文提到的 `at` 成员函数来检测。例如，下面是一个带符号整数溢出的程序： ```cpp #include <iostream> using namespace std; int main() { int x = 2147483647; x++; cout << x << endl; return 0; } ``` 运行后会得到如下输出： ```plain a.cpp:5:4: runtime error: signed integer overflow: 2147483647 + 1 cannot be represented in type 'int' ``` 对于习惯使用指针的选手，Address Sanitizer 提供了一系列内存错误检测的手段，可以检测出解引用无效指针，空间重复释放等问题。在编译时使用 `-fsanitize=address` 即可开启 Address Sanitizer。下面是一个解引用无效指针的程序。 ```cpp #include <iostream> using namespace std; int main() { int *ptr = (int*)0x12345678; cout << *ptr << endl; return 0; } ``` 运行后得到的输出如下： ```plain AddressSanitizer:DEADLYSIGNAL ================================================================= ==2613==ERROR: AddressSanitizer: SEGV on unknown address 0x000012345678 (pc 0x55fbd6ca12d8 bp 0x7ffc42bc00a0 sp 0x7ffc42bc0090 T0) ==2613==The signal is caused by a READ memory access. #0 0x55fbd6ca12d7 in main /home/friend/a.cpp:5 #1 0x7fa1d8c380b2 in __libc_start_main (/lib/x86_64-linux-gnu/libc.so.6+0x270b2) #2 0x55fbd6ca11cd in _start (/home/friend/a+0x11cd) AddressSanitizer can not provide additional info. ``` Sanitizer 的使用会带来额外的时间开销，因此在测试程序运行效率时请不要使用 `-fsanitize` 系列选项。 ### 5.3 标识符未导入 / 标识符冲突的解决方案（该部分内容参考了 LCA 写的 [如何在不提供 NOIlinux 2.0 环境的考点避免编译错误](https://loj.ac/d/3422)，在此表示感谢！）由于运行环境差异，在本机正常编译的情况下，评测环境可能会出现找不到标识符或标识符冲突的问题。一般来说，万能头文件 `bits/stdc++.h` 包含了 C++ 标准库的全部头文件，只需要在代码中包含该头文件，再加上 `using namespace std;`，就能避免标识符未定义的问题。然而，这么做之后，就会将标准库的全部标识符都导入到文件中，增大了标识符冲突的风险。为解决标识符冲突问题，只需要将所有代码均包裹在一个命名空间（`namespace`）即可。 ```cpp #include <bits/stdc++.h> using namespace std; namespace solve { // 定义其他变量，函数和结构体类型 void main() { } } int main() { solve::main(); return 0; } ``` 依据“就近原则”，在 `solve` 命名空间中查找一个标识符时，`solve` 命名空间中定义的标识符较 `std` 中定义的标识符更先被找到，从而避免了标识符冲突。解决了标识符冲突后，就可以放心大胆地使用万能头文件了。如果你不能记清楚所有的头文件的话，万能头文件确实是个不错的选择。需要注意的是，即使不使用 `using namespace std;` 导入整个 `std` 命名空间，而是只使用 `using std::xxx;` 导入部分需要的标识符，也不能完全避免标识符冲突。这是因为一些继承自 C 的头文件（文件名一般是 `c` 加原头文件名，并去掉 `.h`），为兼容需要，其中标识符不需要加 `std::` 前缀仍然能访问。 ## 参见 - [[洛谷日报#86]OIer 必知的编程技巧](https://www.luogu.com.cn/blog/StudyingFather/some-coding-tips-for-oiers)（2018 年的文章，部分内容可能已经过时） - [[洛谷日报#265]关于 C++ 未定义行为的一些事](https://www.luogu.com.cn/blog/StudyingFather/undefined-behavior) - [命令行 - OI Wiki](https://oi-wiki.org/tools/cmd/)