百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

程序员的噩梦:用C/C++把UTC时间转成UNIX时间戳竟然这么难?

haoteby 2025-02-08 11:06 18 浏览

时间处理在编程中看似平常,却隐藏着无数坑点。本文作者以 C 或 C++ 中将 UTC 时间字符串转换为 UNIX 时间戳为例,分享其中的难点以及最优解决方案

原文链接:
https://berthub.eu/articles/posts/how-to-get-a-unix-epoch-from-a-utc-date-time-string/

作者 | bert hubert 翻译 | 苏宓
出品 | CSDN(ID:CSDNnews)

要将「Fri, 17 Jan 2025 06:07:07」UTC 这样的时间字符串转换为 1737094027(一个从 1970-01-01 00:00:00 UTC 开始的秒数表示,虽然只是理论上的秒数,并不完全准确),看起来似乎不难。

但实际上,真正尝试完成这个操作时会发现,POSIX 时间处理函数在各种 C 库及其衍生语言中隐藏着许多让人意想不到的“特性”和不符合直觉的行为。尽管 C 和 UNIX 世界有许多优秀的设计,但时间处理显然不是其中之一。

然而,仍有一些可行性方法存在。在探讨具体方法之前,先提供一些背景知识。

快速解读(TL;DR):

1.避免调用 setlocale():如果你从不调用 setlocale(),那么可以直接使用 strptime() 来解析 UTC 时间字符串。

2.避免 %z 或 %Z 格式符:解析时请勿使用这两个格式符。

3.转换为 UNIX 时间戳:将 strptime() 解析后生成的 struct tm 结构体传递给 timegm()(在 Windows 上使用 mkgmtime()),即可得到对应的 UNIX 时间戳。

4.如果使用了 setlocale(),需要更复杂的处理:具体解决方案在下文中会有解释。

5. C++ 提供了更好的时间处理支持,这也可以从 C 中借用。

时间点的复杂性

即便忽略闰秒和广义相对论的影响,时间本身就足够复杂了。当我们将人类的行为和政治因素引入时间处理时,事情会变得异常棘手。

例如,在阿姆斯特丹,“2025 年 3 月 30 日 02:20”这个时间点在当地根本就不存在:

$ TZ=Europe/Amsterdam date -d '20250330 01:59:59'Sun Mar 30 01:59:59 AM CET 2025$ TZ=Europe/Amsterdam date -d '20250330 02:30:00'date: invalid date ‘20250330 02:30:00’

这点至少是明确的。由于夏令时的切换,时间会直接从 01:59:59 跳到 03:00:00。因此,工具无法解析“02:30:00”,因为在那一天的阿姆斯特丹,这个时间点根本不存在。

但对于“2024年10月27日 02:30”这个时间点,情况变得更加难以解释。因为夏令时的结束,在 02:59:59 的下一秒,时间会重新变为 02:00:00。这意味着当地会出现两个都被称为“02:00”的时间点。而我们的工具在处理这种情况时开始做出一些看似任意的选择:

$ TZ=Europe/Amsterdam date -d '20241027 01:59:59' +"%Y-%m-%d %H:%M:%S %s %z"2024-10-27 01:59:59 1729987199 +0200$ TZ=Europe/Amsterdam date -d '20241027 02:00:00' +"%Y-%m-%d %H:%M:%S %s %z"2024-10-27 02:00:00 1729990800 +0100

你看,当解析 02:00:00 时,我使用的 GNU date 工具选择了第二个出现的时间点。据我观察,这可能是因为我在一月份运行了这个命令。如果在四月份运行,它可能会选择第一个 02:00:00 实例。是不是让人有些搞不懂?

POSIX 的时间概念

最有用的时间表示方式,毫无疑问是用某个已知“纪元”(epoch)之后或之前的秒数来指定时间点。例如:

  • POSIX/Unix 的纪元是 1970-01-01 00:00:00 UTC

  • GPS 的纪元是 1980-01-06 00:00:00 UTC

  • Galileo(“欧盟版 GPS”)的纪元是 1999-08-21 23:59:47 UTC

  • 北斗系统的起始历元是 2006-01-01 00:00:00 UTC

GPS、Galileo 和北斗系统明智地忽略了闰秒,将这些问题留给人类去处理。

但是,我们偏爱 POSIX/Unix 的 time_t 是有充分理由的。它几乎不会有任何歧义,除了在闰秒期间——而闰秒可能再也不会出现了。

然而,人类难以理解诸如 1737214750 这样的数字。因此,我们需要将时间戳与包含月份等复杂概念的“人类友好”时间表示相互转换。为此,UNIX 提供了 struct tm,用于存储“细分时间”:

struct tm { int tm_sec; /* Seconds [0, 60] */ int tm_min; /* Minutes [0, 59] */ int tm_hour; /* Hour [0, 23] */ int tm_mday; /* Day of the month [1, 31] */ int tm_mon; /* Month [0, 11] (January = 0) */ int tm_year; /* Year minus 1900 */ int tm_wday; /* Day of the week [0, 6] (Sunday = 0) */ int tm_yday; /* Day of the year [0, 365] (Jan/01 = 0) */ int tm_isdst; /* Daylight savings flag */ long tm_gmtoff; /* Seconds East of UTC */ const char *tm_zone; /* Timezone abbreviation */};

标准规定 struct tm 至少要包含这些字段,但实现中可能还会有其他字段。

然而,现在这个结构体显然是“过度定义”的。例如,星期几(tm_wday)和每年的第几天(tm_yday)完全可以从其他字段推导出来。而 tm_gmtoff、tm_zone 和 tm_isdst 的意义定义不明确,使用时往往会造成困惑。

有趣的是,苏联的 GLONASS 卫星导航系统并没有采用纪元时间戳的方法,而是基于“莫斯科标准时间”的 struct tm,包括闰秒。这种设计据说引发了许多问题,也算是“自作自受”。

struct tm 的一个重要用途是作为 mktime() 的输入。mktime() 的部分功能是将“根据你当地时区的细分时间”转换为 UNIX 时间戳(epoch 时间戳)。然而,mktime() 的作用远不止于此!

根据 Linux 的 glibc 手册页,mktime() 的描述相当模糊。而 IEEE Std 1003.1-2024 规范则用了更多(令人泄气的)文字来解释它。

mktime() 不会处理 tm_gmtoff 或 tm_zone。其输入仅限于:tm_year、tm_mon、tm_mday、tm_hour、tm_min、tm_sec 和 tm_isdst。tm_isdst 也有特殊处理的情况,譬如 tm_isdst 可以设置为负值,表示让 mktime() 自动判断指定时间是否处于夏令时。

如上所述,时间问题其实在现实中很复杂。例如,如果想将日期调整一周,你可以简单地向 time_t 时间戳添加 604800秒。但如果这种调整跨越了夏令时边界,你的下午两点约会可能会变成下一周的下午一点或三点。这显然不是人类期望的结果。

mktime() 不仅返回一个 time_t 值,还会规范化传入的 struct tm。截至 2024 年,关于如何规范化的规则已经明确。例如,要计算“下一周的同一时间”,可以将当前时间加上 7 天(tm.tm_mday += 7),然后再次调用 mktime()。即使你构造出了一个像“3月35日”这样的日期,mktime() 也会将其修正为有效日期。

然而,当我们实际这样做时,却发现它不起作用:

struct tm tm = {.tm_hour=14, .tm_mday = 28, .tm_mon = 2, .tm_year = 2025 - 1900, .tm_isdst = -1}; // <- NOTE the -1
time_t t = mktime(&tm);cout << "original: "<< ctime(&t);
tm.tm_mday += 7;t = mktime(&tm);
cout << "mktime adjusted: "<< ctime(&t);

在欧洲/阿姆斯特丹时区,这段代码输出:

original: Fri Mar 28 14:00:00 2025mktime adjusted: Fri Apr 4 15:00:00 2025

为什么预约时间发生了 1 小时的偏移?问题实则出在 tm.tm_isdst 身上。

mktime() 的设计要求开发者明确指定时间是否处于夏令时状态,或者将这一决定交由 mktime() 自动判断(通过设置 tm_isdst = -1)。

在第一次调用 mktime() 时,系统检测到时间不处于夏令时,因此将 tm_isdst 设置为 0。但第二次调用时,这一状态未被清除,尽管新的目标时间实际上处于夏令时中。这导致了错误的调整结果。

所以在第二次调用 mktime() 之前,重置 tm_isdst 为 -1:

tm.tm_isdst = -1;

这样可以避免偏移问题,并正确调整预约时间。

解析 UTC 时间

现在,mktime() 会将你传递的时间解释为“本地时间”。这意味着在处理 UTC 时间之前,你应该将时区设置为 UTC。但如果你的应用程序中有其他线程运行,修改整个应用程序的时区可能会带来副作用。不过,如果没有其他线程,你可以这么做。

更新:有人指出,多线程程序无法修改环境变量。因此,这个方法就无效了。

有一个非标准/预标准的函数广泛可用,它可以显著改善处理 UTC 的情况。根据《IEEE Std 1003.1-2024》:

“未来版本的标准预计会新增一个 timegm() 函数,它与 mktime() 类似,但由 timeptr 指向的 tm 结构包含以协调世界时 (UTC) 表示的分解时间。”

为了解析 UTC 中的分解时间,推荐使用 timegm(),而不是修改 TZ 环境变量。在 Windows 上,timegm() 被称为 mkgmtime()。如果你使用的是 AIX(唯一不支持 timegm() 的平台),可以找到一个独立的实现版本。

总结:

1.当对本地时间使用 mktime() 时,将 tm_isdst 设置为 -1,这通常是“人类”期望的。否则可能会在夏令时切换时返回随机的两个时间点之一(如“02:30”)。

2.填写 struct tm 时,确保先将其他字段清零。

3.注意,mktime() 会修改传入的 struct tm,可能产生副作用。在重用之前至少重置 tm_isdst。

4.无论对 tm_gmtoff 或 tm_zone 做了什么,mktime() 都会使用当前时区。如果希望将 struct tm 解释为 UTC,需要设置 TZ 环境变量为 UTC,但这会影响其他线程的时间操作。

5.更简单的做法:直接使用 timegm() 或 mkgmtime()。

但是,我们该如何将时间字符串转换为 struct tm?

解析时间字符串

理想情况下,我们希望能将 Fri, 17 Jan 2025 06:07:07 GMT 输入到 strptime() 中,并得到一个有效的 struct tm。

但根据 Linux glibc 的 strptime() 手册页描述,关于 %z 和 %Z 时区格式说明符的行为是含糊的:

出于对称性的考虑,glibc 尝试让 strptime() 支持与 strftime() 相同的格式字符。(在大多数情况下,相应的字段会被解析,但 tm 中的字段可能不会被更改。)

现在,我们的目标是将 UTC 时间字符串转换为 UNIX 时间戳。许多人可能希望通过 %Z 解析 GMT 后,再用 mktime() 达到目的。

但我们之前了解到,mktime() 根本不处理 tm_gmtoffset 或 tm_zone,因此即使 strptime() 能正确解析时区信息,也没有任何作用。而事实是,它也解析不对。

截至 2024 年,Open Group 的规范对 strptime() 提供了明确的说明,提到了当前实现中的各种问题与不足。例如:

  • %z 的行为没有明确规定,解析类似 +0200 的偏移量通常不会奏效。

  • %Z 的作用非常有限,仅在某些情况下有效。如果你的地区时区有 DST 标识符(例如 CEST)与常规时区(例如 CET)不同,并且 %Z 解析到了其中一个,它可能会为您正确设置 tm_isdst,但也可能不行(特别是如果你住在爱尔兰)。

一般来说,解析像 EST 这样的字符串毫无意义,因为它并无明确含义,仅在本地可能有用。

幸运的是,由于我们可以通过 gmtime() 获取 UTC 时间,完全可以忽略 %z 和 %Z,它们并不是必须的。

strptime 的语言环境问题

通常情况下,我们希望解析包含英文日期和月份名称的时间字符串,并希望 strptime() 能处理这些情况。然而,IEEE/Open Group 标准明确指出:

“这些转换是根据当前语言环境的 LC_TIME 类别决定的。”

糟糕。我以前并不知道,除非特别设置,C 和 C++ 程序会默认使用 “C” 语言环境,这实际上等同于美式英语。这意味着默认情况下,所有 LC_TIME 等环境变量都会被忽略。这对解析大多数以英文表示的时间字符串来说非常有用,因为数据中的时间几乎总是英文格式。

但是,如果你的 C 或 C++ 程序调用了 setlocale(),请求了非 “C” 的语言环境,那么你的程序可能会仅适用于例如荷兰语格式的时间字符串,而这种情况非常罕见。

现在你可能会考虑在调用 strptime() 之前将语言环境切换为 “C”,然后再切换回来。然而,不幸的是,setlocale() 在多线程程序中并不安全(除非在线程启动之前调用)。即使可以安全使用,也可能会干扰其他线程的输出。

因此,通常情况下,如果需要解析特定的时间字符串并使用 strptime(),请确保程序的语言环境设置为预期的值。虽然有 strftime_l() 允许指定格式化时间时的语言环境,但等价的 strptime_l() 并未正式提供。

值得一提的是,OpenBSD 的 strptime() 实现完全忽略了语言环境,只支持 “C”。

解析类似 17 Jan 2025 06:07:07 的字符串并填写一个 struct tm 其实并不困难,然后交由 mktime() 处理实际的 UNIX 时间戳计算工作。

使用纯 C++ 解决语言环境问题

虽然 C++ iostreams 不太受欢迎,但在处理语言环境方面比 C/POSIX 做得更好。在 C++ 中,你可以为每个 iostream 设置独立的语言环境。以下是一个可以从 C 调用的 C++ 辅助函数,用于解析任意 UTC 时间字符串:

extern "C"int utcstr2epoch(const char* timestr, const char* fmtstr, struct tm* output){ std::tm t = {}; // tm_isdst = 0, don't think about it please, this is UTC std::istringstream ss(timestr); ss.imbue(std::locale()); // "LANG=C", but local  ss >> std::get_time(&t, fmtstr); if (ss.fail())  return -1; // now fix up the day of week, day of year etc t.tm_isdst = 0; // no thinking! t.tm_wday = -1; if(mktime(&t) == -1 && t.tm_wday == -1) // "real error" return -1;  *output = t; return 0;}

这个函数展示了如何为 mktime() 处理错误。当你请求解析 31st December 1969 23:59 时,mktime() 会返回 -1 表示错误。此时可以使用 tm_wday 作为标志位来判断是否进行了任何处理。

还有一个基于 C 的小型演示程序,它可以解析英文 UTC 时间戳,并根据调用环境的语言环境输出结果:

$ LC_TIME="nl_NL.utf-8" ./utcparse "1 Jan 1970 00:00:00" "%d %b %Y %H:%M:%S"UTC Time: donderdag, 1 januari 1970 00:00:00, day of year 001time_t: 0

C++20 的极致体验

C++20 及更高版本提供了豪华的时区数据库(timezone database)。虽然并非所有编译器都支持,但幸运的是,可以使用预标准化的独立版本。有时候,我们得感谢那些愿意花费数年时间为我们提供精美代码的人,比如 Howard Hinnant。

以下是一个优雅的例子:

auto meet_nyc = make_zoned("America/New_York", date::local_days{Monday[1]/May/2016} + 9h);auto meet_lon = make_zoned("Europe/London", meet_nyc);auto meet_syd = make_zoned("Australia/Sydney", meet_nyc);cout << "The New York meeting is " << meet_nyc << '\n';cout << "The London meeting is " << meet_lon << '\n';cout << "The Sydney meeting is " << meet_syd << '\n';

该代码解析了“2016 年 5 月第一个星期一上午 9 点(纽约当地时间)”,并无缝转换到其他两个时区:

The New York meeting is 2016-05-02 09:00:00 EDT The London meeting is 2016-05-02 14:00:00 BST The Sydney meeting is 2016-05-02 23:00:00 AEST 

更棒的是,这个库不仅支持操作系统的时区数据库,还可以直接使用 IANA tzdb,这使得你能够精确计算 1978 年的一次飞行持续时间,包括经过夏令时的变化以及闰秒。令人惊叹。


相关推荐

手机如何检测是否被安装木马程序?如何防止路由器被黑客重置?

黑客攻击无线路由器有3种途径:...

盈盈可握的娇媚——全能美物ORICO WRE-30

由于工作的关系经常出差,在酒店除了一个RJ45接头,通常都没有无线网络可以提供,不可能自己携带太大的无线路由器,便携式的也买过几个,但是功能上大打折扣实在无法忍受,一直期盼能有既便携也功能丰富强大的产...

安卓重大锁屏密码漏洞,国产手机有几个中招了?

上周,一条新闻吸引了托尼注意。只用一张SIM卡,1分钟不到就能解锁你的安卓手机?...

零代码+免费+联网搜索:用DeepSeek+AnythingLLM搭建专属AI知识库

引言在信息爆炸的时代,如何高效管理私有数据并借助AI能力实现精准问答?本地私有知识库成为解决数据安全与智能化的最佳方案。本文将手把手教你使用开源工具AnythingLLM(项目地址:...

iOS越狱更轻松?黑客破解Lightning连接器

IT之家(www.ithome.com):iOS越狱更轻松?黑客破解Lightning连接器近日,德国黑客StefanEsser,也就是人们熟知的i0n1c在他Twitter上表示,黑客已成功破解了...

如何在 Windows 11 中更改 PIN

#寻找数码点评派#打开Windows设置,转到帐户登录选项,然后选择PIN(WindowsHello)...

2019年终黑客工具盘点-最佳篇

2019已经匆匆溜走,在2020伊始,小兮为大家带来了2019年终工具盘点的最佳篇,将分成三个部分为大家推荐工具,分别是Windows最佳工具、Linux最佳工具和手机最佳工具。话不多说,开整!Win...

磁盘被 BitLocker 锁住了怎么办?教你轻松解决

如果你的磁盘被BitLocker锁住,通常是因为系统检测到潜在的安全风险(如硬件改动、多次密码错误等)或丢失了密钥。以下是分步解决方案:一、确认被锁原因①硬件改动:更换主板、TPM芯片或启动顺序变化可...

风靡全球的安全应用AppLock,同样可能泄露隐私

安全研究人员发现,DoMobileLtd.公司开发的知名的安卓安全应用AppLock存在多个漏洞,容易受到黑客攻击。AppLock应用锁简介AppLock在超过50个国家拥有1亿多用户,它自身支持2...

安卓5.1.1前所有版本曝密码漏洞,轻松乱码即可破解锁屏

据德州大学研究人员发现代号棒棒糖的Android5.x存在一个严重的软件漏洞,只要攻击者能拿到机子的情况下,手机若设置的是数字密码解锁方式,只要输入足够长的乱码就能绕过屏幕锁定,进入到HOME主页取...

手机里有钱的,这5项设置要打开,就算丢了别人也偷不走

随着手机支付时代的到来,可恨的坏人也紧跟支付方式的变化,改为盯上了我们的手机。如果你手机里有钱的,那么一定不要掉以轻心,做好以下5项设置,让手机里的钱的更安全。设置SIM卡锁定设置SIM卡锁定,其实就...

原来破解邻居家的WiFi这么难?还是用万能钥匙吧

我们中的许多人认为,入侵wifi就像用铁锤打破塑料锁一样,并且使用以下提到的工具也是如此。入侵无线网络只是从防御性安全转移到攻击性安全的开始部分。入侵wifi包括捕获连接的握手并使用字典攻击等各种攻击...

电脑开机PIN码忘记了怎么办?教你不用重装系统也可以重置

在使用电脑的时候,我们往往会为了保护电脑的安全,从而设置开机密码。但是总会出现PIN码忘记导致无法开机使用,特别是许多用户反复的输入错误密码导致登录次数过多或者重复的开关机,登录选项被禁用,请使用其他...

送你个使用锦囊 防止蓝牙耳机被“策反”

你每天戴的蓝牙耳机可能被定位跟踪?近日有报道称,部分蓝牙耳机存在安全漏洞,可被不法分子快速植入具有定位功能的代码,从而实现远程跟踪,甚至监听。这一话题迅速登上微博热搜榜,不少网友惊呼:自己身边居然潜伏...

系统小技巧:无懈可击 Windows组策略管理系统密码

为了保护自己的系统安全,我们一般都会为系统设置密码。不过很多人为了记忆方便,设置的都是类似“123456”这样的简单密码,或者即使设置了较为复杂的密码,但是使用的时间很长也不变化。这些密码策略其实都有...