预测雾霾，大数据能帮什么忙？

2015-12-16 来源：互联网

近段时间，全国范围内尤其是京津冀地区接连陷入雾霾之困，北京更是首次发布空气重污染红色预警，中小学连续停课3天，机动车单双号限行。雾霾的背后，重污染天气的预警预测工作显得尤为重要，不仅可以让公众提前合理安排生产生活，也可以让政府相关部门及时采取应急措施，缓解重污染天气带来的危害。

微软亚洲研究院主管研究员郑宇一直从事大数据挖掘和算法研究，希望用大数据解决现代城市所面临的问题。他和他的团队已经成功用大数据计算出1km×1km细粒度的空气质量状况、尾气排放数据和噪声污染指数。

那么，大数据是如何预测雾霾的呢?

大数据能不能成功预测雾霾?

Urban Air正是由微软亚洲研究院开发，用大数据预测城市空气质量的项目。目前，Urban Air已经实现全国70多个城市空气质量预测，可以对京津冀、长三角、珠三角、成渝城市群未来48小时的空气质量进行预测。

“大数据不仅能预测雾霾，还可以精细化预测。”郑宇说，依靠经典模拟方法预测预警雾霾，只能算出空气质量的均值，而大数据可以对1~6小时的空气质量逐小时进行预测，对7~12小时、12~24小时、24~48小时进行最大值和最小值的预测。

除了在预测精度上有优势外，大数据精细化预测还体现在地域范围上。目前，传统模拟方法预测雾霾只能精细到区的范围，比如可以预测到北京市海淀区、朝阳区的空气质量，而大数据可以精细化到每个空气质量站点，比如可以预测海淀区万柳站点未来48小时的空气质量状况。

大数据不仅能预测雾霾，还可以很快速。据郑宇介绍，传统的重污染天气预测工作需要6小时左右的模拟运算时间，无法快速实时发布，而大数据可以在几秒钟之内快速算出重污染空气质量数据。

未来，雾霾的运行轨迹也将有望实现，雾霾从哪来，到哪去都将不是难题。记者了解到，郑宇和他的团队正在从事雾霾因果相关性的研究，目前还处在研发阶段，预计明年将正式投入应用。

大数据怎么预测雾霾?

既然大数据可以预测雾霾，那么，能够预测雾霾的大数据究竟包含哪些数据?这些数据又如何预测雾霾?

雾霾的大数据主要包括当前空气质量数据、气象条件、未来天气预报3类数据。郑宇特别介绍说，空气质量数据并不是指单纯的空气质量站点数据，而是以某空气质量站点为圆心，囊括了方圆300公里范围内所有的与空气质量相关的数据，比如空气质量站点数据、交通流数据、气象数据、厂矿数据、人口流动数据、路网结构等。

与传统模拟空气质量不同，大数据预测雾霾依靠的是多元融合方法，也就是说，空气质量的预测不仅仅看空气质量数据，还要看与之相关的气象数据、交通流量数据、厂矿数据、城市路网结构等不同领域的数据，不同领域的互相叠加，相互补强，从而预测空气质量状况。

“大数据应用于预测雾霾，首先，由于每个站点、每个时段空气质量的影响因素都不尽相同，所以针对每个空气质量站点，我们都会为这个站点每个时段单独建一个空气质量模型，之后再将三者数据叠加，最后将数据进行融合，制作出空气质量预测模型。”郑宇说，这样算下来，为预测北京市空气质量，建立的模型已经达上百个。

大数据预测得准不准?

那么，多元融合的大数据算法与传统的空气模拟预测相比，是否更准确?

“其实，大数据预测与传统模拟方法有一定的相似性，都是通过数据来拟合模型，只不过是数据量大小不同。”郑宇说，以往由于获知的数据有限，传统模拟方法只能基于有限的样本数据，由科研人员通过经验、假设找出这些数据间的规律，模拟出简单的模型，预测空气质量。而随着数据增多，单单依靠人工已经无法从海量繁杂的数据中找出规律，所以需要借助机器学习和数据挖掘等工具来发现多源数据中隐含的规律。

如今影响空气质量的因素越来越多，传统模拟的方法显得“力不从心”。郑宇介绍说，传统模拟空气质量预测首先需要搜集完整的污染源数据，比如企业的排污数据和汽车尾气排放等，而这些数据无法全部获知;其次模型太理想化，污染物在空气中传播和变化的实际情况，要复杂很多。

随着影响空气质量的因素增多，数据量的增大，大数据在空气质量预测上颇有优势。比如传统方法要拿到精确的地面污染源数据才能预测，而大数据则可以解决数据缺失的问题。比如对于交通尾气数据难获取的情况，大数据运算可以采用与交通尾气相关的交通流量、排量等相关数据，间接地分析其与空气质量的关系。“大数据的精髓就是A领域的问题可以借助B领域、C领域、D领域的数据来一起解决，通过多元数据融合的方法来解决数据缺失和不精准的问题。”郑宇说。

空气质量站点、相关领域的数据、大数据先进的挖掘技术和模型，保证了大数据预测的准确性。据了解，现在大数据对京津冀雾霾的预测精度可以达到75%，对成渝等地的预测精度会更高，平均准确率比统模拟方法高15%~20%。

大数据预测还存在哪些困难?

虽然大数据对雾霾的预测已经成功实践，但郑宇也坦言，大数据预测雾霾确实还有很多困难。

数据量少是大数据发展的掣肘，大数据的预测是基于对大量的数据进行学习。但我国数据开放进程比较晚，并且很多污染源数据都还不完善。

“数据量大小直接影响大数据预测的精准度。”郑宇说，比如数据样本量不够，会导致雾霾的拐点很难预测，目前传统经典模型和大数据模型都很难说清楚雾霾何时会消散。“很多人认为大风来了，雾霾一定会散去，真实情况并非如此，雾霾消散与大风的强度、持续时间、风向来源地都有非常大的关系。比如，如果风向的来源地本身是污染源，那么雾霾不但不会散去，反而会加重。”郑宇说，目前有关拐点出现次数的数据特别少，可能一百天出现一次，对简单的统计学模型来说，拐点出现就是少数派，模型很难预测拐点。目前，郑宇和他的团队也在单独对拐点进行建模，准确度已经提高到30%。

针对大数据在环保领域未来的发展，郑宇认为国家首先要培养数据科学家，不仅仅是懂大数据挖掘算法，还要动行业知识，这样才能把大数据转化为生产力。其次，大数据时代要求政府开放数据。只要数据足够，未来工业园区的建设与空气质量的变化情况，整个城市设计与空气质量的变化情况，完全可以依靠大数据实现。