1.如何正确看待“PM2.5”

2.什么可以查到历史风速

北京空气质量历史数据_北京空气质量历史数据年度2008至2013

1.问题定义

比较典型的场景是我们需要针对企业的数据进行分析,比如公司通常会有销售数据、用户数据、运营数据、产品生产数据……你需要从这些数据里获得哪些有用的信息,对策略的制定进行指导呢?又比如你需要做的是一份市场调研或者行业分析,那么你需要知道你需要获得关于这个行业的哪些信息。

首先你需要确定去分析的问题是什么?你想得出哪些结论?

比如某地区空气质量变化的趋势是什么?

王者荣耀玩家的用户画像是什么样的?经常消费的是那类人?

影响公司销售额增长的关键因素是什么?

生产环节中影响产能和质量的核心指标是什么?

如何对分析用户画像并进行精准营销?

如何基于历史数据预测未来某个阶段用户行为?

这些问题可能来源于你已有的经验和知识。比如你已经知道每周的不同时间用户购买量不一样,那么你可以通过分析得出销量和时间的精确关系,从而精准备货。又比如你知道北京最近几年的空气质量是在变坏的,可能的因素是工厂排放、沙尘暴、居民排放、天气因素等,那么在定义问题的时候你就需要想清楚,需要针对哪些因素进行重点分析。

有些问题则并不清晰,比如在生产环节中,影响质量的核心指标是什么,是原材料?设备水平?工人水平?天气情况?某个环节工艺的复杂度?某项操作的重复次数?……这些可能并不明显,或者你是涉足新的领域,并没有非常专业的知识,那么你可能需要定义的问题就需要更加宽泛,涵盖更多的可能性。

问题的定义可能需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。从某种程度上说,这也是我们经常提到的数据思维。数据分析很多时候可以帮助你发现我们不容易发现的相关性,但对问题的精确定义,可以从很大程度上提升数据分析的效率。

如何更好地定义问题?

这就需要你在长期的训练中找到对数据的感觉,开始的时候你拿到特别大的数据,有非常多的字段,可能会很懵逼,到底应该从什么地方下手呢?

但如果有一些经验就会好很多。比如,你要研究影响跑步运动员速度的身体因素,那么我们可能会去研究运动员的身高、腿长、体重、甚至心率、血压、臂长,而不太会去研究运动员的腋毛长度,这是基于我们已有的知识。又比如我们要分析影响一个地方房价的因素,那么我们可能会有一些通用的常识,比如城市人口、地理位置、GDP、地价、物价水平,更深入的可能会有产业格局、文化状态、气候情况等等,但一般我们不会去研究城市的女孩长相,美女占比。

所以当你分析的问题多了之后,你就会有一些自己对数据的敏感度,从而养成用数据分析、用数据说话的习惯。这个时候你甚至可以基于一些数据,根据自己的经验做出初步的判断和预测(当然是不能取代完整样本的精准预测),这个时候,你就基本拥有数据思维了。

2.数据获取

有了具体的问题,你就需要获取相关的数据了。比如你要探究北京空气质量变化的趋势,你可能就需要收集北京最近几年的空气质量数据、天气数据,甚至工厂数据、气体排放数据、重要日程数据等等。如果你要分析影响公司销售的关键因素,你就需要调用公司的历史销售数据、用户画像数据、广告投放数据等。

数据的获取方式有多种。

一是公司的销售、用户数据,可以直接从企业数据库调取,所以你需要SQL技能去完成数据提取等的数据库管理工作。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

第二种是获取外部的公开数据集,一些科研机构、企业、会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。当然这种方式也有一些缺陷,通常数据会发布的比较滞后,但通常因为客观性、权威性,仍然具有很大的价值。

第三种是编写网页爬虫,去收集互联网上的数据。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的**列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析,这算是非常靠谱的市场调研、竞品分析的方式了。

当然,比较BUG的一点是,你通常并不能够获得所有你需要的数据,这对你的分析结果是有一定影响的,但不不影响的是,你通过有限的可获取的数据,提取更多有用的信息。

3.数据预处理

现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据分析,或分析结果差强人意。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。把这些影响分析的数据处理好,才能获得更加精确地分析结果。

比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。

那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

当然在这里我们还可能会有数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,能够帮助我们掌握数据的分布特征,是进一步深入分析和建模的基础。

4.数据分析与建模

在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。

另外,选择几种统计分析方法对数据进行探索性的反复分析也是极为重要的。每一种统计分析方法都有自己的特点和局限,因此,一般需要选择几种方法反复印证分析,仅依据一种分析方法的结果就断然下结论是不科学的。

比如你发现在一定条件下,销量和价格是正比关系,那么你可以据此建立一个线性回归模型,你发现价格和广告是非线性关系,你可以先建立一个逻辑回归模型来进行分析。

一般情况下,回归分析的方法可以满足很大一部分的分析需求,当然你也可以了解一些数据挖掘的算法、特征提取的方法来优化自己的模型,获得更好地结果。

5.数据可视化及数据报告的撰写

分析结果最直接的结果是统计量的描述和统计量的展示。

比如我们通过数据的分布发现数据分析工资最高的5个城市,目前各种语言的流行度排行榜,近几年北京空气质量的变化趋势,避孕套消费的地区分布……这些都是我们通过简单数据分析与可视化就可以展现出的结果。

另外一些则需要深入探究内部的关系,比如影响产品质量最关键的几个指标,你需要对不同指标与产品质量进行相关性分析之后才能得出正确结论。又比如你需要预测未来某个时间段的产品销量,则需要你对历史数据进行建模和分析,才能对未来的情况有更精准的预测。

数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。我们经常看到一些行业分析报告从不同角度、深入浅析地剖析各种关系。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果,这需要从实践中不断训练。

数据分析的一般流程总的来说就是这几个步骤:问题定义、数据获取、数据预处理、数据分析与建模、数据可视化与数据报告的撰写。

如何正确看待“PM2.5”

IQAir空气质量指数是根据空气质量指数(AQI)和PM2.5浓度计算得出的。

在计算IQAir空气质量指数时,首先需要确定各个污染物的浓度。这些浓度通常是通过空气质量监测站点进行测量和收集的。然后,根据各个污染物的浓度和对应的AQI值,将它们进行加权平均,得到整体的AQI值。

AQI值是一个相对的数值,它描述了空气清洁或者污染的程度。根据AQI值的大小,可以将空气质量状况分为六个级别,从优到严重污染。不同级别的AQI值对应不同的空气质量评估、颜色及建议。例如,当AQI值为0~50时,空气质量状况属于优,各类人群可正常活动;而当AQI值大于300时,空气质量状况属于严重污染。

IQAir空气质量指数的优缺点:

1、综合性:IQAir空气质量指数综合考虑了空气中的多种污染物浓度,能够全面反映空气质量状况。

2、直观性:IQAir空气质量指数以数字形式呈现,易于理解和比较。

3、实用性:IQAir空气质量指数可以用于评估室内和室外空气质量状况,为人们提供指导。

4、依赖监测站点:IQAir空气质量指数是基于监测站点测量的数据计算得出的,如果监测站点数量不足或者位置不合理,可能会导致数据的不准确。

5、无法实时监测:IQAir空气质量指数通常是基于历史数据计算得出的,无法实时反映当前的空气质量状况。

6、无法提供具体污染物信息:IQAir空气质量指数只能给出整体的空气质量状况,无法提供具体的污染物信息,对于某些特定人群或者特定环境下的健康指导可能不够精确。

什么可以查到历史风速

PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物。PM2.5产生的主要来源,是日常发电、工业生产、汽车尾气排放等过程中经过燃烧而排放的残留物。PM2.5粒径虽小,但含有大量的重金属有毒、有害物质,而且在大气中的停留时间长、输送距离远,因而对人体健康和大气环境质量的影响很大。美国驻北京、上海等地的使领馆在和推特上每小时公布一次PM2.5数据和空气质量评估。由于评定结果与中方环保部门公布的数据结果大相径庭,因而引发了中美官方争论的。美驻华使领馆开展对我国PM2.5监测并且发布数据的做法不论在技术上、标准上还是在法律上都是不符合国际通行要求的,是不严谨和有失规范的。从技术上讲,用一个点位的监测数据对一个区域的空气质量进行评价是不科学的,所监测的数据不能代表该城市整体空气质量水平;从标准上看,天 猫美国进口普卫欣防 霾世界各发达国家,包括美国在内,关于PM2.5的标准也是逐步提高的,而中国目前发布的空气质量标准虽与美国尚有差距,但却是根据中国的发展水平和技术条件确定的;从法律上讲,中国空气质量监测及发布,涉及社会公共利益,属于国家内部事务,个别国家驻华使领馆自行开展空气质量监测,并在互联网随意发布空气质量信息,既不符合《维也纳外交关系公约》与《维也纳领事关系公约》的精神,也违反了环境保护的有关国际规定。冷静思考,PM2.5的监测是人类在环境保护领域进步的象征,不应该成为国家间对抗的手段。美国之所以拿自己国家的标准来评判中国的环境质量,并且在网络上公布以引起中国网民关注,其做法背后不得不说有着复杂的国内国际动机。面对美国驻华使领馆在PM2.5议题上的操作,我们应审慎应对,从到社会再到普通民众都要保持理性而客观的态度。

中国当然是理直气壮地批评与揭露美方借PM2.5煽动中国民意的伎俩,抗议美国在中美建立“互相尊重、互利共赢”的新型大国关系背景下的“开倒车”行为。事实上,这些年来,中国更加重视经济发展与环境保护之间的和谐,坚持科学发展。各级在不断加强监管,对排污企业是否达标排放、相关产品是否符合环保标准做出严格管控,加大惩治力度。今年3月,中国公布的《环境空气质量标准》将PM2.5纳入其中,足见我国对于环境保护的重视以及妥善处理本国事务的自信。

就普通公民个人而言,要充分相信的治理能力,不参与美国驻华使领馆PM2.5信息的传播与炒作,同时我们每个人更应该做到“环保从我做起”,积极善待自然环境,共同保护好国家的青山绿水、碧湖蓝天。

可以通过气象数据平台查询全球任意位置单点和区域小时级历史风速等数据。

气象数据平台中历史数据和预测数据有多种数据源,每个数据源的分辨率各有不同

羲和数源V1.0

数据介绍:基于多个国际权威气象反演数据源和气象站实测数据同化、校正和降尺度后自主研发的超高精度数据源

时间分辨率:2017年1月1日~2021年12月31日,逐小时

空间分辨率:30米网格,覆盖中国全境

欧洲中期天气中心

数据介绍:包含34个国家支持的国际性天气预报研究和业务机构的全球气象反演数据库

时间分辨率:从1980年1月1日起至今,逐小时

空间分辨率:0.25°纬度*0.25°经度(中纬度地区约25千米网格),覆盖全球

美国国家航空航天局

数据介绍:美国国家航空航天局(NASA)地球科学数据和信息系统(ESDIS)全球反演数据库

时间分辨率:从1980年1月1日起至今,逐小时

空间分辨率:0.5°纬度*0.625°经度(中纬度地区约50公里网格),覆盖全球

德国气象局

数据介绍:德意志联邦气象局模拟和预测的全球气象预测数据,预测精度全球领先

时间分辨率:未来7×24小时逐小时数据,数据每6小时滚动更新一次

空间分辨率:0.125°纬度*0.125°经度(中纬度地区约12.5千米网格),覆盖全球

数据参数

经向风:指高地面约10m风的经向分量(南风为正)

纬向风:指高地面约10m风的纬向分量(西风为正)

地面风速:指高地面约10米的风速

风向:指风的来向,正北方向为0°,顺时针为正

数据来源:羲和能源大数据平台(xihe-energy)

如需要查询更多数据,可在“更多属性”中进行“检索属性”