基于社交媒体的海南风灾监测数据集
作者:张清兰 解吉波 刘战 杨腾飞 李振宇
2019年5月23日
本作品收录于《中国科学数据
张清兰, 解吉波, 刘战, 等. 基于社交媒体的海南风灾监测数据集[J/OL]. 中国科学数据, 2019, 4(2). (2019-05-04). DOI: 10.11922/csdata.2018.0095.zh.


    摘要&关键词

    摘要:台风是威胁人类生存与发展的主要自然灾害之一。有效的涉灾数据是政府开展防灾减灾救灾工作的重要基础。随着互联网的普及,社交媒体作为新兴的灾害数据源已得到广泛的应用。本数据集以受台风影响较重的海南岛为研究区域,基于社交媒体平台收集和整理了2010–2018共8年间的严重侵袭海南岛的14个台风的相关数据,旨在从公众观测视角对台风进行监测,以弥补传统监测手段的不足,从而为及时、高效的减灾服务提供重要的数据支持。本数据集主要包括台风的属性信息、涉灾社交媒体的描述性文本以及图片等3种数据形式。

    关键词:台风;海南岛;社交媒体;信息挖掘

    Abstract & Keywords

    Abstract: Typhoon is one of the main natural disasters threatening human survival and development. Effective disaster–related data is an important basis for the government to carry out disaster prevention, mitigation and relief work. With the popularization of the Internet, social media has been widely used as a new disaster data source. At the social media platform, we collected and collated the data of 14 typhoons that seriously affected Hainan Island in the period of 2010–2018, which was to monitor the typhoons from the perspective of public observation, so as to make up for the shortcomings of traditional monitoring methods, and to provide important data support for timely and efficient disaster reduction services. This data set mainly includes three data forms: typhoon attribute information, disaster-related social media descriptive text and pictures.

    Keywords: Typhoon; Hainan island; social media; information mining

    数据库(集)基本信息简介

    数据库(集)名称 基于社交媒体的海南风灾监测数据集
    数据作者 张清兰,解吉波,刘战,杨腾飞,李振宇
    数据通信作者 解吉波(xiejb@radi.ac.cn)
    数据时间范围 2010–2018年
    地理区域 海南岛 (北纬18°10’–20°10’,东经108°37’–111°03’)
    数据量 164 MB
    数据格式 *.sql、*.xlsx、*.jpg
    数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/715
    基金项目 海南省重大科技计划项目(ZDKJ2016021)
    数据库(集)组成 本数据集存储为一个压缩文件(*.zip),数据量为164 MB,压缩后为138 MB。压缩文件中包括以台风编号命名的14个文件夹,每个文件夹由三部分数据组成,其一为微博文本数据(*.sql),其二是图片数据(*.jpg),其三是台风轨迹点数据(*.xlsx)。

    Dataset Profile

    Title Social media-based monitoring data of wind disasters in Hainan
    Data corresponding author Xie Jibo (xiejb@radi.ac.cn)
    Data authors Zhang Qinglan, Xie Jibo, Liu Zhan, Yang Tengei, Li Zhenyu
    Time range 2010–2018
    Geographical scope Hainan Island (18°10’N—20°10’N, 108°37’E— 111°03’E)
    Data volume 164 MB
    Data format *.sql, *.xlsx, *.jpg
    Data service system <http://www.sciencedb.cn/dataSet/handle/715>
    Sources of funding Major Science and Technology Program of Hainan Province (ZDKJ2016021)
    Dataset composition Stored as a compressed file (*.zip), the data set has a data volume of 164 MB, and 138 MB after compression. The compressed file includes 14 folders named after respective typhoon code. Each folder consists of three parts of data, including micro–blog text data (*.sql), picture data (*.jpg), and typhoon trajectory point data (*.xlsx).


    引 言

    台风是频发于西太平洋和南海地区的自然灾害,每年给周边国家造成重大损失。据统计,近十年来,这些地区年均台风数量达23.8个。海南岛是我国遭受台风灾害侵袭最为严重的地区之一,不仅给社会经济带来巨大破坏,还严重威胁人

    民的生命安全。因此,有效的灾害信息是开展救灾工作的基础,对于研究灾害防治、降低灾害风险具有重要意义。以遥感卫星、航空摄影、视频录像、地面调查为主的传统灾害信息获取方式所收集的涉灾数据各有优势,救灾减灾工作也因各种资源的充分应用而更加高效。

    [1][2][3][4][5][6]

    收集、整理以及挖掘社交媒体数据应用于台风灾害监测是一项很有意义的工作。2010–2018年,海南共遭受14次严重台风侵袭,对人民的生命财产造成了巨大威胁。本文针对台风灾害,设计了海南岛2010–2018年台风灾害期间的新浪微博规范化数据集合,并结合台风属性(风强、气压与轨迹等)完善数据集。通过公众观测的视角解读台风灾害的进程与影响,为后续的台风灾害预警模型与灾后影响分析提供有效的数据支持。新浪微博是国内应用最为普及的社交媒体平台之一,在拥有大批量用户的同时,其博文体现了明显的时空特征。在遭受台风灾害时,受灾区域的微博用户通过平台发布文字、图片及视频信息,其数据常包含重要的灾情信息。图1中展示了1条新浪微博的原始信息,这些信息中含有大量的受灾位置及灾损情况,这为利用社交媒体数据进行救灾减灾工作研究提供了可行性。本文重点关注文本和图像数据,以各个台风为单位获取原始数据后进行了数据的清洗工作。随后以2014年“威马逊”台风为例,展示并分析了灾区微博用户的情感分布信息以及微博量的时间变化规律。


    图1 新浪微博原始博文展示


    1 数据采集和处理方法

    1.1 概况

    本数据集记录了2010–2018年过境海南省的以下14个台风事件的信息:“山神”“艾云尼”“莎莉嘉”“鲸鱼”“海鸥”“威马逊”“海燕”“飞燕”“贝碧嘉”“山神”“尼格”“纳沙”“洛坦”及“康森”(表1)。


    表1 2009–2018年台风列表

    年份 台风编号 名称(英文) 登陆时间
    2018 1809 山神(Sontinh) 2018/07/18
    1804 艾云尼(Ewiniar) 2018/06/06
    2016 1621 莎莉嘉(Sarika) 2016/10/18
    2015 1508 鲸鱼(Kujira) 2015/06/22
    2014 1415 海鸥(Kalmaegi) 2014/09/14
    1409 威马逊(Rammasun) 2014/07/18
    2013 1330 海燕(Haiyan) 2013/11/10
    1309 飞燕(Jebi) 2013/08/02
    1305 贝碧嘉(Bebinca) 2013/06/22
    2012 1223 山神(Sontinh) 2012/10/27
    2011 1119 尼格(Nalgae) 2011/10/04
    1117 纳沙(Nesat) 2011/09/29
    1109 洛坦(Nock–tan) 2011/07/29
    2010 1002 康森(Conson) 2010/07/16


    台风的基本信息,例如登陆时间、中心气压及风速,来自于官方网站——中国台风网(http://typhoon.weather.com.cn/)。文本和图片数据来自非官方的大众社交媒体新浪微博(https://weibo.com/)。本文使用新浪微博平台的高级搜索功能来获取与台风事件相关的数据,选择台风的名称加上“台(台风)”作为设置检索条件的关键词,从新浪微博主要获取台风登陆当天,前一天及后三天的微博博文及相关图片。14个台风总计获取了93824条新浪微博博文。从新浪微博获取的数据主要从公众观察的角度描述当前灾难的情况。

    为了更加直观地了解台风过境的具体发展进程及概况,本文收集整理了文本数据中的图片,并根据发布时间进行编号。读者通过图片内容可以更直观地了解台风的发展进程及其社会影响,是文本数据的有效补充内容。

    1.2 数据收集过程

    基于已开发的数据采集系统对数据进行采集与整理,如图2所示。通过收集模块获取来自不同平台的数据,然后将它们解析为结构化形式。来自中国台风网的数据经过预处理后存放到Excel表格中,来自新浪微博的数据以sql格式储存到MySql数据库中。然后进行数据清洗工作,数据的清洗主要包括删除重复信息,将繁体中文翻译成简体中文,将全角字符转换成半角字符等。最后,这些数据以结构化形式存储。同时利用已收集到的图片链接数据,利用批量下载工具收集图片,并人工删除无关图片,例如表情包等。数据结构如表2所示。


    图2 社交媒体数据采集系统流程图


    1.3 数据分类

    社交媒体数据来源于公众对于事件的直接反馈与表述,其中包含大量的公众情感信息。例如,来自新浪微博的文字“风最大的时候,我家玻璃门靠餐桌以及我们的双手顶着!太恐怖了!”,表达了公众对于台风的负面信息。我们可以根据文字中包含的公众情感的倾向,将数据划分为正面情感、中性情感及负面情感等不同的类别。根据这3种情感倾向类型对数据进行分类,样例如表2。


    表2 情感分类示例

    情感类别 数据数量
    正面 51
    中性 115
    负面 499


    社交媒体中的图片信息在一定程度上更能直观反映事件的发展进程,图片中的内容也能有效反映事件的状态。我们可以根据图片中的不同描述内容将图片进行分类。例如,可以根据受损对象的不同,将图片分为树木倒塌、道路积水、房屋倒塌等不同种类。

    2 数据样本描述

    2.1 数据集信息

    基于社交媒体的海南风灾监测数据集(2010–2018年)包括了14个台风的轨迹点数据及社交媒体中的文本数据与图片数据,如表3所示。本数据集中共含有14个文件夹,每个文件夹以台风的编号进行命名,每个文件夹下面包括3个下一级文件,包括1个Excel表格和2个文件夹,表格以台风编号命名存放该台风的轨迹点信息,另外两个文件夹分别存放来自社交媒体的文本数据与图片数据(在1002号台风康森登录海南岛前一天至后三天期间新浪微博平台上无有效图片数据可以利用)。其中文本数据的格式为sql,命名规则为“台风名称_城市_关键词_日期”;图片数据的格式为jpg,命名规则为“年份+月份+日+时+分+_+id+图片序号”。数据集详细信息如表3。


    表3 数据集结构

    文件夹(.zip) 年份 台风名称 文件夹 下一级文件夹
    数据.zip 2018 山神 1809 轨迹点表格文本数据图片数据
    艾云尼 1804
    2016 莎莉嘉 1621
    2015 鲸鱼 1508
    2014 海鸥 1415
    威马逊 1409
    2013 海燕 1330
    飞燕 1309
    贝碧嘉 1305
    2012 山神 1223
    2011 尼格 1119
    纳沙 1117
    洛坦 1109
    2010 康森 1002 轨迹点表格、文本数据


    2.2 数据样本

    台风轨迹点数据的字段主要包括到达时间、经度、纬度、中心气压、风速、未来移向、未来移速等(表4)。可以将台风轨迹点数据加载到ArcGIS中,从而获得台风轨迹点的矢量数据,将轨迹点按时间顺序进行连接可以生成台风轨迹的线矢量数据,例如将编号为1409的威马逊台风的轨迹点数据加载到ArcGIS中生成相关矢量数据(图3)。


    表4 台风轨迹点信息

    台风编号 1409
    到达时间 2014-07-12 14时
    经度 142.8
    纬度 13.4
    中心气压 1002百帕
    风速 18米/秒


    图3 台风威马逊的轨迹


    社交媒体中的文本数据字段包括id、关键字、省份、城市、内容、位置、图片链接、发布时间、平台、转发数、评论数、点赞数。数据中的主题主要包括公众对于台风的情感倾向及各种不同类型的灾难损失信息,如表5所示。


    表5 来自新浪微博的数据

    Id id 563
    keyword 关键词 威马逊š
    province 省份 海南
    city 城市 海口
    content_text 内容 #台风“威马逊”#亲身经历过2005年“达维”超强台风,这次的“威马逊”更厉害,岛民深受其害,希望明天全民尽早灾后重建,翁田加油,文昌加油,海南加油。 2 新大洲大道
    location 位置 新大洲大道
    picture 图片链接 http://ww2.sinaimg.cn/thumb150/3ede5b0fjw1eih7ftvsgoj20qn0hs3z5.jpg
    time 发布时间 2014年07月18日 20:07
    w_from 平台 Android客户端
    transmiCount 转发量 2
    commentCount 评论量 7
    praiseCount 点赞量 3


    图片数据根据时间信息进行编号命名。其具体命名规则为:年份+月份+日+时+分+_+id+图片序号。例如,编号为“201407201932_348_1”的图片(图4),其发布时间为2014年7月20日19时32分,发布的id为348,图片序号为1。图片中的描述内容直观地反映了台风对于公众生活的影响,例如图4中编号为“201407202149_138_1”的图片清晰地展示了台风造成了道路旁边的树木倒塌。


    图4 图片样例


    根据给出的数据,在统计类型软件中,可以清楚地了解到不同时期海南台风过境时,公众对于台风的反馈信息。可以制作台风过境前后公众反馈信息数量的变化趋势图,如图5表示威马逊台风登陆海口前一天及登陆后3天的社交媒体中文本及图片数据量随时间的变化趋势,图6分别表示威马逊台风登陆海口当日19–22时(即2014年7月18日)含关键词“威马逊”的社交媒体中文本数据量及图片数据量随时间的变化趋势。


    图5 文本及图片数据量随时间的变化趋势


    图6 台风登陆当日数据量变化情况


    3 数据质量控制和评估

    对指定台风事件有关的关键词进行多样化和优化,以确保从每个社交媒体平台最大限度地检索相关信息。数据收集完成后,人工手动检查数据的有效性,并删除与台风灾害无关或不完整的数据。此外,通过建立数据库索引来避免完全重复的数据。对于数据集中的分类示例,提前制定分类标准,并利用专业的自然语言处理工具对这些原始数据进行分类,以确保最终分类结果的正确性。最后,从每个平台随机抽取500个数据进行检查,发现数据准确率接近100%。

    4 数据价值

    海南省作为我国重要的旅游城市,其城市灾害的研究对旅游发展具有重要的意义。在国内还没有专门为海南省风灾编制基于社交媒体的数据集,特别是针对长时间的社交媒体数据进行追踪的数据集。本数据集主要收集了海南省2010–2018年的针对台风的社交媒体数据及台风基本信息数据,其中不仅有文本数据,而且含有图片,以便更加直观地了解台风的发展进程。通过分析收集整理的数据,可以进行海南省2010–2018年的风灾研究。例如,利用本文提供的台风轨迹点数据可以很容易对台风的进程进行可视化展示,同时轨迹点数据中的气压、风速等信息可以为灾情评估提供可靠的参考[7]。本文提供的社交媒体文本及图片数据可以根据公众在不同时间段对于台风的情感倾向进行重新分类及相关影响因素的挖掘[8]。同时通过数据集的数据可以对灾难损失信息进行提取和分类,并进行快速有效的灾害损失评估[9]

    针对台风社交媒体数据的定性及相对定量化分析方面,通过论证社交媒体与灾害损失评估之间的相关关系,可以为减灾准备和响应提供新的研究视角。根据与台风灾害相关的社交媒体数据,为灾害发生前、发生中和发生后的情况意识和损害评估制定了新的指标模型。利用语义分析方法从社交媒体信息中抽取相关指标(例如灾情描述、公众需求),基于TF-IDF方法计算相关指标权重,最后综合对台风灾情进行评估并用于指导减灾工作[10]

    参考文献

    1. 韩雪华, 王卷乐, 卜坤, 等. 基于Web文本的灾害事件信息获取进展[J]. 地球信息科学学报, 2018 (08): 1037-1046.
    2. 王艳东, 李昊, 王腾, 等. 基于社交媒体的突发事件应急信息挖掘与分析[J]. 武汉大学学报·信息科学版, 2016, 41(3): 290-297.
    3. CHEN Z, LIM S. Collecting Typhoon Disaster Information from Twitter Based on Query Expansion[J]. ISPRS INTERNATIONAL JOURNAL OF GEO–INFORMATION, 2018, 7(1394). DOI: 10.3390/ijgi7040139.
    4. RUDRA K, GANGULY N, GOYAL P, et al. Extracting and Summarizing Situational Information from the Twitter Social Media during Disasters[J]. ACM TRANSACTIONS ON THE WEB, 2018, 12(173). DOI:10.1145/3178541.
    5. YOO S, SONG J, JEONG O. Social media contents based sentiment analysis and prediction system[J]. EXPERT SYSTEMS WITH APPLICATIONS, 2018, 105: 102-111.
    6. 杨腾飞, 解吉波, 李振宇, 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018 (07): 906-917.
    7. 刘雅玉. 基于案例推理的台风灾害快速评估方法[D]. 武汉: 武汉大学, 2018.
    8. LI J, HE Z, PLAZA J, et al. Social Media: New Perspectives to Improve Remote Sensing for Emergency Response[J]. Proceedings of the IEEE, 2017, 105(10): 1900-1912.
    9. 严丽军. 自然灾害的灾情信息集成: 理论与实证研究[D]. 上海: 上海师范大学, 2016.
    10. DENG Q, LIU Y, ZHANG H, et al. A new crowdsourcing model to assess disaster using microblog data in typhoon Haiyan[J]. Natural Hazards Journal of the International Society for the Prevention & Mitigation of Natural Hazards, 2016, 84(2):1-16.

    数据引用格式

    张清兰, 解吉波, 刘战, 等. 基于社交媒体的海南风灾监测数据集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.715.