(资料图片仅供参考)
竞
赛
开
启
2023年第一届
青云杯IT技术挑战赛
竞赛邀请函
青云杯IT技术挑战赛由尚硅谷教育主办,目的是鼓励大学生和大数据开发人员发挥创造力和实践能力,构建实际有用的数据仓库,推广大数据科学技术,提高数据科学的知名度和影响力,加强学术和产业界之间的交流合作,促进数据科学的发展。面向广大大学生和大数据开发群体发布邀约,诚邀您的参加。
1
参赛对象
全日制普通高校在读的研究生、本科生,以及各互联网企业的大数据开发人员,要求参赛人员组队参加比赛,小组人数要求1至5人。
2
赛程安排
报名时间
2023年3月8日至4月1日。
截至2023年4月1日18:00停止接收参赛报名。
比赛时间
2023年3月8日至5月8日。
截至2023年5月8日18:00停止接收比赛作品提交。
评分时间
2023年5月8日至6月1日。
颁奖时间
2023年7月
3
比赛规则
比赛内容
参赛选手可以使用比赛组委会提供的多行业数据集中的其中一个,也可以自行收集脱敏数据集,以数据集为基准,构建一个功能完备的离线数据仓库,包括数据采集、数据清洗、数据建模、任务调度、可视化等多个环节。
比赛提交
参赛选手需要在比赛截止日期前提交一份内容详尽的报告文件,报告内容包括但不限于参赛作品各环节的安装说明文档、数仓搭建过程的说明文档、最终可视化页面截图、所有脚本文件、功能演示及全流程调度的视频等。详情参见评分标准。
比赛评估
比赛结果由专业评委根据比赛规则和评分标准进行评估,结果公布后不可更改。
4
评分标准
1. 数据采集(20%):数据源种类的多样性、数据采集的完整性、正确性等;
2. 数据清洗(10%):数据清洗考虑的全面性、数据归一化处理、去重和脱敏处理等方面;
3. 数据建模(45%):数据建模的创新性、准确性、稳定性等方面。
4. 可视化(5%):指标可视化完整、美观、全面。
5. 报告(20%):报告的完整性、清晰度、论证力、创新性和贡献度等方面。
6. 附加分(60%):使用自备的完整数据集、更加丰富的数据仓库功能设计、更加全面复杂的指标体系等可获得酌情加分。
在评估报告时,评委会将会关注参赛者对数据清洗、数据预处理和数据建模环节的详细说明,以及对分析结果的分析报告。同时,参赛者需要在报告中对他们所采用的方法和算法进行充分地解释和论证。评委会将根据参赛者在报告中的论证力、创新性和贡献度等方面进行评估,以确定最终得分。
详情见评分细则
5
奖项设置
一等奖1组,奖金5000元+尚硅谷大厂学苑全套课程+获奖证书
二等奖2组,奖金3000元+获奖证书
三等奖3组,奖金1000元+获奖证书
追求卓越奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书
优秀团队奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书
特殊贡献奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书
6
报名方式
官方报名QQ群1:661827902
官方报名QQ群2:748100631
群2为备用群,请优先添加群1
QQ群内通知内容相同,请勿重复添加
7
联系赛方
组委会官方QQ:3578283292
联系电话/微信:18604506683(梁老师)
联系邮箱:3578283292@qq.com
8
评分细则
本次比赛采用百分制,完成各项基本要求可获得100分,完成各项附加要求,可获得加分,加分项共60分。
1. 数据采集(20分)
采集是数仓搭建的前提,采集得分为零则总分为零。
1)数据集(5分)
可选用比赛官方提供数据集,亦可自行搜集数据集。若选用官方数据集,此项得分为0。此外,组委会会提供电商数仓搭建的全套资料,若选择电商数据集,将失去一、二、三等奖评选资格。若自行收集数据集,可申请技术支持,辅助开发数据模拟器。
以下均为自备数据集的要求。
① 要求原始数据表结构完整,至少有20个字段的业务表不少于10张(3分)。
② 至少提供一天以上的数据,若涉及用户隐私、商业机密等,必须脱敏处理(2分)。
2)同步策略(2分)
为每张原始表选择合理的同步策略,并说明原因。
3)数据目的地(3分)
分布式文件系统目标路径可以看到数据,此项是搭建采集通道的前提(不满足此项采集部分得分为0)。须在验收视频中完整演示由数据源至分布式文件系统的数据流转过程,如采用flume-kafka-hdfs架构采集日志数据,需要满足:
(1)启动Kafka命令行消费者,消费目标主题数据,上游注入数据后可以消费到数据;
(2)通道打通后,HDFS目标路径、文件可以自动生成,且文件大小可随时间变化。
(3)文件系统必须为HDFS这样的高可靠分布式文件系统。
不满足上述三点,此项得分为零。
4)目录滚动规则要求(3分)
分布式文件系统可以按天自动生成数据目标路径,须在验收视频中展示跨天时目标路径的生成。
5)文件滚动规则要求(4分)
(1)目标路径文件可以按照大小滚动(2分)。
(2)目标路径文件可以按照时间滚动(2分)。
以上应在验收视频中展示效果。
6)压缩要求(3分)
采用合理的方式压缩,此处的合理是指用户不需要额外的操作即可直接读取压缩文件。
2. 数据清洗
1)脏数据处理(1分)
处理结构不完整、无法解析的数据。
2)空值处理(1分)
处理非空字段的空值。
3)重复数据处理(2分)
对于可能重复的数据做去重处理。
4)脱敏(3分)
对用户姓名、邮箱、手机号等脱敏处理,应选择合理的匹配规则。
5)数据格式校验(1分)
处理日期、币种等字段格式错误的数据。
6)非法值处理(2分)
检测并修正取值范围异常的字段,如取值小于零的金额字段。
3. 数仓搭建
1)业务总线矩阵构建及DIM、DWD层搭建(20分)
(1)业务总线矩阵构建(10分)
① 要求明确数据域,明确事实、维度对应的原始表名称,示例如下(4分)。
② 业务总线矩阵为业务驱动,自下而上构建,应涵盖数据集中的所有事实与维度(3分)。
③ 明确事实与维度的关联关系(通过√体现)(3分)。
(2)DIM层构建(5分)
① 应涵盖业务总线矩阵中的所有维度(从日志中提取的和退化的维度不必形成维表)(1分)。
② 维度表字段尽可能完善,应包含所有与该维度相关原始表的信息,还应剔除无法用于统计的字段如“问题内容(文本)”等(1分)。
③ 应做维度整合,明确主维表及相关维表(1分)。
④ 缓慢变化维应构建拉链表(1分)。
⑤ 提供首日装载和每日装载语句(1分)。
(3)DWD层构建(5分)
① 应对业务总线矩阵中列出的所有业务过程建立事实表,粒度为该业务过程的原子操作(1分)。
② 事实表应包含尽可能丰富的字段,并剔除无法用于统计的字段,如“评价内容(文本)”等(1分)。
③ 对于字段极少的维度,要做维度退化(1分)。
④ 对于特殊需求,特殊的业务场景,应按照实际情况构建周期型快照事实表或累积型快照事实表(1分)。
⑤ 提供首日装载和每日装载语句(1分)。
2)指标体系构建及DWS、ADS层搭建(20分)
(1)指标体系构建(10分)
① 提供思维导图(导出为PDF)和Excel版本的指标体系。指明指标类型(思维导图指明,Excel不必),(如果有)指明依赖的指标,示例如下(3分)。
② 指标不可少于20,仅统计周期不同的算作一个指标(如最近1/7/30日各省份下单金额算作一个指标)(3分)。
③ 最大化公共粒度汇总表的调用次数,尽可能减少重复计算(2分)。
④ 思维导图应明确所有指标的依赖关系,不可存在逻辑错误(2分)。
(2)DWS层搭建(5分)
① 汇总表的字段应足够丰富,须整合指标体系中列出的统计周期、统计粒度、业务过程相同的所有派生指标(2分)。
② SQL可执行,且没有逻辑错误(2分)。
③ 提供首日装载和每日装载语句(1分)。
(3)ADS层搭建(5分)
① 包含提交的指标说明文档中的所有指标(2分)。
② SQL可执行,且没有逻辑错误(2分)。
③ 提供首日装载和每日装载语句(1分)。
3)整体要求(5分)
(1)明确数仓上线首日,进而确定采集目标路径、装载语句及调度脚本的日期(2分)。
(2)数仓各层明确表名、字段名称命名规范(2分)。
(3)数仓建表语句应指明正确的存储、压缩格式,规范存储路径(1分)。
4. 可视化
使用任意工具完成数据可视化。
① 为所有ADS层指标选择合适的图表(2分)。
② 提供报表建表语句(如MySQL报表)(2分)。
③ 效果酷炫(1分)
5. 提交材料
1)资料(5分)
(1)提供数仓搭建需要的所有组件安装包及安装说明文档(1分)。
(2)EZDML或其它工具完成的业务库表关系模型(1分)。
(3)组件启停脚本、数仓各层调度脚本、采集脚本、报表数据导出脚本等(1分)。
(4)业务总线矩阵及指标体系(1分)。
(5)数仓各层数据装载语句、调度工具工作流执行成功截图及可视化大屏截图(1分)。
2)文档(15分)
(1)业务流程说明文档(3分)
详细介绍业务流程,对业务库建模,说明所有原始表之间的关系。
(2)需求说明文档(3分)
按照主题划分,阐明指标的统计思路。
(3)数仓文档(9分)
① 包含采集、各层建表、装载语句及说明、全流程调度及可视化模块(4分)。
② 行文流畅,思路清晰,用词严谨(3分)。
③ 排版规范(与模板一致),无错别字(2分)。
3)验收视频(不单独计分)
此项不计分,但会作为其它评判规则的参考。
录制10-15分钟的视频,要求完整演示从采集到可视化的数据流转过程。其中,要包含调度工作流上线、执行、完成的全过程,以及可视化工具数据源的配置、图表的选择等内容。视频可加速,总长压缩至指定范围即可。
6. 加分项
1)数据集(20分)
此项仅面向参赛团队自行收集的数据集。
(1)业务流程完善,数据集包含一个完整业务流程所涉及的所有事实和维度(5分)。
(2)业务丰满,原始表字段多,数量多。大于20个字段的原始表大于20张可获得附加分,至多10分,100张封顶(10分)。
(3)数据源多样性,至少提供一种数据源(如Mysql、Oracle、MongoDB、Excel、TXT等)的原始数据,每多一种加一分,上限5分(5分)。
2)指标(15分)
(1)阐明指标的经济价值(5分)。
(2)指标丰富,达到30可以获得附加分,至多10分,100个封顶(10分)。
3)数据质量监控(5分)
4)元数据管理(5分)
5)数据治理(5分)
6)权限管理(5分)
7)用户认证(5分)
9
资料下载
度盘链接
https://pan.baidu.com/s/1YJdbSlw3kXMlTp9FdC1boA?pwd=43sl
提取码
43sl
END
-
世界热议:竞赛邀请 | 第一届青云杯IT技术挑战赛大幕揭开竞赛开启2023年第一届青云杯IT技术挑战赛竞赛邀请函青云杯IT技术挑战赛由尚硅谷教育主办,目的是鼓励大学生和大数据开发人员发挥创造力和实践
-
什么时候去巴厘岛旅游攻略好_什么时候去巴厘岛旅游攻略1、在旱季尤其是6月到9月,巴厘岛降水少,天气也比较凉爽,是旅游的最佳季节,也是当地的旅游旺季。2、几月份去巴厘岛最好3
-
@新兴市民 即日起,在新兴缴存的住房公积金可以这样取!@新兴市民即日起,在新兴缴存的住房公积金可以这样取!,贷款,商贷,新兴县,中国银行,住房公积金
-
给闺蜜的备注沙雕可爱恶搞闺蜜备注大全_给闺蜜的备注沙雕 环球播资讯1、我宇宙无敌贤惠善良又可爱的小哥哥2、听说网名取得太长会被狗咬3、里四臭居居。2、4、前天5、孩孩木木Cc小敏感6、软
-
磁钢是什么东西_磁钢-当前热文1、性质磁钢一般是指铝镍钴合金(磁钢在英文中AlNiCo即铝镍钴的缩写),磁钢是由几种硬的强金属,如铁与铝、镍、钴等合成
-
全球看点:瑞可达:515.7052万股限售股3月16日上市流通瑞可达3月8日公告,本次上市流通的限售股类型为向特定对象发行股票形成,股份数量为517052万股,占公司总股本的56%,
-
一光年有多少米多少千米_当前快播1光年等于9460730472580000米等于9460730472580千米。光年,长度单位,一般被用于衡量天体间的距离,字面意思指:光在宇宙真空中沿直线经过
-
郾城区文旅局举办促进全区旅游业高质量发展调研活动3月7日,漯河市郾城区文旅局举办了以“促进郾城旅游业高质量发展”为主题的调研活动。活动旨在全面加快全区旅游从业者之间的交流与合作,探...
-
每日速讯:有效值和峰值关系_有效值1、有效值,是一种用来计量交流电大小的值。2、若交流电通过一个电阻,在一个周期中所发生的热量与直流电通过同一电阻在同一时
-
安徽梦-今日报1、安徽梦,指的是近来年安徽的一些发展概况,全国每100台冰箱有35台是安徽造。2、全球119个国家有皖产汽车在奔跑
-
plu_每日观察1、PLU游戏娱乐传媒,以举办推广各类游戏赛事、传播报道国内外游戏热点重点新闻、选拔包装中国游戏高手为主要职能,开创了世
-
新资讯:淘宝为什么买不了东西1、账号是否存在安全风险被淘宝暂时保护,可以电脑端登录淘宝网根据页面提示自助开通淘宝账号。2、账号因严重违反淘宝规则导致的账号冻结、限
-
黑龙江省绥滨县发布暴雪蓝色预警_天天新要闻黑龙江省绥滨县发布暴雪蓝色预警
-
天天快看点丨噻虫嗪1、噻虫嗪是一种全新结构的第二代烟碱类高效低毒杀虫剂,对害虫具有胃毒、触杀及内吸活性,用于叶面喷雾及土壤灌根处理。2、其
-
咏雪的翻译和意思_咏雪的翻译-世界今亮点1、咏雪意思是:在一个寒冷的下雪天,谢太傅与家人在一起聚会,他跟子侄辈的人讲解诗文。2、不一会儿,雪下得紧了,谢太傅高兴
-
阴毛脱落1、阴毛会因新陈代谢发生脱落,大约每半年更换一次。2、随着年龄增大,性激素分泌逐渐减少,毛囊渐渐萎缩,阴毛脱落增加,变得
-
唯物辩证法原理_唯物辩证法原理是什么-天天聚看点欢迎观看本篇文章,小升来为大家解答以上问题。唯物辩证法原理,唯物辩证法原理是什么很多人还不知道,现在让我们一起来看看吧!
-
快消息!最经典的单机游戏排行榜前十名 好玩的单机经典老游戏推荐单机游戏是不能继续拧互联网对战的网络游戏,而神作则指的是有着深远的影响和广泛的受众,富有开创性的作品,那么哪些单机游戏算是神作呢,本
-
贴心暖心!走进养老院,为老年人提供免费接种流感疫苗服务_天天快消息贴心暖心!走进养老院,为老年人提供免费接种流感疫苗服务
-
环球热文:回旋扑克怎么玩_回旋扑克1、1 准备一副扑克牌,抽出其中一张,在四分之一左右的边上做一个折痕。2、2 食指和中指夹住右上角,拇指夹住右下角,顺着
-
大秦赋分集剧情介绍 世界即时看1、第一集剧情:碧空艳阳之下,玉阶高筑,千倾王殿金壁飞檐,久历数十年风雨,终是迎来六合共主。然则,千秋功业,后传于世,巍巍强赵已去,回
-
gitlab 15.8 on rocky 8过去一直gitlab搭建在kubernetes上,但是很多的管理不方便:资源的备份。pv,pvc这些管理扩容,升级,迁移,上传文件的大小等种种问题。现在想把gi
-
笔记本电脑怎样建立无线网络_笔记本如何建立无线局域网1、 我们不仅可以利用笔记本的无线网卡进行无线上网,而且还可以建立无线局域网。那么笔记本如何建立无线局域网呢?下面是小
-
雷克萨斯RX450hL的实测表现依然强劲解答:1、【有车后的性能衡量】这个“L”不是另一个“L”。雷克萨斯RX450hL加长版不是针对中国市场的特别版,但在
-
深圳有哪些生物公司_环球新资讯1、深圳市海王生物工程股份有限公司海王集团成立于1989年,1998年上市,是一家集医药产品研发、医药工业制造、医药商业流通、医药零售连锁为一
-
焦点热讯:年轻人越来越离不开B站了:日均使用96分钟 给Up主分成91亿年轻人的生活方式中,刷B站已经成为离不开的一部分,昨天B站发布了2022年财报,全年营收219亿元人民币,较2021年增
-
流动性预期趋紧 沪锡失守二十万关口-天天观天下【流动性预期趋紧沪锡失守二十万关口】日内锡价跌幅扩大,沪锡主力低开下探,收于199500元 吨,跌幅3 51%,伦锡跌至24450美元。美国上周初请失
-
眼保健超的正确做法_眼保健超正确做法图1、按摩这几个穴位,对眼睛有好处:2、13、、目窗穴4、目窗穴位处头部,在前部发际线往上约1 5寸,双瞳所对之处即是。按
-
新消息丨奥赛康3月2日盘中涨幅达5%以下是奥赛康在北京时间3月2日09:40分盘口异动快照:3月2日,奥赛康盘中涨幅达5%,截至9点40分,报9 81元,成交3439 03万元,换手率0 39%。注
-
报考事业单位生源地是什么意思_生源地是什么意思1、小编将集中为考生解答相关的问题,赶紧来看看吧:2、户籍:3、又称户口,是登记户口的册籍,也就是登记户口所在地的文件。