Hanee' is available for hire

Hanee' Medhat Shousha

Verified Expert in Engineering

大数据架构师和开发人员

Location

开罗，埃及开罗省

Toptal Member Since

June 18, 2020

Hanee是一名数据专家，她喜欢从事数据分析和细分工作，以便更好地通过活动瞄准客户. 他是一位经验丰富的Java开发人员，构建了每天与数百万客户交互的企业应用程序. Hanee也有使用大数据、Spark和Python的经验.

Portfolio

跨国医疗保健公司

Python, SQL，数据工程，Azure函数，Azure Databricks, Databricks...

美国市场研究公司

Python, Spark, PySpark, Apache Airflow, 谷歌云平台(GCP)， BigQuery...

Top Beverages Company

大数据，Databricks, Spark, PySpark, Python, Azure数据湖...

Experience

SQL - 10 years Python - 7 years Apache Spark - 7年 Big Data - 7 years Apache气流- 3年 Tableau - 2 years Django REST框架- 2年机器学习- 2年

Availability

Part-time

Preferred Environment

大数据，Git, Linux, OS X

The most amazing...

...我执行的项目是一个平台，通过分析用户响应来优化活动脚本，以确定与用户互动的最佳方式.

Work Experience

Senior Data Engineer

2022 - 2023

跨国医疗保健公司

设计和构建数据管道来处理EHR数据.
为从多个系统收集的数据设计和构建数据报告数据模型.
构建api，将前端应用程序与统一的数据平台集成.
在Azure Databricks上使用PySpark构建ETL作业.

Technologies: Python, SQL，数据工程，Azure函数，Azure Databricks, Databricks, Message Bus, APIs, Azure API Management, Azure Logic Apps, 电子健康记录(EHR), PostgreSQL, Delta Lake, GitLab CI/CD

Senior Data Engineer

2021 - 2022

美国市场研究公司

在谷歌云平台(GCP)环境下开发数据工程解决方案.
使用Apache Airflow构建和编排复杂的数据管道.
开发了流和批处理数据管道.
使用不同的技术和集成构建复杂的数据管道.
为构建统一的数据仓库而设计和建模数据.
使用CI/CD管道构建和自动化部署.

Technologies: Python, Spark, PySpark, Apache Airflow, 谷歌云平台(GCP)， BigQuery, Google BigQuery, Big Data, Cloud Dataflow, Apache Beam, Flask, APIs, REST, Travis CI, GitHub Actions, Data Modeling, Data Architecture, Architecture, Pub/Sub, Presto, Streaming Data, Terraform, CI/CD Pipelines

Senior Data Engineer

2020 - 2021

Top Beverages Company

构建数据摄取管道，从各种来源获取数据.
在Databricks上使用PySpark转换和清理数据.
设计了统一的数据模型，将来自不同来源和格式的所有数据组合起来.
在集中式数据湖中构建并存储所有数据.
创建了一个自动化的数据管道，使用数据工厂来完成所有ETL逻辑.
自动化Databricks作业部署以及使用Azure DevOps的数据工厂管道.
在Snowflake数据仓库中工作和处理数据.

Technologies: 大数据，Databricks, Spark, PySpark, Python, Azure数据湖, Azure Data Factory, Azure Synapse, Data Engineering, Data Warehouse Design, Modeling, ETL, Delta Lake, Azure DevOps, Tableau, Snowflake

Big Data Architect

2019 - 2020

Vodafone Group

使用GCP云技术为不同的数据源类型设计数据管道.
使用Apache Spark开发和实现ETL作业.
使用Spark开发和实现分析作业.
利用Spark开发和构建地理空间分析模型，进行并行地理处理.
实现和开发数据管道，将数据从内部部署集群摄取到云数据湖中.
使用Tableau为企业开发仪表板.
在本地集群上工作和开发用例.
将数据和作业从本地迁移到云集群.
为要用于报告的数据存储设计和应用建模.

技术:数据工程, Apache Airflow, Data Warehouse Design, Data Warehousing, SQL, Apache Spark, Big Data Architecture, Big Data, Apache Beam, NiFi, Scala, Tableau, BigQuery, GeoPandas, Python, Spark, Hadoop, 谷歌云平台(GCP), GIS, Data Architecture, GeoSpark, Apache NiFi, GitLab CI/CD, Cloud Dataflow, PostgreSQL, Apache Kafka, Data Modeling, ETL, Unix, Pandas, NumPy, Data Pipelines, Machine Learning, Jenkins, Data Science, Redis, Linux, Jupyter Notebook, Google Cloud Dataproc, Google BigQuery, 持续集成(CI)

高级Python开发人员

2018 - 2019

力拓(通过Toptal)

建立数据处理平台，处理地震事件.
创建了一个RESTful API来存储和检索地震数据和文件.
使用Kafka作为各模块之间的消息总线.
实现Redis作为缓存来存储管道经常需要访问的数据.
用Django构建一个管理UI来管理配置和保存对象.
将API与不同的处理管道阶段集成，以触发数据的同步和异步处理.
将一个Flask API迁移并转换为Django RESTful API.
在不同管道模块的docker容器化环境下工作.
在Kubernetes上使用自动部署管道.
在Microsoft Azure云平台上开发和运行组件.

技术:数据工程, Apache Airflow, SQL, Big Data Architecture, Big Data, Azure, Kubernetes, Docker, MongoDB, Redis, Apache Kafka, Flask, Django REST Framework, Python, PostgreSQL, Data Architecture, GitLab CI/CD, Data Modeling, ETL, Unix, Data Pipelines, Linux, 持续集成(CI), Prometheus

高级大数据工程师

2017 - 2019

Orange Business Services

利用大数据技术开发新的业务用例.
使用Spark创建分析和ETL作业.
构建数据管道，将数据摄取到不同的数据湖中，如Azure DataLake.
为客户开发新的poc，构建云环境下的大数据平台.
构建实时监控平台，监控所有客户的云托管服务器.
实现了一个新的集中式Elasticsearch，从所有客户服务器收集指标.
使用Tableau和Power BI为系统监控用例设计并构建了多个仪表板.
为大多数日常任务开发多个自动化脚本.
处理和优化大数据平台的性能.
管理包含所有服务的Hadoop集群.
开发自动化日常任务的脚本和模块.
带领一个小组进行自动化和自我监控活动.
升级了本地Hadoop集群版本.
管理和添加新的节点和磁盘到本地Hadoop.
使用Kerberos、Knox和Ranger安装和构建Hadoop集群的安全性.
在Azure和AWS等不同的云平台上工作过.

技术:亚马逊网络服务(AWS), Data Engineering, SQL, Apache Spark, Big Data, Azure Data Lake, Amazon S3 (AWS S3), Azure, Microsoft Power BI, Tableau, MongoDB, Cassandra, Elasticsearch, Apache Hive, Apache Kafka, NiFi, Spark, Hadoop, PostgreSQL, MySQL, 谷歌云平台(GCP), Automation, Data Architecture, Apache NiFi, Python, Data Modeling, ETL, Unix, Pandas, NumPy, Data Pipelines, Linux, Hortonworks数据平台(HDP), Google Cloud Dataproc, Google BigQuery, HBase

DWH和campaign高级开发者

2014 - 2017

Etisalat

开发分析和细分模型，建立客户档案.
创建产品和活动应用程序，创建目标和非目标活动，每天达到数百万客户.
构建实时引擎，每小时服务并满足数百万客户的请求.
设计和开发与许多不同系统交互的大型复杂平台.
开发基于实时位置的广告平台，根据用户当前位置向用户发送广告.
开发多种数据货币化解决方案，供第三方广告商使用.
开发和整合活动应用程序与许多渠道，使企业能够接触到用户使用他们的首选渠道.
构建了许多web应用程序，使企业用户能够轻松地与活动平台进行交互.
设计并放置DWH模型的架构，用于报告和细分.
开发从不同来源到DWH的ETL和集成作业.

技术:数据仓库设计, Data Warehousing, SQL, SQL Server集成服务(SSIS), PrimeFaces, Microsoft SQL Server, Oracle, Teradata, Spark, Spring, JSF, Java, Python, Apache Spark, MySQL, Data Architecture, Data Modeling, ETL, Aprimo, Hortonworks数据平台(HDP), HBase

MIS Specialist

2013 - 2014

ADIB

为报告目的设计和实现新的数据库模型.
开发提取作业和存储过程.
实现的业务对象宇宙和开发的业务对象报告.
开发自定义水晶报表.
执行数据转换.

技术:数据仓库设计, Data Warehousing, SQL, Sybase, Crystal Reports, SAP业务对象(BO), Data Architecture, Data Modeling

DWH Support Analyst

2012 - 2013

Etisalat

为生产ETL作业、数据挖掘和分析模型部署和修复问题.
开发了新的shell脚本，用于自动监视和警报生产问题.

技术:数据仓库设计, Data Warehousing, SQL, Teradata仓库Miner, Unix Shell Scripting, Datastage, Oracle, Teradata, Aprimo

Software Developer

2011 - 2012

ITS

开发核心银行应用程序的新模块.
处理了贸易融资应用程序从Sybase到SQL服务器的完整迁移.
为一个贸易融资应用程序实现了一个全服务接口.
使用Crystal reports开发自定义报表.

技术:SQL, Java, Sybase, Oracle

Experience

CCA Spark和Hadoop认证开发者(CCA175)

我获得了Cloudera的认证.
许可证号:100-019-596.

大数据发展| 2016专业人士精通奖

http://www.youracclaim.com/badges/da6c7070-8fde-4799-b04e-f9d8719a49a3/linked_in_profile

我获得了IBM的奖项.

IBM BigInsights V2的大数据专家.1 Certificate

我于2016年3月获得IBM大数据专家证书，执照号0717-1458-8215-5644.

大数据证书简介

http://www.coursera.org/account/accomplishments/certificate/CPH7HZ6TDEZN

我完成了加州大学圣地亚哥分校的Coursera课程.

Hadoop平台与应用框架证书

http://www.coursera.org/account/accomplishments/certificate/Y6QNGTJMQFVV

我完成了加州大学圣地亚哥分校的Coursera课程.

Python数据科学入门

我通过Coursera完成并获得了密歇根大学的证书.

Education

2010 - 2011

商业智能和软件开发文凭

信息技术学院-开罗，埃及

2005 - 2010

计算机工程学士学位

班哈大学-班哈，埃及

Certifications

2017年12月- 2019年12月

CCA Spark和Hadoop Developer CCA175

Cloudera

Skills

Libraries/APIs

Pandas, NumPy, PySpark, D3.js, Chart.. js, Azure API管理

Tools

Azure HDInsight, Git, Apache Beam, Cloud Dataflow, Tableau, Cloudera, Google Cloud Dataproc, GIS, GitHub, Apache Airflow, Amazon Elastic MapReduce (EMR), Apache Impala, Apache Sqoop, Apache Avro, Apache NiFi, GitLab CI/CD, Jenkins, Microsoft Power BI, Teradata仓库Miner, BigQuery, Qlik Sense, Grafana, IBM InfoSphere (DataStage), Crystal Reports, Kibana, Travis CI, Azure Logic Apps, Terraform

Frameworks

Apache Spark, Django REST框架，Spark, Hadoop, Django, Flask, JSF, PrimeFaces, Spring, Presto

Languages

SQL, Java, Python, Scala, c++， Snowflake

Paradigms

商业智能(BI), ETL, REST, 持续集成(CI), Automation, Data Science, Azure DevOps

Platforms

Databricks, Jupyter Notebook, Linux, Apache Kafka, Hortonworks数据平台(HDP), Unix, 谷歌云平台(GCP), Azure, Oracle, Docker, Kubernetes, 亚马逊网络服务(AWS), OS X, Azure Synapse, Azure Functions

Storage

MySQL, Teradata, Apache Hive, PostgreSQL, Microsoft SQL Server, Data Pipelines, Amazon S3 (AWS S3), MongoDB, HBase, Sybase, Elasticsearch, PostGIS, Redis, SQL Server集成服务(SSIS), Cassandra, Datastage

Other

Azure Data Lake, Azure Data Factory, Data Warehouse Design, Big Data, Data Warehousing, Aprimo, APIs, Data Engineering, Data Architecture, Big Data Architecture, Data Analysis, Data Modeling, Modeling, NiFi, SAP业务对象(BO), Parquet, Machine Learning, Google BigQuery, GeoPandas, GeoSpark, Scraping, Unix Shell Scripting, Prometheus, Apache Flume, Statistics, Delta Lake, GitHub Actions, Architecture, Pub/Sub, Streaming Data, Azure Databricks, Message Bus, 电子健康记录(EHR), CI/CD Pipelines

有效的合作

如何使用Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring