issue track
baohongfei / wiki Goto Github PK
View Code? Open in Web Editor NEWissue track
License: Apache License 2.0
issue track
License: Apache License 2.0
Terminal
wget https://raw.githubusercontent.com/baohongfei/just-for-fun/master/dev-setup/set-mac-env.sh && bash set-mac-env.sh
系统环境
Windows Server 2008 R2 Enterprise Service Pack 1
currenthashmap
看书「大数据之路-阿里巴巴大数据实践」
1 总述
数据采集层 采集数据库和日志
数据计算层
ODS Operational Data Store
DWD Data Warehouse Detail
DWS Data Warehouse Summary
ADS Application Data Store
DIM
数据服务层
数据应用层
2 日志采集
浏览器的页面日志采集
无线客户端的日志采集
日志采集的挑战
3 数据同步
DataX
数据同步遇到的问题和解决方案
分库分表的处理
4 离线数据开发
MaxCompute平台
SQLSCAN
DQC Data Quality Center
调度系统
5 实时技术
流式技术架构
TimeTunnel 原来和Kafka类似
6 数据服务
7 数据挖掘
分类算法
回归算法
聚类算法
推荐算法
深度学习
其他
用户画像 反作弊
8 大数据领域建模综述
9 阿里巴巴数据整合及管理体系
10 维度设计
11 事实表设计
12 元数据
13 计算管理
14 存储和成本管理
15 数据质量
16 数据应用
select * from DBS;
select * from COLUMNS_V2;
select * from SDS;
select * from TABLE_PARAMS;
select * from TBLS;
ThrealLocalRandom
1
TCP的三次握手过程是:
你瞅啥?(SYN)
瞅你咋地?(SYN-ACK)
来咱俩唠唠。(ACK)
严肃的说是这样的,A和B通信,
A首先发一个报文给B,
B收到了并且回复了A(这个时候A知道连接成功了),
A在回复B的回复(这个时候B知道连接成功了)。
所以说这三次,一次都不能少。
建立连接后,TCP要求在目标计算机成功收到数据时发回一个确认(即 ACK)。如果在某个时限内未收到相应的 ACK,将重新传送数据包。如果网络拥塞,这种重新传送将导致发送的数据包重复。但是,接收计算机可使用数据包的序号来确定它是否为重复数据包,并在必要时丢弃它。相比来说,UDP就是随便发发就好了,例如同城交友,QQ视频什么的,用的就是UDP。
2
Tigase是基于XMPP的开源实现,基于TCP的长连接,能支持的最大连接数取决于机器内存,模拟百万连接需要用到虚拟IP。
3
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具。
4
RPC框架,阿里有hsf、dubbo、Facebook有thrift、Google有grpc、Twitter有finagle、途牛有TSP。中间涉及到的技术有Java代理、序列化、java nio、mina、netty、zookeeper。
5
zookeeper的节点类型有PERSISTENT、EPHEMERAL、和他们的SEQUENTIAL节点。
6
动态拉起容器的技术,没太懂,是想问Docker?如果不清楚对方的问题是什么,以后要直接问出来。
7
当我们再讨论同步,异步,阻塞,非阻塞的时候,我们在讨论什么?
8
读锁、写锁
公平锁、非公平锁
乐观非乐观
8
使用synchronize的5个地方:
instance method 锁住了调用该方法的堆对象
static method 锁住了这个类在方法区中的类对象
synchronize(this)
synchonrize(XXX.class)
synchonrize(mutex)
10
ConcurrentHashMap 如何保证线程安全?
HashTable容器使用synchronized来保证线程安全,但在线程竞争激烈的情况下HashTable的效率非常低下。ConcurrentHashMap锁的粒度细一点。
11
常见的MQ产品有kafka、rabbitmq、activemq。
12
找出两个大文件里相同的记录,
遍历两个文件,hash(记录)%1000
到这1000个小文件里去找相同的。
13
感觉回到了大学考试季,这才是第一天。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.