面经<一>

发表于 2018-03-08

阿里、网易游戏面经

这两个都是现场面的，我投的是网易游戏和蚂蚁金服人工智能部门的实习生，分别在滨江的网易总部和西溪路上Z空间的蚂蚁金服所在地。贼紧张～～。由于我太懒了，没有及时更新，有些已经不多记得了，请见谅～～

网易游戏

进去网易之后，等了一会，然后面试官下来带我上二楼找了个地方，就直接开始了

基本上是按照我的项目问的，可能没有什么值得借鉴的。。

首先当然是自我介绍啦。
然后因为我的简历上有一些图形学的项目，所以面试官叫我说一下自己的项目内容，遇到的问题等等。紧接着，就是针对我的项目提出了一些关于游戏优化的问题（不得不说，面试官能在我乱七八糟的语言组织下发现我的问题真是厉害啊），我大概讲了一些（也不知道对不对），面试官就点了点头；还有就是，让我画了一下整个项目架构，我画的很烂。。。另外还有的是，问了一些图形流水线的问题，包括比较了一下老版opengl和新版opengl的区别，各种shader的使用等待
然后问了一下另外一个项目，一个解析器，用python写的，所以就提问了一下python的一些magic method，还有就是装饰器的意义作用（这个问题是我引出的，所以回答时注意不要回答到自己不会的东西），当然我都有所准备啦。
然后就是各种排序算法的分析，手写了一下快排，解释了一下几种选择pivot的优缺点。
紧接着，还是针对我的项目问的，问了一些数据库的问题，然后还问了一下B+树，我就回答了一下B+树定义作用应用，比较了一下B+树和B树，还有红黑树。
最后就是问我有时间实习吗，还有问我有什么问题不

总的来说，面试官都很nice，基础很重要，会就是会，不会就说不会。还有一个很重要的是，对于自己的项目要很熟悉，包括问题，解决，整个项目内容，都要很熟悉，起码不能抄袭项目啊

阿里（蚂蚁金服）

这个就很累了，别人都是电话面试，我是现场面，幸亏学校离蚂蚁金服也不远，走了半个多小时就到了。等了一下，就跟着面试官上去了，还是单面

由于我面的这个是蚂蚁金服的人工智能部门，所以一上来就问了一下我会不会机器学习深度学习和分布式之类的，当然，我都不会（刚入门就不用说了，不会就是不会）

首先是自我介绍啦，老套路
然后问了一下海量数据的排序问题，比如杭州市人口年龄排序。这种问题网上也有很多，好好看看，理解一下就行
还有的是老套路，比较各种排序算法，我还是说了快排，还有归并，这回没有手撕代码。。。
后面就很难熬了，各种白板编程，手写代码，首先是出了一道剑指offer上有过的问题，但是改了一下（大致是最大连续子序列和，环路）。没办法，我只会不是环路的情况，就写了一下不是环路怎么做（动态规划），然后面试官各种提示我还是不大会（可能太菜了，也可能比较紧张）。后面面试官就直接说了答案，中途面试官还让我写了一下不是环路下，动态规划的公式。
还有，就是面试官让我手写一个单例模式。。妈呀，没想到啊，我看的《设计模式》，刚好还差一章看到单例模式，气死人了。然后就在面试官的提示下，写了一下，我还理解错了一点，不过面试官还是友好地提醒了我，于是改正。。亏大了。。。
紧接着，还是一道剑指offer的题，走楼梯，一次可以走一步或者两步，问n级楼梯，有多少种走法（这书要好好看），我刚好会，就写了。然后面试官让我想一下会出现什么问题。我太菜了，还是没想到，后来它说是C++写的话，有可能会溢出。然后我说python就不会（本着和面试官友好交流的想法，没想到。。）。面试官让我写一下大数相加，然后我又手写了大数相加，幸亏没什么bug了。
终于可以坐下了，然后就问了一些c++的东西，比如const跟在函数名后面什么意思啊，malloc与new的区别啊之类的，都比较简单啦，好好看网上的面经都有的。

总的来说，蚂蚁金服问的我心力交瘁，不过面试官也比较nice，我在他的引导下也做出了一些解答，不过倒是不怎么问项目了这回，大概是因为项目和他熟悉的领域不相符

总结

准备好基础，这样总没错，算法题要刷，面经看一下，项目得熟悉，还必须自信

海量数据问题

发表于 2018-03-08

由于面试中经常遇到海量数据的相关问题，比如排序，比如选出topk，比如找出重复的元素等等

海量数据排序

假如有１TB的数据，内存只有32GB

第一步是将１TB的数据分成40组，每组25GB；然后分别读取40组数据，进行内部排序（可以用快排或者归并），然后写回磁盘；接着从这40组数据中分别读取25GB/40=0.625GB，放在40个缓冲区里；最后进行多路归并，可以每次将归并结果写满4GB就写回磁盘；并且一旦有缓冲区已经读完了，就从该缓冲区对应的组里读入新的0.625GB；

海量数据中选出最大的前k个数

一种方法：通过哈希将海量数据分成n个小文件（如果不够小，继续细分，直到文件大小小于内存）。然后为每个小文件建立一个小顶堆，这样就能选出n个topK，进行归并，选出最后的topK；另外的方法：是直接建立一个k大小的大顶堆，然后依次读入数据，与堆顶元素比较，调整堆。当所有数据读完之后，得到最终的堆就是topK个数；

海量数据中选出频率最高的几个元素

与上面相同，先是将数据分成多个小文件，在每个小文件内利用hash_map去统计每个词的频率，选出topK频率的元素。最后再进程归并或者大顶堆统计；

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

首先是分别对这两个大文件进行哈希计算（用同一个哈希函数），得到多个小文件，这样相同的url就会被分到对应的小文件中；然后从a得到的小文件中找出url，存到hash_set中，然后遍历另外的对应小文件url，如果存在则输出到文件中

在海量数据中找出不重复的数

采用2bit法，00表示不存在该数字，01表示数字只出现一次，10表示数字重复多次。扫描完之后，输出对应为01的数字即可

判断一个数是否在海量数据中

一种方法是采用位图法，1个bit代表一个数，扫描一遍海量数据，得到扫描结果。之后进行判断；另外的方法则是，把海量数据按照每个bit为0或者1分成两类，然后又按照次高位分成2类。。一次下去。这样，每次判断数是否存在于海量数据中花费时间为logN

参考

http://blog.csdn.net/FX677588/article/details/72471357 https://kb.cnblogs.com/page/95701/

Singleton(DesignPattern)

发表于 2018-03-07

Singleton

目的

在某些应用环境下，我们希望一个类只提供一个实例，用户只能使用一个实例

##　做法

一般来说，我们在类内维持一个静态的成员变量和静态成员函数，在函数内对成员变量进行初始化（准确点说应该是分配对象）

##　注意问题

所有函数都定义为static，并不是好的单例模式，一是因为我们无法保证静态变量的初始化顺序，加入是两个单例类互相使用，这样就无法保证互相的一来关系，另外的问题就是可能失去了面向对象的关键特性——多态
还有一个是如果我们的静态变量是一个对象，那么程序一开始运行，对象就已经存在了，镇不是我们需要的
如果我们希望灵活地使用不同的对象（以后拓展），可以在类内增加一个注册机制，根据环境变量返回不同类型的实例
最后返回指针可能会有一个问题就是，程序员可能会自行去销毁指针所指向的对象，这样就无法再次拥有这个实例了

代码示例

#include <iostream>

class Singleton {
public:
    static Singleton& Instance() {
        static Singleton p_Instance;
        //if (p_Instance == NULL)
        //    p_Instance = new Singleton();
        return p_Instance;
    }
    virtual void print(){
        std::cout << "Singleton " << std::endl;
    }
private:
    //static Singleton *p_Instance;
    Singleton(){}
    Singleton(const Singleton& ){}
    Singleton& operator=(Singleton const&){}
};

//Singleton* Singleton::p_Instance = NULL;

int main()
{
    Singleton::Instance().print();
    return 0;
}

Sort Algorithm

发表于 2018-03-07

Sort algorithms

冒泡排序

每次将最大的放在最后，代码：

void bubbleSort(vector<int>& arr)
{
    for (int i = 0; i < arr.size()-1; i++) {
        for (int j = 0; j < arr.size()-1-i; j++) {
            if (arr[j] > arr[j+1])
                swap(arr[j], arr[j+1]);
        }
    }
}

选择排序

整体比较，相对于冒泡排序，选择排序需要比较选择最小的放在前面，减少了交换次数。代码：

void selection_sort(vector<int>& arr)
{
    for (int i = 0; i < arr.size(); i++) {
        int min_idx = i;
        for (int j = i+1; j < arr.size(); j++) {
            if (arr[min_idx] > arr[j])
                min_idx = j;
        }
        swap(arr[min_idx], arr[i]);
    }
}

插入排序

插入排序类似于玩扑克牌，拿到一张牌，就把它插入到大小合适的位置，并保证其前面的牌已经按顺序排列好。代码：

void insertion_sort(vector<int>& arr)
{
    int j;
    for (int i = 1; i < arr.size(); i++){
        int tmp = arr[i];
        j = i-1;
        while (j>=0&&tmp<arr[j]) {
            arr[j+1] = arr[j];
            j--;
        }
        arr[j+1] = tmp; 
    }
}

快速排序

来自于冒泡排序的思想，通过与基准比较，将小数排到一边，大数排到另外一遍。代码：

int partion(vector<int>& arr, int low, int high) 
{
    int pivot = arr[low];
    int pivotind = low;
    while (low < high) {
        while (low < high && arr[high] >= pivot) high--;
        while (low < high && arr[low] <= pivot) low++;
        swap(arr[low], arr[high]);
    }
    swap(arr[low], arr[pivotind]);
    return low;
}

void quick_sort(vector<int>& arr, int low, int high)
{
    if (low >= high) return;
    int pi = partion(arr, low, high);
    quick_sort(arr, low, pi-1);
    quick_sort(arr, pi+1, high);

}

##　归并排序

基于分而治之的思想，先递归划分成子问题，然后合并结果。简单来说就是先两两合并有序序列，然后再四四合并。。。

void merge(vector<int>& arr, int l, int m, int r)
{
    int i, j, k;
    int n1 = m - l + 1;
    int n2 = r - m;
    int lv[n1], rv[n2];
    for (i = 0; i < n1; i++)
        lv[i] = arr[l+i];
    for (j = 0; j < n2; j++)
        rv[j] = arr[m+1+j];
    
    k = l;
    i = j = 0;
    while (i < n1 && j < n2) {
        if (lv[i]<=rv[j])
            arr[k] = lv[i++];
        else
            arr[k] = rv[j++];
        k++;
    }

    while (i < n1) {
        arr[k] = lv[i++];
        k++;
    }
    while (j < n2) {
        arr[k] = rv[j++];
        k++;
    }
}

void merge_sort(vector<int>& arr, int l, int r)
{
    int m = l + (r - l) / 2;
    if (l < r) {
        merge_sort(arr, l, m);
        merge_sort(arr, m+1, r);
        merge(arr, l, m, r);
    }
}

堆排序

借助堆来实现选择排序，升序就用大顶堆，降序就用小顶堆。将有序数列建成堆，从第一个非叶元素开始依次建堆；调整成堆，每次将堆顶元素和最后一个元素交换，并调整堆。

void heapify(vector<int>& arr, int n, int root)
{
    int largest = root;
    int l = root * 2 + 1;
    int r = root * 2 + 2;
    if (l < n && arr[l]>arr[largest]) largest = l;
    if (r < n && arr[r]>arr[largest]) largest = r;

    if (largest != root) {
        swap(arr[largest], arr[root]);
        heapify(arr, n, largest);
    }
}

void heap_sort(vector<int>& arr, int n)
{
    for (int i = n / 2 - 1; i >=0; i--) {
        heapify(arr, n, i);
    }

    for (int i = n-1; i >= 0; i--) {
        swap(arr[0], arr[i]);
        heapify(arr, i, 0);
    }
}

STL学习之路<一>

发表于 2018-03-06

概念理解

容器算法迭代器的关系

每个容器都有自己专属的迭代器，而算法则是通过迭代器来操作容器中的元素

容器通过模板实现，能够装下各种类型的元素

迭代是一种只能指针，通过*来解引用

迭代器种类

5种：输入、输出、前向、双向、随机访问

适配器种类

3种：容器适配器（例如stack，queue和priority_queue都是给予其它容器实现的）；迭代器适配器；函数适配器

sort算法

数据量大的时候选用快排，分段递归排序，一旦分段小于某个数据量之后采用的是插入排序。如果递归层次过深，又会转而调用堆排序。

C++11 模板学习

发表于 2018-03-05

基本概念

模板是一种支持参数化多态的工具，使得程序员能够编写与类型无关的代码

模板又分为两种：函数模板和类模板

模板特化

模板特化的提出是根据C++的设计，对于特定的类型，如果你能对某个功能有更好的实现，那么应该听你的。特化必须要在同一个命名空间下进行，函数模板只可以全特化（因为偏特化可以通过函数重载实现），而类模板则可以偏特化或者是全特化。

因此在模板实例化时，会优先匹配参数类型最匹配的那个特化版本。

全特化

通过全特化模板，可以对某些特定参数集合自定义功能。此时模板参数为空。如：

//类模板
template <>
class A<int, double>{
    int data1;
    double data2;
};

//函数模板
template <>
int max(const int lhs, const int rhs) {  
    return lhs > rhs ? lhs : rhs;
}

注意：类模板需要在类名后面给出模板参数，而函数则不需要，它可以自动推导。

偏特化

例如，针对vector进行偏特化

template <class T, class Allocator>
class vector { // … // };

template <class Allocator>
class vector<bool, Allocator> { //…//};

可变模板参数

这是C++11的新特性，支持模板的可变参数。可变模板参数的写法与原来有一点不同：

1 2	template <typename... T> void f(T... args);

它需要在typename或者class后面加上省略号，带省略号的参数就是一个参数包，里面包含了０~N个参数。那么如何展开参数包呢？

两种方法

递归函数展开参数包

由于是递归调用，因此我们必须自定义递归的终止函数，保证其在参数为０时，停止递归。

//递归终止函数
void print()
{
   cout << "empty" << endl;
}
//展开函数
template <class T, class ...Args>
void print(T head, Args... rest)
{
   cout << "parameter " << head << endl;
   print(rest...);
}

逗号表达式展开参数包

不表

C++11中的std::tuple就是一个可变参数模板类

参考资料

http://harttle.land/2015/10/03/cpp-template.html

http://www.cnblogs.com/qicosmos/p/4325949.html

B+ tree

发表于 2018-03-05

B+ 树

应用

在实际的数据库产品中，为了满足高效率的查找操作，我们需要实现某种索引来进行查找，索引又通常通过B+树或者B树去实现（一般不用红黑树）

为什么

考虑到索引文件一般也很大，不可能将它们全部存储在内存中，而是存储在磁盘上。又由于介质等原因的不同，磁盘的IO比主存的IO要慢很多。因此要想提高效率，必须要减少磁盘IO的次数。

为了达到这个目的，系统在发生缺页中断时都会直接读入一个block（page的整数倍）。假设B+树的高度为h，又因为通常设计成一个节点的大小对应于一个block，所以要查找特定的记录，最多只需要h次IO即可。

而红黑树的深度是远比B+树要高的，所以一般情况下都只会使用B+树

定义

一颗M阶B+树的定义

根节点只有一个，子树有[2, m]
除了根节点之外的非叶子节点，包含的子树为[[m/2],m]
所有非根节点的key数目为[[m/2], m]
叶子节点都在同一层，叶子节点才含有key的信息，其它只是索引
所有非叶子节点的key等于其子数中最大或者最小的key

操作

插入时判断其是否不满足定义，按需进行分解操作

删除时判断其是否不满足定义，按需进行合并操作v

C++内存分配方式

发表于 2018-03-04

内存分配的５个区域

由操作符new分配的空间，它们的释放不由编译器管理，需要程序员手动释放，或者在程序结束时由操作系统回收释放。

一般存储局部变量和函数参数，由编译器去分配

自由存储区

与堆类似，但它是由malloc

静态存储区

在C++中，全局变量和静态变量都存储在这

常量存储区

比较好理解，就是存储常量的区域

堆和栈的区别

堆是由程序员控制的，而栈是由编译器控制的
堆的空间大小一般为4G，而栈相对较小，比如１M
堆有可能产生碎片，而栈是先进后出的模式，不会产生碎片
堆是自下往上，往高地址生长的；而栈则相反
栈分配效率较高，只需要从寄存器中找到存放栈的地址；而堆比较麻烦，需要通过一定的算法找到内存大小合适的空间（链表），或者因为碎片太多，先进行压缩抖动等

引用自： http://www.cnblogs.com/daocaoren/archive/2011/06/29/2092957.html

OS面试知识点<一>

发表于 2018-03-02

深度探索C++对象模型<一>

发表于 2018-03-01

开始看这本神书，做一些笔记：

简单对象模型

第一个模型很简单，一个对象是由一系列slots组成，但是成员（对象和函数）都不是放在对象内的，而是把指针放在对象内，通常来说这不被应用于实际产品。

表格驱动对象模型

存储两个指针，分别指向data member table和function member table

C++对象模型

来看看重头戏——C++对象模型。有几个需要注意的：

非静态数据成员放在类的对象中；
静态数据成员和成员函数放在类对象之外；
至于虚函数，则需要从类和对象两个方面考虑：每一个类都会有一个相关联的虚函数表；每一个对象都会有一个指针指向虚函数表，而表中的第一个slot通常是type_info object；