一个爬虫工程师的技术博客

thunder


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 公益404

加菲猫4.0Demo

发表于 2016-08-22   |   分类于 加菲猫   |     |   阅读次数

目录

[TOC]

操作的顺序

清空jenkins中内容
重启celery_publisher

阅读全文 »

加菲猫测试环境

发表于 2016-08-10   |   分类于 加菲猫测试环境   |     |   阅读次数

目录

[TOC]

阅读全文 »

raft

发表于 2016-08-01   |   分类于 raft   |     |   阅读次数

目录

[TOC]

前言

Raft是一种更易理解的一致性算法(Distributed Consensus). Raft已经在各种语言中得到实现.
Raft is a protocol for implementing distributed consensus

阅读全文 »

etcd

发表于 2016-07-31   |   分类于 etcd   |     |   阅读次数

目录

[TOC]

什么是etcd?

etcd 是一个高可用的 Key/Value 存储系统,主要用于分享配置和服务发现.
etcd是CoreOS公司发起的一个开源项目,官网地址: etcd官网, github地址: etcd的github地址

etcd特性

  1. 简单: 明确的, 面向用户的API(gRPC)
  2. 安全: 可选的客户端安全认证TLS
  3. 快速: 每秒10000次写操作
  4. 可靠: 使用raft实现分布式
    etcd使用go语言编写, 使用raft一致性算法来管理高可用
    利用 etcd 的特性,应用程序可以在集群中共享信息、配置或作服务发现,etcd 会在集群的各个节点中复制这些数据并保证这些数据始终正确

单节点的etcd安装使用

未命名

发表于 2016-07-20   |     |   阅读次数
scrapy教程

目录

  • 目录
  • 前言
  • 需要掌握的技术和工具
  • 安装scrapy
  • 入门案例: 从w3school.com.cn开始

前言

scrapy现在已经在我们的”雅典娜”系统中使用, 它是一个开源的由python编写的成熟的爬虫框架, git地址scrapy

需要掌握的技术和工具

  1. 爬虫相关知识(爬虫反爬虫)
  2. xpath语法, css选择器语法
  3. scrapy
  4. Bloom Filter
  5. python-rq
  6. redis或mongodb

安装scrapy

这里在ubuntu上安装
1. 首先安装python, 版本2.7.3
2. sudo apt-get install python-dev
3. sudo apt-get install libevent-dev
4. pip install Scrapy

入门案例: 从w3school.com.cn开始

  1. 建立项目: scrapy startproject w3school
  2. 编写Item: 编辑items.py
    import scrapy
    from scrapy.item import Item,Field
    
    
    class W3SchoolItem(scrapy.Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        title = Field()
        link = Field()  
        desc = Field()
    
12…12
忍者神龟

忍者神龟

爱打篮球的程序狗

58 日志
30 分类
93 标签
github zhihu weibo douban
© 2016 忍者神龟