蒋家升 · dc2cedb0
Show whitespace changes
Inline Side-by-side

Showing with 295 additions and 0 deletions

data_stream/organ/cods.md data_stream/organ/cods.md +295 -0

No files found.
--- a/data_stream/organ/cods.md
+++ b/data_stream/organ/cods.md
+# **基本信息**
+```buildoutcfg
+cods统一信用代码
+```
+
+
+## 数据名称（中文）
+<!-- 该项数据的中文标准名称，后续沟通交流使用的规范名称，如：工商公示股东信息、失信被执行人、一般纳税人等-->
+### 
+```buildoutcfg
+cods统一信用代码
+```
+
+## 数据英文名称
+<!--英文名称，后续流程中所有涉及到英文名称均以此为准，如：partner、shixin、general_taxpayer等-->
+```text
+cods
+```
+
+## 采集网站（采集入口）
+<!--采集的入口地址，不能只是一个网站域名，具体到该网站的数据入口-->
+```buildoutcfg
+列表搜索入口: 小程序搜 `统一代码查询`
+详情入口:    [分享接口](https://ss.cods.org.cn/mobile/shareDetail/3b55bbe604606fe06d2b67249484d862/ACB40B50FAA04EF0908253CFF7CA1C9A)
+
+采集文件存放路径：
+/data/gravel_spiders/cods
+```
+
+
+
+## 采集频率及采集策略
+<!--说明该项数据更新频率，存量数据的更新频率及策略、新增数据的采集频率及策略-->
+
+### 存量更新策略
+<!--无需更新？每天全量更新？逐条轮询更新？多久更新完一轮？或其他-->
+```text
+
+目前全量更新一轮即可.
+
+```
+
+
+### 增量采集策略
+<!--新增数据怎么来？无需单独采集新增数据？-->
+```text
+# REMARK(2022-08-10): 当前任务为以事业单位等特殊企业表的存量数据作任务源 
+```
+
+---
+
+# **爬虫**
+```text
+cods统一信用代码爬虫 cods
+```
+
+## 责任人
+```text
+蒋家升
+```
+
+## 爬虫名称
+```text
+cods_spider
+```
+
+<!--spider_name-->
+
+## 代码地址
+```text
+项目地址: http://tech.pingansec.com/granite/project-gravel/-/tree/develop_cods/scrapy_spiders
+```
+
+## 队列名称及队列地址
+<!--redis host port db key 优先级说明-->
+-
+* redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
+* redis port: 6379
+* redis db: 7
+* redis key: 
+    * cods
+
+### 优先级队列说明
+* cods 支持队列优先级
+
+## 任务来源
+<!--说明爬虫任务的输入。如：来自某个数据库表等。如果来自某个数据库表则应该简要说明该表内的数据是如何维护的。-->
+```buildoutcfg
+```
+
+## 任务输入参数（样例）
+ 搜索任务
+    ```json
+    {"search_key": "肯德基"}
+    ```
+
+ 详情任务
+    ```json
+    {"uid": "ee6915e9e708027dc6256edd6521d705","source": "normal"}
+    ```
+
+### 任务样例
+<!--注意是爬虫拿到的完整任务，而不仅仅是task_params-->
+```buildoutcfg
+```
+
+### 任务参数说明
+<!--特有参数说明，通用参数比如spider_name,task_params,task_src,task_result等不需说明-->
+```json
+{"search_key": "肯德基"}
+
+{"uid": "ee6915e9e708027dc6256edd6521d705","source": "normal"}
+```
+
+ 主要参数
+  + search_key: 搜索关键字，一般为公司，支持credit_no
+  + uid: 企业的唯一标识id
+
+
+## data_type说明
+<!--可能产生的data_type说明-->
+```buildoutcfg
+list_search: 列表搜索，data只有一个列表存放多个uid
+detail_share: 详情_分享接口，仅有基本信息
+```
+
+## 爬虫结果的超级数据
+<!--包含所有字段的json数据，每个value都要有样例值-->
+```text
+同以下实际爬虫结果
+```
+
+## 实际爬虫结果的数据结构
+<!--可能与超级数据一致，可能不同的data_type的爬虫结果结构不同，超级数据是把所有data_type的结果组合在一起-->
+
+```json
+{
+  "data":
+  {
+    "name": "国家统计局成都调查队",
+    "legal_person": "王学华",
+    "capital": "2937.52万元(人民币元)",
+    "establish_date": "未公示",
+    "company_status": "正常",
+    "credit_no": "12510000660257303P",
+    "reg_no": "未公示",
+    "address": "成都市高新区锦城大道366号2号楼20楼",
+    "org_type": "事业单位",
+    "authority": "四川省事业单位登记管理局",
+    "operation_start": "2019-10-16",
+    "operation_end": "2024-10-16",
+    "econ_industry": "未公示",
+    "business_scope": "为地方政府决策及社会需求提供城市、农村社会经济调查信息和企业调查信息；常规统计调查；专稿项统计调查；快速反应制度调查；重大经济社会问题调查；经济分析研究；统计信息咨询服务；统计执法；国家统计局成都调查队建设和管理。",
+    "source_update_date": "未公示"
+  },
+  "http_code": 200,
+  "error_msg": "",
+  "task_result": 1000,
+  "data_type": "detail_share",
+  "spider_start_time": "2022-08-10 17:17:43.281011",
+  "spider_end_time": "2022-08-10 17:17:45",
+  "task_params": {"uid": "2390b564316a9a14f427fc95a5689c9a","source": "normal"},
+  "metadata": {},
+  "spider_name": "cods",
+  "spider_ip": "192.168.108.74"
+}
+```
+
+> [data 字段映射](http://tech.pingansec.com/granite/project-gravel/-/blob/develop_cods/scrapy_spiders/gravel_spiders/spiders/example/mapping/field.yaml)
+
+
+## 爬虫运行环境
+<!--udm模块？scrapy？或其他-->
+```buildoutcfg
+scrapy
+```
+
+
+## 爬虫部署信息
+<!--部署在哪些机器？每个机器多少进程？项目名称是什么？-->
+```buildoutcfg
+target: BDP-C-1001,
+spider_name: cods
+5个进程  
+```
+
+
+## Taskhub相关
+### 任务提交
+> 提交任务地址: http://10.8.6.222:8526/task/
+
+> 任务提交示例: `curl -L -X POST 'http://10.8.6.222:8526/task/' -H 'Content-Type: application/json' --data-raw '{"spider_name": "cods", "uid": "ee6915e9e708027dc6256edd6521d705","source": "normal"}'`<br>
+相当于task_params再加入`"spider_name": "cods"`
+
+
+## Taskhub重试调度规则说明
+```buildoutcfg
+task_result=1000    # 正常获取到详情任务
+task_result=1101    # 无结果信息
+task_result=9101    # 超时错误，需要进行重试，目前重试5次
+task_result=8000    # 参数错误
+```
+
+
+## 爬虫监控指标设计
+<!--监控爬虫正常运行的指标是什么？报警规则是什么？-->
+```buildoutcfg
+(先观察，待补充)
+索引: 
+监控频率: 
+监控起止时间: 
+报警条件: 
+报警群:  
+报警内容: 
+
+```
+
+---
+
+# **数据归集**
+
+## 责任人
+```html
+```
+
+
+## 数据归集方式
+
+- [ ] 爬虫直接写kafka
+
+- [ ] 爬虫写文件logstash采集
+
+## 爬虫结果目录
+```html
+采集文件存放路径：
+/data/gravel_spiders/cods
+```
+
+## 归集后存放目录
+```html
+```
+
+## logstash配置文件名称
+```html
+```
+
+## logstash文件采集type
+```html
+```
+
+## 数据归集的topic
+```html
+```
+
+## ES日志索引及筛选条件
+```html
+```
+
+## 监控指标看板
+
+## 数据保留策略
+
+---
+
+# **数据清洗**
+
+## 责任人
+```buildoutcfg
+蒋家升
+```
+
+## 代码地址
+```buildoutcfg
+代码地址: http://tech.pingansec.com/granite/project-collie-app/-/tree/master/app_cods
+```
+
+## 部署地址
+<!--机器及线上代码地址-->
+
+
+## 部署方法及说明
+<!--运行方法及运行命令、supervisor配置、supervisor的program等-->
+- [ ] crontab + data_pump
+- [x] supervisor + data_pump
+- [ ] supervisor + consumer
+
+## 数据接收来源
+<!--来源于kafka还是归集的文件、topic的group？-->
+* 归集文件，目录位置：/data/227/data2/grvael_spider_result/cods
+
+
+## 数据存储表地址
+
+* 数据库地址：bdp-ext.rwlb.rds.aliyuncs.com:3306
+* 表名：bdp_ic_ext.ods_cods_base_info
\ No newline at end of file