Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Risk
  • risk_zxgk

risk_zxgk · Changes

Page history
update: zxgk 说明 authored Jul 05, 2022 by 刘治强's avatar 刘治强
Show whitespace changes
Inline Side-by-side
Showing with 33 additions and 5 deletions
+33 -5
  • data_stream/risk/risk_zxgk.md data_stream/risk/risk_zxgk.md +33 -5
  • No files found.
data_stream/risk/risk_zxgk.md
View page @ 897d77bb
......@@ -3,15 +3,43 @@
1.数据获取来源于官网
* 因为此前发现综合查询入口查询数据不全的情况,便选择从子入口获取不同维度数据。
* 目前爬取的数据包括失信被执行人,限制消费人员,被执行人,终结本次案件和财产处置的询价评估
* 失信被执行人:目前业务库数据来源于第三方,我们也爬取了官网的数据,表位于bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_spider_find_new。
* 被执行人:目前业务库更新与例行都依靠从官网爬取的数据。业务库中存在第三方数据,标识为update_source字段非空。
* 限制消费人员:目前业务库更新与例行都依靠从官网爬取的数据。
* 终结本次案件:目前业务库更新与例行都依靠从官网爬取的数据。
* 失信被执行人:目前业务库数据来源于第三方,我们也爬取了官网的数据,
表位于bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_spider_find_new。
* 被执行人,限制消费人员与终结本次案件:目前业务库更新与例行都依靠从官网爬取的数据。
业务库中存在第三方数据,标识为update_source字段非空。
表位于bdp-rds-001.mysql.rds.aliyuncs.com utn_ng_risk
* 询价评估:处于开发阶段。
## 数据例行与找新
1.例行
* 被执行人
* 通过zhixing_id进行例行。例行更新发布的zhixing_id都是use_flag为0的数据。
表内的唯一键是对名称+案号拼接后的字符串进行md5加密生成的。
zhixing_id爬取结果为1101时,标记为历史数据,即将表内use_flag置为9。
爬取结果为1000时,进行插入或更新。
* 通过pname进行例行。每天取前一天use_flag被置为9的数据中的pname发布任务。
这是因为同一条数据的zhixing_id会变化,为了避免误置为历史数据才发布此任务。
* 终结本次案件
* 通过zhongben_id进行例行,zhixing_id爬取结果为1101时,标记为历史数据,即将表内is_history置为1。
爬取结果为1000时,进行插入或更新。业务表没有唯一键,通过入库的代码通过案号和名称保证数据不重复。
* 终本暂未开发按名称查询的爬虫。
* 限制消费人员
* 通过name进行例行。限销表内唯一键为xianxiao_id,按照xianxiao_id进行数据更新。
按照name爬取的结果包含此名字在官网上搜索的所有结果。
将业务表中对应任务name的xianxiao_id不匹配爬虫结果xinaxiao_id的数据置为历史数据,
即将表内is_history置为1。
2.找新
* 详见 [zxgk找新说明](risk_zxgk_find_new)
* 被执行人
* 通过zhixing_id进行找新。
* 终结本次案件
* 通过zhongben_id进行找新。
* 限制消费人员
* 通过name进行找新。
## 数据问题
## 清洗程序及部署
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages