Skip to content

Commit

Permalink
Merge pull request #187 from g0v/doc/add-2024-09-data-and-blog-post
Browse files Browse the repository at this point in the history
doc/add-2024-09-data-and-blog-post
  • Loading branch information
ddio authored Nov 9, 2024
2 parents bd5cd2a + 988324b commit 464c2eb
Show file tree
Hide file tree
Showing 3 changed files with 65 additions and 0 deletions.
28 changes: 28 additions & 0 deletions ui/assets/stats/2024.json
Original file line number Diff line number Diff line change
Expand Up @@ -116,6 +116,34 @@
{"format": "csv", "size_byte": 67682456, "download_url": { "isS3": true }}
],
"comment": ""
},
{
"schema_ver": "1.0.0",
"data_ver": "0.3",
"time": "9",
"type": "原始資料",
"total_count": 211632,
"sources": [
{"name": "591", "count": 211632}
],
"files": [
{"format": "csv", "size_byte": 77221216, "download_url": { "isS3": true }}
],
"comment": "爬蟲在 9 月曾出現資料錯誤,將會影響部份物件的新增與更新日期,詳細資訊請參見[部落格](/blog/post/2024-system-upgrading)"
},
{
"schema_ver": "1.0.0",
"data_ver": "0.3",
"time": "3",
"type": "消除重複住宅",
"total_count": 185216,
"sources": [
{"name": "591", "count": 185216}
],
"files": [
{"format": "csv", "size_byte": 76642378, "download_url": { "isS3": true }}
],
"comment": "爬蟲在 9 月曾出現資料錯誤,將會影響部份物件的新增與更新日期,詳細資訊請參見[部落格](/blog/post/2024-system-upgrading)"
}
]
}
37 changes: 37 additions & 0 deletions ui/content/blog/2024-sep-return.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,37 @@
---
title: 機器人短暫回歸(然後又倒了)
author: ddio
created: 2024-11-09
cover: /imgs/blog/2024-sep-return.jpg
tags:
- 資料錯誤
---

跟大家宣佈一個好消息,以及一個壞消息 🥹

好消息是,機器人在停止運作四個月後,終於在 2024-09-08 正式復工,並完整爬取了 9 月的資料。

壞消息是,由於 591 持續調整網頁呈現技術,機器人在 2024-10-31 時,再次停止運作,目前尚未復原。因此,開放台灣租屋資料,將再次暫停更新,直至 ddio 有空修復為止。這次的技術調整,還不確定解決方式,若有確切的復原時間,會再次通知大家。

<!--more-->

## 資料影響說明

1. 9 月資料集:
1. 不會涵蓋僅在 2024-09-01 至 2024-09-07 張貼並且下架的物件。如果是在此期間張貼,但在 2024-09-08 之後下架的物件,將會包含在資料集中。
2. 會包含部份 2024-04 時,為標為「已出租」的物件,但這些大部分,應該都會被標為「已消失」。換句話說,9 月資料集中,相較於歷年同期,將會有更多的「已消失」物件。
2. 10 月資料集:
1. 由於機器人在 2024-10-31 停止運作,10 月資料集將僅包含 2024-10-01 至 2024-10-30 的資料。
2. 2024-10-30 時,已經有大約 3000 筆物件受到影響,使用資料時,請注意清理的流程,過濾離群與欄位闕漏的物件。


## 徵求使用者、統計專業支援

在開放台灣租屋資料,已逐漸受到各界採用的同時,我希望能夠延續這樣的價值,透過開放資料,讓更多租屋市場的研究與提問,成為可能,進而推動台灣的租屋市場改革。

但由於 2024 的資料闕漏狀況嚴重,包含 4~8 月完全無資料,11 月也至少會有半個月無資料,2024 的年度資料集,將難以直接使用、與歷年租屋資料集比較。

因此,我希望能夠徵求資料使用者、統計專業支援,讓我知道,你想如何清理、詮釋、使用 2024 的年度資料集,以及如何與歷年資料集比較。如果有什麼調查研究,是既能符合統計學原則的,又能為業界學界所接受的,也歡迎提出
,我們可以來嘗試這些處理、研究方式,並將分析的結果、建議,放在這個網站,讓更多人,能夠有效利用這份資料集。


Binary file added ui/static/imgs/blog/2024-sep-return.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit 464c2eb

Please sign in to comment.