Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

TCGA数据集下载问题 #1

Open
Raymvp opened this issue Jun 14, 2023 · 2 comments
Open

TCGA数据集下载问题 #1

Raymvp opened this issue Jun 14, 2023 · 2 comments

Comments

@Raymvp
Copy link

Raymvp commented Jun 14, 2023

感谢您在本领域做出的工作!
我发现用GDC Data Transfer Tool下载TCGA数据速度很慢而且不稳定,我想请问您是否有更好的下载TCGA数据集的方法?
此外,非常感谢您对TCGA BRCA做的数据split,我想请问您是如何得到这个数据split的?因为我还需要split tcga其他癌症的数据。
谢谢!

@Raymvp
Copy link
Author

Raymvp commented Jun 15, 2023

第一个问题我已经解决,在windows上下的很慢,在ubuntu服务器上下载很快。第二个问题仍然存在,在复现很多工作的时候,获得person、slide、censored or not、survival time 这样的csv文件很困难,刘博士有什么好的经验吗

@liupei101
Copy link
Owner

谢谢关注。一般都是需要写一些代码配合处理的。

对于TCGA。下载数据集时,TCGA也提供了相关的label信息,比如gdc_sample_sheet.tsv和临床数据表格,最终需要手动(辅助一些codes)完成最后的信息收集。

对于其他数据集。大多数情况下,他们提供的label相关的数据,格式都不尽统一,难以统一到一个通用的流程中,需要针对特定的数据格式写一些代码,得到最后的label表格。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants