본문 바로가기

仕事

(31)
흩어져있는 자료 모으기 요즘 계속 하고 있는 일.처음부터 잘 정리되어 있으면 좋겠지만, PI가 나서지 않는 일은 대개 중구난방이 되기 쉽상이다.이번 일도 크게 다르지 않아, 일이 진행되는 것을 지켜보다가 내가 전면에 나서게 되었다.앞으로 나서서 일을 진행하는 것을 무척이나 싫어하는(보다는 귀찮음에 가깝겠지만) 나로서는 곤혹스러운 일이다. 그러나 앞으로 불거질 일들이 빤히 보이니, 관심있는 자가 움직이는게 차라리 낫다. 그렇다고 내가 새우성애자는 아니고... -_-;;해양생물을 좋아할 뿐.
Quality trimming 이번 시퀀싱은 QC 없이 온고로.. 계속 QC 해보는 중인데,참 여러 프로그램들이 중구난방으로 개발되어 있다.그 중에 제일 눈에 띄는 것은 Trimmomatic, cutadapt, skewer다. 물론 오픈소스 기준이고...상용이야 clc suite가 제일 쓸만하다. 후... 이거참... 600만원 돈 안들이려면 그만큼 시간과 노력을 투자해야하나보다. 진짜 맨땅에 헤딩하기임. ㅋㅋㅋ....
적은 내부에 있나... 내 전임자...라고하기엔 애매한데... 이전에 작업했던 사람의 결과물이 실수투성이. -_-;;알고 한 것은 아닌 것 같아보이지만... 이걸 왜 이랬나 싶을 정도의 결과물이라...결국 내가 완전 고생 중. 피아식별이 안되는 데이터 사이에서 쓸만한 것들만 뽑아서 정리하는게 참 힘들고그것도 제한 시간이 있다보니... 더욱더 힘들다.잘 시간이 모자랄 정도니.... 나한테 왜 이러는거야!!!
Trinity v2.0.6 update 이전 버전을 안써봤으니 뭐라 말은 못하겠다만...12 core (hyper-threading core), 32G ram으로 하루가 안걸리네.속도가 상당히 빨라진 모양.다만... 180mb 기준으로 200G 이상 storage 공간이 필요하다. cluster 서버에서는 아무래도테스트해보기가 힘들지 않을까 싶다. 이참에 구성을 좀 바꿔봐야하나.. 싶기도;한 1T나 500G ssd 여분이 하나 있으면 좋으련만...내가 그때 왜 250G 짜리 2개를 샀는지 모르겠다. -ㅅ-;;;
blast 효율성 현재로선 gnu-parallel을 적용한 클러스터 서버가 제일 빠름.무려 16 core의 메인 workstation보다 1.3배 정도 빠르고, 왠만한 작은 생물체의 tsa blast는 하루 이틀만에 끝나는 수준.욕심으로선.. 현재 가지고 있는 전체 리눅스 시스템으로 한번 클러스터링을 해보고 싶은데...위험부담이 크다. 언젠가는 한번 해보지 않을까 싶음. ㅎㅎ...
연구실 정전 덕분에 클러스터 서버 노드들이 날아갔다. -_-;그리고 nic bonding도 풀리고... 덕분에 삽질.또.. 1달 넘게 진행하던 프로젝트도 날아감. -_-;;;;이걸 더 진행할 생각이 없어짐. 지나치게 느리고....정말 말이 되는 것인지도 모르겠고.일단 접어야겠음. 더 급하게 해야할 것들이나 해야지...
interproscan update 3 후... 무수한 core dump들이 뜨고, 그 후의 결과물 사이즈가 좀 달라서core dump가 안뜰 때까지 설정값 삽질을 했다.결과적으로 보자면, 원인은 sge node worker의 job 분배와 메모리 할당에문제가 있어서 core dump들이 뜬 것 같다. 이게 이전 버전과 다른 점이 뭐냐하면...초반부터 엄청나게 core dump들이 발생한다. 그리고 어떻게든 결과물이 나오는데.. (이전 버전은 fault 메세지와 함께 다운)32 threads workstation에서의 결과값과 비교해보자면, 에러가 지속적으로 발생하면 그 데이터를 빼버리는게 아닌가하는 생각이 든다. (그러니 결과값이 작아지지..)여튼 그래서 에러가 나지 않을 정도로 job 분배를 하게 만들었다. 이젠 resaonable한 크기..
interproscan update 2 속도도 괜찮아지고 에러도 없고........라고 생각했는데,작업 폴더를 보니 엄청나게 많은 coredump들이 있다. 이게 뭔가...하고 보다가 생각해보니...이번 버전은 error 메세지를 표시를 안하고, coredump만 발생시키고바로 다시 작업을 재시작하는 것 같다라는 생각이 들었다. ... 이게 좋은건가 나쁜건가... 아예 뻗어버리는 이전 버전보단 좋은거긴한데, 나온 결과값을 신뢰할 수 있는지는한번 살펴봐야겠음. -_-;; 후후후........... 이놈들....